[KT] AIVLE School/사전학습

데이터 전처리 이해와 실무 (3) - 데이터 변환 : 정규화, 구간화

Boxya 2025. 3. 16. 21:05

데이터 변환(Transformation)

  • 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정
  • 주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환

변환 목적 및 특징

  • 빠른 특성 파악
    • 데이터의 특성을 빠르게 파악 가능
    • 파생변수 생성 및 단순화를 통한 결과 리포팅 등 활용
  • 분석 알고리즘 적용
    • 변수 간 범위가 다를 경우 알고리즘 적용 시 영향력의 차이가 발생
    • 올바른 학습을 위해 다른 범위를 지닌 변수들의 변환 필요

구간화(Binning)

  • 연속형 데이터를 구간으로 구별하여 범주화 형태 변환
  • 지정 길이 기반 구간 정의
    • 사용자 기준으로 데이터 범위의 간격을 구분하여 관측치를 나누는 방안
    • ex) 10대, 20대, 30대
  • 분포 기반 구간 정의
    • 관측치가 각 구간 내 동일한 개수로 구분되도록 나누는 방안
    • 주어진 데이터의 분포, 개수들을 관점으로 구간을 정의할 시에 활용이 가능한 방안

정규화(Normalization)

  • 데이터 탐색 및 기계학습 적용을 위한 연속형 변수 변환
  • 스케일링 기반의 방안으로 스케일링은 수치 데이터 간의 상대적 크기 차이를 줄이는 방안을 의미
  • 각 변수에 들어있는 데이터의 상대적 크기에 따라서 분석 결과가 달라지기 때문에 사전에 적용이 필요한 과정
  • 최대-최소 정규화 (Min-Max Scaling)
    • 데이터 구간을 0에서 1사이로 변환
    • 특정 데이터의 위치 파악
  •  Z-점수 정규화 (표준화)
    • 0을 중심으로 양쪽으로 데이터 분포시킴
    • 특정 데이터가 평균과 얼마나 떨어져 있는지 파악
  • 주어진 데이터의 목적에 따라서 두 가지 정규화 중 어느 정규화를 사용하면 좋을지가 달라짐
  • 정규화 진행 여부에 따라 분석 결과의 차이가 크다는 점이 중요