데이터 변환(Transformation)
- 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정
- 주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환
변환 목적 및 특징
- 빠른 특성 파악
- 데이터의 특성을 빠르게 파악 가능
- 파생변수 생성 및 단순화를 통한 결과 리포팅 등 활용
- 분석 알고리즘 적용
- 변수 간 범위가 다를 경우 알고리즘 적용 시 영향력의 차이가 발생
- 올바른 학습을 위해 다른 범위를 지닌 변수들의 변환 필요
구간화(Binning)
- 연속형 데이터를 구간으로 구별하여 범주화 형태 변환
- 지정 길이 기반 구간 정의
- 사용자 기준으로 데이터 범위의 간격을 구분하여 관측치를 나누는 방안
- ex) 10대, 20대, 30대
- 분포 기반 구간 정의
- 관측치가 각 구간 내 동일한 개수로 구분되도록 나누는 방안
- 주어진 데이터의 분포, 개수들을 관점으로 구간을 정의할 시에 활용이 가능한 방안
정규화(Normalization)
- 데이터 탐색 및 기계학습 적용을 위한 연속형 변수 변환
- 스케일링 기반의 방안으로 스케일링은 수치 데이터 간의 상대적 크기 차이를 줄이는 방안을 의미
- 각 변수에 들어있는 데이터의 상대적 크기에 따라서 분석 결과가 달라지기 때문에 사전에 적용이 필요한 과정
- 최대-최소 정규화 (Min-Max Scaling)
- 데이터 구간을 0에서 1사이로 변환
- 특정 데이터의 위치 파악
- Z-점수 정규화 (표준화)
- 0을 중심으로 양쪽으로 데이터 분포시킴
- 특정 데이터가 평균과 얼마나 떨어져 있는지 파악
- 주어진 데이터의 목적에 따라서 두 가지 정규화 중 어느 정규화를 사용하면 좋을지가 달라짐
- 정규화 진행 여부에 따라 분석 결과의 차이가 크다는 점이 중요
'[KT] AIVLE School > 사전학습' 카테고리의 다른 글
데이터 전처리 이해와 실무 (5) - 데이터 축소 : 특징 선택 (0) | 2025.03.16 |
---|---|
데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성 (1) | 2025.03.16 |
데이터 전처리 이해와 실무 (2) - 데이터 정체 : 이상 데이터 처리 (1) | 2025.03.16 |
데이터 전처리 이해와 실무 (1) - 데이터 정제 : 결측 데이터 처리 (0) | 2025.03.16 |
데이터 조작 이해와 실무 (5) - 시계열 데이터 기초 (0) | 2025.03.12 |