[KT] AIVLE School/사전학습

데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

Boxya 2025. 3. 16. 21:34

Feature Creation

  • 원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법
    • 특징이란 원 데이터의 변환을 통해 생성되는 표현으로 모델링에 적용하기 위해 만들어진 데이터의 새로운 컬럼, 변수를 의미
  • 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성을 확보하고자 함
  • Feature Engineering
    • 원시 데이터로부터 적절하고 올바른 특징들을 만들어내는 일련의 과정 

목적 및 필요성

  • 품질 확보
    • 가공을 거치치 않은 Raw 데이터 활용 기반의 모델링은 품질 확보 어려움
    • 분석결과에 왜곡을 주거나 결과에 영향을 미치는 데이터의 적절한 변환, 처리를 해야하는 것이 대표적인 사례
  • 최적화된 형태 변환
    • 효과적인 Feature를 확보하는 것이 데이터 분석 내 가장 중요한 과정
  • 머신러닝, 딥러닝 등 분석 알고리즘들은 다양하지만 그 전에 모든 과정 내에서 데이터로부터 좋은 특징을 확보하는 것이 중요
  • 특징이라는 새로운 변수를 만들어내는것은 분석 과제 내의 모델의 성능, 품질, 효율, 적합성 등을 확보하기 위해 거치는 주요한 작업이자 과정

특징 생성 방안

  • 범주 인코딩
    • 크게 Nominal(순서가 없는)과 Ordinal(순서가 있는) 형식으로 나뉘는 범주형 범수
    • 숫자가 아닌 범주 변수 값을 숫자로 표현하고 모델링에 적용하기 위한 과정
    • ex) 1등, 2등, 3등 
  • 결합 및 분해
    • 데이터 셋의 변수들의 조합을 기반으로 새로운 특징을 구축하는 방법
    • 변수 간의 연산 혹은 분해를 통해 새로운 특징을 구축하고 입력 변수로 모델링에 적용
  • 차원 축소
    • 원본 데이터로부터 새로운 특징의 집합을 생성하는 것
    • 고차원 원시 데이터 셋을 저차원으로 차원 축소하도록 새로운 특징을 생성하는 방식

범주 인코딩

  • 범주형 데이터의 알고리즘 적용을 위한 수치형 변환
  • One-hot Encoding
    • 순서의 의미를 지니지 않은 범주형 변수를 처리하는 대표적 방법
    • K개의 범주를 지닌 범주형 변수를 k개의 변수로 변환
    • 활용할 데이터의 범주 수가 많을 경우 생성되는 변수의 수도 많아지기 때문에 해당 경우에 대한 처리 방안도 고려 필요

결합 기반 특징 생성

  • 변수 간의 결합을 통해 새로운 의미를 지닌 특징을 생성
  • 파생 변수를 생성할 때 고려되는 방안
  • Add / Divide / Subtract
    • 합계(Add) / 평균(Divides) : 종합 외국어 능력 파악(평균의 경우, 변수 값 크기 조정 및 표준화 목적 포함)
    • 편차(Subtract) : 특정 언어 편중 정도 파악
  • Multiply
    • 온도*압력(Multiply) : 상호작용 항(Interaction Feature)으로 온도와 압력 값의 시너지 효과 파악
    • 도메인 지식 기반으로 특징 생성 검토 반드시 필요
    • 회귀분석에 많이 사용되는 기법

분해 기반 특징 생성

  • 변수의 분해를 통해 새로운 의미를 지닌 특징을 생성
  • Separate
    • 특정 변수 활용 기반의 새로운 의미를 파악할 수 있는 특징을 생성하는 방법
    • 도메인 지식 및 일반적 개념 기반으로 생성 가능

원 축소 목적 특징 생성

  • 1. 변수들이 지닌 정보를 최대한 확보하는 저차원 데이터로 생성
    • PCA(Principal Component Analysis)
      • 서로 연관된 변수들이 관측되었을 때, 원본 데이터 분산 기반의 특징을 생성
      • 주성분 간의 서로 독립을 이루도록 구성(상관관계가 없도록 구성)
      • 주성분(PC)의 수는 분석가 판단으로 설정 가능
  • 2. 군집 분석 기반의 고차원 데이터를 하나의 특징으로 차원 축소
    • Featurization via Clustering
      • 고차원 데이터를 군집 분석을 기반으로 특징의 개수를 하나의 특징(군집 결과)으로 축소
      • 이렇게 획득한 군집 결과 특징을 분류/회귀 등 문제 해결을 위한 입력 변수로 활용(Stacking 방법)
      • 즉, 원본 데이터 내 여러 개의 특징을 하나의 특징으로 축소하여 모델 연산 비용 감소 추구
      • 생성한 특징, 군집 결과가 해당하는 원래의 관측치들을 잘 반영한 올바른 군집 결과로 도출이 되어야만 향후 모델링의  결과와 품질을 확보할 수 있음