Feature Creation
- 원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법
- 특징이란 원 데이터의 변환을 통해 생성되는 표현으로 모델링에 적용하기 위해 만들어진 데이터의 새로운 컬럼, 변수를 의미
- 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성을 확보하고자 함
- Feature Engineering
- 원시 데이터로부터 적절하고 올바른 특징들을 만들어내는 일련의 과정
목적 및 필요성
- 품질 확보
- 가공을 거치치 않은 Raw 데이터 활용 기반의 모델링은 품질 확보 어려움
- 분석결과에 왜곡을 주거나 결과에 영향을 미치는 데이터의 적절한 변환, 처리를 해야하는 것이 대표적인 사례
- 최적화된 형태 변환
- 효과적인 Feature를 확보하는 것이 데이터 분석 내 가장 중요한 과정
- 머신러닝, 딥러닝 등 분석 알고리즘들은 다양하지만 그 전에 모든 과정 내에서 데이터로부터 좋은 특징을 확보하는 것이 중요
- 특징이라는 새로운 변수를 만들어내는것은 분석 과제 내의 모델의 성능, 품질, 효율, 적합성 등을 확보하기 위해 거치는 주요한 작업이자 과정
특징 생성 방안
- 범주 인코딩
- 크게 Nominal(순서가 없는)과 Ordinal(순서가 있는) 형식으로 나뉘는 범주형 범수
- 숫자가 아닌 범주 변수 값을 숫자로 표현하고 모델링에 적용하기 위한 과정
- ex) 1등, 2등, 3등
- 결합 및 분해
- 데이터 셋의 변수들의 조합을 기반으로 새로운 특징을 구축하는 방법
- 변수 간의 연산 혹은 분해를 통해 새로운 특징을 구축하고 입력 변수로 모델링에 적용
- 차원 축소
- 원본 데이터로부터 새로운 특징의 집합을 생성하는 것
- 고차원 원시 데이터 셋을 저차원으로 차원 축소하도록 새로운 특징을 생성하는 방식
범주 인코딩
- 범주형 데이터의 알고리즘 적용을 위한 수치형 변환
- One-hot Encoding
- 순서의 의미를 지니지 않은 범주형 변수를 처리하는 대표적 방법
- K개의 범주를 지닌 범주형 변수를 k개의 변수로 변환
- 활용할 데이터의 범주 수가 많을 경우 생성되는 변수의 수도 많아지기 때문에 해당 경우에 대한 처리 방안도 고려 필요
결합 기반 특징 생성
- 변수 간의 결합을 통해 새로운 의미를 지닌 특징을 생성
- 파생 변수를 생성할 때 고려되는 방안
- Add / Divide / Subtract
- 합계(Add) / 평균(Divides) : 종합 외국어 능력 파악(평균의 경우, 변수 값 크기 조정 및 표준화 목적 포함)
- 편차(Subtract) : 특정 언어 편중 정도 파악
- Multiply
- 온도*압력(Multiply) : 상호작용 항(Interaction Feature)으로 온도와 압력 값의 시너지 효과 파악
- 도메인 지식 기반으로 특징 생성 검토 반드시 필요
- 회귀분석에 많이 사용되는 기법
분해 기반 특징 생성
- 변수의 분해를 통해 새로운 의미를 지닌 특징을 생성
- Separate
- 특정 변수 활용 기반의 새로운 의미를 파악할 수 있는 특징을 생성하는 방법
- 도메인 지식 및 일반적 개념 기반으로 생성 가능
차원 축소 목적 특징 생성
- 1. 변수들이 지닌 정보를 최대한 확보하는 저차원 데이터로 생성
- PCA(Principal Component Analysis)
- 서로 연관된 변수들이 관측되었을 때, 원본 데이터 분산 기반의 특징을 생성
- 주성분 간의 서로 독립을 이루도록 구성(상관관계가 없도록 구성)
- 주성분(PC)의 수는 분석가 판단으로 설정 가능
- PCA(Principal Component Analysis)
- 2. 군집 분석 기반의 고차원 데이터를 하나의 특징으로 차원 축소
- Featurization via Clustering
- 고차원 데이터를 군집 분석을 기반으로 특징의 개수를 하나의 특징(군집 결과)으로 축소
- 이렇게 획득한 군집 결과 특징을 분류/회귀 등 문제 해결을 위한 입력 변수로 활용(Stacking 방법)
- 즉, 원본 데이터 내 여러 개의 특징을 하나의 특징으로 축소하여 모델 연산 비용 감소 추구
- 생성한 특징, 군집 결과가 해당하는 원래의 관측치들을 잘 반영한 올바른 군집 결과로 도출이 되어야만 향후 모델링의 결과와 품질을 확보할 수 있음
- Featurization via Clustering
'[KT] AIVLE School > 사전학습' 카테고리의 다른 글
데이터 탐색 이해와 실무 (1) - 일변량 비시각화 탐색 (1) | 2025.03.17 |
---|---|
데이터 전처리 이해와 실무 (5) - 데이터 축소 : 특징 선택 (0) | 2025.03.16 |
데이터 전처리 이해와 실무 (3) - 데이터 변환 : 정규화, 구간화 (2) | 2025.03.16 |
데이터 전처리 이해와 실무 (2) - 데이터 정체 : 이상 데이터 처리 (1) | 2025.03.16 |
데이터 전처리 이해와 실무 (1) - 데이터 정제 : 결측 데이터 처리 (0) | 2025.03.16 |