데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

[KT] AIVLE School/사전학습

데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

Boxya 2025. 3. 16. 21:34

Feature Creation

원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법
- 특징이란 원 데이터의 변환을 통해 생성되는 표현으로 모델링에 적용하기 위해 만들어진 데이터의 새로운 컬럼, 변수를 의미
원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성을 확보하고자 함
Feature Engineering
- 원시 데이터로부터 적절하고 올바른 특징들을 만들어내는 일련의 과정

목적 및 필요성

품질 확보
- 가공을 거치치 않은 Raw 데이터 활용 기반의 모델링은 품질 확보 어려움
- 분석결과에 왜곡을 주거나 결과에 영향을 미치는 데이터의 적절한 변환, 처리를 해야하는 것이 대표적인 사례
최적화된 형태 변환
- 효과적인 Feature를 확보하는 것이 데이터 분석 내 가장 중요한 과정
머신러닝, 딥러닝 등 분석 알고리즘들은 다양하지만 그 전에 모든 과정 내에서 데이터로부터 좋은 특징을 확보하는 것이 중요
특징이라는 새로운 변수를 만들어내는것은 분석 과제 내의 모델의 성능, 품질, 효율, 적합성 등을 확보하기 위해 거치는 주요한 작업이자 과정

특징 생성 방안

범주 인코딩
- 크게 Nominal(순서가 없는)과 Ordinal(순서가 있는) 형식으로 나뉘는 범주형 범수
- 숫자가 아닌 범주 변수 값을 숫자로 표현하고 모델링에 적용하기 위한 과정
- ex) 1등, 2등, 3등
결합 및 분해
- 데이터 셋의 변수들의 조합을 기반으로 새로운 특징을 구축하는 방법
- 변수 간의 연산 혹은 분해를 통해 새로운 특징을 구축하고 입력 변수로 모델링에 적용
차원 축소
- 원본 데이터로부터 새로운 특징의 집합을 생성하는 것
- 고차원 원시 데이터 셋을 저차원으로 차원 축소하도록 새로운 특징을 생성하는 방식

범주 인코딩

범주형 데이터의 알고리즘 적용을 위한 수치형 변환
One-hot Encoding
- 순서의 의미를 지니지 않은 범주형 변수를 처리하는 대표적 방법
- K개의 범주를 지닌 범주형 변수를 k개의 변수로 변환
- 활용할 데이터의 범주 수가 많을 경우 생성되는 변수의 수도 많아지기 때문에 해당 경우에 대한 처리 방안도 고려 필요

결합 기반 특징 생성

변수 간의 결합을 통해 새로운 의미를 지닌 특징을 생성
파생 변수를 생성할 때 고려되는 방안
Add / Divide / Subtract
- 합계(Add) / 평균(Divides) : 종합 외국어 능력 파악(평균의 경우, 변수 값 크기 조정 및 표준화 목적 포함)
- 편차(Subtract) : 특정 언어 편중 정도 파악
Multiply
- 온도*압력(Multiply) : 상호작용 항(Interaction Feature)으로 온도와 압력 값의 시너지 효과 파악
- 도메인 지식 기반으로 특징 생성 검토 반드시 필요
- 회귀분석에 많이 사용되는 기법

분해 기반 특징 생성

변수의 분해를 통해 새로운 의미를 지닌 특징을 생성
Separate
- 특정 변수 활용 기반의 새로운 의미를 파악할 수 있는 특징을 생성하는 방법
- 도메인 지식 및 일반적 개념 기반으로 생성 가능

차원 축소 목적 특징 생성

1. 변수들이 지닌 정보를 최대한 확보하는 저차원 데이터로 생성
- PCA(Principal Component Analysis)
  - 서로 연관된 변수들이 관측되었을 때, 원본 데이터 분산 기반의 특징을 생성
  - 주성분 간의 서로 독립을 이루도록 구성(상관관계가 없도록 구성)
  - 주성분(PC)의 수는 분석가 판단으로 설정 가능
2. 군집 분석 기반의 고차원 데이터를 하나의 특징으로 차원 축소
- Featurization via Clustering
  - 고차원 데이터를 군집 분석을 기반으로 특징의 개수를 하나의 특징(군집 결과)으로 축소
  - 이렇게 획득한 군집 결과 특징을 분류/회귀 등 문제 해결을 위한 입력 변수로 활용(Stacking 방법)
  - 즉, 원본 데이터 내 여러 개의 특징을 하나의 특징으로 축소하여 모델 연산 비용 감소 추구
  - 생성한 특징, 군집 결과가 해당하는 원래의 관측치들을 잘 반영한 올바른 군집 결과로 도출이 되어야만 향후 모델링의 결과와 품질을 확보할 수 있음

'[KT] AIVLE School > 사전학습' 카테고리의 다른 글

데이터 탐색 이해와 실무 (1) - 일변량 비시각화 탐색 (1)	2025.03.17
데이터 전처리 이해와 실무 (5) - 데이터 축소 : 특징 선택 (0)	2025.03.16
데이터 전처리 이해와 실무 (3) - 데이터 변환 : 정규화, 구간화 (2)	2025.03.16
데이터 전처리 이해와 실무 (2) - 데이터 정체 : 이상 데이터 처리 (1)	2025.03.16
데이터 전처리 이해와 실무 (1) - 데이터 정제 : 결측 데이터 처리 (0)	2025.03.16

현재글데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

Developer GM

에이블스쿨, kt aivle, Seaborn, CRISP-DM, AIVLE School, 상관계수, langgraph, 토큰화, RNN, LSTM, rag, ai agent, 상관분석, 시계열 데이터, 박스플롯, KT AIVLE School, 교차표, 모델, KT, 산점도,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Developer GM

데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

'[KT] AIVLE School > 사전학습' 카테고리의 다른 글

'[KT] AIVLE School/사전학습'의 다른글

티스토리툴바

데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

'[KT] AIVLE School > 사전학습' 카테고리의 다른 글

'[KT] AIVLE School/사전학습'의 다른글

관련글

티스토리툴바