[KT] AIVLE School/사전학습
데이터 탐색 이해와 실무 (1) - 일변량 비시각화 탐색
Boxya
2025. 3. 17. 13:36
탐색적 데이터 분석
- EDA(Exploratory Data Analysis)는 데이터를 다양한 측면에서 바라보고 이해하는 과정
- 수집된 데이터를 다양한 측면에서 관찰하고 이해하기 위해 통계적 지표를 활용하거나 그래프를 그려 시각화해서 데이터를 직관적으로 특성을 파악하는 과정
- 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악
- 데이터를 다양한 방법과 기준에서 살펴보는 EDA 과정을 통해서 사전에 발견하지 못한 현상과 패턴을 발견하고 특성을 파악해서 유의미한 인사이트를 도출하고자 하는 것이 목적
EDA 기본 개요
- 데이터가 표현하는 현상을 이해하고 다양한 패턴 발견
- 속성 파악
- 분석 목적 및 개별 변수 속성 파악
- 주어진 목적 분석에 맞는 데이터가 올바르게 준비되어 있는지를 확인하는 것
- 예) 가격 예측 분석 과제에서 가격 컬럼 유형 및 관측치 범위 확인
- 관계 파악
- 변수 간의 관계 파악 및 가설 검증
- 변수간의 상관관계와 같은 부분이 관계 파악의 예시
- 예) 건물의 건축연도와 가격 사이 유의미한 영향 관계 유무 확인
- 이러한 파악 과정을 통해 데이터 수집, 적재 등의 현황을 확인하고 데이터 구성과 현황을 파악하며 변수 간 관계 파악, 분석의 과정들을 검토하는 등의 결과들을 도출하고자 분석과정에서 EDA를 수행
사전 데이터 탐색
- 데이터 탐색 과정 수행 이전에 데이터에 대한 정보를 사전에 확인해야 함
- 데이터 정의 확인
- 정의서 기반 데이터 확인 : 테이블별 변수 목록, 개수, 설명, 타입 등
- 시스템 내 데이터를 관리하기 위한 측면의 모든 정보가 담겨있는 일종의 문서
- 해당 자료를 통해 분석에 활용할 데이터 컬럼별 타입, 설명 등을 먼저 파악하고 실제 데이터를 바라보기 전에 주어진 데이터 속성 등을 통해 분석목적에 활용할 데이터를 먼저 파악
- 실 데이터 확인
- 실제 데이터 개요, 결측치, 형상 등 확인 (head, tail, info 기반 확인)
- 변수별 정의된 범위 및 분포 등 확인 (관측치 범위/분포 등)
- 데이터의 정합성을 체크하고 확보하기 위한 과정으로 분석을 위한 데이터가 사전에 정의된 기준으로 분석과정에 활용할 수 있는지의 여부를 사전에 체크하는 것이 중요한 부분
요인별 EDA 유형 구분
- 1. 데이터 변수 개수가 몇 개인가?
- 2. 결과를 어떻게 파악할 것인가?
- 3. 데이터의 유형은 무엇인가?
일변량
(Univariable)다변량
(Multivariable)비시각화 - 빈도표
- 기술 통계량- 교차표
- 상관계수시각화 - 파이차트
- 막대그래프
- 히스토그램
- 박스플롯- 모자이크플롯
- 박스플롯
- 평행좌표
- 산점도
일변량 비시각화
- 분석 대상 데이터가 하나의 변수로 구성되고 요약 통계량, 빈도 등으로 표현하는 탐색 유형
- 단일 변수이므로 원인 및 결과를 다루지는 않으나 데이터 설명 및 구성을 파악
- 범주형 비시각화
- 빈도표(범주형 데이터의 구성 및 비율 등을 확인)
- 특정 범주 별 빈도 파악이 목적
- 범주 별 빈도 수 기반의 구성 파악 및 결측치 빈도 파악
- 데이터 전체 수 대비 각 범주 별 분포 파악
- 간단하고 기초적인 방안이지만 사전에 반드시 필요한 데이터 탐색 과정
- 연속형 비시각화
- 주요 통계 지표(연속형 데이터의 기술 통계량 및 주요 지표 등을 확인)
- 연속형 데이터의 대표 특징을 확인
- 1. 평균, 분산 등의 기술 통계량(Descriptive Statistics)
- 2. 중앙값 등의 사분위수(Quantile Statistics)
- 3. 왜도, 첨도 등의 분포 관련 지표(Distribution)
- 간단하고 기초적인 방안이지만 사전에 반드시 필요한 데이터 탐색 과정