[KT] AIVLE School/사전학습

데이터 탐색 이해와 실무 (1) - 일변량 비시각화 탐색

Boxya 2025. 3. 17. 13:36

탐색적 데이터 분석

  • EDA(Exploratory Data Analysis)는 데이터를 다양한 측면에서 바라보고 이해하는 과정
  • 수집된 데이터를 다양한 측면에서 관찰하고 이해하기 위해 통계적 지표를 활용하거나 그래프를 그려 시각화해서 데이터를 직관적으로 특성을 파악하는 과정
  • 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악
  • 데이터를 다양한 방법과 기준에서 살펴보는 EDA 과정을 통해서 사전에 발견하지 못한 현상과 패턴을 발견하고 특성을 파악해서 유의미한 인사이트를 도출하고자 하는 것이 목적

EDA 기본 개요

  • 데이터가 표현하는 현상을 이해하고 다양한 패턴 발견
  • 속성 파악
    • 분석 목적 및 개별 변수 속성 파악
    • 주어진 목적 분석에 맞는 데이터가 올바르게 준비되어 있는지를 확인하는 것
    • 예) 가격 예측 분석 과제에서 가격 컬럼 유형 및 관측치 범위 확인
  • 관계 파악
    • 변수 간의 관계 파악 및 가설 검증
    • 변수간의 상관관계와 같은 부분이 관계 파악의 예시
    • 예) 건물의 건축연도와 가격 사이 유의미한 영향 관계 유무 확인
  • 이러한 파악 과정을 통해 데이터 수집, 적재 등의 현황을 확인하고 데이터 구성과 현황을 파악하며 변수 간 관계 파악, 분석의 과정들을 검토하는 등의 결과들을 도출하고자 분석과정에서 EDA를 수행

사전 데이터 탐색

  • 데이터 탐색 과정 수행 이전에 데이터에 대한 정보를 사전에 확인해야 함
  • 데이터 정의 확인
    • 정의서 기반 데이터 확인 : 테이블별 변수 목록, 개수, 설명, 타입 등
    • 시스템 내 데이터를 관리하기 위한 측면의 모든 정보가 담겨있는 일종의 문서
    • 해당 자료를 통해 분석에 활용할 데이터 컬럼별 타입, 설명 등을 먼저 파악하고 실제 데이터를 바라보기 전에 주어진 데이터 속성 등을 통해 분석목적에 활용할 데이터를 먼저 파악
  • 실 데이터 확인
    • 실제 데이터 개요, 결측치, 형상 등 확인 (head, tail, info 기반 확인)
    • 변수별 정의된 범위 및 분포 등 확인 (관측치 범위/분포 등)
  • 데이터의 정합성을 체크하고 확보하기 위한 과정으로 분석을 위한 데이터가 사전에 정의된 기준으로 분석과정에 활용할 수 있는지의 여부를 사전에 체크하는 것이 중요한 부분

요인별 EDA 유형 구분

  • 1. 데이터 변수 개수가 몇 개인가?
  • 2. 결과를 어떻게 파악할 것인가?
  • 3. 데이터의 유형은 무엇인가?
      일변량
    (Univariable)
    다변량
    (Multivariable)
    비시각화 - 빈도표
    - 기술 통계량
    - 교차표
    - 상관계수
    시각화 - 파이차트
    - 막대그래프
    - 히스토그램
    - 박스플롯
    - 모자이크플롯
    - 박스플롯
    - 평행좌표
    - 산점도

일변량 비시각화

  • 분석 대상 데이터가 하나의 변수로 구성되고 요약 통계량, 빈도 등으로 표현하는 탐색 유형
  • 단일 변수이므로 원인 및 결과를 다루지는 않으나 데이터 설명 및 구성을 파악
  • 범주형 비시각화
    • 빈도표(범주형 데이터의 구성 및 비율 등을 확인)
    • 특정 범주 별 빈도 파악이 목적
    • 범주 별 빈도 수 기반의 구성 파악 및 결측치 빈도 파악
    • 데이터 전체 수 대비 각 범주 별 분포 파악
    • 간단하고 기초적인 방안이지만 사전에 반드시 필요한 데이터 탐색 과정
  • 연속형 비시각화
    • 주요 통계 지표(연속형 데이터의 기술 통계량 및 주요 지표 등을 확인)
    • 연속형 데이터의 대표 특징을 확인
      • 1. 평균, 분산 등의 기술 통계량(Descriptive Statistics)
      • 2. 중앙값 등의 사분위수(Quantile Statistics)
      • 3. 왜도, 첨도 등의 분포 관련 지표(Distribution)
      • 간단하고 기초적인 방안이지만 사전에 반드시 필요한 데이터 탐색 과정