[KT] AIVLE School/사전학습

데이터 탐색 이해와 실무 (3) - 다변량 비시각화 탐색

Boxya 2025. 3. 17. 21:38

다변량 비시각화

  • 두 개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형
  • 주어진 변수 간의 관계수치 및 통계적 지표 기반으로 파악하는 것이 목적

다변량 비시각화 종류

데이터 조합 비시각화 방안 목적
범주형 - 범주형 교차표 두 개 범주형 변수의 범주 별 연관성 및 구성 파악
범주형 - 연속형 범주 별 통계량 범주 별 대표 통계량 비교 파악
연속형 - 연속형 상관계수 두 개 연속형 변수의 관계성 정도 파악

교차표(Cross tabulation)

  • 범주형 - 범주형 변수 조합 간 연관 관계 파악
  • 범주 별 연관성을 파악하기 위한 방안으로 이러한 교차표를 활용할 수 있음
  • 다양한 범주형 변수들의 조합을 통한 데이터를 탐색해가는 과정으로 새로운 규칙기반의 파생변수를 생성할 수도 있고 어떤 변수를 활용하고 변수를 어떻게 구성할지 등에 대해서 고민할 수 있음

 

범주 별 요약 통계량

  • 범주형 - 연속형 변수 조합 간 범주 별 대표 수치 비교
  • 데이터별, 범주별 특정 대표값을 찾아내고 범주별 차이를 찾아내기 위해 많이 활용되는 방안
  • 각 범주별 기술통계량을 기반으로 범주별의 특징을 통계 지표로써 확인하고 파악
  • 이러한 방법은 데이터를 요약설명하기 위한 자료나 보고서에서도 많이 활용

상관계수(Corr. coefficient)

  • 연속형 - 연속형 변수 조합 간 관계성 강도 파악
  • 연속형 변수들 간에 어떤 관계를 갖고있는지를 분석하는 방법으로 두 변수가 서로 독립적인 관계이거나 상관된 관계일 수도 있으며, 이러한 관계를 상관관계라고 함
  • 상관계수는 두 변수간에 연관된 정도를 나타낼 뿐, 원인과 결과(인과관계)를 설명하는 것은 아님
  • 상관계수값은 -1 부터 1사이에 위치하며, 절대값이 1에 가까울 수록 강한 상관관계를 가짐
  • -1 : 음의 강한 상관관계 / 1 : 양의 강한 상관관계 / 0 : 상관관계 없음
  • 높은 상관계수
    • 비슷한 정보를 제공하는 밀접한 관계의 변수
    • 회귀분석에서 독립변수 간에 강한 상관관계 발생 -> 다중공선성 발생
      • 다중공선성을 해결하기 위해서 상관계수가 기준치보다 높게 나오는 컬럼들 중에서 하나를 고르고 나머지는 삭제하는 방안으로 변수 선택
      • 분석의 목표를 고려해서 논리적으로 더 적합한 변수를 선택하거나 종속변수와 상관관계가 더 밀접한 변수 선택
      • 도메인 지식을 기반으로 변수를 삭제
      • 상관성이 높게 나오는 변수들을 합쳐서 PCA와 같은 주성분분석으로 새로운 특징을 생성
      • 정규화를 통한 변수의 간격을 조정
    • 독립변수 간의 관계는 독립적이라는 회귀분석 가정에 위배
    • 회귀 계수가 불안정하여 종속변수에 미치는 영향력을 올바르게 설명치 못하므로 모델의 안정성 저해
      • 데이터 탐색 중 상관분석 결과를 통해 모델링 사전 단계 내 고려 필요
  • 연속형 변수의 탐색을 통해 모델링 이전 과정에서 다양한 인사이트를 확보하고 모형의 안정성과 성능의 확보를 위해 다양한 시각과 고민을 더한 데이터 탐색 과정이 필요