[KT] AIVLE School/사전학습

데이터 분석 이해와 실무 (2) - 상관분석

Boxya 2025. 3. 18. 17:55

상관관계

  • 상관관계는 변수 간의 상호 관련성을 의미하며, 관계성의 정도는 통계적 또는 시각적인 방법으로 파악 가능
  • 산점도
  • 상관계수
    • 선형관계를 측정하는 피어슨 상관계수
    • 비선형 순위 상관관계를 측정하는 스피어맨 상관계수

산점도(SCatter Plot)

  • 산점도를 이용하면 상관관계를 쉽게 파악 가능
  • 두 변수를 가로, 세로축에 두어 데이터 포인트를 그리는 방법
  • 두 연속형 데이터의 관계 파악에 용의
  • 특정 관계를 갖고 있는 데이터는 한 눈에 파악 가능
  • 극단치 혹은 이상치 파악 가능
  • 한 변수의 값이 증가할 때, 다른 변수의 값도 같이 증가한다면 두 변수는 양의 상관관계
  • 한 변수는 증가하고 다른 변수는 감소한다면 두 변수는 음의 상관관계

상관계수

  • 두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도
  • 값이 [-1, 1] 범위 안에 존재
  • 피어슨 상관계수
    • 선형관계의 강도를 측정
    • 산점도는 선형관계의 강도를 객관적으로 파악하기 힘들다.
    • 산점도로 파악할 수 없는 부분에 대해서는 피어슨 상관계수를 구해서 객관적으로 측정할 수 있다.
    • 상관계수 r은 -1부터 1까지의 값을 가진다.
      • r = 0 : 두 변수 간 선형관계 x
      • r = 1 : 완벽한 우상향 직선의 관계 -> 양의 상관관계
      • r = -1 : 완벽한 우하향 직선의 관계 -> 음의 상관관계
    • 수식

  • 스피어맨 상관계수
    • 비선형 순위 상관관계를 측정
    • 변수 간 관계가 선형적이지 않다면 비선형 상관계수 또는 데이터 변환을 고려
    • 순위 파악에 능하며 단조관계만 보장이 된다면 분산과 선형성에 상관없이 사용할 수 있는 상관계수
    • 예시
    • X, Y 모두 1위부터 20위까지 순위가 같음
      • 피어슨 상관계수 : 약 0.7 / 스피어맨 상관계수 : 1
    • 스피어맨은 정규분포가 아니여도 monotonic(단조) 증가/하락에 관한 비선형관계 포함 가능
  • 데이터 변환
    • 변수 간 관계가 선형적이지 않다면 데이터 변환을 고려

상관분석

  • 측정된 두 변수 간의 선형관계가 있는지 탐색 및 확인하는 분석 방법
  • 두 변수 간 선형관계를 개량적으로 분석하는 기법
  • 피어슨 상관분석
    • 귀무가설: H0 : r = 0 (선형관계 없음)
    • 대립가설: H1 : r ≠ 0 (선형관계 있음)
    • 검정통계량
      • 자유도는 n-2인 t 분포를 따름
  • 기본 가정
    • 독립성 : 독립변수의 그룹군은 서로 독립
    • 정규성 : 집단별 종속변수는 정규분포를 만족
    • 등분산성 : 집단별 종속 변수 분포의 분산은 각 군마다 동일
  • 상관관계가 있다고 인과관계가 있는 것은 아님
  • 인과관계가 있으면 상관관계는 있음
  • ex.
    아이스크림 판매량과 상어에게 습격 당한 수가 증가하는 것은 여름이기 때문

상관분석 Process

  1. Data 특성 파악 & 가설 검정
    • 종속변수/독립변수 : 모두 '등비'여야 함
    • 귀무가설: 변수 간 선형관계 X
    • 대립가설: 변수 간 선형관계 O
  2. 산점도를 이용한 시각화 및 가정 검토
    • 선형관계가 아니면 분석의 의미를 찾기 힘듦
    • 변수별 정규성, 등분산성 체크
  3. 목적에 맞는 분석 수행
    • Step 1~2 결과를 토대로 최종 분석 방법 선택
  4. 결과 해석 및 최종 결론 도출
    • P값 기반 상관관계 변수 선택
    • 관계의 정도 확인