상관관계
- 상관관계는 변수 간의 상호 관련성을 의미하며, 관계성의 정도는 통계적 또는 시각적인 방법으로 파악 가능
- 산점도
- 상관계수
- 선형관계를 측정하는 피어슨 상관계수
- 비선형 순위 상관관계를 측정하는 스피어맨 상관계수
산점도(SCatter Plot)
- 산점도를 이용하면 상관관계를 쉽게 파악 가능
- 두 변수를 가로, 세로축에 두어 데이터 포인트를 그리는 방법
- 두 연속형 데이터의 관계 파악에 용의
- 특정 관계를 갖고 있는 데이터는 한 눈에 파악 가능
- 극단치 혹은 이상치 파악 가능
- 한 변수의 값이 증가할 때, 다른 변수의 값도 같이 증가한다면 두 변수는 양의 상관관계
- 한 변수는 증가하고 다른 변수는 감소한다면 두 변수는 음의 상관관계
상관계수
- 두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도
- 값이 [-1, 1] 범위 안에 존재
- 피어슨 상관계수
- 선형관계의 강도를 측정
- 산점도는 선형관계의 강도를 객관적으로 파악하기 힘들다.
- 산점도로 파악할 수 없는 부분에 대해서는 피어슨 상관계수를 구해서 객관적으로 측정할 수 있다.
- 상관계수 r은 -1부터 1까지의 값을 가진다.
- r = 0 : 두 변수 간 선형관계 x
- r = 1 : 완벽한 우상향 직선의 관계 -> 양의 상관관계
- r = -1 : 완벽한 우하향 직선의 관계 -> 음의 상관관계
- 수식
- 스피어맨 상관계수
- 비선형 순위 상관관계를 측정
- 변수 간 관계가 선형적이지 않다면 비선형 상관계수 또는 데이터 변환을 고려
- 순위 파악에 능하며 단조관계만 보장이 된다면 분산과 선형성에 상관없이 사용할 수 있는 상관계수
- 예시
- X, Y 모두 1위부터 20위까지 순위가 같음
- 피어슨 상관계수 : 약 0.7 / 스피어맨 상관계수 : 1
- 스피어맨은 정규분포가 아니여도 monotonic(단조) 증가/하락에 관한 비선형관계 포함 가능
- 데이터 변환
- 변수 간 관계가 선형적이지 않다면 데이터 변환을 고려
- 변수 간 관계가 선형적이지 않다면 데이터 변환을 고려
상관분석
- 측정된 두 변수 간의 선형관계가 있는지 탐색 및 확인하는 분석 방법
- 두 변수 간 선형관계를 개량적으로 분석하는 기법
- 피어슨 상관분석
- 귀무가설: H0 : r = 0 (선형관계 없음)
- 대립가설: H1 : r ≠ 0 (선형관계 있음)
- 검정통계량
- 자유도는 n-2인 t 분포를 따름
- 기본 가정
- 독립성 : 독립변수의 그룹군은 서로 독립
- 정규성 : 집단별 종속변수는 정규분포를 만족
- 등분산성 : 집단별 종속 변수 분포의 분산은 각 군마다 동일
- 상관관계가 있다고 인과관계가 있는 것은 아님
- 인과관계가 있으면 상관관계는 있음
- ex.
아이스크림 판매량과 상어에게 습격 당한 수가 증가하는 것은 여름이기 때문
상관분석 Process
- Data 특성 파악 & 가설 검정
- 종속변수/독립변수 : 모두 '등비'여야 함
- 귀무가설: 변수 간 선형관계 X
- 대립가설: 변수 간 선형관계 O
- 산점도를 이용한 시각화 및 가정 검토
- 선형관계가 아니면 분석의 의미를 찾기 힘듦
- 변수별 정규성, 등분산성 체크
- 목적에 맞는 분석 수행
- Step 1~2 결과를 토대로 최종 분석 방법 선택
- 결과 해석 및 최종 결론 도출
- P값 기반 상관관계 변수 선택
- 관계의 정도 확인
'[KT] AIVLE School > 사전학습' 카테고리의 다른 글
데이터 분석 이해와 실무 (4) - 시계열 분석 (3) | 2025.03.18 |
---|---|
데이터 분석 이해와 실무 (3) - 회귀 분석 (0) | 2025.03.18 |
데이터 분석 이해와 실무 (1) - 가설의 의의와 검정 (0) | 2025.03.18 |
데이터 탐색 이해와 실무 (4) - 다변량 시각화 탐색 (0) | 2025.03.17 |
데이터 탐색 이해와 실무 (3) - 다변량 비시각화 탐색 (1) | 2025.03.17 |