[KT] AIVLE School/사전학습

데이터 분석 이해와 실무 (1) - 가설의 의의와 검정

Boxya 2025. 3. 18. 17:28

가설 검정이란?

  • 모집단에 어떤 가설을 설정한 뒤, 통계 기법을 이용한 가설의 채택 여부를 확률적으로 판정하는 통계적 추론의 방법
  • 가설 예시
    • 정치 분야 : 주류세 인상은 음주운절율을 줄였다.
    • 제조 분야 : 공정 불량률은 5%가 넘는다.
    • 마케팅 분야 : 마케팅 방법에 따른 매출의 변화가 있다.
    • 의약 분야 : 신약은 효과가 있다.

귀무가설 vs 대립가설

  • 귀무가설
    • "비교하는 값과 차이가 없다."
    • 기존 이론 가설
    • H0 : Null Hypothesis
  • 대립가설
    • "비교하는 값과 차이가 있다."
    • 연구자 목적, 주장
    • H1 : Alternative Hypothesis
  • 예시
    • [법원 판결] 귀무가설 : 무죄 / 대립가설 : 유죄
    • [암 진단] 귀무가설 : 정상 / 대립가설 : 암

가설 검정 통계적 오류

  • 제 1종 오류와 제 2종 오류가 존재
  • 예시
    무죄이지만 유죄라고 판단했을 경우 : 제 1종 오류 / 유죄이지만 무죄라고 판단했을 경우

 

  •   귀무가설 : 진실 대립가설 : 진실
    귀무가설 선택 옳은 결정
    신뢰수준 (1-α)
    제 2종 오류 (β)
    대립가설 선택 제 1종 오류
    유의수준 (α)
    옳은 결정
    검정력 (1-β)
  • 제 1종 오류 (α) : H0이 참이지만, H1으로 잘못 선택 -> "유의수준"이라고 불림
  • 제 2종 오류 (β) : H1이 참이지만, H0으로 잘못 선택

가설 검정 방법

  • 목적에 맞는 설정 필요
  • 가설 검정은 모집단에 대한 어떤 가설을 설정한 뒤에 표본관측을 통해 그 가설을 채택하는 여부를 결정
  • 양측 검정
    • 검정 통계량의 분포에서 기각영역이 양쪽에서 나타나는 형태의 가설검정
    • 귀무가설 : H0 : μ = μ0  /  대립가설 : H1 : μ ≠ μ0
  • 단측 검정
    • 검정 통계량의 분포에서 기각 영역이 한쪽에 나타나는 형태의 가설검정
    • 귀무가설 : H0 : μ = μ0  /  대립가설 : H1 : μ < μ0 또는 H1 : μ > μ0

가설 기반 의사 결정 방법

  • 검정 통계량과 유의 확률을 토대로 가설 채택 여부 결정
    • 검정 통계량 > 기각역 >> 귀무가설 기각
    • 검정 통계량 < 기각역 >> 귀무가설 채택
    • 유의 확률 > 유의수준 >> 귀무가설 기각
    • 유의 확률 < 유의수준 >> 귀무가설 채택
    • 기각역
      • 귀무가설을 기각하게 되는 검정 통계량의 관측값의 영역
      • '귀무가설이 옳다' 라는 전제 하에서 검정 통계량이 기각역에 속할 확률이 유의수준인 검정 통계량 분포의 일부 영역
    • 유의확률
      • 검정 통계량의 확률
      • 귀무가설 하에서 검정통계량의 값이 나타날 가능성을 측정하는 확률값
    • 유의수준
      • 제 1종 오류의 최대 허용 한계
      • 예를 들어 유의수준을 5%로  설정했을때, 검정 통계량의 유의 확률이 11%일 경우 귀무가설을 기각하지 못하여 채택
      • 유의수준을 5%로  설정했을때, 검정 통계량의 유의 확률이 0.1%일 경우 귀무가설을 기각하고 대립가설 채택

단일표본 t 검정

  • 가장 기본적인 가설 검정 중 하나
  • 모집단의 평균값기준값차이를 비교하는 분석법
  • 가설 검정 예제
    • 귀무가설 : A 기업의 전구 수명은 178시간
    • 대립가설 : A 기업의 전구 수명은 178시간 보다 짧다. (단측)
    • 모평균의 95% 신뢰구간이 167~180 이라고 했을 때, 기준이 178이라면
    • 모평균의 신뢰 구간 안에 들어왔을때 5%의 유의수준에서 귀무가설 기각 실패
    • 모평균의 신뢰 구간을 넘는 값이 나왔다면 귀무가설 기각

독립표본 t 검정

  • 두 집단 간 평균의 차이를 비교하는 분석법
  • 독립된 두 표본집단의 평균 차이에 대한 가설을 검정 / ex) 남, 녀 간 몸무게 차이가 있다 or 없다
    • (독립된 그룹이 아니라 동일 그룹에 대한 경우 대응표본 t 검정 사용)
  • [가설 검정]
    • 귀무가설 : 성별에 따라 몸무게의 차이가 없다.
    • 대립가설 : 성별에 따라 몸무게의 차이가 있다.
  • [기본 가정]
    • 독립성 : 독립변수의 그룹군은 서로 독립
    • 정규성 : 집단별 종속변수는 정규분포를 만족
    • 등분산성 : 집단별 종속 변수 분포의 분산은 각 군마다 동일

연구 목적에 따른 가설 검정 예제

연구 목적 변수 유형 통계 분석 기법 가설 수립
인테리어 종류(현대, 고전)에 따라 고객 만족도에 차이가 있는가? X : 인테리어 종류
Y : 고객 만족도
독립표본 t 검정 귀무가설: 인테리어 종류에 따라 고객 만족도에 차이 없음
대립가설: 인테리어 종류에 따라 고객 만족도에 차이 있음
인터넷 상품(A,B,C)에 따라 고객만족도 차이가 있는가? X : 인터넷 상품
Y : 고객 만족도
ANOVA 귀무가설: 인터넷 상품에 따라 고객 만족도 차이 없음
대립가설: 인터넷 상품에 따라 고객 만족도 차이 있음
연령대에 따른 채널별 마케팅 효과에 차이가 있는가? X: 연령대
Y: 채널
카이제곱 귀무가설: 연령대에 따른 채널별 마케팅 효과 차이 없음
대립가설: 연령대에 따른 채널별 마케팅 효과 차이 있음
자동차의 중량과 연료 소비량 간의 상관관계가 있는가? X: 자동차 중량
Y: 연료 소비량
상관분석 귀무가설: 자동차 중량과 연료 소비량 간 관계 없음
대립가설: 자동차 중량과 연로 소비량 간 관계 있음
  • 독립표본 t 검정 : 2개의 그룹 / ANOVA : 3개 이상의 그룹
  • X: 범주형, Y: 범주형 : 카이제곱 / X: 연속형, Y: 연속형 : 상관분석

가설 검정 순서

  1. 가설 수립
  2. 판단 기준 수립 : ex) 유의수준(α) 5% 설정
  3. 통계 기법 도출
  4. 분석 통계량 산출
  5. 판단 기준 : P-Value , α 비교
  6. 결과 도출