가설 검정이란?
- 모집단에 어떤 가설을 설정한 뒤, 통계 기법을 이용한 가설의 채택 여부를 확률적으로 판정하는 통계적 추론의 방법
- 가설 예시
- 정치 분야 : 주류세 인상은 음주운절율을 줄였다.
- 제조 분야 : 공정 불량률은 5%가 넘는다.
- 마케팅 분야 : 마케팅 방법에 따른 매출의 변화가 있다.
- 의약 분야 : 신약은 효과가 있다.
귀무가설 vs 대립가설
- 귀무가설
- "비교하는 값과 차이가 없다."
- 기존 이론 가설
- H0 : Null Hypothesis
- 대립가설
- "비교하는 값과 차이가 있다."
- 연구자 목적, 주장
- H1 : Alternative Hypothesis
- 예시
- [법원 판결] 귀무가설 : 무죄 / 대립가설 : 유죄
- [암 진단] 귀무가설 : 정상 / 대립가설 : 암
가설 검정 통계적 오류
- 제 1종 오류와 제 2종 오류가 존재
- 예시
무죄이지만 유죄라고 판단했을 경우 : 제 1종 오류 / 유죄이지만 무죄라고 판단했을 경우
-
귀무가설 : 진실 대립가설 : 진실 귀무가설 선택 옳은 결정
신뢰수준 (1-α)제 2종 오류 (β) 대립가설 선택 제 1종 오류
유의수준 (α)옳은 결정
검정력 (1-β) - 제 1종 오류 (α) : H0이 참이지만, H1으로 잘못 선택 -> "유의수준"이라고 불림
- 제 2종 오류 (β) : H1이 참이지만, H0으로 잘못 선택
가설 검정 방법
- 목적에 맞는 설정 필요
- 가설 검정은 모집단에 대한 어떤 가설을 설정한 뒤에 표본관측을 통해 그 가설을 채택하는 여부를 결정
- 양측 검정
- 검정 통계량의 분포에서 기각영역이 양쪽에서 나타나는 형태의 가설검정
- 귀무가설 : H0 : μ = μ0 / 대립가설 : H1 : μ ≠ μ0
- 단측 검정
- 검정 통계량의 분포에서 기각 영역이 한쪽에 나타나는 형태의 가설검정
- 귀무가설 : H0 : μ = μ0 / 대립가설 : H1 : μ < μ0 또는 H1 : μ > μ0
가설 기반 의사 결정 방법
- 검정 통계량과 유의 확률을 토대로 가설 채택 여부 결정
- 검정 통계량 > 기각역 >> 귀무가설 기각
- 검정 통계량 < 기각역 >> 귀무가설 채택
- 유의 확률 > 유의수준 >> 귀무가설 기각
- 유의 확률 < 유의수준 >> 귀무가설 채택
- 기각역
- 귀무가설을 기각하게 되는 검정 통계량의 관측값의 영역
- '귀무가설이 옳다' 라는 전제 하에서 검정 통계량이 기각역에 속할 확률이 유의수준인 검정 통계량 분포의 일부 영역
- 유의확률
- 검정 통계량의 확률
- 귀무가설 하에서 검정통계량의 값이 나타날 가능성을 측정하는 확률값
- 유의수준
- 제 1종 오류의 최대 허용 한계
- 예를 들어 유의수준을 5%로 설정했을때, 검정 통계량의 유의 확률이 11%일 경우 귀무가설을 기각하지 못하여 채택
- 유의수준을 5%로 설정했을때, 검정 통계량의 유의 확률이 0.1%일 경우 귀무가설을 기각하고 대립가설 채택
단일표본 t 검정
- 가장 기본적인 가설 검정 중 하나
- 한 모집단의 평균값과 기준값의 차이를 비교하는 분석법
- 가설 검정 예제
- 귀무가설 : A 기업의 전구 수명은 178시간
- 대립가설 : A 기업의 전구 수명은 178시간 보다 짧다. (단측)
- 모평균의 95% 신뢰구간이 167~180 이라고 했을 때, 기준이 178이라면
- 모평균의 신뢰 구간 안에 들어왔을때 5%의 유의수준에서 귀무가설 기각 실패
- 모평균의 신뢰 구간을 넘는 값이 나왔다면 귀무가설 기각
독립표본 t 검정
- 두 집단 간 평균의 차이를 비교하는 분석법
- 독립된 두 표본집단의 평균 차이에 대한 가설을 검정 / ex) 남, 녀 간 몸무게 차이가 있다 or 없다
- (독립된 그룹이 아니라 동일 그룹에 대한 경우 대응표본 t 검정 사용)
- [가설 검정]
- 귀무가설 : 성별에 따라 몸무게의 차이가 없다.
- 대립가설 : 성별에 따라 몸무게의 차이가 있다.
- [기본 가정]
- 독립성 : 독립변수의 그룹군은 서로 독립
- 정규성 : 집단별 종속변수는 정규분포를 만족
- 등분산성 : 집단별 종속 변수 분포의 분산은 각 군마다 동일
연구 목적에 따른 가설 검정 예제
연구 목적 | 변수 유형 | 통계 분석 기법 | 가설 수립 |
인테리어 종류(현대, 고전)에 따라 고객 만족도에 차이가 있는가? | X : 인테리어 종류 Y : 고객 만족도 |
독립표본 t 검정 | 귀무가설: 인테리어 종류에 따라 고객 만족도에 차이 없음 대립가설: 인테리어 종류에 따라 고객 만족도에 차이 있음 |
인터넷 상품(A,B,C)에 따라 고객만족도 차이가 있는가? | X : 인터넷 상품 Y : 고객 만족도 |
ANOVA | 귀무가설: 인터넷 상품에 따라 고객 만족도 차이 없음 대립가설: 인터넷 상품에 따라 고객 만족도 차이 있음 |
연령대에 따른 채널별 마케팅 효과에 차이가 있는가? | X: 연령대 Y: 채널 |
카이제곱 | 귀무가설: 연령대에 따른 채널별 마케팅 효과 차이 없음 대립가설: 연령대에 따른 채널별 마케팅 효과 차이 있음 |
자동차의 중량과 연료 소비량 간의 상관관계가 있는가? | X: 자동차 중량 Y: 연료 소비량 |
상관분석 | 귀무가설: 자동차 중량과 연료 소비량 간 관계 없음 대립가설: 자동차 중량과 연로 소비량 간 관계 있음 |
- 독립표본 t 검정 : 2개의 그룹 / ANOVA : 3개 이상의 그룹
- X: 범주형, Y: 범주형 : 카이제곱 / X: 연속형, Y: 연속형 : 상관분석
가설 검정 순서
- 가설 수립
- 판단 기준 수립 : ex) 유의수준(α) 5% 설정
- 통계 기법 도출
- 분석 통계량 산출
- 판단 기준 : P-Value , α 비교
- 결과 도출
'[KT] AIVLE School > 사전학습' 카테고리의 다른 글
데이터 분석 이해와 실무 (3) - 회귀 분석 (0) | 2025.03.18 |
---|---|
데이터 분석 이해와 실무 (2) - 상관분석 (0) | 2025.03.18 |
데이터 탐색 이해와 실무 (4) - 다변량 시각화 탐색 (0) | 2025.03.17 |
데이터 탐색 이해와 실무 (3) - 다변량 비시각화 탐색 (1) | 2025.03.17 |
데이터 탐색 이해와 실무 (2) - 일변량 시각화 탐색 (0) | 2025.03.17 |