[KT] AIVLE School/사전학습

데이터 분석 이해와 실무 (3) - 회귀 분석

Boxya 2025. 3. 18. 18:34

단순회귀분석

  • 한 개의 종속변수(Y)한 개의 독립변수(X) 사이의 관계를 분석하는 통계 기법
  • Y와 X간의 관계를 일차식(선형)에 대입하여, X의 변화에 따라 Y가 얼마나 변하는지를 예측할 때 사용
  • ex) y = aX + b 라는 식을 통해 X의 변화가 Y에 어떠한 변화를 미치는지 예측할 때 사용

회귀분석 기본 가정

  • 회귀분석은 인과관계를 규명할 수 있는 분석, 예측 통계 방법인 만큼 강력한 가정이 필요
    선형성 독립변수(X)와 종속변수(Y)는 선형관계이다.
    독립성 종속변수 Y는 서로 독립이어야 한다.
    (한 관측 값이 다른 관측치에 의해 영향을 받으면 안됨)
    등분산성 독립변수 X의 값에 관계없이 종속변수 Y의 분산은 일정하다.
    정규성 독립변수 X의 고정된 어떤 값에 대하여 종속변수 Y는 정규분포를 따른다.

최소 제곱법

  • 실제 데이터 값: Yi, 추정치 : Ŷi   라고 했을 때, 잔차는 Yi  - Ŷi 
  • 잔차를 제곱하고 전체 데이터 포인트에 대한 잔차 값을 합하면 최소제곱법을 구할 수 있음
  • 잔차의 제곱의 합을 최소화하여 모델의 설명력을 높임
  • 잔차를 최소화하는 회귀 계수 추정

결정계수

  • 모델의 설명력을 정량적으로 표현
  • 총 변동을 회귀분석이 얼마나 설명할 수 있는지를 [0, 1] 사이의 값으로 정량화하여 표현한 계수

t 검정

  • 단순회귀계수를 검정할 때, 개별회귀계수의 통계적 유의성은 t 검정으로 확인
  • ex) 위와 같이 X가 1만큼 변화할 때 Y는 β만큼 변화하는 회귀분석 모델의 회귀식이 있을 때, 그 변화가 통계적 유의성이 있는지 검정하고자 함.
  • 귀무가설과 대립가설을 추정식을 통해서 세워놓고 변화가 통계적으로 유의성이 있는지 확인
  • 검정 통계량은 추정 회귀의 se(standard error)를 통해서 세울 수 있음
  • 검정 통계량을 세우면 유의수준을 정해놓고 해당 t 검정 통계량이 P-value를 파악하여 결과를 산출
  • P-value가 유의수준보다 낮으면 통계적으로 의미를 가짐

다중회귀분석

  • 단순회귀분석의 확장으로 독립변수두 개 이상인 회귀모형에 대한 분석
  • 다중선형회귀모델
  • 단순회귀와의 차이점
    • 단일 개의 독립변수가 아닌 여러 개의 독립변수를 사용
  • 다중공선성
    • 다중선형회귀분석: 각 독립변수 간 독립성 가정
    • 다중공선성: 독립변수 간 상관성 존재를 의미 -> 독립성 X
      • 여러 개의 독립변수가 존재할 때 종속변수의 영향을 주는 독립변수를 찾는 것이 중요하며 최적의 변수 선택의 필요

이차회귀모델

  • 만약 선형성에 대한 가정을 맞추지 못하고, 데이터 변환으로 선형성을 충족시켜줄 수 없다면 비선형적인 분포를 고려한 회귀모델을 만들어야함
    • 위와 같은 분포의 경우 선형회귀분석으로 분석했을 때는 결정계수 값이 매우 낮은 것을 확인
      • 선형회귀는 선형성을 고려하지만 분포 자체가 선형적인 모형을 띄지않고 있기 때문
    • 선형회귀에서는 득점에 대한 부분을 age 하나로만 설명하려고 했다면
    • 이차회귀에서는 이차항을 고려해서 커브한 모형을 설명하여 결정계수가 높아진 것을 확인할 수 있음
    • 현실에서는 변수 간 비선형관계가 많고 비선형분석을 할 때도 있기 때문에 위 모델처럼 이차회귀모델을 고려할 필요가 있음

다항회귀모델

  • 3차, 4차 등과 같은 다항회귀모델이 있음
  • 다항 회귀
    • 2차 이상의 회귀 모형, 즉 2차, 3차, ..., n차 회귀 모형을 말함
    • 변수 간 상호작용 가능(Interaction)
  • 장점
    • 비선형적 추세를 고려할 수 있음
    • 분석 시 비선형 데이터 패턴에 대해서 다항회귀를 고려하는 것도 좋지만 데이터에 따라서 Log나 차분을 통한 선형화로 계산을 용이하게 할 수 있음