[KT] AIVLE School/사전학습

데이터 분석 이해와 실무 (4) - 시계열 분석

Boxya 2025. 3. 18. 19:21

시계열 데이터

  • 순차적인 시간의 흐름에 따라 기록된 데이터를 의미
  • Y = T + S + C + R 또는 Y = T x S x C x R (or Y = T + S + R)
추세(Trend) 시간의 흐름에 따라 점진적이고 지속적인 변화
계절성(Seasonality) 특정 주기에 따라 일정한 패턴을 갖는 변화
싸이클(Cycle) 경제 또는 사회적 요인에 의한 변화(예: 경기 변동)이며, 일정 주기가 없고 장기적인 변화
잔차(Residuals) 설명할 수 없는 변화

 

시계열 분석의 특징

  • 현재 시점의 시계열 데이터를 분석하는 데 이전 시간의 값이 현재에도 영향을 끼칠 것이라는 가정하에 회귀 분석을 진행
  • 시계열이 전 시점의 영향을 받는 것이 시계열 데이터 분석 시 고려해야할 가장 큰 사항 중 하나이며 이것을 자기상관 또는 Autocorrelation이라고 함
  • 선형회귀와는 다르게 독립적이지 않음
  • 시계열 분석 vs 단순 회귀
    • 시계열 분석
      • 자기 상관(Autocorrelation) 존재
      • 대표적으로 자기회귀, 이동평균, 자기회귀누적이동평균, 벡터자기회귀 모델 등이 존재
      • 현재 시점에 가까운 데이터일수록 서로 강한 관계를 맺는 경향 존재
    • 단순 회귀
      • 자기 상관(Autocorrelation) 없음
      • 독립변수와 종속변수는 서로 다른 변수일 경우가 많음
      • 선형 회귀로 시계열 데이터를 분석하려면 더 까다로운 가정 필요 (선형성 가정이 필요)

자기회귀 모델 (AR)

  • 시계열 분석 중 가장 기본적인 모델 중 하나, 시계열 이외의 정보가 없을 경우 가장 첫번째로 시도하는 방법
  • AR 모델은 시계열의 미래 값이 과거 값에 기반한다는 모델
  • 과거가 미래를 예측한다는 직관적인 사실에 의존하는 모델, 미래 값 예측을 위해 과거 값을 함수로 사용
  • 즉, 이전 값의 영향을 받는 것이 특징
    • 일반적으로 AR(p)의 차수 p는 자기상관함수(ACF)와 편자기상관함수(PACF) 그래프에 기반하여 결정

이동평균 모델(MA)

  • 전체적인 편향성을 다루는 모델로, 설명변수가 최근 오차항으로만 구성되어 있는 것이 특징
  • 현재 데이터가 이전 시점의 오차에 의해서 설명되며, 값이 변동을 일으킨 방향에 대해서만 영향을 받음
  • 즉, 불규칙 변동이 누적되어 전반적인 평균이 이동하는, 평균의 값이 바뀌는 모델을 만들 수 있음
  • 강한 평균 회귀를 보여주며 예측이 평균으로 빠르게 수렴하는 특징
    • 잔차들이 자기 상관이 없는 백색 잡음(white noise)들로 이루어진 함수이기 때문
  • 평균과 분산 모두 파라미터 값에 상관없이 시간에 따라 일정한 값을 가짐
    • 이전 시점의 값에 기반하는 것이 아닌 이전 시점의 예측 오차에 가중치를 두어 미래의 값을 예측
  • MA(q)일 경우 현재 시점으로부터 q의 시점까지의 모든 잔차를 고려
  • 차수 q도 ACF와 PACF 함수로 확인 가능
  • ex) 비행기 탑승률 추이, 인터넷 보급률 추이

ARIMA 모델

  • AR과 MA를 동시에 고려하고, 누적(I)으로 추세까지 고려한 모델로, '자기회귀 누적 이동평균 모델'이라고도 불림
  • 원계열의 차분을 구한 뒤 이동평균을 누적한 모델
  • 차분이 주는 효과는 시계열의 수준에서 나타나는 변화를 제거 (계절성이나 추세를 제거)
  • ARIMA(p, d, q) = AR(p) + I(d) + MA(q)
    • AR이나 MA 모델 혼자로는 역동성을 설명하기엔 부족한 경우가 있음 --> ARMA 모델로 결합
    • 정상성 만족을 위해 차분이 가미되면서 ARIMA가 됨

정상성

  • 정상성을 나타내는 시계열은 관측치가 시간과 무관하여야 함
  • 즉, 시간에 상관없이 일정한 평균과 분산을 갖고 있어야 함

시계열 분석 순서

  • 정상성은 시계열 분석을 하면서 꾸준하게 확인을 해주어야 함