Statistical Package & Statistics Univariate : Time Series Data () ARMA 개념 ARIMA(Auto-Regressive Integrated Moving-Average) 모형은시계열데이터 { Y t } 의과거치 (previous observation Y t 1,,... ) 들이설명변수인 AR 과과거의오차항 ( e t 1, et,... ) 들이설명변수인 MA 모형의합성어이다. AR(1) 모형 ARIMA 모형에대한개념파악을위하여가장간단한 AR(1) 모형을먼저살펴보자. 용어와기호 AR 모형은아래가설에의해제안되었다. 과거의패턴이지속된다면시계열데이터관측치 는과거관측치 1, Y t, Y t p,... 에의해예측할수있을것이다. 어느정도의멀리있는과거관측치까지이용할것인가? 그리고멀어질수록 영향력을줄어들것이다. 이런상황을고려할수있는가중치를사용해야하지 않을까? AR(1) 모형 : Y t μ = ρ( Y t 1 μ) + et, e ~ iid N (0, σ t ) 만약시계열데이터가서로독립이고유한인평균과분산을갖는동일분포를 따르면 (iid) 이데이는 white noise( 백색잡음 ) 이라한다. 만약평균이 0, 분산이 σ 인정규분포를따른다면이를 Guassian white noise 라한다. { Y t } 대신 { μ} 를사용한이유는평균을 0 으로하기위함이다. μ 는시계열데이터의총평균 (grand mean) 에해당된다. 만약 { Y t } 를 μ0 가되게 shift 하면 AR(1) 모형은 Y t = ρy t 1 + et 이고개념설명을위하여가장많이사용된다. 이를일반화하면 AR( p ) 모형은다음과같다. AR( p ) 모형 : 1, e t ~ iid N(0, σ ) Y t = α 1 + α +... + α p p + et AR(1) 모형을이를다시쓰면다음과같다. Y 3... t-1 t t = μ + e t + ρ e t 1 + ρ e t + ρ e t 3 + + ρ e1 + ρ ( Yo μ) 1
Statistical Package & Statistics Univariate : Time Series Data () 즉 AR(1) 모형이더라도과거의흔적을모두모함하고있다. AR( p ) 도 MA( ) 모형으로쓸수있다. MA( ) 모형 : Y = + + + + 3 3 +... = + j t μ e t βe t 1 β e t β e t μ β e t j j= 0 { Y t } 분산과공분산 공분산 γ ( j) = cov( Y t, Y t j ), 분산 γ (0) = Var(Y t ) 분산, 공분산개념은시계열데이터에적절한 AR, MA 모형을찾는함수인 ACF, PACF, IACF 에이용된다. ( 다음절에서상세히논한다.) 앞에서우리는 AR(1) 을 MA( ) 로쓸수있음을알았다, 이사실을이용하면 AR(1) 모형을따르는시계열데이터 { Y t } 의분산과공분산을구하면다음과같다. 공분산 ( ) cov(, ) j σ γ j = Y t Y t j = ρ Var( ), 분산 γ (0) = Var(Y t ) = 1 ρ 그러므로 σ 의추정치는 ˆ σ = γ (0)(1 ˆ ρ ) 이다. 예측 (Forecasting) AR(1) 의경우 ρ 을추정하면 { Y t 1,,...} 예측치를다음과같이구할수있다 (n+1) 시점예측치 : Y ˆ n+ 1 = ˆ μ + ˆ( ρ Yn ˆ μ) ( Qe t+ 1의평균은 0 이기때문이다 ) 즉, μ = 100 이고 ρ = / 3로추정되었다면 Y ) n+ 1 = 100 + / 3( Yn 100) ) 예측오차 (forecasting error) Yn+ 1 Yn+ 1 = en+ 1 (n+) 시점예측치 Y ) ˆ n+ = ˆ μ + ρ ( Yn ˆ μ) ) (n+) 시점예측오차 Yn+ Yn+ = en+ + ˆ ρen+ 1 Backshift Notation B ( ) = 1, B ( Y t ) = Y t,, B p ( Y t ) = Y t p Y t μ = ρ( B( ) μ) + et (1 B) = μ + ρμ + et 만약 = 0 μ 이면 AR ( 1) (1 B) = et
Statistical Package & Statistics Univariate : Time Series Data () ARIMA 모형 Process 정의 1white noise process 평균이 0 이고분산이 σ 인동일분포로부터독립적으로 (iid) 얻어진시계열데이터 { Y t } 을백색잡음 (white noise) process 라한다. 백색잡음데이터의평균수준을 μ 라하면이시계열데이터의모형은 Y t = μ + et 라쓸수있다. 만약 Y0 = μ 라하면 Y t = Y0 + e1 + e +... + et 가되며 { Y t } 을 random walk process 라한다. { Y t } 는동일한분포를가지며서로독립이라는가정이다. stationary process F ( yt 1, yt,..., ytn ) = F( yt 1+ k, yt + k,..., ytn + k ) 이면시계열데이터 { Y t } 를 strongly stationary process( 강한정상성 ) 이라한다. 일정한기간의종속변수결합밀도함수는동일한분포를가진다는것을의미한다. 다음조건을만족하는시계열데이터 { Y t } 는 weakly stationary process( 약한정상성 ) 라정의한다. (1) 평균이일정하다. E ( Y t ) = μ () 분산이존재하며일정하다. V ( Y t ) = γ (0) < (3) 두시점사이의자기공분산 (auto-correlation) 은시간의차이에의존한다. COV ( Y t, Y t j ) = COV ( Y s, Y s j ) = γ ( j), forj s 정상적확률모형 ( 시계열데이터 { Y t } 는확률변수 ) 의대표적인것이 AR, MA, ARMA 모형이다. ARMA 모형 1AR(p) 모형 시계열데이터 { Y t } 에서시점 t 의관측치 가과거관측치 1,,..., p 들에의해설명될때 AR(p) ( 차수가 p 인 Auto-Regressive, 자기회귀 ) 모형을따른다고한다. ~ AR( p) Y t = u + α 1Y t 1 + α Y t +... + αpy t p + et 3
Statistical Package & Statistics Univariate : Time Series Data () MA(q) 모형 시계열데이터 { Y t } 에서시점 t 의관측치 가과거오차 et 1, et,..., et q 들에의해설명될때 MA(q) ( 차수가 q 인 Moving-Average 이동평균 ) 모형을따른다고한다. ~ MA( q) = e t β 1e t 1 β e t... β q e t q 3ARMA(p, q) 모형 시계열데이터 { Y t } 에서시점 t 의관측치 가과거관측치,,..., p 1 들과 과거오차 et 1, et,..., et q 들에의해설명될때 ARMA(p, p) ( 차수가 p, q 인 Auto- Regressive and Moving Average) 모형을따른다고한다. Y t = μ + α 1 Y t 1 α Y t... α p Y t p + e t β 1 e t 1 β e t +... β q e t q + e t Stationarity and Invertibility MA( ) 모형은언제나정상적 (stationary) 이다. why? AR 모형Y t = u + α1y t 1 + α Y t +... + α p Y t p + et 은 1 α 1 M α M... α p p M = 0 의방정식을만족하는근들의절대값이모두 1 보다클경우 stationary 하다. 정상적인 AR(p) 모형은 MA( ) 모형으로변환할수 있음을의미한다. 정상적인 process 인경우 { } 는 et, et 1, et,... 으로표현할수있으며, { } 에대한 et, et 1, et,... 들의영향은시점이멀어질수록줄어든다. 그러므로 + 1에대한예측치를구할경우 e0 = 0 으로사용해도무방하다. Invertibility = e t β 1e t 1 β e t... β q e t q MA(q) 모형에서 1 β 1 M β M... β q q M = 0 의방정식을만족하는근들의절대값이모두 1 보다클경우 MA 모형은 Invertibility 하다. 이말은 AR( ) 모형으로변환할수있다는 것이다. Y 를 AR( ) 로표현할수있으며, 즉 Y Y,... 들로표현되며 } { t } { t t 1, t Y 에대한 1,,... 들의영향은시점이멀어질수록줄어든다. 4
Statistical Package & Statistics Univariate : Time Series Data () 상관함수 시계열자료 { Y t } 의상관함수는 acf, pacf, iacf 가있는데이는 ARMA 모형진단에사용된다. Auto Correlation Function (ACF) 자기상관함수 (ACF) 는다음과같이정의한다. γ ( j) Cov(, j ) ρ ( j) = = 그러므로 ρ ( 0) = 1, ρ ( j) = ρ( j) γ (0) VAR( ) MA(1) 경우 : Y t = et β1et 1 γ ( 0) = V ( Y ) = (1 + β )σ t 1, γ ( 1) = COV ( Y, β t 1 ) = 1 σ, 그러나 γ ( ) = γ (3) = γ (4) =... = 0 그러므로이를요약하면 MA(q) 모형의경우 j > q 이면 ACF ρ ( j) = 0 (drop off) 이다. AR(1) 경우 : Y t = α 1 1 + et 정상적인 (stationary) AR 모형은 MA( ) 로바꾸어쓸수있다. AR(1) 인경우 Y 3 t-1 α t t = μ + e t + α 1 e t 1 + α 1 e t + α 1 e t 3 +... + α 1 e1 + 1 ( Yo μ) 이다. γ ( 0) = V ( Y ) = σ /(1 α t 1 ) 가정 : α 1 < 1, 즉정상성 (stationary) 가정이필요 j γ ( j) = COV (, ) = α σ /(1 α j 1 ) i j 이를정리하면 ρ(j) = α 1 이므로 ACF 는지수적으로감소한다.(exponentially decay) 이를일반화하면 AR(p) 모형의경우 ACF 는지수적으로감소한다. ARMA(p, q) 경우 α 1Y t 1 α Y t... α p Y t p = e t β 1 e t 1 β e t +... βqe t q AR(p) 모형처럼지수적으로감소한다. 그러나 MA(q) 모형의 drop off 효과가있으므로꼬리부분이갑자기줄어들게된다. 이를 exponentially tail off 라한다. 5
Statistical Package & Statistics Univariate : Time Series Data () Partial Auto Correlation Function (PACF) LAG 1 인부분상관함수 (PACF) 는 를종속변수, 1 을설명변수로한단순 회귀모형에서 1 의회귀계수를의미한다. LAG 인부분상관함수 (PACF) 는 를종속변수, 1,, 을설명변수로한다중회귀모형에서 의회귀계수를의미한다. LAG 3 인부분상관함수 (PACF) 는 를종속변수, Y t 1,, 3 설명변수로한다중회귀모형에서 3 의회귀계수를의미한다. AR(p) 모형의경우 PACF 는 LAG p 이후에는 0 이다. MA(q) 모형의 PACF 는 Invertibility 조건하에서지수적으로감소한다. ARMA(p, q) 모형의 PACF 도지수적으로감소한다. Inverse Auto Correlation Function (IACF) 역상관함수 (IACF) 다음과같이정의한다. ARMA(p, q) 모형의 IACF 는 ARMA(q, p) 의 ACF 이다. 그러므로 AR(p) 의 IACF 는 MA(p) 의 ACF 와같고 MA(q) 의 IACF 는 AR(q) 의 ACF 와같다. IACF 는 Drop off 와 Tail off 판단이어려운경우사용한다. ARMA 모형인식방법 AR(p) MA(q) ARMA(p, q) ACF T D(q) T PACF D(p) T T IACF D(p) T T *) T: Tail off exponentially *) D(p): Drop off to 0 after lag p 계절성이존재하는경우 ACF 는주기 k 마다 peak 가생긴다. 왜냐하면 가영향을주기때문이다. 에 k 6
Statistical Package & Statistics Univariate : Time Series Data () ARMA 모형추정순서 (1) 시계열데이터 white noise Test 시계열데이터기백색잡음 (white noise) 인경우자기상관계수는 Chi-square 분포에 k γ ( j) 근사한다. Ljung modified Box-Pierce Q 통계량 n( n + ) ~ χ ( k). Q- ( n j) j= 1 통계량은시계열데이터의백색잡음여부를판단하는것으로원시계열자료는백색잡음이아니어야모형설정이가능하다. 또한모형설정후잔차는백색잡음이면모형설정이올바로된경우이다. () ACF, PACF 그래프진단 AR(1) 이적절해보인다. 7
Statistical Package & Statistics Univariate : Time Series Data () (Unit Root 문제 ) AR(1) 모형을갖는시계열데이터의경우 UNIT root 문제는 ( Y t = μ + α 1, α = 1) 임을의미한다. Unit-root 갖는데이터는안정적이지못하므로모형설정의의미가없다. 이에대한 test 방법으로 augmented Dickey-Fuller 검정방법, Phillips-Perron 검정방법등이있다. 단일근인시계열데이터는 1 차차분데이터에 MA(1) 을적용하여미래값을예측한다. why? Y t = μ + 1 + et 1 = μ + et, e t is white noise (3) ARMA 모형추정, 회귀계수유의성검정 0.9675 회귀계수검정통계량 TS = = 3. 0, highly significant (± 기준 ) 0.04 Akaike Information Criteria : 모형적합성통계량, 검정통계량이아니므로서로다른모형의적합정도를비교판단할때사용, 작을수록적합성높음 8
Statistical Package & Statistics Univariate : Time Series Data () (4) 모형추정잔차 white noise 검정 모형이적합하다면잔차는 white noise 여야한다. ACF 는지수적으로감소해야하며 (why? 백색잡음은 MA 모형 ) 유의확률이 0.05 미만, 즉점선위에있어야함. (5) 최종모형높이뛰기기록시계열데이터는 ACF, PACF 에의해 AR(1) 을적용하였다. 그러나단일근문제가있고모형추정결과회귀계수는유의하나잔차가백색잡음을따르지않는다. 모형적합실패 9
Statistical Package & Statistics Univariate : Time Series Data () 아이스크림예제 데이터시간도표 직선 trend, seasonality 주기 13 있는것으로보임 시계열데이터백색잡음및 stationary 검정 시계열데이터는백색잡음이아니므로 ARMA 모형추정가능 10
Statistical Package & Statistics Univariate : Time Series Data () 시계열데이터는 stationary 하므로 ARMA 모형추정가능 ACF, PACF 이용한모형진단 ACF 는지수적감소, PACF 는 Lag=1 에서유의 => AR(1) 진단 모형추정및잔차진단 0.8679 회귀계수검정통계량 TS = = 8. 4 high significant 0.1034 11
Statistical Package & Statistics Univariate : Time Series Data () 잔차의 ACF 는 13 에서 peak 가있고 ( 계절성문제 ) 잔차가백색잡음을따르지 않으므로문제가있음 최종진단모형 1