Microsoft Word - Forecast_lecture.docx

Similar documents
Microsoft Word - skku_TS2.docx

Microsoft Word - ch2_smoothing.doc

Microsoft PowerPoint - LM 2014s_Ch4.pptx

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - ch8_influence.doc

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

슬라이드 1

8. ARIMA 모형 (ARIMA Procedure) 8.1 ARMA(AutoRegressive Moving-Average) 모형 ARIMA 모형의기본형태 계절형 ARIMA 모형 8.2 ARIMA modeling 과정 데이터 모형의식별 (identification) 모

Microsoft PowerPoint - Info R(3) pptx

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

untitled

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft PowerPoint - IPYYUIHNPGFU

슬라이드 1

Microsoft Word - sbe13_reg.docx

시계열분석의개요 (the nature of time series analysis) 시계열자료 (time series data) 연도별 (annual), 분기별 (quarterly), 월별 (monthly), 일별 (daily) 또는시간별 (hourly) 등시간의경과 (

선형모형_LM.pdf

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

Microsoft Word - 동태적 모형.doc

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

statistics

(001~006)개념RPM3-2(부속)

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

시스템경영과 구조방정식모형분석

eda_ch7.doc

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

제 4 장회귀분석

Microsoft Word - ch3_residual.doc

G Power

슬라이드 1

MATLAB for C/C++ Programmers

자료의 이해 및 분석

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft Word - ch2_simple.doc

Microsoft Word - ch4_multiple.doc

Microsoft Word - SAS_Data Manipulate.docx

슬라이드 1

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

CHO3. 수요예측 1

비선형으로의 확장

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

<4D F736F F D20BDC3B0E8BFADBAD0BCAE202D20BDC3B0E8BFADC0DAB7E1BAD0BCAE E646F63>

슬라이드 1

Resampling Methods

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - econometrics.docx

슬라이드 1


슬라이드 1


CONTENTS.HWP

INDUS-8.HWP

시계열분석의개요 (the nature of time series analysis) 확률과정 (stochastic processes) 이란시간으로순서가매겨진확률변수들의집합임. 만일확률변수 y 가연속이라면 y(t) 라고표기하지만이산이라면 y t 라고표기함 ( 대부분의경제자

PowerPoint 프레젠테이션

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft Word - multiple

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

표본재추출(resampling) 방법

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

슬라이드 1

Microsoft PowerPoint - TimeSeriesAnalysis_Part_1.pptx

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

분산분석.pages

R t-..

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

슬라이드 1

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

Microsoft Word - sbe13_anova.docx


Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx


PowerPoint 프레젠테이션

<B3EDB4DC28B1E8BCAEC7F6292E687770>

858 Jongtae Kim 형을 가정하고, 선형모형의 모수를 추정하기 위하여 로지스틱성장곡선함수와 로지스틱 지수평활함수를 사용하였다. 그러나 시계열 예측에 있어서 로지스틱 함수를 적용할 경우에 초기값에 큰 영향을 받는 것 으로 알려졌고 (김연형, 1994), 실제로

슬라이드 1

고객관계를 리드하는 서비스 리더십 전략

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

Microsoft PowerPoint - chap06-2pointer.ppt

슬라이드 1

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

Chapter 8 단순선형회귀분석과 상관분석

공휴일 전력 수요에 관한 산업별 분석


- 1 -

MATLAB for C/C++ Programmers

= ``...(2011), , (.)''

Microsoft PowerPoint - ANOVA pptx

세계 비지니스 정보

Transcription:

예측방법 목차 I. 개요 1 II. TIME PLOT 3 III. MOVING AVERAGE 이동평균법 5 IV. 지수평활법개요 7 V. ARMA 개요 0 VI. 계량경제회귀모형 40

시계열데이터분석 014 I. 개요 1. Hisory 17 세기에태양의흑점자료나밀가격지수변동을나타내는함수로 Sine, Cosine 곡선을이용하였다. Yule(196) 은 ARMA에대한개념을제시하였고 Walker(1937) 는 ARMA모형을제안하였다. ARMA 모형에대한추정은 Durbin(1960), 그리고 Box & Jenkins(1970) 에의해이루어졌다. Hol(1957) 는지수평활법 (exponenial smoohing) 을, Winer(1960) 는계절성 (seasonal) 지수평활법을제안하였다. 미국 Bureau of he Census 는경기지수에대한계절변동으로 1967 년 X-11을제안하였다. X-11 은이동평균개념을사용하므로초기관측치와마지막관측치를사용할수없는문제점을안고있어, 이에대한해결책으로 1975 년캐나다는 X11-ARMA 방법을제안하였다.. 시계열데이터시계열 (ime series) 데이터는관측치가시간적순서를가지게된다. 일정시점에조사된데이터는횡단 (cross-secional) 자료라한다. 전자주가, 기업월별매출액, 소매물가지수, 실업률, 환율등이시계열자료이다. { Y ; 1,,..., T} ( 분석목적 ) 가장중요한목적은미래값을예측 : rend analysis, smoohing, decomposiion, ARMA model 시스템시계열데이터이해와특성파악 : specrum analysis, inervenion analysis, ransfer funcion analysis ( 방법 ) frequency domain : Fourier 분석에기초, specrum densiy funcion ime domain : 자기상관함수이용, 관측값들의시간적변화탐색 1

시계열데이터분석 014 3. 시계열데이터 4 가지 componen { Y ; 1,,.., T} 경향 (Trend): 데이터가증가 ( 감소 ) 하는경향이있는지혹은안정적인지알수있다. 직선의기울기가있는가? 주기 (cycle): 일정한주기 ( 진폭 ) 마다유사한변동이반복된다. (sine, cosine 곡선 ) 계절성 (seasonaliy): 주별, 월별, 분기별, 년별유사패턴이반복된다. 불규칙성 (irregular): 일정한패턴을따르지않는다. Y Trend Cycle Seasonaliy Irregular 시계열형태 1whie noise process : 평균이 0이고분산이 인동일분포로부터독립적으로 (iid) 얻어진시계열데이터 { Y } 을백색잡음 (whie noise) process 라한다. 백색잡음데이터의평균 수준을 라하면이시계열데이터의모형은 만약 Y e 라쓸수있다. Y0 라하면 Y Y0 e1 e... e 가되며 { Y } 을 random walk process 라 한다. { Y } 는동일한분포를가지며서로독립이라는가정이다. saionary process : F ( y, y,..., ) (,,..., ) 1 y F y n 1 k y k yn k 이면시계열데이터 { Y } 를 srongly saionary process( 강한정상성 ) 이라한다. 일정한기간의종속변수 결합밀도함수는동일한분포를가진다는것을의미한다. 다음조건을만족하는시계열데이터 { Y } 는 weakly saionary process( 약한정상성 ) 라 정의한다. (1) 평균이일정하다. E ( Y ) () 분산이존재하며일정하다. V ( Y ) (0) (3) 두시점사이의자기공분산 (auo-correlaion) 은시간의차이에의존한다. COV ( Y, Y j ) COV ( Ys, Ys j ) ( j), forj s

시계열데이터분석 014 II. Time Plo 시계열자료 { Y ; 1,,.., T} 는자료가시간적순서를가지므로 Y축은 Y } 값, X 축을 시간이므로하여산점도를그릴수있다. 이를시간도표 (ime plo) 이라한다. - 시계열자료의구조를파악하는데도움이되며시계열분석의시작이다. - 시계열데이터 4가지성분진단가능 : 시각적도움 { 백색잡음 : Y e ~ N (0, ) 정상성시계열 : F ( y, y,..., ) (,,..., ) 1 y n F y 1 k y k y n k E( Y ), V ( Y ) (0) COV ( Y, Y j ) COV ( Ys, Ys j ) ( j), forj s - economerics ( 계량경제 ) : 종속변수의등분산가정체크 Example daa hp://lib.sa.cmu.edu/dasl/daafiles/birhraes.hml LOAD_DATA 013 년 10월 1 일부터 3개월간전력소비량 ( 일별 ) 측정한것이다. 최대기온, 바람세기, 일조량, 휴일여부도조사하였다. compress() 문자데이터공백없애기 subsr( 문자변수,s,l) 문자를 s부터시작 l 길이만큼가져오기 mdy() - 월 자리, 날짜 자리, 연도 자리 weekday() 요일, 1= 일요일, = 월요일, 3

시계열데이터분석 014 직선으로증가하는경향 (rend) / 1 주주기계절성 (seasonaliy) In R - ICECREAM.csv 아이스크림판매량, 가격, 소득, 온도 ( 주별데이터 ) 4

시계열데이터분석 014 III. Moving average 이동평균법 자신의 m 개관측치평균으로시계열자료 {Y } 의패턴인식가중치는 1/m으로동일하다. 이를이용하여미래값 {Y +1 } 예측한다. m MA 최근개자료 m Y Y Y Yˆ MA 1... m1 1, m m ( 다음 1기만예측가능 ) M 의결정일반적으로주기를 m으로놓는다. 주가의경우 5일 ( 단기 ), 0 일, 60 일 ( 중기 ), 10 일 ( 장기 ), 이동평균을주로사용한다 이동평균법특징 m 이클수록주기의영향은없어지고직선에가까워짐, Trend( 경향 ) 을보는데활용작은 m은단기예측, 큰주기 m은장기예측에사용주가예측에가장많이이용, 그러나예측보다는 ( 실제예측가능은다음 1기 ) 추세분석에가까움 ( 시계열데이터변형 ) 주기 5의이동평균법, sides=1 은이동평균법, sides= 는 lag 0을중심으로한양측이동평균법을의미한다. 5

시계열데이터분석 014 주기 m=7 우리나라 005 년 1월부터월별실업률 1 년치를찾아 3, 6, 1, 이동평균법추정치를하나의그래프에그리시오. 6

시계열데이터분석 014 IV. 지수평활법개요 o 모든관측치에동일한가중치를부여하는이동평균법과는달리최근관측치에높은가중치, 멀어질수록지수적으로가중치값감소 o 이동평균법 ( 동일한가중치로평활하여계절성분, 불규칙성제거하여추세명확하게 ) 은분해법에서계절조정을하는데주로사용하며, 지수평활법은예측에사용 1. Simple Exponenially Smoohing 단순지수평활법 o 단순지수평활법은경향이나계절성이없을때사용한다. ( 가중평균 weighed mean) o 평활가중치값의설정이다소주관적이나, 계산이간편함상수모형 Y 0 : 사인곡선, 시간추세없음 시간변동모형 Y 0, Locally 동일한평균을가지나 globally 평균차이보임 예측치 ( 추정치 ) 및추정오차 다음차기 Y 1 의예측치는 S 에의해추정된다. Yˆ 1 S wy (1 w) S1 ---1 (a) S 는 시점에서평활된값이고가중치 0 w 1 (b) 이전값이계속필요한것이아니라최근값과평활값만으로예측이갱신 (c) 추정오차 : e Y Yˆ (d) 다음차기하나만예측가능 식 1을시계열데이터 { Y } 지수평활법이라한다. 표시하면다음과같으므로가중치가지수적으로감소하여이를 ˆ Y S wy w(1 w) Y w(1 w) Y... --- 가중치의합은 1이다. 1 1 7

시계열데이터분석 014 단순지수평활통계량 S 활용 1) Y 1 예측치 ) 0, 의추정치 3) Y 1 예측이므로 예측치인 S 의신뢰구간은가중최소제곱법의특수한경우가지수평활법 초기치평활값선택 초기평활값 T yi S i1 0 이고일반적으로 T 6 혹은 T n / 을사용한다. T 가중치결정이제가중치를결정하는문제를생각해보자. 일반적으로지수평활법은현재에가까운관측치에높은가중치를주기위하여 0.05에서 0.3 사이의값을준다. ( 다른측면에서보면 가시간에따른변화가느리기때문이다 ) 그럼어떤값이가장적절할까? ( 가중치범위 ) 클수록최근관측치영향이크다. 일반적으로 0.05와 0.3 사이의값 SAS 의 defaul값 : 1-0.8^(1/rend) Mongomery and Johnson (1976) 가중치선택 : 모형적합정도를나타내는통계량을이용하여 rial and error 방법으로어떤가중치가좋은가를판단하는기준은많으나가장많이사용되는것은다음과같다. 최적 ARIMA : 데이터에 ARIMA(0, 1, 1) 모형을적합시켜계산하는기본가중치를사용주관적 : 가중치값이크면최근관측값반영이크므로예측변동이심하며, 가중치값이 w 작으면예측변동이완만하다. 이동평균법 M (m=7인경우 0.5가적절 ) w 시계열모형적합도 관측치 Y 와예측치 Ŷ 차이로측정, 작을수록적합정도높음 8

시계열데이터분석 014 -MAPE (Mean Absolue Percen Error): 평균절대퍼센트오차 -MAD (Mean Absolue Deviaion): 평균절대편차 -MSD (Mean Squared Deviaion): 평균제곱오차 -SSE(Sum of Squared Error): 오차제곱합 -MSE(Mean Square predicion Error): 평균오차자승 T ( y ˆ ) / MAPE y y 1 100 T SSE MSE ( Y ˆ ) Y ( Y Yˆ ) T MAD MSD T y yˆ 1 T T ( y 1 T yˆ ) LOAD_DATA 013 년 10월 1 일부터 3개월간전력소비량 ( 일별 ) 측정한것이다. 이를이용하여향후 1 주일전력소비량을예측하시오. lead=7 미래 7 개관측값을예측 / rend=1 단순지수평활법 ou=pred 예측결과를저장하는 SAS 이름 oufull 의의미는현재주기관측값도예측하라는의미 / ouse=es 추정내용, 모형적합도관련내용저장 weigh 옵션을사용하지않는경우 10.8 / 사용 단순지수평활법은 lead=1 까지만예측가능, 그이후에는 lead=1 의관측치가없음 9

시계열데이터분석 014 symbol 문장은시간도표의점들의속성지정, i=inerpolae ( 보간법 ) 옵션으로 join 은직선연결이고곡선연결은 spline, 연결을원치않으면 none v=value 점에대한것으로 circle 은동그라미, do 는점 10

시계열데이터분석 014 Hol Winers Exponenial Smoohing Simple Exponenial : S Y ( 1 ) S1 11

시계열데이터분석 014 Double Exponenial : rend only G ( S S 1 ) (1 ) G1 Triple Exponenial : rend and seasonaliy R ( Y R ) (1 ) R L 승법모형 muliplicaive 사용 : 계절성이추세와함께변동이있을때 가법모형 addiive 사용 : 계절성이추세에관계없이일정할때 우리나라가전제품 (anyhing) 월별판매량을데이터 (005 년 1 월 ~) 찾아 이동평균법, 단순지수평활법으로다음월의판매량을예측하시오. 그리고향후판매량의 추이를해석하시오. 4. Double Exponenially Smoohing 시간추세모형 Y 0, 1, --- (a) Locally 동일한평균을가지나 globally 평균차이보임 1 은추세기울기 단순지수평활법적용 E( Yˆ j j 1) E( S ) w (1 w) Y j w (1 w) ( 0, j0 j0 1 0, 1, ( 1) 1, w 1, ( j)) 불편추정량 1

시계열데이터분석 014 이중지수평활법 단순지수평활값을평활하여얻음 S [1] wy [1] ( 1 w) S 1 [1] [] 1 (1) () S [] ws ( 1 w) S 1 w (1 w) j S (1 w) n j S 0 0 Hol 제안 ( 일모수이중지수평활법 ) [ 1] S [1] w1y (1 w1 ) S 1 (1) [ ] S [] ws (1 w ) S 1 추정치 (1) () Yˆ S S L 기이후예측치 ˆ w (1) w () Y L ( L) S (1 L) S 1 w 1 w () 초기치 S (1) 0,S 0 선택 수식 (a) OLS 추정치 => ˆ ˆ 0,0, 1, 0 을이용하여가중치 w 선택 S S ( 1) 0 ( ) 0 ˆ ˆ 0, 0 0, 0 1 w ˆ 10, w 1 w ˆ w 10, Brown (196) 0.03~0.16 권장 - 일반적으로이범위를벗어나는값들이선택된다. 이중지수평활은각기간에서의수준성분과추세성분을사용합니다. 또한두개의가중치또는평활화모수를사용하여각기간의성분을업데이트합니다. 이중지수평활방정식은다음과같습니다. L Y (1 )( L 1 T 1) T [ L L 1] (1 ) T 1 Yˆ L 1 T 1 여기서 L 는시간 에서의수준성분이고 는수준성분에대한가중치입니다. T 는시간 에서의추세성분이고 는추세성분에대한가중치입니다. Y 는시간 에서의데이터값이고 Yˆ 는시간 에서의적합치또는한단계전예측값입니다. 13

시계열데이터분석 014 최적 ARIMA 가중치 Miniab 에서는오차제곱의합을최소화하기위해데이터에 ARIMA(0,,) 모형을적합 시킵니다. 추세성분과수준성분이후방예측을통해초기화됩니다. 14

시계열데이터분석 014 Hol Winers Exponenial Smoohing Simple Exponenial : Yˆ 1 S Y (1 ) S1 Double Exponenial : rend only Yˆ 1 G ( S S1) (1 ) G1 Triple Exponenial : rend and seasonaliy Yˆ 1 R ( Y R ) (1 ) R L 여러분우리나라가전제품 (anyhing) 월별판매량을데이터 (005 년 1월 ~) 를이중지수평활법으로다음 6개월판매량을예측하고해석하시오. 15

시계열데이터분석 014 5. Triple Exponenially Smoohing 시간추세모형 Y 0, 1,, / --- (b) 1, 0, 1, 은추세기울기 삼중지수평활법 의추정치는식 (b) 의 OLS 추정치 단순지수평활값을평활하여얻음 S [1] wy S [] ws [3] [1] ( 1 w) S 1 [1] [ ] (1 w) S 1 [] [3] 1 S ws (1 w) S (1) () (3) S 초기치 0, S 0, S 0 선택 - 수식 (b) OLS 추정치 ˆ 0,0, ˆ ˆ 1,0,, 0 을이용하여 얻음 추정치와 L 기이후예측치 - 이전과동일한절차 가중치 w 선택 : Brown (196) 0.0~0.11 권장 16

시계열데이터분석 014 rend 가직선의경향이있으므로이중지수평활법의모형적합도 (MAPE, MSE) 가가장높음 삼중지수평활법함수는없음. 그러므로차분한데이터에이중지수평활법을적용하면된다. 17

시계열데이터분석 014 6. Winers 계절지수모형 o 추세와계절성이있는경우활용 o 분산이시간의흐름에따라일정하면 => 가법계절모형 addiive seasonal model o 분산이시간의흐름에따라변동하면 => 승법계절모형 muliplicaive seasonal model 가법계절모형 addwiners 모형 Y 0 1 S o 0 : 고정성분 o 1 : 추세선형기울기 o S : 가법추세성분 ( 전체평활 ), *) L 은계절주기임 ( 추세요인평활 ) ( 계절성분평활 ) 승법계절모형 winers 방법 Y ( 0 1) S ( 전체평활 ) ( 추세요인평활 ) ( 계절성분평활 ) seansons 옵션 계절성에대한지정, DAY- 주주기, Monh- 년주기, HOUR- 일주기, QTR 분기주기 mehod 옵션 가법모형은 ADDWINTERS, 승법모형은 WINTERS 지정함 18

시계열데이터분석 014 seasons 옵션설정하지않으면 mehod=addwiners ( 혹은 winers) 설정하여도일반지수평활법추정함. 승법모형과가법모형지정은시간도표를보고관측값의분산이커지는 ( 주기의폭이넓어지거나좁아지면분산이일정하지않음 ) 경향을보이면승법모형을적용함. 실제추정에서는두방법모두적용해보고모형적합도가높은방법적용 (addwiners) (winers) 여러분우리나라가전제품 (anyhing) 월별판매량을데이터 (005 년 1월 ~) 를 Winers 평활법으로향후 6개월판매량을예측하고해석하시오. 19

시계열데이터분석 014 V. ARMA 1. 개요 o George Box, Gwilym Jenkins 제안한시계열모형 o 시계열데이터는 (Trend + Cycle + Seasonaliy + Irregular) 성분이있에 (1) 설명변수설정이용이하지못하거나 (){ Y } 에대한예측을위하여 ( 시계열데이터분석의주요목적 ) 설명변수에대한예측치 ( X ) 가있어야하는문제가있고 (3) 독립성가정을만족하지못해이문제를해결하는어려움이있어회귀모형에의한분석보다는관측치의이전관측치를활용하는방법이제안 o ARIMA(Auo-Regressive Inegraed Moving-Average) 모형은시계열데이터 { Y } 의 과거치 (previous observaion) { Y 1, Y,...} 가설명변수인 AR과과거관측치가설명하지 못하는부분에해당되는오차항 ( e 1, e,...) 들이설명변수인 MA, 차분을나타내는 inegrae 의합성어이다. AR 모형은아래가설에의해제안되었다. 과거의패턴이지속된다면시계열데이터관측치 Y 는과거관측치 Y1, Y, Y p,... 에의해예측할수있을것이다. 어느정도의멀리있는과거관측치까지이용할것인가? 그리고멀어질수록영향력을줄어들것이다. 이런상황을고려할수있는가중치를사용해야하지않을까? Backshif Noaion B ( Y ) Y 1, B ( Y ) Y,, B ( Y ) Y p p. ARMA 모형적합절차 시계열데이터수집 모형식별 idenificaion 데이터안정성진단 상관함수활용, p, q, d 결정모형추정 esimaion : 계수추정 모형진단 diagnosis : 계수의유의성및잔차의백색잡음 예측모형활용 0

시계열데이터분석 014 3. Process whie noise process 평균이 0 이고분산이 인동일분포로부터독립적으로 (iid) 얻어진시계열데이터 Y } 을 백색잡음 (whie noise) process 라한다. 백색잡음데이터의평균수준을 라하면이 시계열데이터의모형은 만약 Y e 라쓸수있다. Y0 라하면 Y Y0 e1 e... e 가되며 { Y } 을 random walk process 라한다. { Y } 는동일한분포를가지며서로독립이라는가정이다. whienoise.es {normwhn.es} => whienoise.es(x) { saionary process ( 정상성 ) F( y, y,..., y ) F( y, y,..., y ) 이면시계열데이터 Y } 를 srongly saionary 1 n 1 k k n k process( 강한정상성 ) 이라한다. 일정한기간의종속변수결합밀도함수는동일한분포 시계열데이터 { Y } 의 weakly saionary process( 약한정상성 ) 라정의한다. (1) 평균이일정하다. E ( Y ) () 분산이존재하며일정하다. V ( Y ) (0) (3) 두시점사이의자기공분산 (auo-correlaion) 은시간의차이에의존한다. COV( Y, Y j ) COV( Ys, Ys j ) ( j), forj s 정상적 saionary 확률모형 ( 시계열데이터 { Y } 는확률변수 ) 의대표적인것이 AR, MA, ARMA 모형이다. { 4. 상관함수 Correlaion Funcion 자기상관함수 Auo Correlaion Funcion (ACF) 자기상관함수 (ACF) 는다음과같이정의한다. ( j) Cov( Y, Y j ) ( j) 그러므로 ( 0) 1, ( j) ( j) (0) VAR( Y ) 1

시계열데이터분석 014 부분자기상관함수 Parial Auo Correlaion Funcion (PACF) o 두변수 (X, Y) 의상관관계를시간의효과를제거한후구한순수상관관계 XY. Z E( X E( X Z)) E( Y E( Y Z)) E( X E( X Z)) E( Y E( Y Z)) Z->X 장차와 Z->Y 잔차의상관계수 o 시계열분석 : ( Y 1, Y k 1 ) 의효과제외한 ( Y, Y k ) 의순수상관계수 k 을부분자기상관계수, 즉 ( z, z k Corr Y Y k ) (1) (1) 1 (1), 1 (1),, ( k 1) k, j( k 1 k 1 k, j( j) j) 역자기상관함수 Inverse Auo Correlaion Funcion (IACF) ARMA(p, q) 모형의 IACF 는 ARMA(q, p) 의 ACF 이다. 그러므로 AR(p) 의 IACF 는 MA(p) 의 ACF 와같고 MA(q) 의 IACF 는 AR(q) 의 ACF 와같다. 5. AR(p) 모형 AR(1) 모형 : Y a Y 1 e, e ~ iid N(0, ) o Markov process : 1 saionary 프로세스 o 만약시계열데이터가서로독립이고유한인평균과분산을갖는동일분포를따르면 (iid) 이데이는 whie noise( 백색잡음 ) 이라한다. 만약평균이 0, 분산이 인정규분포를따른다면이를 Guassian whie noise 라한다. { Y } 대신 { Z } { Y } 를사용하기도하는데 이는평균을 0 으로하기위함이다. o 는시계열데이터의총평균 (grand mean) 에해당된다.

시계열데이터분석 014 평균 E( Y ) a E( Y 1) => a 1 분산 V ( Y ) (0) => V ( Y ) (0) 1 자기상관함수 AR(1) 모형을이를다시쓰면다음과같다. 즉 AR(1) 모형이더라도과거의흔적을모두 모함하고있다. Y μ e 3-1 e 1 e e3... e1 ( Y o μ) 그리고 1 (saionary) 이면, 자수적감소 ( MA( ) 모형 : Y e e e e... 1 1 3 3 j0 e j j j ( j ) COV ( Y, Y j ) σ /( 1 ) => (ACF) ( k) k 지수적으로감소 3

시계열데이터분석 014 부분자기상관함수 o 1 차이후회귀계수가 0 이므로 1 차 PACF 는 1 이고, 차부터이후는 0 이다. ( 추정 ) AR(1) Uni-Roo 검정 AR(1) 모형을갖는시계열데이터의경우 UNIT roo 문제는 ( Y Y 1, 1) 임을의미한다. Uni-roo 갖는데이터는안정적이지못하므로모형설정의의미가없다. es 방법 : augmened Dickey-Fuller 검정방법, Phillips-Perron 검정방법등이있음 4

시계열데이터분석 014 ( 단일근검정 ) Saionariy ( 정상성 ) AR 모형Y u p α1y 1 αy... αpy p e 은 1 α1m α M... α p M 0 만족하는근들의절대값이모두 1 보다클경우 saionary 하다. 정상적인 AR(p) 모형은 MA( ) 모형으로변환할수있음을의미 정상적인 process 인경우 의방정식을 { Y } 는 e, e1, e,... 으로표현할수있으며, { Y } 에대한 e, e1, e,... 들의영향은시점이멀어질수록줄어든다. 그러므로 Y1 에대한예측치를구할경우 e0 0 으로사용해도무방하다. AR( p ) 모형 : Y... 1 Y 1 Y py p e, e ~ iid N (0, ) 5

시계열데이터분석 014 o 설명변수의개수 p 개 o AR( p ) 도 MA( ) 모형으로쓸수있으므로정상적인 AR(p) 의자기상관함수는지수적으로감소하며, 부분자기상관함수는 p차이후부터 0이다. 자기상관함수 Saionary 시계열데이터의 AR(p) 의 ACF는 AR(1) 과동일하게지수적으로감소한다. 자기상관함수 (k) 는 Yule-Walker 방정식에의해구한다. (complicaed) 부분자기상관함수 o k k for k p o p 차부터이후는 0 이다. AR() 모형대하여, saionary 진단, whie noise 진단 whienoise.es(x) 관측치 100 개생성하고, 자기상관함수 3 차까지추정하시오. 그리고 saionary 검정하시오. 모형 ACF ( 이론 ) PACF ( 이론 ) 1 차 차 3 차 Y Y 0.7Y 1 e j ( j) 0. 7 0.7 0 0 0.7Y 1 e j ( j) ( 0.7) -0.7 0 0 Y Y 0.3Y 1 0. 4Y e 0.7Y 1 0. 49Y e ( 1) 0.5 ( j) 0.3( j 1) 0.4( j ) 0.3 0.4 0 ( 1) 0.4698 ( j) 0.7( j 1) 0.49( j ) 0.7-0.49 0 6

시계열데이터분석 014 6. MA(q) 모형 MA(1) 모형 : Y e β1e 1, ~ iid N (0, ) o 평균은 0 이다. e o ( 0) V ( Y ) (1 β 1 ) σ, o ( ) (3) (4)... 0 ( 1) COV ( Y, Y 1) β1σ, 자기상관함수 ( ) 1 0 ( 1 1 ), ( 1) : 1차이후 0이다. 1 1 부분자기상관함수 o inveribiliy 에의해 AR() 로변환가능하다. o k 1 ( 1 ) k 1 1 ( k1) 1 Inveribiliy q Y e β 1e 1 βe... βqe q MA(q) 모형에서 1 β1m β M... β q M 0 의 방정식을만족하는근들의절대값이모두 1 보다클경우 MA 모형은 Inveribiliy 하다. 이 말은 AR( ) 모형으로변환할수있다는것이다. { Y } 를 AR( ) 로표현할수있으며, 즉 Y1, Y,... 들로표현되며 { Y } 에대한 Y1, Y,... 들의영향은시점이멀어질수록줄어든다. 7

시계열데이터분석 014 자기상관함수 MA(1) wih 1 0. 7 : V ( Y ) (1 1 ) Cov( Y, ) 0.7, (1) Y 1 0. 47 V ( Y ) 1 0.49 차부터 0 이다. ( ) (3)... 0 부분자기상관함수 MA(1) 가 inveribiliy 하면, 1 0. 47 MA(q) 모형 : Y e β 1e 1 βe... βqe q, e ~ iid N(0, ) o 과거오차항 e 1, e,... 의미 : 이전관측치 Y 1, Y,... 에포함되어있지않은정보 o 시계열데이터 { Y } 에서시점 의관측치 Y 가과거오차 e 1, e,..., eq 들에의해 설명될때 MA(q) ( 차수가 q 인 Moving-Average 이동평균 ) 모형을따른다고한다. o MA( ) 모형은언제나정상적 (saionary) 이다. 자기상관함수 8

시계열데이터분석 014 k 1k 1... qk q o ( k) 1 1... k, k q o ( q 1) ( q )... 0, q 차이후 0이다. 부분자기상관함수 o inveribiliy 에의해 AR() 로변환가능하다. 그러므로 MA(q) 모형의 PACF는 Inveribiliy 조건하에서지수적으로감소한다. 시뮬레이션 모형 ACF ( 이론 ) Y 0.8e 1 e ( 1) 0. 4878, ( j) 0, j Y e (whie noise) ( 0) 1, ( j) 0, j 1 PACF ( 이론 ) 1 차 차 3 차 0.49-0.31 0. 0 0 0 Y 0.3e 1 0. 4e e ( 1) 0. 144, ( ) 0.3-0.14-0.35-0.13 7. ARMA(p, q) 모형 ARMA(p,q) 모형 : Y e β1 e 1... βqe q 1Y 1... py p, e ~ iid N(0, ) o AR 모형과 MA 모형의결합이다. 그러므로 AR(), MA() 로표현될수있음. o 일반적으로 (, ) 가최대 자기상관함수 (acf) 부분자기상관함수 (pacf) 지수적으로감소 시뮬레이션 모형 ACF ( 이론 ) PACF ( 이론 ) 9

시계열데이터분석 014 Y 0.6Y 1 0. 4e 1 e 1 차 차 3 차 ( 1) 0.7561 ( j) 0.6( j 1) 0.7561-0,76 0.109 VI. 차분 Difference ( 계절성및추세성분 ) o ARMA 모형은시계열데이터중사이클 (cycle) 성분에대한패턴을표현하게된다. o 물론불규칙 irregulariy 성분은오차항으로커버한다. o 그럼추세 rend, 계절성 seasonaliy 성분은어떻게하지? 차분이답이다. o 차분은추세나계절성성분을제외시키는효과가있다. o 차분에의해추세나계절성성분을제외하면주기와불규칙성분만남아수평상태로사이클만존재하게된다. 정의 1 차차분 : Y * Y Y Y1 => 직선추세성분해결 차차분 : Y * * Y Y 1 => 이차형식추세성분해결 d 차차분 : ( Y Y d ) => 주기 d 계절성성분 차분필요성진단 o PACF 에서차분이필요한주기에서 Peak 가발생하며, ACF 는지수적으로감소 30

시계열데이터분석 014 ARMA 모형진단표 AR(p) MA(q) ARMA(p, q) ACF T D(q) T PACF D(p) T T IACF D(p) T T *) T: Tail off exponenially 지수적으로감소 *) D(p): Drop off afer p 차수 p 이후 0의값 VII. ARMA 모형적합절차 () 1) 시간도표 (1) 주기, 계절성확인 ( 실제진단은상관함수이용 ) => plo() 함수 () 안정성 saionary process (a) 평균의이동 => 평균이이동하는경우에는시계열데이터분리하여모형적합 (b) 분산의크기변동 주기의폭이변함 => 분산안정화, LN 혹은제곱근 (SQRT) 변환 ) 모형적합가능성진단 (1) whie noise 데이터는모형적합불가 => whienoise.es 함수 MN es value 검정통계량 유의확률 k ( j) () 또다른백색잡음검정수정 Ljung Box-Pierce Q 통계량 n( n ) ~ ( k). Q- j1 ( n j) => Box.es(ype= Ljung-Box ) 검정 (3) uni roo ( 단일근 ) 검정 => pp.es() 함수 시계열데이터의안정성 saionary 31

시계열데이터분석 014 3) 모형진단 ACF, PACF 활용하여 (p, q, d) 결정 4) 모형추정회귀계수추정 => arima() 함수 mehod = c("css-ml", "ML", "CSS") maximum likelihood / minimize condiional sum-of-squares. 5) 모형적합성 (1) 회귀계수의유의성검정 () 잔차의백색잡음 Ljung Box-Pierce Q 통계량 : 오차의분산추정량인잔차 r Y Yˆ 차분이필요한경우잔차가백색잡음형태가아니라 AR 시리즈데이터 PACF 가짐 6) 예측모형활용 (1) 여러모형중가장적합한모형 : AIC, SBC 작은값의모형이더적합 o AIC (Akaike Informaion Crierion) AIC log ˆ e ( p q) o SBC (Schwarz Bayesian Crierion) SBC n log ˆ e ( p q) log( n) ˆe 은오차의분산 의추정치로 MSE 이다. () 향후필요한주기까지최종모형을활용하여관심변수예측값추정 3

시계열데이터분석 014 1) 시간도표 ICECREAM.csv (1) 추세는선형을보인다. / 주기 13 의계절성을보인다. () 평균이동이나분산변동은보이지않음 => 데이터분리하여분석하거나분산안정화변환필요없음 ) 모형적합가능성진단 (1) whie noise 검정 (1) 귀무가설 : 시계열자료는백색잡음이다. 유의확률이 0.01% 이므로귀무가설이기각되어시계열데이터는백색잡음 (no paern) 아니므로 ARMA 모형적용이가능하다. () whie noise 검정검정 () 33

시계열데이터분석 014 => 동일한결론 (3) uni roo ( 단일근 ) 검정 => pp.es() 함수 시계열데이터의안정성 saionary 3) 모형진단 o AR(1) 이적절해보인다. 문제는 ACF 주기 5~8 에서유의한모습을보인다. o 만약 AR(1) 모형이적합하다면실제로는지수적으로감소하여유의한선아래로떨어짐 o PACF 주기 (3, 14) 에 peak 가발생하는것으로보임, 차분이필요? 34

시계열데이터분석 014 4) 모형추정 회귀계수추정 => arima() 함수 mehod = c("css-ml", "ML", "CSS") maximum likelihood / minimize condiional sum-of-squares. o AR(1) 추정결과 : IC 0.39 0.8679IC1 5) 모형적합성 (1) 회귀계수의유의성검정 o IC1의회귀계수는유의하므로 AR(1) 모형은적절하다. () 잔차의백색잡음 Ljung Box-Pierce Q 통계량 : 오차의분산추정량인잔차 r Y Yˆ 35

시계열데이터분석 014 o 잔차는유의확률기준선을벗어나므로백색잡음이아님 => 모형설정잘못 o 잔차의백색잡음검정 (Ljung-Box 방법사용 ) 결과주기가 13 이후 whie noise 경향에서벗어나고있음 => AR(1) 모형설정에문제가있음, 차분이답이다. ( 이런계절성이문제 ) o 이런이제는단일근문제가발생한다. 36

시계열데이터분석 014 o 그러므로 1 차차분이필요하다. => 그런후 MA(1) 모형적용 Y ( Y Y 1) ( Y Y 13) 0. 9081e 1 6) 예측모형활용 (1) 여러모형중가장적합한모형 : AIC, SBC 작은값의모형이더적합 o AIC (Akaike Informaion Crierion) AIC log ˆ e ( p q) o SBC (Schwarz Bayesian Crierion) SBC n log ˆ e ( p q)log( n) ˆe 은오차의분산 의추정치로 MSE 이다. () 향후필요한주기까지최종모형을활용하여관심변수예측값추정 37

시계열데이터분석 014 38

시계열데이터분석 014 ( 단일근검정 ) 39

시계열데이터분석 014 IX. 계량경제회귀모형 1. 개념 y i x x... x e 0 1 1i i p pi i, i 1..., n ( 가정 ) e i ~ iidn(0, ) ( 독립성 : 시계열데이터 ) ( 정규성 ) ( 등분산성 ) 행렬 y X e, e ~ MN(0, I) 그러므로 E( y) X, V ( y) I 추정 : OLS 구하기 min e i min e' e min( y X )'( y X ) Q ( y X )'( y X ) y' y y' X ( X )' y ( X )' X Q ( X ' X ) X ' y X ' y 0 ˆ ( X ' X ) 1 X ' y when ( X ' X ) 1 exis ( X ' X ) 1 가존재한다는의미 X ' X 가 full rank 설명변수들의상관계수가 1인경우는없거나다른설명변수의선형결합으로임의의설명변수가표현될수없음 40

시계열데이터분석 014 분산 추정량 E( y X ) => SSE ( y X ˆ)' ( y X ˆ) y'[ I X ( X ' X ) 1 X '] y SSE y' y ˆ ' X y (easy form) SSE MSE ˆ (Mean Square of Errors : 평균자승합 ) ( n k 1) 성질 : E( SSE) ( n k 1) => 그러므로 ( SSE E ) ( n k 1) 분산분석적접근 SST ( yi y) ( yi yˆ i yˆ i y) ( yi yˆ i ) ( yˆ i y) SSE SSR SSR ˆ X ' y n y 결정계수 Muliple Deerminan Coefficiens : R SSR SST 설정된설명변수가종속변수의총변동을 (SST) 설명하는정도로모형의설명력 0 R 1, 일반적으로 70% 이상이면적절한설명변수선택하였음. 예제데이터 Icecream Daa 종속변수 Y : 아이스크림소비량 소비량 설명변수 X : ( 가격, 소득, 온도 ) 가격 (-) 온도 (+) 소득 (+) 41

시계열데이터분석 014 3. 회귀분석순서 순서 1: 산점도행렬그리기 ( 이상치, 영향치존재 ) ( 유의한변수사전진단 ) 순서 : Model 추정 o 가격변수유의하지않음 4

시계열데이터분석 014 순서 3 : 변수선택이유적은정보로동일한수준의정보를얻음종속변수의변동을설명하는정도가낮은설명변수는삭제 가정적절한방법수작업 backward => 유의확률이가장높은 ( 설명력이가장낮은 ) 설명변수순으로하나씩제거하면서일정수준의유의확률 (10%) 이하인설명변수만남을때까지 ( 후진제거 ) 모든설명변수를고려한모형에서유의하지않은설명변수를하나씩제거하는방법이다. ( 전진삽입 ) 고려된설명변수중설명력 ( 종속변수와상관관계가장높음 ) 이가장높고설명력이유의하면변수를선택한다. ( 단계삽입 sepwise) Forward 방법과유사하지만한번선택된설명변수에대해서는유의성검정을다시실시한다는점이다르다. SSR SSE p p R p 1 결정계수 ( SST SST ) R p 는설명변수들의설명력의정도를나타내는수치이므로변수선택의지표가된다. 설명변수의수가같은경우어떤변수그룹이설명력이높은가를쉽게알아보는사용할수 있다. 또한 R p 는설명변수의수 ( p ) 가증가할때마다항상증가 수정결정계수이용 R adj SSE p /( n p 1) 1 SST /( n 1) 수정 (adjused) 결정계수 증가 ) 을해결하였으므로 R adj 는 R p 의문제점 ( 유의하지않은설명변수가삽입되어도항상 R adj 값이가장큰설명변수그룹을선택하면된다. 43

시계열데이터분석 014 순서 4 : 다중공선성 설명변수들간높은상관관계로인하여 X ' X 0 이되고 ( X ' X ) 1 의값이불안정 추정회귀계수 ( X ' X ) 1 X ' y 와그의분산 MSE ( X ' X ) 1 이불안정해져추정회귀계수의 부호까지바뀌는문제발생한다. 진단방법상관계수이용 o 상관계수의부호와회귀계수의부호가다른경우다중공선성문제발생 o 산점도행렬의기울기부호와추정회귀식의부호가일치하므로문제없음 VIF 분산팽창지수 Variance Inflaion Index 1 o VIFk R 1 R k 는설명변수 k 하여계산된결정계수 X k 를종속변수로하고나머지다른변수들을설명변수로 44

시계열데이터분석 014 o 일반적으로 3 이상 ( 어떤이는 10 이상 ) 이면문제 o 두변수간 (pairwise) 문제를발견하지못하는문제가있다. 여러설명변수가동시에 고려되므로... 이에대한보완으로상태지수가있음. 해결방법 o 문제가되는설명변수중하나삭제 o 주성분변수활용 순서 5 : 잔차진단 오차가정진단 (1) 정규성, 등분산성, 선형성 o 등분산가정무너짐 : 종속변수로그변환 o 설명변수이차항? 산점도행렬에서사전진단가능 45

시계열데이터분석 014 () 독립성 ( 다음시간 ) 오차의독립성은 Durbin and Wason(1951) 통계량의의해검정한다. DW 통계량은오차 자기상관존재여부를판단한다. e e 1, ~ iidn (0, * ) 자기상관이존재한다는것은 회귀계수 가 0 이아니라는것이다. 다음은자기상관을검정하는 DW 검정통계량이다. DW n ( ei e i n ei i1 i1 ) 만약자기상관이존재하지않으면 DW 는 에근사한다.(why? DW 검정통계량에 e 1 을넣고 0 으로해보자 ) 임계치 DL 과 DU 는자료의개수와설명변수의 e 개수 p 에의존하며표가따로주어진다. 만약그렇지않으면귀무가설기각한다. D L DW D 이면귀무가설채택한다. U DW 검정통계량에대한유의확률이주어지지않으므로표를찾아야하는번거로움이있다. 오차의자기상관계수 ( Corr ( e, e 1) ) r 과 DW (1 r) 의관계가있으므로오차 ( 잔차, 오차의 추정치 ) 의자기상관계수를이용하여독립성을검정할수있다. DW 통계량표는 강의노트에서다운받기바란다. 다음은그일부분이다. p 는설명변수의개수이다. ( 0, D L ) ( D L, DU ) ( DU,4 DU ) ( 4 DU,4 DL ) ( 4 D L, DL ) 귀무가설기각 양의자기상관 미결정 H 0 기각도채택도하지않음 귀무가설채택 자기상관없음 미결정 H 0 기각도채택도하지않음 귀무가설기각 음의자기상관 데이터 ( n 30, p ) DW 통계량은 1.003이었는데 DW-통계표에서 ( D L 1.13, D 1.6) 이므로오차의자기상관이존재한다. ( 0, D ) 사이에있으므로양의자기상관이존재한다 L U 46

시계열데이터분석 014 순서 6 : 영향치 / 이상치진단 ( 이상치 ) 는종속변수와설명변수의선형관계식에서멀리떨어진관측치 (Y-축기준 ), 삭제함을원칙으로함 ( 영향치 ) 는선형모형에영향을주는관측치, 다른관측치와설명변수범위면에서 (X-축기준 ) 떨어진관측치 : 결정계수를높이는역할, 실제사이설명변수구간의관측치를더수집한후결과를냄 종속변수 Y 설명변수 X 잔차 residual ri yi yˆ i o 관측치와추정치의차이 : 오차의추정치 r eˆ y yˆ ( I H ) y o ( z) ( I H ) => 추정치 ˆ ( z) s ( z) MSE( I H ) o ha 행렬 : H X '( XX ) 1 X => 대각원소 hii 스튜던트잔차 (Sudenized Residual) : 이상치진단 ri yi yˆ i MSE /1 hii ' 1, hii xi ( X X ) xi -분포를따르는통계량으로만든것으로 이면이상치 ( 혹은영향치 ) 로판단하게된다. 영향치진단통계량 : Leverage h ii H X ( X X ) 1 X 의대각원소 H 행렬대각원소 h ii 는 i 번째관측치가설명변수들의중심점으로부터얼마나떨어져 있는가를나타낸다. 47

시계열데이터분석 014 COV Raio CovRaio MSE( i) MSE ( X ) 1 ( i) X ( i) X X ) 1 ( i- 번째관측치를제외했을때추정치의분산이커진다면이관측치는회귀선상에있고다른 관측치와떨어져있을것이다. 기준값은일반적으로 Leverage 값도크다. CovRaio 1 3( p 1) / n 이며이값이크다면 Cook s Disance Ci n ( Yˆ j. f j1 Yˆ j( i) ) ( p 1) MSE Leverage 통계량은설명변수들간의관계만으로영향치를판단하지만 Cook s 거리통계량은 추정회귀모형에서판단된다. 1 번째, 30 번째관측치는이상치, 영향치없음. 48

시계열데이터분석 014 49

[ 예제 ] 014 년 I. 일별 Daily 예측모형 Time Plo (Daily) ( 시각적판단 ) 1) Trend 009~, 010~ ime plo 에는직선증가경향 (linear rend) 여전히존재하는것으로보임. ( 시각적판단 ) 011~ ime plo 역시직선증가경향이보임. ) 이분산문제 ime plo 을보면문제가없음. 3) saionary 검정 Augmened Dickey-Fuller 검정 => 3 시계열모두 Saionary 한남대학교통계학과권세혁교수 (50)

[ 예제 ] 014 년 D-1. 비계절형 ARIMA model (Daily) ARMA(7,1,0)(0,1,0)7 0. 시계열데이터 1) 분석활용데이터 : 011.01.01~013.1.31 (3 년일별전력수요량 ) ) saionary 정상성 정상적시계열데이터만 ARIMA 적용가능함. 유의확률 =0.99 로 011.01.01~ 시계열데이터는 saionary 함. ; 1. 모형진단 1) 원시계열 Y ACF, PACF 활용 ACF: 선형적으로감소하다가증가, 주기 7 에의한 peak 발생 PACF: 주기 7 까지증가하다가 peak 발생 결론적으로주기 7 에의한차분후 ARMA(p,q) 모형이적절해보임 한남대학교통계학과권세혁교수 (51)

[ 예제 ] 014 년 ) 1 차차분 Y(1) ACF, PACF 함수 ACF: 주기 7 에의한 peak 발생 PACF: 주기 7 까지증가하다가 peak 발생 결론적으로주기 7 에의한차분이한번더필요함.. 전력수요 (1,7) 데이터 ARMA 모형추정 1 차차분후, 주 s=7 차분 :, ACF s=7, PACF s=7, 14, 1 에 peak 가존재함전력수요 (1,7) 시계열데이터 acf( 주기 =7 에서 peak), pacf( 주기 =7, 14,.. peak) 함수아래와같으므로비계절형 ARMA 모형은계절형 ARMA 모형적합이적절함. 한남대학교통계학과권세혁교수 (5)

[ 예제 ] 014 년 * 비계절형 ARMA(p=7, q=0), q>=1 인경우추정이 converge 되지않음. 한남대학교통계학과권세혁교수 (53)

[ 예제 ] 014 년 MAPE=.93% 한남대학교통계학과권세혁교수 (54)

[ 예제 ] 014 년 D-. 계절형 ARIMA model (Daily) ARMA(0,1,0)(,1,1)7 1. 전력수요 (1,7) 시계열모형진단 전력수요 (1,7) 시계열데이터 acf( 주기 =7 에서 peak), pacf( 주기 =7, 14,.. peak) 함수아래와같음. p=(7, 14), q=(7) 모형을적합하는것이적절해보임. 전력수요 (1,7) 시계열 p=(7, 14), q=(7) 계절형모형추정 (1) 회귀계수유의성검정 => pass 한남대학교통계학과권세혁교수 (55)

[ 예제 ] 014 년 () 잔차 acf, pacf 함수에는특별한패턴이없음 => pass 잔차 whie noise 검정 => fail, 아직도잔차에는추정되어야하는 paern 이남아있음. 3. 예측모형적합도 1) 추정계수 한남대학교통계학과권세혁교수 (56)

[ 예제 ] 014 년 ) MAPE MAPE=.5% 3) 이상치 a. addiive oulier : 한시점에서유의한크기의일정값이더해진경우,, b shif oulier : 한시점이후관측치에일정한기간동안영향을미침. 013/08/15 01/1/5 013/1/5 013/01/0 4) 예측값 5% 상한, 95% 신뢰구간을벗어난관측치 한남대학교통계학과권세혁교수 (57)

[ 예제 ] 014 년 요일전력수요예측치 5%* 상한 95% 상한 95% 하한 한남대학교통계학과권세혁교수 (58)

[ 예제 ] 014 년 5) 향후 30 일간예측값및 95% 신뢰구간 D-3. 개입모형 (Daily) ARMA(0,1,0)(,1,1)7 w/shif 3 개, 휴일, 계절 ARMA 모형은일정장기간기간 ( 본연구에서는 3 년일별데이터 ) 의시계열데이터의패턴을이용하여미래값을예측하므로그기간중여러요인으로인하여패턴의변화가생길수있음. 시계열패턴에영향을줄수있는요인들이발생하는시점을아는경우이를고려한모형분석을개입분석이라하고, 시점을알지못하는경우는모형추정후사후적으로알게되는 이상점 이다. 개입변수의형태 a. 지시함수 indicaor : 발생시점에만영향 addiive b. 계단함수 sep 발생시점이후일정기간 shif 0. 개입발생시점진단 ARMA 예측모형에서진단된 shif 이상점 : 013 년 1 월 일휴일유무전력수요시계열패턴이변화하리라예상되는기간 - 여름 (7, 8 월 ), 겨울 (1 월 ~1 월 ) : 가장유의성높음. - 분기 ( 사분기 ) 한남대학교통계학과권세혁교수 (59)

[ 예제 ] 014 년 1. 모형진단 D- 절의계절형 ARMA 모형 Y(1,7) (1 차차분후 s=7 차분데이터 ) => P=(7,14), Q=(7) 예측모형에개입모형적용 그러므로 D- 의 Y(1,7) 의 acf 와 pacf 함수형태는동일함. 하여 ARMA 추정모형은 ARMA(0,1,0)(,1,1)m=7 동일함. 시계열과개입변수의상관관계가유의 빈도가커보임. Shif 변인과휴일변인만개입변수로유의함. 한남대학교통계학과권세혁교수 (60)

[ 예제 ] 014 년. 모형추정 분기효과는유의하지않았음. Shif, 휴무변인은유의수준 5% 에서유의하고여름 ( 유의수준 =35%), 겨울 ( 유의수준 =15%) 개입은유의하지않으나추정의정확도를높이기위하여예측모형에삽입하였음. 모형추정후잔차 acf, pacf 함수에는특이패턴이보이지않으나잔차의백색잡음검정에서는 fail 하여모형추정이완전하게되지는않음. 한남대학교통계학과권세혁교수 (61)

[ 예제 ] 014 년 3. 모형적합성 => MAPE=.49% 01/1/5 013/08/15 013/1/5 01/08/15 01/01/3 Shif 이상점 388 01 년 1 월 3 일 (*) ( 향후 30 일간예측치 ) 한남대학교통계학과권세혁교수 (6)

[ 예제 ] 014 년 4) 모형추정후 shif 변인활용모형추정및적합성 01 년 1 월 3 일 =Shif 변인을활용하여개입모형을추정한결과 011 년 9 월 1 일에다시 shif 가발생하였음. 개입변수 = shif 3 개와휴일유무, 여름, 겨울을활용 한남대학교통계학과권세혁교수 (63)

[ 예제 ] 014 년 MAPE=.44% 01/1/5 013/08/15 013/1/5 01/08/15 관측값 99 = 013 년 9 월 18 일, shif 개입변인으로개입모형을추정한결과유의하지않았음. 한남대학교통계학과권세혁교수 (64)

[ 예제 ] 014 년 5. 향후예측값 ( 계절 ARMA _ 개입모형비교 ) 최근 30 일 한남대학교통계학과권세혁교수 (65)

[ 예제 ] 014 년 30 일예측 100,000 90,000 80,000 70,000 60,000 50,000 40,000 실측값계절 _ 예측개입 _ 예측 5% 상한 95% 상한 D-4. 동적회귀모형 (Daily) 0. 개요 ARMA 모형은전력수요량의과거관측값 (AR) 과과거관측값으로설명되지않는항 (MA) 에의해미래값을예측함. 동적모형은설명변수 ( 온도, 습도 ) 등을고려함. 1. 모형설정목표변수 : 전력수요량설명변수 전력수요량시차, lag=1, 7 피크시각 온도 : 최대값, 겨울에는최저온도사용. 습도 : 최대값바람 : 최대값휴일여부분기, 계절 ( 겨울, 여름 ) 등 한남대학교통계학과권세혁교수 (66)

[ 예제 ] 014 년. 모형추정 유의수준 10% 에서제거된변수 전력수요량높이는변인 : 전날전력수요, 일주일전전력수요, 어제온도, 013 년 1 월이후, 여름, 1 분기, 3 분기 전력수요량낮추는변인 : 온도 ( 겨울의영향 ), 습도, 휴일, 피크시각 ( 엑셀데이터 ) 3. 모형적합성 => MAPE=3.81% 한남대학교통계학과권세혁교수 (67)