< 함수형데이터분석방법론을통한모멘텀효과관측과시각화 > Seungkyu Lee 요약 Global 자산군에서의모멘텀현상을패턴인식관점에서의함수형데이터분석방법론 (Functional Data Analysis) 을적용하여기존의연구결과와일치함을확인하며분류된패턴군집의시각화를통해기존의 time series momentum 으로는확인하기어려운시각정보를추출한다. 최근금융시계열데이터분석에머신러닝 ( 패턴학습 ) 을적용하려는요구가많은가운데함수형데이터분석방법론이소표본, 해석및시각화가중요한분석에서적절한리서치방법론이될수있음을제안한다. Contents 1. Introduction : 모멘텀효과와패턴학습의적용 2. 함수형데이터분석방법론 (Functional Data Analysis) 소개 A. Function Data B. Functional clustering Method 소개 3. Data 분석 A. 분석프로세스 B. Data set 설명 C. Data scaling, 기타 parameter settings D. 분석결과및시각화 4. 결론 5. References
1. Introduction : 모멘텀효과와패턴학습의적용 모멘텀현상은약 1 년여간의가격상승을보인자산이그방향성을단기간 (1~3 개월 ) 동안지속하는것을말한다. 이러한현상이주식, 채권, 커머더티, 환등의거의모든자산에서발생했음을 Moskovitz (2012) 등이조사, 보고하기도하였다. 이러한모멘텀현상은일반적으로상대모멘텀, 절대모멘텀으로정리되며이두가지분류법을결합적용하여 Cambria, Resolve, Alpha Architect 등의해외 investment firm 및투자자등은이러한현상을체계적획득할수있도록포트폴리오전략을구성하여좋은성과를내고있다. 이러한모멘텀투자전략의장점은다음과같다. - 심플한구조로되어있어투자의사결정과정에대한이해와실행이쉽다. - 단순분산전략에비해 entry edge 를제공하여초과수익에대한가능성을제공한다. - 모든자산이폭락하는상황에서도패시브투자전략에비해최대손실율을 1/3 수준으로줄일수있다. 한편, 최근머신러닝기법을적용하여금융데이터를분석, 투자전략및포트폴리오구현에다양한시도가이루어지고있는데다수의시도가결과물을이해, 해석하기어려운 black box 형태의알고리즘의적용이며, Mid, Long term pattern 분석, 소표본환경, 그리고이해와시각화가중요한분석에서는선형모형을제외한타기법을적용한연구는많지않다고할수있다. 따라서본연구는상대적으로 Mid-Long term pattern 분석관점에서소표본이라할수있는글로벌자산군데이터에함수형데이터분석방법론 (Functional Data Analysis) 으로알려진통계모형을이용하여모멘텀투자전략의근간을이루는모멘텀현상을분류, 시각화하여 empirical 한재검증을목표로하며, 동시에국내의연구자들에게는많이알려지지않은함수형데이터분석방법론소개하고자한다. 이론적인수식은최대한배제하고자하였으며직관적인수준의전달을높이는데목적을두었다.
2. 함수형데이터분석방법론 (Functional Data Analysis) 2.A 함수형데이터란? 함수형데이터는차원의순서가있는다변량데이터를말한다. (Müller, 2006) 함수형데이터의대표적인예는시간에따른관측데이터를들수있다. 함수형데이터는 이러한시간에따른여러데이터점들을하나의곡선덩어리로이해하는관점이다. Figure 1 함수형자료예 : 시간에따른온도, 풍속변화곡선 함수형데이터분석은관측된데이터값을수리적으로다루기쉬운형태의연속형기저함수로근사, 변환후함수를정의할수있는계수, 형태등을분석함으로써정보를추출하는과정으로이해할수있다. 이러한분석은시계열예측및분석, smoothing technique, 차원축소
등에응용되고있으며특히최근 public health 와 biomedical application 부분에서많이연구되고있는추세이다. 관측값을함수형데이터로변환하는과정에서가장많이사용되는대표적인기저함수로는 Fourier Basis, B-spline Basis 가있다. 데이터특성에맞는적절한기저함수를선택하는것이권장된다. Figure 2 기저함수예 : Fourier Basis Figure 3 기저함수예 : B-Splines basis
2.B 함수형데이터군집분류 (Functional Data Clustering) 함수형데이터의군집분류방식은여러가지가있을수있다. 가장보편화된방식은함수형데이터를이루는기저함수에대한계수를구한후잘알려져있는분류알고리즘인 k- means, Self-Organized Map 을이용하거나 Functional PCA scores 구한후 Gaussian mixture clustering 을하는방법이있을수있다. 조금더쉽게표현하자면관측데이터를알려진함수꼴로변환한후함수형태를나타내는값들통해군집분류하는방법이다. 군집분류는머신러닝용어로 Unsupervised learning 형태로서목표값이주어지않은채데이터속에있는군집패턴을탐색하는방식이다. Figure 4 함수형자료의군집분류방식
3. Data 분석 중장기자산가격 (1 년, 6 개월 ) 을함수형데이터관점에서군집분류하여각군집별로 1 달 후수익률차이가있는지를확인하고자한다. 3.A 분석 process - 14 개의 Global index 를주간누적수익률로변환후 1 년기간으로데이터를모은다. - 분석을용이하게하기위해서로다른변동성과 Scale 을가진데이터를표준화한다. - 함수형데이터로변환하기위해 B-spline 기저함수를사용하여근사한다. - 군집분류 (Clustering) 후 1 달뒤수익률을관측한다. ( 군집분류방식은 Functional PCA scores 구한후 Gaussian mixture clustering 을적용 ) 3.B Data set 기간 : 1999-01 ~ 2016-01 인덱스 : S&P500, HSCEI, KOSPI, MSCI BRAZIL, MSCI CHINA, MSCI DM EAFE, MSCI EM, MSCI EM LATIN, MSCI EUROPE, MSCI INDIA, MSCI RUSSIA, NIKKEI225, RICI COMMODITY TR, DOW REITS 3.C Data scaling, 기타 parameter settings - Scale 방법은다음과같이적용한다. Scaled Price = ( Log price mean Log price ) / SD( Log price )
Figure 5 스케일링한가격데이터예시 기저함수는 B-spline 으로하였으며, 1 년패턴의경우군집을 4 개, 조건부패턴은 2 개, 6 개월패턴의경우는 3 개로나누었다. 각군집별 1 달후수익률의경우에도표준화를실시하였으며평균값과양극단의 2.5% 를절삭한절삭평균, 그리고 ±2* 표준오차범위를표시하였다. 3.D 분석결과및시각화 - 글로벌인덱스의 1 년동안의가격패턴군집분류결과
Figure 6 1 년간의가격군집평균곡선과군집별표준화된 1 달후수익률 Figure 7 군집별분류된가격패턴 Cluster A 는가격이꾸준히오르는패턴이며평균값이가장높은것을알수있다. Cluster B 는 6 개월여간하락후 6 개월여간상승하는패턴으로 2 번째로높은평균값을갖는다. Cluster D 는지속적으로하락하는패턴으로가장낮은평균값을갖는다. 1 년간의가격곡선군집별 1 달후평균차이를통해 time series momentum 으로알려진모멘텀현상을시각적으로확인할수있다. - 각 cluster 별분류된가격구간샘플 Figure 8 지속상승하는패턴 KOSPI, S&P500 ( 파란색은분류된패턴구간을정의각구간후빨간색은 1 달후구간 )
Figure 9 하락후상승하는패턴 KOSPI, S&P500 Figure 10 상승후하락하는패턴 KOSPI, S&P500 Figure 11 지속하락하는패턴 KOSPI, S&P500
- 조건부군집분류결과앞서 4 가지로분류된 1 년간의가격패턴군집을다시최근 6 개월의가격곡선을통해 2 가지의조건부군집으로분류하였다. 이는 1 년간상승곡선을가진패턴 ( 군집 A) 으로분류된가격곡선들내에서최근 6 개월의상대적인곡선패턴차이가있는지를확인하는것으로이해할수있다. Figure 12 1 년동안상승하는패턴을가진군집에서최근 6 개월가격으로조건부분류 Figure 13 최근 6 개월가격 1 년간상승
두군집간평균차이가크다고보기어려우나최근 3 개월여간의가격이상대적으로 flat 한군집의평균이조금더높다. Figure 14 1 년동안하락후상승하는패턴을가진군집에서최근 6 개월가격으로조건부분류 Figure 15 최근 6 개월가격 1 년간하락후상승 두군집간평균차이가크다고보기어려우나최근 6 개월이가격이더높은군집이조금 더높은평균값을보인다.
Figure 16 1 년동안상승후하락하는패턴을가진군집에서최근 6 개월가격으로조건부분류 Figure 17 최근 6 개월가격 1 년간상승후하락 상대적으로최근 6 개월이하락폭이더큰자산이더낮은평균값을가진다.
Figure 18 1 년동안하락하는패턴을가진군집에서최근 6 개월가격으로조건부분류 Figure 19 최근 6 개월가격 1 년간하락 상대적으로최근 6 개월이하락폭이더큰자산이더낮은평균값을가진다. 조건부평균의경우전반적으로의미있는수준의차이라고할수는없었으나, 일반적으로알려진연구자들의견해와일치하는결과를보인다.
- 글로벌인덱스의 6 개월동안의가격패턴군집분류결과 Figure 20 6 개월가격군집과표준화된 1 달후수익률 Cluster A 는 6 개월여간상승하는패턴으로가장높은평균값을갖는다. Cluster C 는 6 개월여간하락하는패턴으로가장낮은평균값을갖는다. 6 개월가격곡선패턴역시기존연구와일치하는결과를보임을확인하다.
4. 결론 17 여년간의글로벌인덱스가격데이터에함수형데이터군집분류방법을적용한결과 1 년, 6 개월수준의가격곡선이상승추세를보일수록 1 달후평균수익률이높으며, 하향추세를보이는모습에가까울수록평균이낮음을확인한다. 여기에곡선모양 ( 하락후상승, 상승후하락 ) 간차이를통해최근가격에모멘텀에가중치를두는방식이의미가있음을확인할수있다. 이는기존연구자들이선형모형과포트폴리오 backtest 등을통해 6~12 개월가격절대모멘텀이시장에존재함을주장한바와일치하는바이다. 최근선형모형외의머신러닝을적용한금융데이터분석시도가비약적으로늘고있는가운데, 기존에알려진현상을머신러닝을통해이해하고검증하는방식은상대적으로적게이루어지고있다. 또한다수의머신러닝으로알려진모형들은대표본환경에적합하여, 소표본데이터환경에서의무분별한머신러닝적용은그결과의신뢰성뿐아니라이해와해석을더욱어렵게할수있어주의가요구된다. 함수형분석방법론은이러한가운데상대적으로소표본환경에서, 곡선패턴이라는직관적인관점에서의접근론으로서시각화와이해, 해석이중요한분석에서의대안적인방법론이될수있다.
5. References - Moskowitz, Tobias J., Yao Hua Ooi, and Lasse Heje Pedersen. "Time series momentum." Journal of Financial Economics 104.2 (2012): 228-250. - Ullah, Shahid, and Caroline F. Finch. "Applications of functional data analysis: A systematic review." BMC medical research methodology 13.1 (2013): 43. - Jacques, Julien, and Cristian Preda. "Functional data clustering: a survey." Advances in Data Analysis and Classification 8.3 (2014): 231-255 - Jacques, Julien, and Cristian Preda. "Model-based clustering for multivariate functional data." Computational Statistics & Data Analysis 71 (2014): 92-106.