10(191-195) CPLV13-97.hwp



Similar documents
04 Çмú_±â¼ú±â»ç

exp

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

05( ) CPLV12-04.hwp

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

서울도시연구_13권4호.hwp

08원재호( )

statistics

김기남_ATDC2016_160620_[키노트].key

???? 1

±è¼ºÃ¶ Ãâ·Â-1

°í¼®ÁÖ Ãâ·Â

歯3-한국.PDF

09권오설_ok.hwp

1_12-53(김동희)_.hwp

DBPIA-NURIMEDIA


³»Áö_10-6


(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp

춤추는시민을기록하다_최종본 웹용

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

- 2 -

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

Microsoft PowerPoint - chap01-C언어개요.pptx

DBPIA-NURIMEDIA

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

PDF_Compass_32호-v3.pdf

À±½Â¿í Ãâ·Â

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

09È«¼®¿µ 5~152s

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

(001~006)개념RPM3-2(부속)

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

와플-4년-2호-본문-15.ps

433대지05박창용

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

- 1 -

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

본문01

???? 1


164

< FBEC8B3BBB9AE2E6169>

September Vol

= ``...(2011), , (.)''

ºñ»óÀå±â¾÷ ¿ì¸®»çÁÖÁ¦µµ °³¼±¹æ¾È.hwp

October Vol

Microsoft PowerPoint - chap04-연산자.pptx

04 최진규.hwp

서론 34 2

09구자용(489~500)

데이터베이스-4부0816

2002 Game White paper 2002 Game White paper

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

03¼ºÅ°æ_2

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

2

Microsoft Word - KSR2012A021.doc

ÀÌÀç¿ë Ãâ·Â

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

2 佛敎學報 第 48 輯 서도 이 목적을 준수하였다. 즉 석문의범 에는 승가의 일상의례 보다는 각종의 재 의식에 역점을 두었다. 재의식은 승가와 재가가 함께 호흡하는 공동의 場이므로 포 교와 대중화에 무엇보다 중요한 역할을 수행할 수 있다는 믿음을 지니고 있었다. 둘째

<C7A5C1F620BEE7BDC4>

실험 5

33 래미안신반포팰리스 59 문 * 웅 입주자격소득초과 34 래미안신반포팰리스 59 송 * 호 입주자격소득초과 35 래미안신반포팰리스 59 나 * 하 입주자격소득초과 36 래미안신반포팰리스 59 최 * 재 입주자격소득초

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

<C7D1B1B9B1A4B0EDC8ABBAB8C7D0BAB85F31302D31C8A35F32C2F75F E687770>

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

45-51 ¹Ú¼ø¸¸

PowerPoint 프레젠테이션

(JBE Vol. 20, No. 5, September 2015) (Special Paper) 20 5, (JBE Vol. 20, No. 5, September 2015) ISS

歯이

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상


학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht

pdf 16..


ch3.hwp

< E5FBBEABEF7C1DFBAD0B7F9BAB02C5FC1B6C1F7C7FCC5C25FB9D75FB5BFBAB05FBBE7BEF7C3BCBCF65FA1A4C1BEBBE7C0DABCF62E786C73>

untitled

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

할렐루야10월호.ps, page Normalize ( 할 437호 )

Microsoft PowerPoint - chap05-제어문.pptx

Transcription:

클러스터링 알고리즘을 사용한 시계열 데이터 예측 191 클러스터링 알고리즘을 사용한 시계열 데이터 예측 (Time Series Prediction using Clustering Algorithm) 김 진 현 이 창 형 (Jinhyun Kim) (Changhyung Lee) 심 규 석 (Kyuseok Shim) 요 약 하드웨어가 급속히 발전하고 SNS와 같이 사용 자가 데이터를 생성하는 서비스가 늘어나며 다양한 분야에 서 대규모의 시계열 데이터가 생성되고 있고 이들의 분석 에 대한 요구가 커지고 있다. 본 논문에서는 다양한 어플리 케이션에서 사용되는 시계열 데이터 예측을 위해 mrbf 함 수를 사용하여 K -means 클러스터링 알고리즘을 변형한 시계열 데이터 클러스터링(clustering) 기술을 적용한 K - mrbf 모델을 제안한다. 실험에서는 실제 웹 서버 데이터 센터에서 수집된 데이터와 합성 데이터를 이용하여 제안한 시계열 데이터 예측 방식의 정확성을 평가하고 기존의 최 신 연구 기법에 비해 나은 성능을 보임을 확인한다. 키워드: 시계열 데이터, 시계열 데이터 예측, 클러스터링 본 연구는 2013년도 정부(교육과학기술부)의 재원으로 한국연구재단-중 견연구자지원사업의 지원을 받아 수행된 연구임(No. NRF-2009-0078828). 또한 서울대학교-한국전력공사-(주)케이디파워 스마트 에코 마이크로그 리드 연구센터(SNU-KEPCO-KDPOWER Smart Eco Microgrid Research Center)지원으로 수행하였음 이 논문은 2013 한국컴퓨터종합학술대회에서 클러스터링 알고리즘을 사용 한 시계열 데이터 예측 모델 학습 의 제목으로 발표된 논문을 확장한 것임 비 회 원 : 서울대학교 전기정보공학부 jhkim@kdd.snu.ac.kr 학생회원 : 서울대학교 전기정보공학부 chlee@kdd.snu.ac.kr 정 회 원 : 서울대학교 전기정보공학부 교수 shim@kdd.snu.ac.kr (Corresponding author임) 논문접수 : 2013년 10월 7일 심사완료 : 2013년 12월 18일 CopyrightC2014 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 컴퓨팅의 실제 및 레터 제20권 제3호(2014.3) Abstract There is a wide range of applications such as social network services, sensor networks and data centers which generate time series data. Thus, analysis of such time series data has attracted a lot of attention in the recent years. In this paper, we propose a model called K-mRBF which utilizes a modified K-means clustering algorithm with the multivariate radial basis functions (mrbf) to predict future values based on previously observed values. We conduct extensive experiments using synthetic as well as real-life data sets to compare our K-mRBF model to the state-of-the-art model. Experimental results confirm the accuracy of our model compared to state-of-the-art models. Keywords: time series, time series prediction, time series forecasting, clustering 1. 서 론 시계열 데이터(Time Series data)는 균등한 시간 간 격에서 연속적으로 측정된 값들의 시퀀스이다[1]. 소셜 멀티미디어 제공 서비스인 유투브(YouTube)에서 동영 상의 시간에 따른 시청수를 시계열 데이터로 표현할 수 있고 대규모 웹서버 클러스터에서 시간마다 측정되는 노드들의 상태 정보를 시계열 데이터로 볼 수 있다. SNS와 같이 사용자가 데이터를 생성하는 서비스가 활발해지면서 다양한 분야에서 대규모의 시계열 데이터 가 생성되고 있고 이에 대한 분석이 꾸준히 요구되고 있다. 특히 주어진 과거 시계열 데이터에 대해 특정 시 간의 값을 예측하는 시계열 데이터 예측은 이 분야에서 중요한 문제로 많은 어플리케이션에서 유용하게 사용된다. 유투브의 특정 동영상에 대한 시청수를 시간에 따라 기록한 후 시계열 데이터 예측을 통해 앞으로의 시청수 를 예측하고 많은 사람이 볼 것이라 예상되는 동영상에 대한 서버 최적화 작업을 미리 수행할 수 있다. 그리고 대규모 웹 서버 클러스터 환경에서 각 노드의 CPU 사 용량 및 네트워크 트래픽 등을 측정해온 데이터를 통해 모델을 생성하고 앞으로의 값을 예측한 후 그에 맞추어 서버의 휴면 상태를 결정하거나 필요한 로드를 분산시킨 다면 전체 산업의 에너지 소비에서 큰 비중을 차지하고 있는 데이터 센터의 서버를 유지 관리하는데 사용되는 에너지 소비를 줄일 수 있다[2]. 또는 태양열 발전에서 발전 기기의 시간당 발전량 데이터에 대해 시계열 데이 터 예측을 수행한 후 예측값과 많이 다른 발전량을 보이 는 발전기기를 고장이라고 판단하는데도 사용할 수 있다. 시계열 데이터 예측은 주로 학습 데이터를 이용해 모 델을 학습하여 입력 데이터의 특정 시간의 값을 예측하 는 방식을 사용한다. 기존에 많이 사용되어 온 선형 회 귀 분석 방식은 앞선 시간의 데이터의 추세만을 고려하

192 정보과학회논문지 : 컴퓨팅의 실제 및 레터 제 20 권 제 3 호(2014.3) 그림 1 시계열 데이터의 패턴을 고려한 예측 방식 Fig. 1 Prediction with the patterns of time series 였지만 최근에는 시계열 데이터들의 앞선 시간의 패턴 을 고려하여 더 정확한 예측을 수행하는 모델 학습 방 식이 사용되고 있다[3]. 그림 1의 왼쪽처럼 기존의 선형 회귀 분석 방식은 단순히 데이터의 추세만을 고려하여 예측하기 때문에 데이터가 각각 다른 추세를 보이는 그 룹들로 구성되어 있다면 정확한 예측을 수행할 수 없다. 그림 1의 오른쪽에 나와 있는 두 가지 추세를 가지는 여러 개의 시계열 데이터 같은 경우 기존의 선형 회귀 분석은 정확한 예측을 수행할 수 없지만 미리 데이터에 숨겨진 두 개의 빈번한 시계열 패턴 정보들을 찾고 이 들을 예측에 사용하면 시계열 데이터의 패턴에 따라서 정확한 예측을 할 수 있다. 따라서 본 논문에서는 이와 같은 접근 방향에서 시계열 데이터의 패턴들을 찾기 위 한 클러스터링 기술을 적용하여 시계열 데이터 예측을 수행하는 알고리즘을 제안하고 그 성능을 검증한다. 앞으로의 논문 구성은 다음과 같다. 2장에서는 관련 연구를 살펴보고 3장에서는 본 논문에서 풀려는 시계열 데이터 예측 모델 학습 문제를 정의한다. 4장에서는 본 논문을 이해하는데 필요한 mrbf에 대해 자세히 살펴 보고 5장에서는 클러스터링 기술을 적용하여 시계열 데 이터를 예측하는 K-mRBF 알고리즘을 제안한다. 6장에 서는 실험 결과를 통해 제안한 알고리즘의 성능을 보여 준다. 2. 관련 연구 시계열 데이터 예측을 위한 많은 연구가 진행되어 왔 다. 시계열 데이터 예측 연구는 주어진 학습 데이터를 가장 잘 설명하는 모델을 학습하고 이를 이용하여 시계 열 데이터에 대해 특정 시간의 값을 예측하는 방식을 사용한다. [4]에서는 LMS(Least Mean Square) 적응 필터를 사용하여 평균 에러를 최소로 만드는 필터를 실 시간으로 학습하여 예측 시간의 값을 계산하는 연구를 수행하였다. [5]에서는 데이터의 예측 시간 값에 대해 앞선 시간의 값과의 선형성을 가정하여 회귀 분석 모델 을 통한 예측을 수행하였다. [6,7]에서는 분류기 학습 알 고리즘을 사용하여 모델을 학습하는 방식을 사용하였다. 또한 최근에는 시계열 데이터가 각자 서로 다른 패턴 을 보인다는 사실을 고려하여 모든 학습 데이터에 대해 단순히 하나의 모델을 학습하는 방식이 아닌 시계열 데 이터의 패턴을 고려한 연구가 진행되고 있다. [8]은 knn를 이용해 유사한 시계열 데이터를 찾은 후 이를 예측에 적용한다. [9]은 주어진 시계열 데이터를 조각 (segment)으로 쪼개어 그 평균을 구한 후 예측에 사용 한다. [3]에서는 RBF(Radial Basis Functions)를 사용 하여 각 패턴과의 유사도(similarity)를 구하고 이를 통 한 시계열 데이터의 예측값을 구한다. 3. 시계열 데이터 예측 모델 학습 문제 시계열 모델 학습 문제는 다음과 같이 정의된다. 문제정의: 시계열 데이터 예측 모델 학습 입력: 학습을 위한 n 개의 길이 t 의 시계열 데이터 집합 D={s 1, s 2,, s n} (각 s i =(s i [1], s i [2],, s i [t]) 목표: 모델 Θ 가 시계열 데이터 s i 의 처음부터 t-1 시간까 지의 데이터 =(s i [1], s i [2],, s i [t-1] 을 이용해 t 시간 값을 예측한 것을 [t] (= Θ( ))라 하자. 이 때 모든 학 습 데이터에 대해 모델 Θ에 의한 예측값( [t])과 실제값 (s i [t])과의 오차들의 합이 최소가 되는 모델 Θ 를 찾는다. 4. 클러스터링 알고리즘을 사용한 시계열 데 이터 예측 모델 그림 2는 본 논문에서 제안하는 클러스터링 알고리즘 을 사용한 시계열 데이터 예측 모델의 큰 그림을 나타 낸 것이다. 학습 시계열 데이터가 주어지면 데이터들의 패턴을 찾기 위해 클러스터링 알고리즘을 수행하여 중 심(center) 정보를 찾는다. 회귀 분석 모델을 학습할 때 이 중심 정보를 추가로 고려하여 더 정확한 모델을 생 성할 수 있게 된다. 4.1절에서는 시계열 데이터에 대한 클러스터링 알고리즘에 대해 자세히 설명하고 4.2절에서 는 이를 이용해 회귀 분석 모델을 학습하고 새로운 질 의 데이터에 대해 예측값을 계산하는 방식을 설명한다. 그림 2 클러스터링 알고리즘을 사용한 시계열 데이터 예측 모델 Fig. 2 A time series prediction model using clustering

클러스터링 알고리즘을 사용한 시계열 데이터 예측 193 그림 3 시계열 데이터 거리 Fig. 3 A distance for time series data 4.1 K - SC 알고리즘 시계열 데이터의 클러스터링을 위해 [10]에서 제안한 K-SC 알고리즘을 사용한다. 단순히 유클리디언 거리 함수(distance function)를 사용하면 유사한 패턴의 시 계열 데이터도 스케일링에 의해 거리값이 크게 나올 수 있다. 그림 3의 시계열 데이터를 보면 s 1 은 s 2 와 매우 유 사한 패턴을 보이고 s 3 와는 전혀 다른 패턴을 보이지만 유클리디언 거리 함수에 의하면 두 시계열 데이터와 같 은 거리 값을 가지게 된다. 따라서 유클리디언 거리 함 수는 시계열 데이터에서의 패턴을 찾기 힘들고 K-SC 알고리즘에서는 시계열 데이터의 스케일링에 영향을 받 지 않는 새로운 거리 함수를 제안한다. 두 시계열 데이 터 s 1, s 2 에 대한 거리 함수는 다음과 같다. min (1) 는 s2 를 시간축에 대해 y 만큼 평행이동한 시계열 데이터이다. 즉 이 거리 함수는 s 2 를 x 에 의해 스케일 링하고 y 에 대해 평행이동해서 두 시계열 데이터의 차 이를 가장 작게 만들고 그 때의 상대적(relative) l 2 - norm 값을 사용하기 때문에 시계열 데이터의 스케일링 에 영향을 받지 않는다. 고정된 y 에 대해 x 의 최적화 문제를 풀면 x=s 1 / 가 된다. K-SC 알고리즘은 식 (1) 거리 함수를 사용하여 K- means 알고리즘과 유사한 방식으로 클러스터를 찾는다. 우선 임의로 K 개의 클러스터 중심(center)을 선택한다. 그 후 식 (1) 거리 함수를 통해 각 포인트를 가장 가까 운 클러스터 중심에 할당하고 같은 클러스터 중심에 할 당된 포인트들을 하나의 클러스터로 묶는다. 각 클러스 터에 할당된 포인트들을 통해 새로운 클러스터 중심을 계산하고 다시 할당하는 작업을 수렴할 때까지 반복해 클러스터를 찾는다. 이 때 클러스터의 새로운 중심은 그 클러스터에 속한 모든 시계열 데이터들과의 거리의 합 이 최소가 되는 점으로 결정된다. 즉 k 번째 클러스터 C k 의 중심 u k 는 argmin u 이고 이는 의 최소 고유 값에 대응하는 고유 벡터가 된다[10]. 4.2 K-mRBF 알고리즘 앞서 설명했듯이 시계열 데이터들은 서로 다른 패턴 들을 보이기 때문에 이런 성질을 고려하지 않은 시계열 데이터 예측은 높은 정확도를 가질 수 없다. [3]에서는 이런 성질을 고려하기 위해 mrbf (Multivariate RBF) 모델을 제안했다. mrbf 모델에서는 예측 모델을 학습 할 때 학습 데이터에서 균등하게 K 개의 샘플을 뽑아 패턴 집합 P={p 1, p 2,, p K}를 만들고 시계열 데이터와 P 의 각 원소들과의 거리 정보를 사용하여 예측을 수행 함으로써 시계열 데이터의 패턴 정보를 고려한다. mrbf 모델에서는 시계열 데이터 s i 에 대해 t 시간의 예측값 을 다음 계산식을 사용해 계산한다. (2) mrbf 모델에서 학습해야 할 모델 파라미터는 Θ 1, Θ 2로 서 Θ 1은 s i 의 앞선 시간의 데이터 와의 선형성을 고 려하는 파라미터(t -1차원 벡터)이고 Θ 2는 각 패턴의 영향을 고려하는 파라미터(K차원 벡터)이다. 는 와 j 번째 패턴 p j 와의 거리를 고려하기 위한 값으로 서 아래 식 (3)로 정의된다. exp (3) 는 이 패턴의 분포 정도를 나타내는 파라미터이다. 결국 두 번째 항의 는 과 P 의 각 패턴들과의 유사도(similarity)를 반영하는 값으로서 이 j 번째 패턴 p j 와 유사하면 큰 값을 갖 고 그렇지 않으면 작은 값을 갖는다. 모델에 의한 예측값 와 실제 값과의 RSE (Relative Squared Error)[5]를 최소화하기 위해 다음의 목적 함수(objective function)를 최소화하는 모델 파라 미터 Θ 1, Θ 2 를 학습한다. 이는 잘 알려진 Ridge 회귀 [11] 문제이다. argm in D (4) 이 mrbf는 시계열 데이터의 패턴 정보를 얻기 위해 입력 학습 데이터로부터 균등(uniform)하게 개의 샘플 을 뽑는 방식을 사용하였다. 하지만 학습 데이터의 더 정확한 패턴 정보를 이용하면 예측 모델의 성능을 개선 시킬 수 있을 것이다. 따라서 본 논문에서는 앞서 설명 한 K-SC 클러스터링 방식을 이용해 주어진 학습 데이 터가 갖는 패턴들을 찾고 이 정보를 시계열 데이터 예 측에 이용하는 K-mRBF 모델을 제안한다. K-mRBF 모델에서는 앞서 설명한 K-SC 알고리즘 을 통해 패턴 정보 P 를 생성한다. 에서 두 시 계열 데이터의 거리를 계산하는 부분도 식 (1)를 사용한 다. 다음 알고리즘 1은 K-mRBF 모델 학습 알고리즘의

194 정보과학회논문지 : 컴퓨팅의 실제 및 레터 제 20 권 제 3 호(2014.3) 수도 코드이다. 알고리즘 1 모델 학습(D, K,, ) 입력 입력 데이터 D ={s 1,, s n}, 클러스터 개수 K,, 출력 학습된 모델 파라미터 Θ 1, Θ 2 1. {p 1, p 2,, p K}=K-SC (D, K) 2. for i =1 to n do 3. 4. 5. return Θ 1, Θ 2 알고리즘 1은 학습 데이터 D 와 필요한 파라미터 K,, 를 입력으로 받아 목적 함수 식 (4)을 최적화하는 모델 파라미터 Θ 1, Θ 2 를 구한다. 우선 입력 데이터에 대 해 K-SC 군집화 알고리즘을 수행해 패턴 집합 P 를 찾 는다(1번째 줄). 시계열 데이터 s i 에 대해 구해진 패턴 들과의 RBF 를 계산하여 학습에 사용될 v i 를 구한다(3번째 줄). 4번째 줄은 식 (4)의 최적화 문제의 해로 V 는 i 열이 v i 인 (n (t -1+K)) 행렬이고 y 는 i 행 의 값이 s i [t] 인 (n 1) 행렬이다. 6. 실 험 제안한 모델의 정확성을 보이기 위한 실험을 수행하 였다. 실험은 Intel Pentium Dual core 3.3G 프로세서 와 4GB 메모리를 지닌 PC에서 진행되었다. 실험을 위 해 다음 기존 연구와 제안한 알고리즘을 구현하였다. ML [5]: 앞선 시간 값과의 선형성을 가정하여 회귀 분석 모델을 통해 예측을 수행한다. mrbf [3]: 학습 데이터에서 균등하게 샘플을 뽑아 이 를 패턴 정보로 사용하여 예측값을 계산한다. eu-mrbf: 클러스터링을 이용해 패턴 집합 P 를 찾을 때 K-Means 알고리즘을 사용한 모델이다. 제안한 거 리 측도의 우수성을 위해 성능을 구현하였다. K-mRBF: 4.2절에서 제안한 모델로 식 (1)의 거리 측 도를 사용하여 클러스터링을 수행하고 그 결과를 이용 하여 시계열 데이터 예측을 수행한다. sk-mrbf: 식 (1)의 거리 측도는 두 시계열 데이터가 시간 축에 의해서만 평행 이동되었으면 그 거리를 0으 로 본다. 하지만 어플리케이션에 따라서 시간 축에 의 해 평행 이동한 두 시계열 데이터를 다르게 인식해야 할 필요가 있을 수 있다. 따라서 식 (1)에서 시간 축에 의한 평행이동을 고려하지 않은 거리 측도를 사용한 sk-mrbf모델을 구현하였다. 실험은 k-fold 교차타당법 (cross validation)을 사용 하여 RSE를 구하였고 (k=10) 이 실험을 20번 반복 수 행하여 그 평균값을 사용하였다. 즉 매 실험마다 데이터 를 중복이 없게 k개의 그룹으로 나누고 그 중 1개의 그 룹을 테스트 데이터로 사용하고 k-1개의 그룹을 모두 합쳐서 학습 데이터로 사용하여 모델의 정확도를 측정 하는 작업을 k번 반복하였다. 최적 파라미터,, K 값 을 찾기 위해 {1, 10-1, 10-2, 10-3, 10-4, 10-5 }, {2, 1, 1/2, 1/22, 1/23, 1/24, 1/25, 1/26}, K {3, 5, 7, 15, 30}의 각 조합에 대해 각각 실험해보고 가장 좋은 성능을 보이는 조합의 값을 사용하였다. 실험을 위해 합성 데이터와 실제 데이터를 준비하였 다. 합성 데이터의 생성을 위해 정규 분포를 따르는 K 개의 시계열 데이터를 생성해 각 클러스터의 센터 정보 로 사용하여 총 490개의 시계열 데이터를 생성하였다. 각 시계열 데이터를 생성할 때는 우선 어느 클러스터 C j 에 속할지를 결정하고 그 클러스터의 센터 p j 에 대해 0.1~5의 스케일링 팩터를 곱하고 각 차원마다 25%까지 의 오차를 가지게 만들었다. 실제 데이터는 현재 서비스 중인 데이터 센터에서 수집된 서버들의 네트워크 트래 픽 양을 6개월간 기록한 58,400개의 데이터에 대해 한 시계열 데이터의 길이를 12시간(t=12)으로 잘라 데이터 셋을 만들어 사용하였다. 6.1 합성 데이터 실험 결과 그림 4~6은 K=3일 때 각 모델에서 찾은 클러스터 센터이다. 그림 4는 합성 데이터를 생성할 때 처음 주어 진 센터 시계열 데이터이고 그림 5는 eu-mrbf에서 찾 은 센터 집합이고 그림 6은 제안한 K-mRBF에서 찾은 센터 집합이다. K-mRBF은 원본 센터에 스케일 팩터만 곱해진 정확한 센터를 찾는데 반해 eu-mrbf은 원래 그림 4 합성 데이터 중심들 Fig. 4 Cluster centers of synthetic data 그림 5 eu-mrbf가 찾은 중심들 Fig. 5 Cluster centers found by eu-mrbf 그림 6 K-mRBF가 찾은 중심들 Fig. 6 Cluster centers found by K-mRBF

클러스터링 알고리즘을 사용한 시계열 데이터 예측 195 성능을 보이게 된 것으로 보인다. 하지만 이 경우에도 제안한 k-mrbf의 성능이 mrbf에 비해 평균적으로 5.9%, 최대 7.6% 좋게 된다. 7. 결론 및 앞으로 수행할 연구 그림 7 합성 데이터 실험 결과 Fig. 7 Experimental results for synthetic data 본 논문에서는 시계열 데이터 예측을 위해 학습 데이 터들을 군집화하고 거기서 발견된 중심과의 거리를 이 용하는 k-mrbf 모델을 제안하고 기존 연구와의 성능 비교를 통해 그 적합성을 검증하였다. 차후에는 본 논문에 사용한 시계열 데이터의 거리 측 도를 개량해 시간 축에 대한 스케일링과 평행 이동에 영향을 받지 않을 뿐만 아니라 데이터 값 축에 대한 변 형에 대해서도 영향을 받지 않는 거리 측도에 대한 연 구를 수행하여 더 나은 클러스터링 알고리즘을 개발하 고 이를 적용해 더 높은 정확도를 보이는 모델링을 학 습하는 연구를 수행할 계획이다. References 그림 8 실제 데이터 실험 결과 Fig. 8 Experimental results for real-life data 모양과 전혀 다른 센터를 찾는다. 그림 7은 합성 데이터에서 실험 결과 그래프이다. x 축은 시계열 데이터의 길이(12시간)에 대해 학습에 사용 된 데이터 길이(tr)의 비율이고 y축은 RSE를 나타낸다. 더 많은 데이터를 사용할수록 예측의 정확도가 높아져 더 낮은 RSE를 갖는 경향을 알 수 있다. mrbf와 eu-mrbf가 ML의 모델에 비해 성능 향상이 거의 없 는 것은 mrbf와 eu-mrbf에서 찾아진 클러스터 센터 정보에 의한 성능 개선이 거의 없음을 의미한다. 본 논 문에서 제안한 K-mRBF가 기존 연구에 비해 평균 20% 가량의 성능 향상을 보이는 것을 알 수 있다. 6.2 실제 데이터 실험 결과 그림 8은 실제 측정된 데이터에 대해 각 모델들이 예 측한 값의 RSE를 비교한 그래프이다. 입력 데이터를 전부 사용해 학습한 모델이 (100%) 일부를 사용해 학습 한 모델 (75%) 보다 더 안 좋은 성능을 보였다. 이는 모델이 학습 데이터에 너무 과적합 (overfitting) 되었기 때문이라 분석할 수 있다. 논문의 공간을 절약하기 위해 서 실험 결과 그래프를 넣지 않았지만 학습 데이터에 대한 RSE는 x축이 증가할 때 감소하는 것을 볼 수 있 었다. 결국 생성된 모델이 학습 데이터에 너무 과적합되 어 일반적인 테스트 데이터에 대해서는 약간 안 좋은 [ 1 ] http://en.wikipedia.org/wiki/time_series [online] [2] McKinsey & Company, White Paper: Revolutionizing Data Center Efficiency, 2009. [ 3 ] P.Henrique, M.Jussara, A.Marcos, "Using early view patterns to predict the popularity of youtube videos," proc. of the WSDM, pp.365-374, 2013. [4] Y. Kim, T. Kim, K. Shim, "Saving Energy in Data Centers by Forecasting Resource Usage," proc. of the KCC fall conference, vol.38, no.2(a), pp.214-217, 2011. (in Korean) [5] S. Gabor, A. H. Bernardo, "Predicting the popularity of online content," Communications of the ACM, vol.53, no.8, pp.80-88, 2010. [6] E. Cadenas, W. Rivera, "Short term wind speed forecasting in La Venta, Oaxaca, Mexico, using artificial neural network," Journal of Renewable Energy, vol.34, issue 1, pp.274-278, 2009. [7] Y. Radhika, M, Shashi, "Atmospheric Temperature Prediction using Support Vector Machines," International Journal of Computer Theory and Engineering," vol.1, no.1, 2009. [8] R. Nayak, P. Braak, "Temporal Pattern Matching for the Prediction of Stock Prices," proc. of the AIDM, pp.99-107, 2007. [9] N. T. Son, D. T. Anh, "Time Series Similarity Search based on Middle Points and Clipping," proc. of the DMO, pp.13-19, 2011. [10] Y. Jaewon, L. Jure, "Patterns of Temporal Variation in Online Media," proc. of the WSDM, pp.177-186, 2011. [11] J. Friedman, T. Hastie, R. Tibshirani, "The elements of statistical learning," Springer Series in Statistics, 2001.