논문투고일 :2016.10.17, 논문심사일 :2016.10.17-2016.12.21, 게재확정일 :2016.12.21 통계와시각화를결합한데이터분석 : 예측모형대한시각화검증 Data analysis by Integrating statistics and visualization: Visual verification for the prediction model 주저자문성민 (Mun, Seong Min) 아주대학교라이프미디어협동과정통합디자인연구실연구원낭떼르대학교언어과학, 박사과정 교신저자이경원 (Lee, Kyung Won) 아주대학교미디어학과 kwlee@ajou.ac.kr 본연구는 2016 학년도아주대학교 BK 사업단과 2015 학년도대한민국교육부, 한국연구재단의지원을받아수행된연구임. (NRF-2015S1A5B6037107)
목차 1. 서론 1-1. 연구배경및필요성 1-2. 연구의목적및방법 2. 이론및선행연구의고찰 2-1. 의사결정나무분석관련연구 2-2. 시각화분석관련연구 3. 예제데이터설명 4. 통계를활용한예측분석 4-1. 의사결정나무분석의정의 4-2. 의사결정나무분석결과 5. 시각화구축및검증 5-1. Parallel Coordinates의개념 5-2. Parallel Coordinates의기능 5-3. 예측모형에대한시각화검증 6. 결론참고문헌 ( 요약 ) 예측분석은패턴인식 (Pattern recognition) 혹은기계학습 (Machine learning) 으로불리는확률적학습알고리즘을기반으로하기때문에사용자가분석과정에개입하여더많은정보를얻어내기위해서는높은통계적지식수준이요구된다. 또한사용자는분석결과외의다른정보를확인할수없고데이터의특성변화와데이터하나하나의특징을파악하기힘들다는단점이있다. 본연구는이러한예측분석의단점을보완하고자통계적인데이터분석방법과시각화분석방법을결합하여데이터분석을진행하였으며통계적인분석방법만을진행할경우발생하는단점을보완하고데이터에서더많은정보를도출해내기위한방법론을제시하고자하였다. 이를위해본연구는영화리뷰에서추출한감정어휘가독립변인이고영화의흥행값이종속변인인데이터를예제데이터로활용하여진행하였다. 본연구의연구방법론을적용하였을때의이점은다음과같다. 첫째, 의사결정나무분석에서제시된분할기준이적용될때마다변하는데이터의패턴을파악할수있다. 둘째, 제시된최종예측모형에포함된데이터들의특성을확인할수있다. 본연구의시사점은예측모형의단점을보완하고데이터로부터더많은정보를추출하기위해통계적인데이터분석과시각적인데이터분석을결합하여시행하였다는것이다. 통계적인분석방법을통해각변수의관계를파악하고높은예측값을가지는모형을도출하였으며, 시각화분석에서는인터랙션기능을제공함으로서통계적으로제시된예측모형을검증하고더다양한정보를도출할수있게하였다. (Abstract) Predictive analysis is based on a probabilistic learning algorithm called pattern recognition or machine learning. Therefore, if users want to extract more information from the data, they are required high statistical knowledge. In addition, it is difficult to find out data pattern and characteristics of the data. This study conducted statistical data analyses and visual data analyses to supplement prediction analysis's weakness. Through this study, we could find some implications that haven't been found in the previous studies. First, we could find data pattern when adjust data selection according as splitting criteria for the decision tree method. Second, we could find what type of data included in the final prediction model. We found some implications that haven't been found in the previous studies from the results of statistical and visual analyses. In statistical analysis we found relation among the multivariable and deducted prediction model to predict high box office performance. In visualization analysis we proposed visual analysis method with various interactive functions. Finally through this study we verified final prediction model and suggested analysis method extract variety of information from the data. (Keyword) Data characteristics, Data pattern, Predictive model, Visualization 196 Design Convergence Study 61 Vol.15. no.6 (2016.12)
1. 서론 1-1. 연구배경및필요성 최근정보통신의발달과함께방대한양의데이터들이생산되었으며생산된데이터를활용, 분석하 여가치있는정보를추출하고, 현상을예측하는예측분석의활용이중요해지고있다. 예측분석이란 예측모델링 (Predictive modeling), 기계학습, 데이터마이닝 (Data mining) 등과거의데이터를활용 하여미래의행위를예측하고의사결정에도움을주는통계적인분석방법이다. 1) 예측분석을활용하는사례에대한일례로 2013 년경찰청에서발표한 " 지리정보통합한지리적프로 파일링시스템구축 " 에따르면최근경찰청은범죄수사의범위를줄여줄지리적프로파일링시스템 개발을위해기존발생한범죄의데이터를통합수집및분석을수행하고범죄의가능성과방향성 을기반으로범죄발생지역을예측한다고한다. 또한지리기반데이터시각화를활용하여예측분 석결과를범죄의유형, 시간대에따라범죄다발지역과위험도를지도에각기다른색으로표시하여 수사과정에활용한다고한다. 2) 이렇듯데이터를분석, 예측하여실생활에활용할경우낭비되는 많은비용과시간을감소시키고정확한의사결정을도울수있다. 예측분석방법으로는크게회귀분 석모형, 인공신경망분석, 사례기반추론, 유전자알고리즘, 퍼지이론, 의사결정나무분석등이있으며 본연구에서는의사결정나무분석을활용하여연구를진행하고자한다. 3) 의사결정나무분석은다변량으로이루어진데이터를분석하기에적합한통계적인예측분석방법이 며패턴인식혹은기계학습으로불리는확률적학습알고리즘을기반으로하기때문에분석결과의 정확도와신뢰성이높다. 하지만분석에사용되는알고리즘이복잡하고많은조건을가정해야하는 어려운분석일수록사용자가분석과정에서더많은정보를얻기위해서는높은통계적지식수준 이요구된다. 또한사용자는분석결과외의다른정보를확인할수없고데이터의특성변화와데 이터하나하나의특징을파악하기힘들다는단점이있다. 4) 이러한예측분석의단점을보완할수있는방법으로최근에는시각화분석을예측분석과결합하여 분석을진행함으로써예측분석의단점을보완하고사용자에게더많은정보를주기위한시도가이 뤄지고있다. 2008 년발표된 Adam Perer 외 1 명의연구에서는데이터분석과정에서통계적인분석 만을수행할경우데이터의특이점이나데이터관계내의패턴을파악하기힘들지만시각화분석 을결합하여사용할경우이러한단점이보완된다고주장한바있다. 5) 또한 2003 년발표된 Soon Tee Teoh 외 1 명의연구에따르면의사결정나무분석의결과를시각화분석을통해확인하면데이 터의군집화나개별데이터의변화패턴을추가적으로확인할수있다고주장하였다. 6) 이러한주 장을바탕으로본연구는통계적인데이터분석방법과시각화분석방법을결합하여데이터분석 을진행하고통계적인분석방법만을진행할경우발생하는단점을보완하고데이터에서더많은 정보를도출해내기위한방법론을제시하고자한다. 예측분석의단점을보완하고데이터로부터더많은정보를추출하기위한방법론을제시하기위해 1) David Lechevalier, Anantha Narayanan, Sudarsan Rachuri, "Towards a Domain-Specific Framework for Predictive Analytics in Manufacturing", 2014 IEEE International Conference on Big Data, p. 987, 2014. 2) 경찰청, " 지리정보통합한지리적프로파일링시스템구축 (GeoPros)", 2013 빅데이터사례집, p.65, 2013. 3) Roiger, R., M. Heatz, "Data mining : A Tutorial Based Primer, Addison Wesley, 2003. 4) Soon Tee Teoh, KwanLiu Ma, "PaintingClass: Interactive Construction, Visualization and Exploration of Decision Trees", Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 668, 2003. 5) Adam Perer, Ben Shneiderman,"Integrating Statistics and Visualization: Case Studies of Gaining Clarity during Exploratory Data Analysis", CHI 2008 Proceedings Visual Synthesis, p. 265, 2008. 6) Soon Tee Teoh. 197
본연구는영화리뷰에서추출한감정어휘가독립변인이고영화의흥행값이종속변인인데이터를예제데이터로활용하여진행하였다. 본연구는통계적인분석방법으로영화의흥행값을예측하기위해서의사결정나무분석을사용하였으며최종제시된예측모형에대한검증하기위해시각화분석을사용하였다. 1-2. 연구의목적및방법본연구는통계적인데이터분석방법과시각적인데이터분석방법을결합하여분석을시행함으로써예측분석의단점을보완하고최종제시된예측모형에서더많은정보를추출하기위한방법론을제시하는것을목적으로진행하였다. 연구목적을달성하기위한연구진행과정은다음과같다. 첫째, 네이버영화평에서리뷰의개수가 1000개이상인 672개의영화에대한리뷰를크롤링 (Crawling) 하고감정어휘사전과영화진흥위원회에서제공하는빈도데이터를활용하여감정어휘데이터와영화흥행값으로구성된예제데이터를생성하였다. 둘째, 높은영화흥행예측값을도출하기위해전체영화를대상으로의사결정나무분석을시행하였다. 셋째, 다양한시각에서데이터를분석하기위해 Parallel Coordinates 시각화를제작하고시각화분석방법을활용하여데이터를분석하였다. 넷째, Parallel Coordinates 시각화를활용하여의사결정나무분석에서제시된최종모형에대한검증을수행하였다. 다섯째, 분석결과를해석하고연구의시사점과연구의한계, 향후연구방향을제시하였다. 2. 이론및선행연구의고찰 2-1. 의사결정나무분석관련연구예측분석방법중하나인의사결정나무는의사결정규칙 (decision rule) 을도표화하여관심대상이되는집단을몇개의소집단으로분류 (classification) 하거나예측 (prediction) 을수행하는분석방법이다. 또한의사결정나무분석은다변량으로이루어진데이터세트내에서목표가되는변수를선정하고대상이되는변수를기준으로높은예측값을도출하기위한분할기준과분할값을도출하기위해사용될수있다. 관련연구로는 1998년최종후, 서두성의 의사결정나무를이용한개인휴대통신해지자분석 이라는연구와 2014년권영란, 김세영의 의사결정나무분석기법을이용한중학생인터넷게임중독의보호요인예측 등의연구가있다. 최종후, 서두성의연구에서는휴대전화가입고객의해지를결정하는제일중요한변수는고객계정상태이며, 두번째로는최근 4개월간의사용료, 세번째로는가입경력과납입방법등이있다는것을도출하였다. 또한이중가입고객의고객계정상태가 ' 최종청구 / 정상해지 ' 인경우해지율이 83.8%, 88.4% 로높아진다는것을도출하였다. 7) 7) 최종후, 서두성, " 의사결정나무를이용한개인휴대통신해지자분석 ", 한국경영과학회, pp. 379, 1998. 198 Design Convergence Study 61 Vol.15. no.6 (2016.12)
< 그림 1> 최종후외 1명연구의 < 그림1> 의사결정나무 권영란, 김세영의연구에서는중학생의인터넷게임중독에영향을미치는보호요인으로개인, 가족, 학교관련요인을포괄적으로규명하여예측모형을제시하였다. 분석결과나무형태의시각적경로를통하여인터넷게임일반사용군에포함될확률이가장높은경로는여학생으로가족보호요인인가족의지지가높고, 개인보호요인인계획성이높은경우인것으로도출되었으며이에비해남학생의경우에는아버지의태도가엄격할수록인터넷게임일반사용군에포함될확률이높다는결과를제시하였다. 8) < 그림 2> 권영란외 1 명연구의 < 그림 1> The construction of decision tree. 8) 권영란, 김세영, " 의사결정나무분석기법을이용한중학생인터넷게임중독의보호요인예측 ", 정신간호학회지 13 호, p. 19, 2014. 199
2-2. 시각화분석관련연구의사결정나무분석은다변량으로이루어진데이터를분석하기에적합한통계적인분석방법이다. 하지만패턴인식혹은기계학습으로불리는확률적학습알고리즘을기반으로하는통계적인분석일수록데이터의특성변화를파악하기힘들다는단점이있으며데이터하나하나의특성을파악하지못한다는단점이있다. 따라서시각화분야에서는이러한단점을보완하기위한시도가이루어지고있다. 관련연구로는 2001년 Eser Kandogan 의 Visualizing Multi-dimensional Clusters, Trends, and Outliers using Star Coordinates 등의연구와 2003년 Soon Tee Teoh외 1명의 Painting Class: Interactive Construction, Visualization and Exploration of Decision Trees 이라는연구가있다. Eser Kandogan 의연구에서는시각화분석방법중하나인 Star Coordinates 활용하여다변량의데이터를분석하는방법을제안하였다. Star Coordinates 의경우이차원공간상에서하나의위치점을기반으로여러변수축들이균등한범위로펼쳐있다. 데이터는펼쳐진변수축에서높은값을가지는방향으로위치가정해지는방법으로분류된다. Eser Kandogan는본연구에서 Star Coordinates 를활용하여데이터를분석할경우특성이비슷한데이터를군집화 (Clustering) 하는데있어유용하다는점을도출하였다. 9) < 그림 3> Eser Kandogan 연구의 < 그림 12> Overview of 'churn' dataset, where churned customers are marked with blue (dark) color. Soon Tee Teoh외 1명의연구에서는의사결정나무분석결과를 Parallel Coordinates 와 Star Coordinates 와같은시각화분석방법을통해나타냄으로써데이터에서발견할수있는결과를폭넓게도출하고자하였다. 또한이두시각화를연결하여사용하면데이터분류과정과데이터의분류를통합하여확인할수있다는제안을하였다. 10) 9) E. Kandogan, "Visualizing Multi-Dimensional Clusters, Trends, and Outliers using Star Coordinates.", ACM SIGKDD 01, p. 113, 2001. 10) Soon Tee Teoh, KwanLiu Ma, "Painting Class: Interactive Construction, Visualization and Exploration of Decision Trees", Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery 200 Design Convergence Study 61 Vol.15. no.6 (2016.12)
< 그림 4> Soon Tee Teoh 외 1 명연구의 < 그림 5> An auxiliary display is shown on the un-utilized space at the lower left of the display. 3. 예제데이터설명본연구는아래와같은데이터수집과정을통해예제데이터를생성하였다. 첫째, 영화리뷰데이터를수집을위해 JAVA를사용하여국내에서영화에대한의견교류가활발히이루어지고있는네이버영화사이트에대한웹크롤러를제작하였다. 크롤러는네이버영화홈페이지에서특정영화의관람객댓글과리뷰들을정제되지않은데이터형태로수집하도록설계되었다. 둘째, 수집된영화데이터중에서도리뷰의개수가 1000개이상인영화들만다시필터링하였고최종적으로는 2289개의영화중 672개의영화에대한리뷰데이터가수집되었다. 셋째, 선행연구중문성민외 2명의연구 (2015) 를참고하여감정어휘사전을구축하고추출된영화리뷰데이터에서감정어휘값을생성하였다. 이과정을통해생성된감정어휘는 < 표 1> 과같다. 11) < 표 1> 문성민외 2 명의연구, 최종선정된 36 개의감정어휘 대표감정어휘 행복 (Happy) 놀라움 (Surprise) 세부감정어휘행복하다 (Happy), 달콤하다 (Sweet), 웃기다 (Funny), 신나다 (Exited), 기쁘다 (Pleasant), 통쾌하다 (Fantastic), 만족하다 (Gratified), 재미있다 (Enjoyable), 활기있다 (Energetic) 놀랍다 (Surprised), 황홀하다 (Ecstatic), 멋지다 (Awesome), 훌륭하다 (Wonderful), 대단하다 (Great), 감동적이다 (Touched), 인상깊다 (Impressed) and data mining, p. 670, 2003. 11) 문성민, 하효지, 이경원, 영화의흥행성과와리뷰감정어휘와의관계분석, 디자인융복합학회, 제 53(4) 권, p.7, 2015. 201
지루함 (Boring) 슬픔 (Sad) 화남 (Anger) 역겨운 (Disgust) 무서운 (Fear) 평온하다 (Calm), 나른하다 (Drowsy), 지루하다 (Bored) 측은하다 (Pitiful), 쓸쓸하다 (Lonely), 애절한 (Mournful), 슬프다 (Sad), 비통하다 (Heartbroken), 안타깝다 (Unfortunate) 격분하다Outraged, 분노하다Furious 불결하다 (Ominous), 잔인하다 (Cruel), 역겹다 (Disgusted) 공포스럽다 (Scared), 등골이서늘하다 (Chilly), 섬뜩하다 (Horrified), 무서워하다 (Terrified), 오싹하다 (Creepy), 무시무시하다 (Fearsome) 넷째, 생성된감정어휘의대표감정어휘와영화진흥위원회에서추출한각영화의객관적인데이터를병합하여최종적인데이터를생성하였다. 12) 최종적으로생성된독립변수데이터는 7개의대표감정어휘 ( Happy, Surprise, Boring, Sad, Anger, Disgust, Fear ) 와영화티켓판매액, 영화관람관객수, 상영스크린수, 한스크린당영화관람관객수, 영화의장르, 영화의영문이름이다. 또한 1983년리트만 (Litman) 의연구를참고하여누적관객수를상영스크린수로나누어한스크린에서의누적관객수를본연구의종속변수인영화흥행값으로사용하였다. 최종생성된예제데이터에대한기술통계량은 < 표 2> 와같다. < 표 2> 최종생성된예제데이터에대한기술통계량 변수명 영문명 최댓값 평균 최솟값 판매액 Sales 1.280e+11 1.019e+10 1.670e+04 관객수 Attendance 13624328 1469038 35 개봉스크린수 Screen 1409.0 330.7 1.0 흥행값 Normal_attendanc ( 평균관객수 ) e 33590 4018 35 기쁨 Happy 0.0400 0.3073 0.7400 놀라움 Surprise 0.0600 0.2625 0.6500 지루함 Boring 0.02000 0.09126 0.32000 슬픔 Sad 0.0300 0.1465 0.5400 화남 Anger 0.01000 0.06247 0.28000 역겨움 Disgust 0.00000 0.04314 0.37000 무서움 Fear 0.00000 0.08708 0.65000 4. 통계를활용한예측분석데이터를활용한연구들은주로탐색적연구 (Exploratory research), 기술적연구 (Descriptive research), 인과관계연구 (Causal research) 를사용하며이러한연구는통계학에기반을두고있다. 통계학은사회와사회구성원에게서수집된양적 / 질적자료를기술하고해석하기위한방법을연구하는것으로신뢰도 95% 에서기각역을 α혹은 p(probability)<.05 의수준으로정하고통계분석결과가이를만족하면유의미한결과라고해석한다. 13) 하지만분석에사용되는알고리즘이복잡하고많은조건을가정해야하는어려운분석일수록사용자가분석과정에개입하기는많은지식수준이요구된다. 따라서사용자는분석결과외의다른정보를확인할수없기때문에데이터의특성변화와데이터하나하나의특징을파악하기힘들다는단점이있다. 14) 최근에는이러한단점을보완하고데 12) 영화진흥위원회, http://www.kofic.or.kr/ 13) DeGroot, Schervish, "Definition of a Statistic". Probability and Statistics Third Edition Addison Wesley, pp.370-371, 2002. 14) Soon Tee Teoh. 202 Design Convergence Study 61 Vol.15. no.6 (2016.12)
이터로부터더많은정보를얻어내기위해시각화분석을결합하여분석을진행하고있다. 15) 시각화분석이란데이터분석결과를쉽게이해할수있도록시각적으로표현하고전달하는분석방법으로써연결과그룹화를통한데이터요약, 색, 모양등미적요소를활용한데이터의특성표현등다양한방법으로사용자의이해를돕는분석이다. 16) 본연구는통계적분석과시각화분석을결합하여연구를진행하였고통계적분석을수행후분석결과에대해시각화분석을수행함으로써이를검증하였다. 4-1. 의사결정나무분석의정의의사결정나무는의사결정규칙을도표화하여관심대상이되는집단을몇개의소집단으로분류하거나예측을수행하는분석방법이다. 이는방대한양의데이터베이스에서연구자가원하는목표변수값에도달하기위해영향을미치는변수들을도출해내고최적의분리기준을찾아의사결정에도움을주는일련의과정이라고도이야기할수있다. 17) 의사결정나무는분류또는예측을목적으로하는어떤경우에도사용될수있으나분석의정확도보다는분석과정의설명이필요한경우에더유용하게사용된다. 의사결정나무분석이활용될수있는응용분야는 < 표 3> 과같다. < 표 3> 의사결정나무분석응용분야 용도세분화 (Segmentation) 분류 (Classification) 예측 (Prediction) 차원축소및변수선택 (Data reduction and variable screening) 설명관측개체를비슷한특성을갖는몇개의그룹으로분할하여각그룹별특성을발견하고자하는경우여러예측변수 (Predicated variable) 에근거하여목표변수 (Target variable) 의범주를몇개의등급으로분류하고자하는경우자료로부터규칙을찾아내고이를이용하여미래의사건을예측하고자하는경우매우많은수의예측변수중에서목표변수에큰영향을미치는변수들을골라내고자하는경우 교호작용효과의파악 (Interaction effect identification) 범주의병합또는연속형변수의이산화 (Category merging and discretizing continuous variable) 여러개의예측변수들이결합하여목표변수에작용하는교호작용을파악하고자하는경우범주형목표변수의범주를소수의몇개로병합하거나, 연속형목표변수를몇개의등급으로범주화하고자하는경우 의사결정나무분석은목표변수, 예측변수, 분리기준, 분리개수에따라크게 CHAID(CHi-squared Automatic Interaction Detection), Exhaustive CHAID, CART(Classification And Regression 15) Adam Perer. 16) Pak Chung Wong, J. Thomas, "Visual Analytics", IEEE Computer Graphics and Applications Volume 24 Issue 5, pp. 20, 2004. 17) Soon Tee Teoh. 203
Trees), QUEST(Quick Unbiased Efficient Statistical Tree) 로나누어진다. 언급된네가지분석방 법에대한설명은 < 표 4> 와같다. < 표 4> 의사결정나무분석의종류 CHAID Exhaustive CHAID CART QUEST 목표변수 질적변수, 양적변수 질적변수, 양적변수 질적변수, 양적변수 명목형질적변수 예측변수 질적변수, 양적변수 질적변수 질적변수, 양적변수 질적변수, 양적변수 분리기준 F검정, F검정, F검정, 지니계수감소카이제곱통계량카이제곱통계량카이제곱통계량 분리개수 다지분리 다지분리 이지분리 이지분리 본연구에서분석에사용될영화흥행값과 7가지대표감정어휘값의경우연속형으로이루어진데이터세트이다. 따라서네가지의분석방법중목표변수 ( 종속변수 ) 와예측변수 ( 독립변수 ) 로연속형데이터 ( 양적변수 ) 를다루고, 분리개수가이지분리 (Binary split) 를따르는 CART 분석방법을사용하였다. CART는종속변수에대하여가능한많은동질적인데이터가같은그룹에속하도록노드를수정하는방법을사용하는데분할규칙으로는데이터내에서가능한모든분할규칙중에서불순도값이가장최소가되는것을따른다. 또한불순도함수로지니지수 ( 범주형목표변수인경우적용 ) 또는분산의감소량 ( 연속형목표변수인경우적용 ) 을이용하여이지분리를수행하는알고리즘이다. 가장널리사용되는의사결정나무알고리즘으로개별입력변수뿐만아니라입력변수들의선형결합들중에서최적의분리를찾을수도있다. 4-2. 의사결정나무분석결과 전체영화데이터집단에대한의사결정나무분석을수행하기에앞서목표가되는종속변수와분 할기준으로작용을할독립변수와종속변수에대한기술통계값은 < 표 5> 와같다. < 표 5> 변수별기술통계량 변수구분 변수명 평균 최댓값 최솟값 흥행값 종속변수 (Normal_attendance) 4018 33590 35 Happy 0.3073 0.74 0.04 Surprise 0.2625 0.65 0.06 Boring 0.0912 0.32 0.02 독립변수 Sad 0.1465 0.54 0.03 Anger 0.0624 0.28 0.01 Disgust 0.0431 0.37 0.00 Fear 0.0870 0.65 0.00 분석에사용된전체영화데이터집단에대한기술통계량값을보면흥행값은종속변수로써평균 값이 4018 이며 7 개의대표감정어휘값들이독립변수로사용되었고 Happy 와 Surprise 의경우감 정어의평균값이다른감정어휘보다높은것을확인할수있다. 204 Design Convergence Study 61 Vol.15. no.6 (2016.12)
< 그림 5> 전체영화에대한의사결정나무분석결과전체영화데이터집단에대한최적분리는 Happy에의해최조이지분리되었다. 영화흥행값이가장높다고예측된집단에대한해석은다음과같다. 영화흥행값이 17400이되기위해서는 Happy 0.235를기준으로최초분리되어야하며 Happy가 0.235이상일경우 Anger 0.045를기준으로다시분리된다. Anger가 0.045이하일경우다시 Sad 0.145를기준으로분리되며 Sad가 0.145 이상일경우마지막으로 Boring 0.055를기준으로분리되며 Boring이 0.055이하일때의집단 (N=5) 에대한영화흥행의예측값은 17400으로높게분류된다. 분석된의사결정나무분석결과는 < 그림 5> 와같다. 의사결정나무분석의결과는자료의분류가얼마나잘되었는지한눈에표현하는이익도표를통해더자세히확인할수있다. 전체영화에대한이익도표값은 < 표 6> 과같다. < 표 6> 전체영화에대한이익도표 노드번호 개수 (N) 비율 (%) 영화흥행예측값 14 5 0.74 17400 15 19 2.82 6000 9 32 4.76 5878 12 122 18.1 5343 7 240 35.7 3872 8 44 6.54 3472 13 26 3.86 3390 4 184 27.3 2656 205
5. 시각화구축및검증 5-1. Parallel Coordinates의개념본연구의데이터처럼다변량으로되어있는데이터를분석하기위해여러시각화분석방법중 Parallel Coordinates 를사용하는것이적절하다. Parallel Coordinates 시각화분석방법은 N차원공간안의점들의집합을보여주기위한방법으로일반적으로수직의형태이며 N개의등간격평행라인으로이루어져있다. 또한시계열데이터시각화에도밀접한관계가있으며데이터내변수간의관계를파악하는데용이하다. 18) 이방법은 1985년 Inselberg. A. 가구체적으로제안하였고최근까지다양한학문영역에서사용되고있다. Inselberg. A. 의연구에따르면 Parallel Coordinates 는각변수가대부분라인이평행일때두차원사이에유사한관계가형성된다고해석할수있으며, 대부분의라인이교차할때는상이한관계가형성된다고해석한다. 19) < 그림 6> 분포에따른 Parallel Coordinates 또한본연구에서는다변량데이터의분석및통계분석결과에대한검증을실시하기위해기존의 Parallel Coordinates 시각화방법에분석목적에부합하는여러기능을추가하였다. 추가된기능으로는선택된데이터의평균값을나타내는기능, 영화의장르를선택하는기능, 축을변경하는기능, 축을제거하는기능, 하나의영화를선택하여데이터의특징을확인하는기능, 영화의제목명으로데이터를검색하는기능, 선택되지않은영화를표현하는기능등분석에필요한다양한인터랙션기능들이있다. 5-2. 구축된 Parallel Coordinates의기능본연구에서는다변량으로이루어진데이터를분석하고통계분석결과를검증하기위해기존의 Parallel Coordinates 시각화방법에다양한기능을추가하였다. 해당시각화는 http://202.30.24.167:8080/parallel.html 에서사용할수있으며, 연구에사용된 Parallel Coordinates 시각화의기능은다음과같다. 18) Rick Walker, Philip A. Legg, Serban Pop, Zhao Geng, Robert S. Laramee, Jonathan C. Roberts, "Force-Directed Parallel Coordinates", 17th International Conference on Information Visualisation, p.39, 2013. 19) Inselberg, A, The plane with Parallel Coordinates, The Visual Computer, p.79, 1985. 206 Design Convergence Study 61 Vol.15. no.6 (2016.12)
5-2-1. 번들링 (Bundling) Parallel Coordinates는일반적으로데이터의연결표현을직선으로표현한다. 하지만직선으로데이터연결을표현하면데이터의양이많을때축이보이지않고데이터사이의패턴또한발견하기어렵다. 따라서본연구는 < 그림 7> 의오른쪽과같이번들링기능을추가하였다. 번들링기능을통해데이터사이의연결을표현함으로써데이터들이군집화되는경향을쉽게확인할수있다. < 그림 7> ( 왼쪽 ) 직선으로표현된 Parallel Coordinates ( 오른쪽 ) 번들링으로표현된 Parallel Coordinates 5-2-2. 축 (Axes) 본연구는 < 그림 8> 과같이 Parallel Coordinates 에데이터변수축을삭제, 혹은축의순서를이동시키는기능을추가하여분석을용이하게하였다. 이를통해중요변수별로축을나열할수있으며불필요한변수를삭제할수도있다. < 그림 8> ( 왼쪽 ) 변경전데이터축의순서 ( 오른쪽 ) Happy 의데이터변수변경후축의순서 5-2-3. 색상 (Colour) 장르별로비교분석을하기위해서는영화의장르별로구분할수있는기능이필요하다. 이를위해본연구는 < 그림 9> 와같이영화의장르에따라색상을다르게지정하여사용자가데이터를쉽게구분할수있도록하였다. < 그림 9> 영화장르에따라지정된색상 207
5-2-4. 기술통계 (Descriptive Statistic) 일반적인 Parallel Coordinates 는데이터패턴, 데이터변수축에서발생하는군집화, 변수축사이의직선기울기등시각적으로확인이가능한부분만으로해석을해야한다. 본연구는 < 그림 10> 과 < 그림 11> 과같이선택된데이터의평균선, 선택된데이터변수축의평균값, 선택된영화수의합계를내타내는기능을추가하였다. 이를통해사용자는시각화로부터더다양한데이터정보를얻을수있다. < 그림 10> 선택된데이터변수들의평균값과영화수의합계 < 그림 11> 선택된데이터변수들의평균값과평균선 ( 굵은 line 그래프 ) 5-2-5. 데이터선택 (Data Selection) 장르별데이터의패턴비교, 분포확인, 조건에따른패턴변화등을확인하기위해서는데이터를선택하고지정하는기능이필요하다. 본연구에서는분석의용이성을높이기위해 < 그림 12> 와 < 그림 13> 과같이장르선택기능, 영화검색기능, 조건에따른데이터필터링기능, 하이라이트기능등을추가하여분석을용이하게하였다. < 그림 12> 데이터선택 : 장르가액션 & 코미디이고상영스크린수가 100 개이상인영화 < 그림 13> 2009 년개봉작김씨표류기 (Castaway on the Moon) 에대한하이라이트 View 5-2-6. 제거된데이터표현선행된통계적인분석방법중의사결정나무분석과정을 Parallel Coordinates 를통해검증하기위해서는선택되지않은데이터를얕은배경으로표현함으로써제거된데이터의규모를보여주는기능이요구된다. 따라서기존의 Parallel Coordinates 기능에선택되지않은데이터를표현하는방법을 208 Design Convergence Study 61 Vol.15. no.6 (2016.12)
추가하였다. 추가된시각화는 < 그림 14>, < 그림 15> 와같다. < 그림 14> 삭제된데이터표현기능추가전 < 그림 15> 삭제된데이터표현기능추가후 5-3. 통계분석결과에대한시각화검증본장에서는선행된의사결정나무분석예측모형에대해시각화분석방법을활용하여검증하고자한다. 의사결정나무분석을활용하여도출된예측모형은비슷한감정을느끼는장르별로군집화된집단과전체영화집단에대하여어떠한감정이느껴질경우흥행의예측값이최고가될수있는지를제안하는데매우유용하게활용될수있다. 하지만의사결정나무분석의경우패턴인식혹은기계학습으로불리는확률적학습알고리즘을기반으로하기때문에분석된결과외에는일반적인사용자가유동적으로분석과정을볼수없다는단점이있다. 20) 따라서본장에서는각집단에따라높게예측된노드에대한분류기준을개발된 Parallel Coordinates 시각화방법을통하여검증하고시각화분석방법을결합하여사용자가유동적으로분석과정에참여하는방법을제안하고자한다. 5-3-1. 의사결정나무분석결과에대한시각화검증전체영화데이터집단에대한최적분리는 Happy에의해최조이지분리되었다. 의사결정나무분석을통해영화흥행의예측값이높게측정된노드 14에해당하는집단의분할규칙은 Happy > 0.235 & Anger < 0.045 & Sad > 0.145 & Boring < 0.055의순서로 4번분할된것을확인할수있는데본연구에서는최대의흥행값이예측된노드 14에대한데이터분할과정을 Parallel Coordinates 시각화분석방법을통해검증하고자한다. 노드 14에대해서분할기준이적용되지않은전체값은 < 그림 16> 과같다. < 그림 16> 분할기준이적용되기전의시각화 다음으로 Happy 의값이 0.235 이상일때와아닐때로최초분할되었으며 Happy 의값이 0.235 이상 인노드에대한시각화결과는 < 그림 17> 과같다. 20) Soon Tee Teoh, KwanLiu Ma. p. 667, 2003. 209
< 그림 17> Happy > 0.235 & Anger < 0.045 이적용된시각화결과 Happy를기준으로 0.235이상인데이터를선택하였을때 Happy의값이대체적으로낮았던드라마장르의영화와호러장르의영화가대폭감소하였다. 드라마의경우 174에서 79로, 호러의경우 41 에서 2로감소한것을확인하였다. 노드 14에대해두번째로적용된분할기준은 Anger이며 Anger값이 0.045이상일때와아닐때로분류된시각화결과는 < 그림 18> 과같다. < 그림 18> Happy > 0.235 & Anger < 0.045 & Sad > 0.145 이적용된시각화결과 Happy는 0.235이상이고 Anger는 0.045이하인데이터를선택하였을때액션, 판타지, SF장르의영화가대폭감소하였다. 액션의경우 107에서 24로, 판타지의경우 18에서 2로, SF의경우 31에서 5 로감소한것을확인하였다. 노드 14에대해세번째로적용된분할기준은 Sad이며 Sad값이 0.145 이상일때와아닐때를추가적으로적용하여분류된시각화결과는 < 그림 19> 와같다. Happy는 0.235이상, Anger는 0.045이하, Sad는 0.145이상인데이터를선택하였을때코미디와드라마장르가각각 8편과 10편으로선택된 23편의영화중가장많은비율을차지하였다. 마지막으로적용된분할기준은 Boring이며 Boring값이 0.055이하일때와아닐때를추가적으로적용하여분류된시각 < 그림 19> 노드 14 에대한최종 Parallel Coordinates 210 Design Convergence Study 61 Vol.15. no.6 (2016.12)
화결과는 < 그림 20>, < 그림 21> 과같다. < 그림 20> 노드 14 에최종포함된영화정보 < 그림 21> Happy > 0.235 이적용된시각화결과 의사결정나무분석을통해영화흥행의예측값이높게측정된노드 14에대해서 Parallel Coordinates 시각화분석방법을사용하여분석한결과, 노드 14 집단에최종포함된영화는 King And The Clown, Malaton, NANA, The Host, Welcome to Dongmakgol 이었으며영화의장르는 Drama 3, SF 1, War 1로드라마장르가많이포함된것을확인할수있었다. 또한최종선택된영화에대한선택기능을통해최종노드에포함된데이터들도서로다른특성을가지고있는것을발견할수있었다. 5-3-1. 의사결정나무분석결과에대한시각화검증본장에서는선행된의사결정나무분석을통해생성된최종예측모형을 Parallel Coordinates 시각화방법을통하여검증하고시각화분석방법을결합하여사용자가유동적으로분석과정에참여하는방법을제안하였다. 분석과정에대해서 Parallel Coordinates를활용한검증이수행되면분할기준에따른데이터의특성변화를파악할수있으며통계적인분석방법에서발견하지못한결과를도출해낼수있다. 시각화분석방법을활용해의사결정분석결과를검증하였을때사용자가추가로얻을수있는결과는크게두개로나누어볼수있다. 첫째, 분할기준이적용될때마다변하는데이터의패턴을파악할수있다. 예를들어, 첫번째분할기준으로 Happy의값이 0.235이상인노드가선택되었을때 Happy의값이낮았던드라마장르의영화가 174에서 79로대폭감소한결과를확인하였다. 둘째, 최종노드에포함된데이터들도서로상이한특성을지니고있다는것을확인할수있다. < 그 211
림 22> 와 < 그림 23> 을를통해노드 14 에포함된영화중에서도흥행값이가장높았던영화는 King And The Crown 으로흥행값은 33,600 이었고흥행값이가장낮았던영화는 NANA 로흥행 값이 821 이라는것을확인할수있다. < 그림 22> 노드 14 에최종포함된 NANA 에대한시각화결과 < 그림 23> 노드 14 에최종포함된 King And The Crown 에대한시각화결과 6. 결론산업의성장과함께방대한양의데이터들이생산되었으며생산된데이터를활용, 분석하여가치있는정보를추출하고, 현상을예측하는예측분석의활용이중요해지고있다. 예측분석은패턴인식혹은기계학습으로불리는확률적학습알고리즘을기반으로하기때문에분석결과의정확도와신뢰성이높다. 하지만분석에사용되는알고리즘이복잡하고많은조건을가정해야하기때문에사용자가분석과정에서다양한정보를얻기위해서는많은통계적지식이요구된다. 따라서사용자는분석결과외의다른정보를확인할수없고데이터의특성변화와데이터하나하나의특징을파악하기힘들다는단점이있다. 본연구는이러한단점을보완하고데이터로부터더다양한정보를추출하기위해통계적인데이터분석방법과시각화분석방법을결합하여분석을수행하였다. 분석에는영화의흥행값과영화리뷰에서추출한감정어휘값으로이루어진데이터가활용되었다. 영화의흥행값을예측하기위해예측분석의한종류인의사결정나무분석을수행하고다양한시각화분석기법중에서 Parallel Coordinates를활용하여예측모형을검증하였다. 본연구의시사점은다 212 Design Convergence Study 61 Vol.15. no.6 (2016.12)
음과같다. 첫째, Parallel Coordinates 시각화분석을활용하면의사결정나무분석에서제시된예측모형의분할기준이적용될때마다변하는데이터의패턴을파악할수있다. 예를들어, 첫번째분할기준으로 Happy의값이 0.235이상인노드가선택되었을때 Happy의값이낮았던드라마장르의영화가 174에서79 로대폭감소한결과를확인하였다. 이는 Parallel Coordinates 의기능중조건에따라데이터를선택하는기능과장르에따라색상을달리부여하는기능을활용한결과로써예측분석의분할기준을시각화를활용하여분석함으로써도출된결과라고할수있다. 이를본연구에서사용된데이터가아닌일반적인데이터에빗대어해석하면데이터가지니는인구통계학적특성에따라서데이터는서로상이한특성을지니고있으며적용되는분할기준에따라선택, 제거되는데이터의특성도변화한다고할수있다. 둘째, 최종노드에포함된데이터들도서로상이한특성을지니고있다는것을확인할수있다. 의사결정나무분석결과에서가장높은흥행예측값을보인노드 14에포함되는데이터들의특성을확인하여본결과노드 14에포함된영화중에서도흥행값이가장높았던영화는 King And The Crown으로흥행값은 33,600이었고흥행값이가장낮았던영화는 NANA로흥행값이 821이었다. 이러한결과를통해예측분석으로도출된최종모형내에포함된데이터들도사이에도서로상이한특성이존재한다는것을확인하였으며시각화분석을사용할경우이러한관계를더잘확인할수있었다. 본연구의시사점은예측모형의단점을보완하고데이터로부터더많은정보를추출하기위해통계적인데이터분석과시각적인데이터분석을결합하여시행하였다는것이다. 통계적인분석방법을통해예측모형을도출하였으며, 시각화분석에서는다양한기능을제공함으로서최종적으로제시된예측모형을검증하고데이터로부터더다양한정보를도출하기위한방법론을제시하였다. 향후연구로써본연구에서활용한 Parallel Coordinates 방법뿐만아니라다양한시각화분석방법을통계분석방법과결합함으로써통계적방법으로도출하지못한데이터의유의미한의미를파악하는연구가진행되어야한다. 참고문헌 논문 David Lechevalier, Anantha Narayanan, Sudarsan Rachuri, "Towards a Domain-Specific Framework for Predictive Analytics in Manufacturing", 2014 IEEE International Conference on Big Data, p. 987, 2014. Roiger, R., M. Heatz, "Data mining : A Tutorial Based Primer, Addison Wesley, 2003. Soon Tee Teoh, KwanLiu Ma, "Painting Class: Interactive Construction, Visualization and Exploration of Decision Trees", Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 668, 2003. Adam Perer, Ben Shneiderman,"Integrating Statistics and Visualization: Case Studies of Gaining Clarity during Exploratory Data Analysis", CHI 2008 Proceedings Visual Synthesis, p. 265, 2008. E. Kandogan, "Visualizing Multi-Dimensional Clusters, Trends, and Outliers using Star Coordinates.", ACM SIGKDD 01, p. 113, 2001. Soon Tee Teoh, KwanLiu Ma, "PaintingClass: Interactive Construction, Visualization and Exploration of Decision Trees", Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 670, 2003. DeGroot, Schervish, "Definition of a Statistic". Probability and Statistics Third Edition 213
Addison Wesley, pp.370-371, 2002. Pak Chung Wong, J. Thomas, "Visual Analytics", IEEE Computer Graphics and Applications Volume 24 Issue 5, pp. 20, 2004. Rick Walker, Philip A. Legg, Serban Pop, Zhao Geng, Robert S. Laramee, Jonathan C. Roberts, "Force-Directed Parallel Coordinates", 17th International Conference on Information Visualisation, p.39, 2013. Inselberg, A, The plane with Parallel Coordinates, The Visual Computer, p.79, 1985. 문성민, 하효지, 이경원, 영화의흥행성과와리뷰감정어휘와의관계분석, 디자인융복합학회, 제 53(4) 권, p.7, 2015. 경찰청, " 지리정보통합한지리적프로파일링시스템구축 (GeoPros)", 2013 빅데이터사례집, p.65, 2013. 최종후, 서두성, " 의사결정나무를이용한개인휴대통신해지자분석 ", 한국경영과학회, pp. 379, 1998. 권영란, 김세영, " 의사결정나무분석기법을이용한중학생인터넷게임중독의보호요인예측 ", 정신간호학회지 13 호, p. 19, 2014. 인터넷사이트 영화진흥위원회, http://www.kofic.or.kr/ http://202.30.24.167:8080/parallel.html 214 Design Convergence Study 61 Vol.15. no.6 (2016.12)