The Korean Journal of Applied Statistics (2013) 26(6), 903 913 DOI: http://dx.doi.org/10.5351/kjas.2013.26.6.903 Detection of the Change in Blogger Sentiment using Multivariate Control Charts Jeounghoon Moon a Sungim Lee b,1 a BigAnalytics, Information Strategy Department, ElandSystems Ltd. b Department of Statistics, Dankook University (Received July 17, 2013; Revised September 6, 2013; Accepted October 29, 2013) Abstract Social network services generate a considerable amount of social data every day on personal feelings or thoughts. This social data provides changing patterns of information production and consumption but are also a tool that reflects social phenomenon. We analyze negative emotional words from daily blogs to detect the change in blooger sentiment using multivariate control charts. We used the all the blogs produced between 1 January 2008 and 31 December 2009. Hotelling s T-square control chart control chart is commonly used to monitor multivariate quality characteristics; however, it assumes that quality characteristics follow multivariate normal distribution. The performance of a multivariate control chart is affected by this assumption; consequently, we introduce the support vector data description and its extension (K-control chart) suggested by Sun and Tsung (2003) and they are applied to detect the chage in blogger sentiment. Keywords: Multivariate control chart, support vector data description, K-chart. 1. 서론 1.1. 연구배경 최근소셜네트워크서비스 (Social Network Service; SNS) 등소셜미디어 (social media) 의발달로하 루에도수백만건의글들이 SNS 를통해얻어지고있으며, 이러한글들은사용자개개인의심리상태나 감정또는경험들을반영한다. 소셜미디어는웹 (Web) 기술의발전과네트워크의고속화, 그리고스마 트폰등다양한정보기기의확산으로소셜네트워크서비스를지원하는고도의어플리케이션이다. 이러 한소셜미디어는온라인이해집단의사회적영향력을증대시켰고미래사회발전을위한전략적대안으 로자리잡고있다 (Oh, 2010). 기존의미디어가대중매체 (mass media) 와같이방송사나잡지사또는 신문사와같은일방적인정보및사실을전달하는것이었다면, 소셜미디어는개인의의견에또다른생 각을더하는등의참여가가능해지면서누구나정보를생산하고소비하는것이가능해졌다. 따라서사 회적이슈나사건들이개개인에게영향을주게되며, SNS 를통한자기감정의표현은또다른사람에게 This research was supported by the Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education, Science and Technology(2011-0025168). 1 Corresponding author: Associate Professor, Department of Statistics, Dankook University, 152, Jukjeon-ro, Suji-gu, Yongin-si, Gyeonggi-do 448-701, Korea. E-mail: silee@dankook.ac.kr
904 Jeounghoon Moon, Sungim Lee 전달되어급속한확산으로인한파급효과가기하급수적으로커지게된다. 그러므로사회현상을잘반영하는 SNS 문서를분석하는것은사회의불안정성을인식할수있는중요한관리도구가될것이며, 본연구에서는이러한문서의특성을분석하는과정에서품질관리에서많이사용되는통계적공정관리기법을적용해보고자한다. 통계적공정관리의중요한목적중의하나는공정의이상을조기에발견하고그원인을파악하여공정을안정화시키는것이다. 이러한목적으로사용되는대표되는기법이관리도인데, 관리도는 Shewhart (1931) 의 X 관리도로부터시작되어계속된연구와발전을거듭하였다. 그러나최근에는컴퓨터의발달등으로인하여수많은품질특성치들을관측할수있게되면서품질특성치들간상호연관성등의문제로인하여기존의일변량관리도 (univariate statistical process control; SPC) 를통한관리가어렵게되었다. 이렇듯상호연관성이존재하는품질특성치들에대하여일변량관리도를통해관리하는것은올바르지않으며, 따라서이러한특성치를동시에관리하는다변량관리도 (multivariate statistical process control) 의중요성이점점더강조되고있다 (Montgomery, 2001). 이러한다변량관리도에는 Shewhart 형태의호텔링 T 2 관리도 (Hotelling, 1931) 와다변량 CUSUM 관리도 (Crosier, 1988), 다변량 EWMA 관리도 (Lowry 등, 1992; Prabhu와 Runger, 1997) 등이있다. 호텔링의 T 2 관리도는가장널리사용되는관리도중하나로서, 현재시점의관측치에근거하여관리통계량을계산한후공정의이상유무를판단하는관리도로데이터의공정관리초기에적합한관리도이다. CUSUM 관리도와 EWMA 관리도는공정관리를통해공정이어느정도안정된후공정의작은변화를빠르게탐지하도록과거의데이터와현재시점에서얻어진값을누적하여관리통계량으로사용하는것이다 (Chiang 등, 2001; Montgomery, 2001). 그러나위에서언급한여러관리도는관측치들이독립이고, 정규분포를따른다는가정이필요하다. 하지만본연구에서관심있는트위터나블로그등을통하여얻는데이터의경우일반적으로확률분포를알기가어려우며정확하게추정하는것또한쉽지가않다. 1.2. 연구목적소셜미디어의발달로인하여사용자들은자신의감정을 SNS를통해서직접적으로표현하고있다. 따라서 SNS 사용자들이표현하는감성어에대한데이터분석을통해그들의정서를파악할수있으며, 최근에는이러한소셜미디어자료에대한분석이활발하게이루어지고있다. Kramer (2010) 는대표적인 SNS 중하나인페이스북에서의사용자들감성어들을통하여 GNH(Gross National Happiness) 지수를제안하였다. GNH 지수는긍정감성어와부정감성어의사용빈도수에대한평균차이를통해계산되며, 이를통해사회의행복정도를제시하였다. 또한 Hong (2011) 은 SNS 상에서의담론분석을통하여인지적, 정서적측면에서의여론변화에대한연구를실시하였는데, 트위터에서일정기간동안수족구질병에대하여자주등장하는감성어들에대하여시간의변화에따라이들감성어들에대한각각의빈도수를제시함으로써이를바탕으로여론변화시점을파악하고자하였다. 본연구에서는블로그에자주사용되는부정적인감성어들에대하여이들을사용한블로거들의전체수를일별로관측하여블로거들의정서가변화하는시점을탐지하고자한다. 앞서언급한대로부정적인감성어들 ( 예를들어, 힘들다, 외롭다, 죽고싶다 등 ) 에대하여각각의감성어를사용한전체블로거들의수는상호연관성이존재하게되고, 이러한감성어들에대한빈도수는다변량데이터를형성하게된다. 기존연구에서는단지긍정적이거나부정적인단어의빈도수사이의차이라던지혹은개별적인단어에대한빈도수만고려한반면에, 이번연구에서는다변량데이터를활용하여공정의이상요인발생을탐지하는데사용되는다변량관리도기법을적용하여, 이상요인이발생하는시점과당시발생한사회적사건가일치하는것을보이고, 소셜미디어데이터에대해서도관리도기법을적용해서사회의부정적정서변화를탐지하는데적용가능함을보이고자한다.
Detection of the Change in Blogger Sentiment using Multivariate Control Charts 905 Figure 2.1. Univariate and multivariate control charts 다변량관리도기법으로는호텔링의 T 2 관리도등이자주사용되는데, 실제문제에서의다변량자료는대부분정규분포를따르지않기때문에사용에많은제약이존재한다. 반면에서포트벡터를이용한 Support Vector Data Description(SVDD) (Tax와 Duin, 2004) 과서포트벡터에근거한 K-관리도 (Sun과 Tsung, 2003) 는이러한확률가정이필요없고, 실제문제에더좋은성능을보여준다고알려져있다 (Sukchotrat 등, 2010; Gani 등, 2011). 이에본연구에서는 2절에서 SVDD와 K-관리도를소개하고, 3절에서는소셜미디어자료를적용해보고자한다. 마지막으로 4절에서는결론및향후과제에대하여다루도록하겠다. 2. 서포트벡터기반의다변량관리도통계적공정관리에서관리도를이용하는중요한목적은공정의이상을탐지하여그원인을파악하고수정함으로써불량제품의발생을사전에억제하여공정의산포를효율적으로관리하는것이다. 관리도는품질특성치의개수에따라서단변량관리도와다변량관리도로나누어진다. 단변량관리도는하나의품질특성치를관리하고자할때의관리도이다. 반면품질특성치가 2개이상의다변량으로주어지는경우, 이를동시에모니터링을하기위해서는다변량관리도가필요하다. 다변량관리도는단변량관리도가찾아내지못하는이상징후를파악할수있는데, Figure 2.1과같이상관관계가있는두특성치들을모니터링할때이들의상관관계를고려하여이상유무를파악할수있기때문이다. 이처럼다변량관리도의주요목적은데이터의이상상태를탐지하기위한것이고이를위해서는적절한관리한계선 (control limits) 을설정하는것이매우중요하다. 그런데관리한계선의설정은앞에서도언급한바와같이데이터의확률분포가정에의존하게되는데, 실제문제에서는확률분포가알려져있지않거나정규분포를가정하기어려운경우를자주접하게된다. 이에블로거들의부정적인감성어사용에대한변화를탐지하기위한관리도의관리한계선을정하는문제를단일클래스분류문제로접근하고, 서포트벡터를이용한 SVDD를적용하거나 SVDD 알고리즘을기초로커널거리를사용한 K-관리도 (Sun과 Tsung, 2003) 를적용하기위해이들에대해알아보기로한다. 2.1. 서포트벡터데이터표현 (Support Vector Data Description; SVDD) Tax와 Duin (2004) 이제안한 SVDD는비선형 SVM(Support Vector Machine) 을단일집단 (One- Class Classification) 의분류에사용한것인데, SVDD의주요아이디어는고차원공간의자료를가능한한적은부피를갖는초구면 (hypersphere) 으로포함하는것이다. 이때초구면은 Figure 2.2와같이
906 Jeounghoon Moon, Sungim Lee Figure 2.2. SVDD hyperplane of two-dimensional space 데이터를둘러싸는경계를나타낸다. 즉, 데이터가 2 차원인경우초구면은곧원이되며, 공정이정상상태일때 p 개변수를갖는데이터 x = (x 1, x 2,..., x p ) 에대하여 n 개의정상데이터 x 1, x 2,..., x n 를이들에대한초구면을구한다면이것은 데이터의정상상태와이상상태를나타내는관리한계선을의미하게된다. 이때관리한계선은정상태이 터를모두포함하면서초구면의부피를최소화하도록초구면의중심 O 와반경 R 은다음을만족하도록 결정된다. x i O 2 R 2, for any i = 1, 2,..., n, (2.1) 여기서초구면의중심 O 와반경 R 은다음의라그랑지함수를통해최적화될수있다. L = R 2 { α i R 2 x i O 2}, α i 0. (2.2) 위의식을 R 과 O 에대해편미분하면다음과같이두개의식이만들어진다. α i = 1, O = α ix i, for any i = 1, 2,..., n. (2.3) 이결과식 (2.2) 는다음과같이다시쓸수있다. L = α i (x i x i ) α i α j (x i x j ). (2.4) 이때, (x i x j ) = n k=1 x ikx ik 로두벡터의내적을의미한다. 식 (2.3) 의제약식이있을때위의식을최소화하는것은 QP(Quadratic Programming) 문제로식 (2.3) 에대한최적해 α i (i = 1,..., n) 를구 하는알고리즘이잘알려져있다. 대부분의값은 0 과같고, 극히일부분이 0 보다크게나타나는데, 이에 해당하는 α i 를초구면을이루는서포트벡터라고부른다. Figure 2.2 에서살펴보면원위에있는 4 개 의점이서포트벡터를나타낸다. 새로운관측치로 (z) 부터초평면의중심 (O) 까지의거리는모니터링에 서유용하게사용될수있는데, 즉이거리가크다면관리도에서이상상태일가능성이더크다고할수 있다. 즉, i,j=1 D = z O 을계산하여, 거리 (D) 가반경 (R) 보다크다면, 관측치는이상상태로분류된다. 또, 중심 O 대신에식
Detection of the Change in Blogger Sentiment using Multivariate Control Charts 907 Figure 2.3. Comparison of two types of boundary. hyperplane(left), SV(right) (2.3) 의추정식을사용한다면거리 (D) 는다음과같이쓸수있다. D = (z z) 2 α i (z x i ) + α i α j (x i x j ). i,j=1 2.2. K- 관리도 (K-Chart) 데이터의모양이초구면이아닌경우 SVDD 를이용해데이터를둘러싸는경계를찾게된다면그경계 가다소넓어지는경향이있다. 따라서데이터의공간 (x) 을새로운특성공간 (Φ(x)) 으로옮겨서 Figure 2.3 의오른쪽과같이데이터를둘러싸는좀더엄격한경계를찾고이를활용한관리도가 K- 관리도이다. 즉, 식 (2.1) 에서데이터 x 대신이를특성공간으로옮긴 Φ(x) 로부터다음을만족하는 O 와 R 을구하 도록한다 : Φ(x i ) O) 2 R 2, i = 1, 2,..., n. (2.5) 이것은 2.1 절에서와유사하게식 (2.4) 에서 x 의내적을커널함수 K(x i x j) = Φ(x i) Φ(x j) 로대체하 는것으로구할수있다 (Sun 과 Tsung, 2003). L = α i K(x i x i ) α i α j K(x i x j ), 여기서도 QP 프로그래밍을통해 α i 를구할수있으며, 이들중양의값을가지는 α i 가서포트벡터를 구성한다. 새로운관측치와서포트벡터의거리또한식 (2.4) 의내적을커널함수로대체한아래의식 i,j=1 과같으며, 이를통해커널거리 (kernel distance) 를얻을수있다. KD = K(z z) 2 α i K(z x i ) + α i α j K(x i x j ). 이로부터 KD R 이면정상상태, KD > R 이면이상상태로이해할수있다. 본논문의자료분석에서 는커널함수 K( ) 로다음의두함수를사용할것이다. σ 2 i,j=1 가우시안원형기반함수 (Gaussian Radial Basis Function) K(x i x j ) = exp ( x ) i x j 2, σ > 0. 다항함수 (Polynomial function) K(x i x j ) = (x i x j ) d, d {1, 2,...}.
908 Jeounghoon Moon, Sungim Lee Table 3.1. Descriptive statistics for daily number of bloggers using each word per every hundred thousand bloggers during 2008 and 2009. Mean Standard deviation Min Max Quantile 25 50 75 힘들다 2806.24 181.45 2289.10 3611.80 2684.30 2806.90 2926.70 아프다 1679.61 160.57 1364.30 2324.40 1556.60 1673.60 1777.70 안타깝다 396.31 85.52 288.50 1393.20 357.30 381.20 407.90 외롭다 335.07 48.09 213.00 538.20 299.80 335.20 365.20 괴롭다 212.44 35.18 142.70 541.30 186.80 209.20 231.60 불쌍하다 156.76 26.96 103.40 341.30 137.20 154.80 171.40 죽고싶다 48.54 12.69 22.40 166.50 40.60 47.00 54.30 커널함수로다항함수를선택할때 d = 1 이면이것은곧 SVDD 와같게되어데이터를둘러싸는경계가 초구면을이루게된다. d > 1 일때데이터를둘러싸는경계가좀더엄격하게나타날것이다. 3. 실제자료분석 3.1. 자료설명본연구에서는소셜미디어중하나인블로그를통해블로거들이사용하는부정적인감성어들을통하여그들의정서변화를탐지하기위하여다변량관리도를적용하고자한다. 데이터는 ( 주 ) 다음소프트에서제공한소셜미디어자료 (Social Media Data) 를이용하였다. ( 주 ) 다음소프트는자연어처리기술을통해 SNS에서발생하는하루수백만건의글을자연어처리기술을통해글을분석하고분리하여정제된자료를제공한다. 본논문에서는하룻동안블로그에특정단어를사용한총블로거수를데이터로활용하였다. 분석에사용된부정적인감성어들은 힘들다, 아프다, 안타깝다, 외롭다, 괴롭다, 불쌍하다, 그리고 죽고싶다 이며, 2008년 1월 1일부터 2009년 12월 31일까지일별로각단어를사용한블로그문건수를데이터로분석하였다. Table 3.1은 2008년 1월 1일부터 2009년 12월 31일동안각감성어에대하여하루에발생한 10만건당특정단어를포함한블로그문건수에대한기초통계량이다. 힘들다 의표현은하루평균 10만건당 2806.24건의블로그문서가발생하며, 아프다 의표현은 10만건당 1679.61건, 안타깝다 의표현은 396.31건, 외롭다 의표현은 335.07건, 괴롭다 는 212.44건, 불쌍하다의표현은 156.76건, 죽고싶다 의표현은 48.54건의블로그문서수가발생했다. Figure 3.1은 7개감성어에대한사용빈도수를이용하여전체데이터의특성을살펴보기위해주성분분석을실시한후주요주성분두개에대하여산점도를나타낸것이다. 여기에서볼수있듯이부정적인감성어들의주성분을살펴보면대부분의날이비슷한주성분을나타내는데비해특정날에는주성분이매우다르게나타난다는것을볼수있다. 이러한이상값이발생하는시점을탐지하기위하여관리도를적용하였다. 이때, SVDD나 K-관리도에서자료의중심과반지름을구하기위한정상자료로는 2008년자료를사용하고, 2009년자료는새로운자료로가정하였다. 3.2. 관리도적용위와같이정의된자료를바탕으로다음과같은절차로서포트벡터머신을이용한관리도를적용해보았다. 먼저 Figure 3.2는 2008년도의정상자료를이용하여 SVDD 관리도를적용해본결과이다. 정상자료에서이상상태에있는관측치를고려하기위하여, 정상자료의관측치들로부터중심과의거리를구
Detection of the Change in Blogger Sentiment using Multivariate Control Charts 909 Figure 3.1. Annual score plot using Principal component analysis Figure 3.2. SVDD Control chart and the social issue and accidents of indicated dates 하고 이들 거리의 95%분위수를 반지름 R로 사용하였다. 이처럼 SVDD 관리도를 적용한 결과, 관리 상 한선은 4.1845로 나타났으며, 2008년과 2009년에 관리 상한선을 넘는 날이 있는 것을 알 수 있었으며, 또한 관리 상한선을 넘는 날에 사회적으로 민감한 이슈나 사건이 발생했던 것을 알 수 있었다. 다음 Figure 3.3은 d = 2인 다항 커널 함수를 이용하여 K-관리도를 적용해 본 결과이다. 마찬가지로 관 리 상한은 정상 자료의 관측치들 거리의 95%분위수를 사용하였다. 이처럼 K-관리도를 적용한 결과, 관 리 상한선은 17.3901로 나타났으며, 2008년과 2009년에 관리 상한선을 넘는 날이 있는 것을 알 수 있다. 다항 커널 함수의 K-관리도는 SVDD와 유사하므로 사회적 이슈와의 연결은 생략하기로 하겠다. 마지막으로 Figure 3.3은 커널 함수로 가우시안 원형기반함수를 사용한 경우로, 여기서는 원형기반 커 널 함수의 σ를 추정하기 위하여 교차타당성을 통해 주어진 데이터에 적합한 값을 계산하였다. 만약 서 포트 벡터가 되는 관측치가 빠지는 경우, 데이터의 경계는 줄어들게 되고, 제외된 관측치는 이상상태로 판정된다. 다시 말해 제외된 관측치 외의 나머지 데이터는 경계안에 있게 되기 때문에 이때 생길 수 있 는 제 1종의 오류의 크기는 서포트 벡터의 비율이 된다. Figure 3.4는 σ의 값에 따라 데이터를 5번 재표 집하여 구한 서포트 벡터의 비율을 나타낸 것이데, 이를 통해 서포트 벡터의 비율이 가장 작을 때는 σ가 14인 것을 확인하였다.
910 Jeounghoon Moon, Sungim Lee Figure 3.3. K-Chart using Polynomial kernel function Figure 3.4. Faction of support vectors with respect to the parameter σ for 5 resampled samples Figure 3.5. K-Chart using RBF kernel function Figure 3.5는 σ = 14로 하여 원형기반함수를 사용한 K-관리도를 나타낸다. K-관리도를 적용한 결과, 관리 상한선은 0.5758로 나타났으며, 다른 K-관리도와는 다르게 2008년과 2009년에 관리 상한선을 넘 는 날이 자주 발생한 것을 알 수 있었다. 하지만 다른 관리도와 마찬가지로 급격한 이상 상태를 나타내 는 2009년 5월 23일 노무현 전 대통령 서거일은 뚜렷하게 나타났다. Gaussian RBF 커널을 사용하는
Detection of the Change in Blogger Sentiment using Multivariate Control Charts 911 경우에는 σ 에따라관리도의형태가달라지므로이에대한추정에대하여추후연구가요구된다. 4. 결론및향후과제본연구에서는품질특성치가다변량일경우에공정관리에서사용되는다변량관리도를이용하여소셜미디어자료에적용하여시간이흐름에따라블로거들의정서가변화하는시점을탐지해보았다. 기존의다변량관리도에서가장많이사용되는관리도는호텔링 T 2 관리도이다. 하지만호텔링 T 2 관리도는자료들의다변량정규분포가정이필요한데실제문제에서는대부분이정규분포가정의적절성을담보하기어렵다. 이러한문제를해결하기위해 Sun과 Tsung (2003) 은단일클래스분류의아이디어를관리도에적용한커널거리기반의관리도인 K-관리도사용을제안하였다. 본연구에서는실제다변량자료로대표적인소셜미디어자료중하나인블로그자료로부터감성어들에대한빈도수를관측하고이를분석자료로사용하였다. 최근 SNS의발달로블로거들은사회의이슈나사건에민감하게자신들의블로그에개인적인생각을자유롭게게시하고, 일상의감정을블로그에표현하고있다. 따라서이러한개개인의감성의변화를탐지한다면사회적으로불안한정서를나타내는날을알수있다는가정하에관리도를적용해보았다. 여기에서는감성어들중부정적으로표현되는 힘들다 외 6개의감성어를분석에사용하였는데, 서포트벡터를이용한관리도분석결과, 관리상한선을넘는날짜가사회적으로좋지않은이슈나사건이나타난날들과일치하는것을알수있었다. 이러한분석결과는소셜미디어자료에표현하는사용자들의부정적인감성어들을통하여사회정서를관측해볼수있음을나타낸다. 향후에이연구를좀더발전시켜서사회정서에대한모니터링기법으로활용가능할수있겠다. 이밖에기법면에서도많은후속연구가필요한데, 예를들면이번자료분석에서는초구면의반지름을선택할때 95% 분위수를사용했는데, 실제정상자료에이상점의가능성을허용하고관리도를좀더로버스트하기위해서모든관측치로부터데이터중심까지의거리가초구면의반지름보다작다는가정 ( 식 (2.1) 과식 (2.5)) 대신에관측치로부터데이터중심까지의거리가큰경우에벌점을주는형식으로서포트벡터를추정할수있는등서포트벡터기법의방법을확대적용해볼수있을것이다. 또한 K-관리도에서 RBF 커널함수적용시 σ에관한추정은교차타당성 (cross validation) 을통해결정하는것이일반적인데, 작은 σ는자료에대한경계가엄격해그경계가데이터의흩어진모양만을따라나타나며, 큰 σ에대해서는자료에대한경계가 SVDD와마찬가지로초구면에가까이가게된다. 이러한 σ의선택은제1종오류에영향을주어관리도성능에영향을많이끼치게되기때문에최적의 σ에대한연구가좀더필요하겠다. Acknowledgements 본논문의데이터를얻도록도움주신 ( 주 ) 다음소프트송길영부사장님께깊은감사를드립니다. References Chiang, L. H., Russell, E. L. and Braatz, R. D. (2001). Fault Detection and Diagnosis in Industrial Systems, Springer, New York. Crosier, R. B. (1988). Multivariate generalizations of cumulative sum quality-control schemes, Technometrics, 30, 291-303. Gani, W., Taleb, H. and Limam, M. (2011). An assessment of the kernel distance-based multivariate control chart through an industrial application, Quality and Reliability Engineering International, 27, 391 401. Hong, J. H. (2011). The detection of public opinion and public opinion cycle via aggregated twitter opinion and sentiment, Korean Journal of Communication Studies, 19, 5 29.
912 Jeounghoon Moon, Sungim Lee Hotelling, H. (1931). The generalization of sutdent s ratio, The Annals of Mathematical Statistics, 2, 360 378. Kramer, A. D. I. (2010). An unobtrusive behavioral model of gross national happiness, Proceeding of the 28th International Conference on Human Factors in Computing Systems, New York, 287 290. Lowry, C. A., Woodall, W. H., Cahmp, C. W. and Riddon, S. E. (1992). A multivariate exponentially weighted moving average control chart, Journal of Quality Technology, 34, 46 53. Montgomery, D. C. (2001). Introduction to Statistical Quality Control, John Wiley & Sons, USA. Oh, K. S. (2010). A study on the strategic approach to m-government in the age of social media, Social Science Studies, 34, 135 161. Prabhu, S. S. and Runger, G. C. (1997). Designing a multivariate EWMA control chart, Journal of Quality Technology, 29, 8 15. Shewhart, W. A. (1931). Economic control of 1uality of Mmnufactured product, Republished in 1980 by the American Society for Quality Control, D. Van Nostrand Company, Inc., New York. Sukchotrat, T., Kim, S. B. and Tsung, F. (2010). One-class classification-based control charts for multivariate process monitoring, IIE Transactions, 42, 107 120. Sun, R. and Tsung, F. (2003). A kernel-distance-based multivariate control charts using support vector methods, International Journal of Production Research, 41, 2975 2989. Tax, D. and Duin, R. (2004). Support vector data description, Machine Learning, 54, 45 66.
Detection of the Change in Blogger Sentiment using Multivariate Control Charts 913 다변량관리도를활용한블로거정서변화탐지 문정훈 a 이성임 b,1 a 이랜드시스템즈, 정보전략실, 빅어낼러틱스팀 ; b 단국대학교응용통계학과 (2013 년 7 월 17 일접수, 2013 년 9 월 6 일수정, 2013 년 10 월 29 일채택 ) 요약최근소셜네크워크서비스의발달로인해개인의감정이나의견을표현하는소셜데이터들이하루에도수백만건씩생산되고있다. 또한소셜데이터는개인의의견에또다른생각을더하는등정보의생산과소비가누구나가능해짐으로써사회현상을잘반영해주는도구로성장하고있다. 본연구에서는블로그에올라온부정적인감성어들을분석하여블로거의감성변화를탐지하기위해다변량관리도를이용하고자한다. 이를위해 2008 년 1 월 1 일부터 2009 년 12 월 31 일사이에생성되었던모든블로그를사용하였다. 품질특성치가다변량으로주어지는경우호텔링의 T 2 관리도가널리사용된다. 그러나이관리도는품질특성치들의분포가다변량정규분포라는가정을하고있어, 비정규다변량자료에대한관리도의성능은좋지않다. 이에본논문에서는 Sun 과 Tsung (2003) 이제안한써포트벡터머신에서단일집합분류기법중하나인 SVDD(support vector data description) 알고리즘과이를확장한 K- 관리도를소개하고, 실제데이터분석에적용해보았다. 주요용어 : 다변량관리도, 서포트벡터데이터표현, K- 관리도. 이논문은 2011 년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (No. 2011-0025168). 1 교신저자 : (448-701) 경기도용인시수지구죽전로 152, 단국대학교응용통계학과, 조교수. E-mail: silee@dankook.ac.kr