Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.5, May (2017), pp. 821-828 http://dx.doi.org/10.14257/ajmahs.2017.05.02 R 프로그램을이용한 SNS 상의모바일기기사용자감성분석 이현경 1), 김종배 2) A Study on Mobile Device users' Sentimental Analysis on the SNS through the R program Hyeon-Kyung Lee 1), Jong-Bae Kim 2) 요약 IoT(Internet of Things) 가결합된다양한제품들과소셜네트워크서비스 (SNS) 산업의성장은방대한양의데이터를만들어내는시대를열었다. 실제로대표적인 SNS 인 Twitter 에는 2014 년기준전세계 9 억 7,400 만명이가입했으며이들은하루에 5 천만개이상의트윗을업로드되고있다. Twitter 를통해사용자가본인의관심사, 생각등을업로드하면서기업의입장에서자사가필요로하는고객에대한정보들을쉽게얻을수있다. 미래가불확실한비즈니스환경에서기업의외부시장정보수집과분석을통해미래를예측하려는기업이늘면서, 과거에는중요하지않게여겨지던데이터가새로운가치를창출한다는가능성에재조명되고있다. 이에많은기업에서신사업창출, 생산성향상, 빠른의사결정, 고객맞춤서비스제공등의목적으로 SNS 데이터를이용하여분석하고있다. 이에본논문에서는 R 프로그램을이용하여대표적인 SNS 인 Twitter 에서 galaxy note7 과 iphone7 을언급한트윗을각각 500 개씩수집하여, 긍정 / 부정의오피니언마이닝분석을실시하였다. 트윗분석결과 iphone7 과 galaxy note7 키워드에대한의미있는결과를얻을수있었다. 향후제품이미지에영향을미치는기사및요인을도출하여제품의판매예측에대한연구가필요하다. 핵심어 : R 프로그램, SNS 분석, 오피니언마이닝, 감성분석 Abstract The growth of social networking sites industry and the number of products combined with the IoT (Internet of Things) have created an era of vast amounts of data. For example, a representative social networking service Twitter has 97,400 million members in 2014, and more than 50 million tweets are posted every day. Through Twitter, many companies are able to obtain information about the clients they need easily as users post information such as interests and thoughts etc.. As the number of corporations trying to predict the future through their collection about and analysis on the information of external market is increased in the business environment where the future is unclear, the data is re-highlighted because of its possibility to create new values. Meeting to this trend, a lot of corporations analysis the Received (February 26, 2017), Review Result (March 13, 2017) Accepted (March 20, 2017), Published (May 31, 2017) 1 156-743 Graduate School of Software, Soongsil University, Sangdo-dong, Dongjak-gu, Seoul, Korea email: ketia89@naver.com 2 Corresponding Author) 156-743 Graduate School of Software, Soongsil University, Sangdo-dong, Dongjak-gu, Seoul, Korea email: kjb123@ssu.ac.kr ISSN: 2383-5281 AJMAHS Copyright c 2017 HSST 821
A Study on Mobile Device users' Sentimental Analysis on the SNS through the R program consumers in using the SNS data for the purposes of creating new business, improving the productivity, more quickly making decisions, and providing customer-tailored service. So this study collected 500 twits commenting about the galaxy note7 and the iphone7, respectively on the Twitter, a representative SNS and conducted the positive/negative opinion analysis in utilizing the Program R. As the results analyzing the total 1000 twits, this study could get some meaningful fingdings about the iphone7 and the galaxy note 7. It needs to conduct researches about the prediction of the both products' sale by drawing out the articles and factors influencing on the both products' images from now on. Keywords : R program, SNS Analysis, Opinion Mining, Sentimental Analysis 1. 서론 IoT가결합된다양한제품들과소셜네트워크서비스 (SNS) 산업의성장은방대한양의데이터를만들어내는시대를열었다. 현존하는전체데이터의 90% 는지난 3년동안생성됐다. IT 시장조사기관인 IDC는 2009년에 0.8 제타바이트였던디지털생산량이 2020년에는 35.2 제타바이트로 44 배이상증가할것이라고발표했다 [1]. 실제로대표적인 SNS인 Twitter 에는 2014년기준전세계 9 억 7,400만명이가입했으며이들은하루에 5천만개이상의트윗을업로드되고있다. Twitter 를통해사용자가본인의관심사, 생각등을업로드하면서기업의입장에서자사가필요로하는고객에대한정보들을쉽게얻을수있다 [2]. [ 그림 1] 2020년데이터증가량 ( 출처 : IDC 2010) [Fig. 1] Data the amount of increase in 2020 미래가불확실한비즈니스환경에서기업의외부시장정보수집과분석을통해미래를예측하려는기업이늘면서, 과거에는중요하지않게여겨지던데이터가새로운가치를창출한다는가능성에재조명되고있다. 기업에서분석하는데이터에는자사가보유하고있던정형데이터와워드문서, PDF, 이미지파일, Twitter 나 Facebook 과같은 SNS에서생성되는비정형데이터로이루어져있다 [3]. 고객을파악할수있는데이터의 85% 가비정형데이터이기때문에많은기업에서신사업창출, 생산성향상, 빠른의사결정, 고객맞춤서비스제공등의목적으로 SNS 데이터를이용하여분석하고미래를예측하고있다. 또한기업들은자사가보유한고객데이터전체에대한대규모 822 Copyright c 2017 HSST
Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.5, May (2017) 데이터처리와분석을통한마케팅을해오고있다. 이에본논문에서는 R 프로그램을이용하여대 표적인 SNS 인 Twitter 에서 galaxy note7 과 iphone7 을언급한트윗을각각 500 개씩수집하여, 긍정 / 부정의오피니언마이닝분석을실시하였다 [4]. 2. 관련연구 2.1 오피니언마이닝 오피니언마이닝 (Opinion Mining) 은 SNS상에업로드되어있는사용자의의견으로긍정 / 부정 / 중립중어떠한견해를가지고있는지판별하는기법이다 [5]. 따라서사용자의감성과의견을수치화하여객관적인자료로만들기때문에자연어처리를필수로수반한다 [6]. 양정연외 (2008) 는오피니언마이닝을다음의 3단계로나누었다 [7]. 첫번째는자연어처리기법에기반하여부정의미수를계산하여누적된정보를보여준다. 두번째는사용자평가정보를활용하여상품특징별로점수화한다. 세번째는특징을나타내는어휘빈도를활용해전체정보의내용을사용자에게전달한다. 이러한오피니언마이닝은상품리뷰와같은텍스트로이루어진정보에서의미있는정보를추출하는분야로가장활발하게적용되는분야는온라인쇼핑몰이다 [8]. 2.2 SNS 분석 이주영, 인관호, 김응모 (2012) 는 SNS 상에서고객이작성한리뷰나의견을수집하여기업의데이터베이스내에이름과매칭되는문장을추출하고세부사항별로의미에대한극성판별을실시하였다. 형태소분석과오피니언마이닝기법을이용하여기업이나제품에대한고객의의견을분석하는방법을제시하였다 [9]. 정은희, 이병관 (2015) 은반의어와부사의위치에따라가중치를다르게설정하여오피니언마이닝을기반으로한 SNS 감성분석전략을제시하였다. SNS 문장에서의단어들을긍정 / 부정으로판단하는사전을구축한후, 빈번하게사용되는단어에대한함축단어사전을생성하였다. 반의어와부사의위치에따른가중치를기반으로의견값을산출하는전략을통해기존연구보다정확도를개선하였다 [5]. 류송희, 김용희, 김응모 (2016) 는 Amazon 에등록된영화리뷰데이터에대한감성분석을실시하였다. 리뷰를 80개이상남긴사용자를추출하였으며 SentiWordNet 을활용하여감성분석을진행하였다. 감성분석된데이터는협업필터링방식을통해추천시스템을구상하였으며, 추출한정보를바탕으로더나은추천서비스를제안하였다 [6]. 장재영 (2009) 은온라인쇼핑몰에등록된상품평에대한긍정, 부정의견을판단하여요약된결과를전달하는알고리즘을제시하였으며제안한알고리즘의효율성을검증하는실험을진행하였다 ISSN: 2383-5281 AJMAHS Copyright c 2017 HSST 823
A Study on Mobile Device users' Sentimental Analysis on the SNS through the R program [8]. [ 그림 2] SNS 감성분석에대한기존연구 [Fig. 2] Releated study of SNS sentimental analysis 기존연구 [5] [6] [8] [9] 내용반의어와부사의위치에따라가중치를다르게설정하여오피니언마이닝을기반으로한 SNS 감성분석전략을제시하였다. Amazon 에등록된영화리뷰데이터에대한감성분석을실시하고협업필터링방식을통해추천시스템을구상하였으며, 추출한정보를바탕으로더나은추천서비스를제안하였다. 온라인쇼핑몰에등록된상품평에대한긍정, 부정의견을판단하여요약된결과를전달하는알고리즘을제시하였다. SNS 상의고객의견에대한형태소분석과오피니언마이닝을이용한고객의견분석방법을제시하였다. 3. 데이터감성분석 3.1 Twitter 인증 Twitter 데이터를크롤링 (Crawling) 하기위해서는어플리케이션을하나임시로만들어서데이 터를가져오기위한기본준비단계가필요하다. 트위터홈페이지를통해 Customer Key(API Key), Customer Secret(API Secret), Access Token, Access Token Secret 를각각부여받았다. 824 Copyright c 2017 HSST
Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.5, May (2017) [ 그림 3] Twitter 인증키 [Fig. 3] Twitter authentication key 부여받은인증키를이용해 Twitter App과연결을해야한다. Twitter 에서앱인증을통해부여받은인증번호를 R Studio에입력을하여앱인증을완료해야한다. 3.2 Twitter 데이터수집 [ 그림 4] 앱인증코드 [Fig. 4] Application authentication code R Studio 에서 TwitteR 패키지를이용하여 Twitter 에서애플사의 iphone7 과삼성의 galaxy note7 를언급한트윗을각각 500 개씩크롤링하였다. [ 그림 5] iphone7 크롤링데이터일부 [Fig. 5] iphone7 part of the crawled data ISSN: 2383-5281 AJMAHS Copyright c 2017 HSST 825
A Study on Mobile Device users' Sentimental Analysis on the SNS through the R program 3.3 데이터전처리 [ 그림 6] galaxy note7 크롤링데이터일부 [Fig. 6] galaxy note7 part of the crawled data 크롤링된트윗에대한감성분석을하기위해불필요한부분을제거하는전처리작업이필요하다. gettext 기능을이용해본문내용만을추출하는작업을각각진행하였다. 3.4 감성분석 [ 그림 7] 전처리완료데이터 [Fig. 7] completion of processing data R Studio에서 twitter 패키지를이용하여 Twitter 에서애플의 iphone7 과삼성의 galaxy note7를언급한트윗을각각 500개씩크롤링하였다. 본논문에서는김경태외 (2014) 가구축한영문감성사전을이용하여 iphone7과 galaxy note7에대한트윗에대해긍정문장및부정문장의비율을히스토그램으로나타내었다 [10]. 826 Copyright c 2017 HSST
Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.5, May (2017) [ 그림 8] iphone7 의긍정, 부정점수 [Fig. 8] Positive, negative scores for iphone 7 [ 그림 9] galaxy note7 의긍정, 부정점수 [Fig. 9] Positive, negative scores for galaxy note 7 iphone7 의경우 0 을기준으로 -4 까지부정의의견이긍정보다더많이언급된것을알수있으 며이는 iphone7 의경우이어폰단자가사라진제품이나온것의영향으로보인다. 반면 galaxy note7 의경우부정의의견이 -2 로 iphone7 보다좋은이미지를가진것으로나타났 ISSN: 2383-5281 AJMAHS Copyright c 2017 HSST 827
A Study on Mobile Device users' Sentimental Analysis on the SNS through the R program 으며, 점수가 1 인긍정적인의견이많은비율을차지한것으로나타났다. 삼성은최근 galaxy note7 의배터리폭발사건으로인해부정적인이미지를가지고있었지만글로벌리콜을통해이미 지회복을했기때문이다. 4. 결론 본논문에서는대표적인 SNS인 Twitter 를통해 iphone7 과 galaxy note7에대한사용자트윗을각각 500개씩크롤링하였다. 크롤링하기위해 R 프로그램을사용하였으며, twitter를이용하였다. 또한 Twitter 상의트윗을크롤링하기위해 Twitter 에서인증코드를받는작업을진행하였다. 분석결과 iphone7은부정적인의견이많은것으로나타났으며, galaxy note7의경우긍정적인의견이많은것으로나타났다. 향후제품이미지에영향을미치는기사및요인을도출하여제품의판매예측에대한연구가필요하다. References [1] Samjung KPMG Economic Research, Create future value of the company through the big data analysis (2012), Samjung KPMG [2] Chang-Whan Cho, Yoon-Hee Sung, Kyung-Jung Han, Tak-Joo Kwon, Won-Young Choi, Analysis of Twitter Usage Twitter Influence and Corporation Usage (2011), KADPR, Vol.88, pp.98-126. [3] Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn, An Extraction Method of Sentiment Infromation from Unstructed Big Data on SNS, Journal of Korea Multimedia Society (2014), Vol.17, No.6, pp.671-680. [4] Lee, Jee-Hee, Yi, June-Seong, Son, JeongWook, Unstructured Construction Data Analytics Using R Programming - Focused on Overseas Construction Adjudication Cases (2016), JOURNAL OF THE ARCHITECTURAL INSTITUTE OF KOREA Structure & Construction, Vol.32, No.5, pp.37-44. [5] Eun-Hee Jeong, Byung-Kwan Lee, A Design of SNS Emotional Information Analysis Strategy based on Opinion Mining. (2015), KIIECT journal, Vol.8, No.6, pp.544-550. [6] SongHui Ryu, YongHee Kim, Ung-Mo Kim, Sentiment Analysis & Movie Recommendation: Using Amazon Movie Reviews, Procedings of the Korea Computer, (2016) pp.1834-1836, Korea [7] Jung-Yeon Yang, Jaeseok Myung, Sang-goo Lee, A product review summarization system using a scoring of features. (2008), Society for e-business Studies, pp.339-347. [8] Jae-Young Chang, A Sentiment Analysis Algorithm for Automatic Product Reviews Classification in On-Line Shopping Mall. (2009), Society for e-business Studies, Vol.14, No.4, pp.19-33. [9] Joo Young Lee, Kwan Ho In, Ung-mo Kim, Customer Analysis in SNS by using the Opinion Mining. (2012) KOREA INFORMATION SCIENCE SOCIETY, Vol.39, No.2C, pp.101-103 [10] Kyung-Tae Kim, Jung-Kook Ahn, Dong-Hyun Kim, Books of big data utilization 1", sdedu Publishers, Korea (2014) 828 Copyright c 2017 HSST