Abstract Measuring influence on social networks has attracted tremendous interest from both academia and industry. Social Network Services are known a



Similar documents
위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

04 Çмú_±â¼ú±â»ç

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

R을 이용한 텍스트 감정분석

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

I

exp

09오충원(613~623)

05( ) CPLV12-04.hwp

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

DBPIA-NURIMEDIA

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

06_ÀÌÀçÈÆ¿Ü0926

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

DBPIA-NURIMEDIA

서 형성되는 관계에 대한 연구 [4]가 이루어지고 있다. 실제 사회에서 하나의 집단을 가지고 할 수 있는 분석 방식이 다양하듯 인터넷에서 다양한 방면의 분석이 이루어지는 것을 확인할 수 있다. 본 보고서에서는 인터넷 커뮤니티에서 사용자들이 어떠한 관계를 나타내는지에 대

- 2 -

DBPIA-NURIMEDIA

시안

6.24-9년 6월

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

À±½Â¿í Ãâ·Â

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

04서종철fig.6(121~131)ok

#Ȳ¿ë¼®

°í¼®ÁÖ Ãâ·Â

03-최신데이터

09권오설_ok.hwp

wtu05_ÃÖÁ¾

Data Industry White Paper

03( ) DB13-18.hwp

Microsoft PowerPoint - XP Style

ÀÌÀç¿ë Ãâ·Â

ch3.hwp

20(53?)_???_O2O(Online to Offline)??? ???? ??.hwp


001지식백서_4도

노동경제논집 38권 4호 (전체).hwp

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

춤추는시민을기록하다_최종본 웹용

정보기술응용학회 발표

<332EC0E5B3B2B0E62E687770>

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

<33312D312D313220C0CCC7D1C1F820BFB0C3A2BCB12E687770>

삼교-1-4.hwp

제19권 제3호 Ⅰ. 문제제기 온라인을 활용한 뉴스 서비스 이용은 이제 더 이 상 새로운 일이 아니다. 뉴스 서비스는 이미 기존의 언론사들이 개설한 웹사이트를 통해 이루어지고 있으 며 기존의 종이신문과 방송을 제작하는 언론사들 외 에 온라인을 기반으로 하는 신생 언론사

¼º¿øÁø Ãâ·Â-1

레이아웃 1

<31325FB1E8B0E6BCBA2E687770>

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp

45-51 ¹Ú¼ø¸¸

2002년 2학기 자료구조

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

³»Áö_10-6

<372DBCF6C1A42E687770>

삼국통일시나리오.indd

06_±è¼öö_0323

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>


歯이

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

ºñ»óÀå±â¾÷ ¿ì¸®»çÁÖÁ¦µµ °³¼±¹æ¾È.hwp

À¯Çõ Ãâ·Â

강의지침서 작성 양식

untitled

hwp

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

V28.

ePapyrus PDF Document

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

sna-node-ties

정진명 남재원 떠오르고 있다. 배달앱서비스는 소비자가 배달 앱서비스를 이용하여 배달음식점을 찾고 음식 을 주문하며, 대금을 결제까지 할 수 있는 서비 스를 말한다. 배달앱서비스는 간편한 음식 주문 과 바로결제 서비스를 바탕으로 전 연령층에서 빠르게 보급되고 있는 반면,

나하나로 5호

(5차 편집).hwp

산업백서2010표지

= ``...(2011), , (.)''

±è¼ºÃ¶ Ãâ·Â-1

2

12È«±â¼±¿Ü339~370

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

b77¹¼úÁ¤º¸š

08SW

statistics

빅데이터_DAY key

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

½Éº´È¿ Ãâ·Â

#유한표지F

14.이동천교수님수정

포맷

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

UPMLOPEKAUWE.hwp

<372E20B9DAC0B1C8F12DB0E62E687770>

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

Transcription:

SNS 사용자의 감정 분석에 의한 영향력 측정 Influence Measurement based on Sentiment Analysis of SNS Users 정회윤(Hoe-Yun Jeong) 1, 지상훈(Sang-Hun Ji) 2, 양형정(Hyung-Jeong Yang) 3, 김경윤(Kyoung-Yun Kim) 4, 김경백(Kyung-Baek Kim) 5 요 약 소셜 미디어의 등장으로 온라인상에서 정보 교류가 활발하게 이루어지고 있으며 소셜 미디어를 통한 여론형 성, 의제설정 등과 같이 사회에서 일어나는 다양한 사건들에 큰 영향력을 발휘하고 있다. 본 논문에서는 소셜 미디어 중 하나인 트위터 상에서 큰 영향력을 발휘하는 영향력자(Influential) 또는 오피니언 리더(Opinion Leader)에 대한 영향력 측정을 제안한다. 기존의 영향력 측정 연구들은 팔로워(Follower), 리트윗(Retweet), 멘션(Mention)을 이용한 사용자 네트워크에서의 구조적인 요소를 통해 영향력을 측정 하였지만, 본 논문에서 는 구조적인 요소뿐만 아니라 사용자들 간의 감정(Sentiment) 유사도 분석을 통해 영향력을 측정한다. 본 논 문에서 제안하는 방법을 통해 선정된 영향력이 높은 사용자로부터 시작된 정보에 대해 네트워크상의 정보 확 산 모델을 이용하여 영향력 최대화 문제에 적용함으로써, 기존의 영향력 측정 방법과 정보 확산 결과에 비교하 였다. 이를 통해 본 논문에서 제안한 방법이 다른 영향력 측정 방법에 비해 높은 성능을 나타낸다는 것을 확인 할 수 있었다. 또한, 이러한 결과를 통해서 감정적인 요소가 영향력 및 정보 확산에 많은 영향을 미친다는 것을 확인 할 수 있었다. 주제어: 빅데이터, 감정분석, 영향력, SNS, 영향력 최대화 1 전남대학교 전자컴퓨터공학과 석사 졸업 2 전남대학교 전자컴퓨터공학과 석사 과정 3 전남대학교 전자컴퓨터공학과 교수, 교신저자 4 웨인 주립대학교 산업공학과 교수 5 전남대학교 전자컴퓨터공학과 교수

Abstract Measuring influence on social networks has attracted tremendous interest from both academia and industry. Social Network Services are known as an effective marketing platform where customers trust the advertisements which are provided by their friends and neighbors. Therefore, selecting seed user is the primary concern in viral marketing. In addition, most of the developed algorithms and tools mainly depend on the static network structure. In this paper, we propose influence measurement based on sentiment analysis in the social network. This model considers the most influential user in the community as the candidate for the top-k seeds. We employ influence maximization problem for evaluating proposed method. Experiments show that the proposed method performs consistently well in influence maximization. Keywords: Big Data, Sentiment Analysis, Influence, Social Network Service, Influence Maximization

Journal of The Korea Big Data Service Society ISSN SNS 사용자의 감정 분석에 의한 영향력 측정 13 2383-9287 1. 서 론 현대 사회는 인터넷과 스마트폰의 보급으로 인해 사회 구성원들 간의 정보 교류가 끊임없이 이뤄지는 소셜 네트워크 사회(Social Network Community) 이다. 이러한 사회로의 발전에는 스마트폰과 같은 인터넷 장비들뿐만 아니라 트위터(Twitter), 페이 스북(Facebook), 인스타그램(Instagram) 등 다양 한 소셜 미디어(Social Media)의 사용이 큰 역할을 차지하고 있다[14, 15, 18, 19]. 소셜 미디어의 사 용이 증가함에 따라, 쉴 새 없이 공유되는 정보들이 끊임없이 축적되고 있다. 이러한 정보들이 여론형 성, 의제설정 등에 사용되면서, 소셜 미디어의 정보 전파에 대한 사용자의 영향력 측정 연구가 증대되고 있다. 영향력 측정 및 분석은 마케팅, 정치, 광고 등의 다양한 분야에서 중요한 역할을 차지한다. 마케팅 분야에서, 영향력은 제품을 홍보하고 평판을 유도하 는 역할을 한다. 정치가들에게는 홍보 및 선거의 승 패를 예측하는 중요한 요소로 작용한다. 또한, 광고 분야에서 영향력 측정은 빠른 정보전달과 저비용 고 효율의 정보 전달 측면에서 중요하다. 이를 통해 감정적인 요소와 정보 확산 영향력이 밀 접한 연관이 있다고 할 수 있다[4, 5]. 본 논문에서는 영향력 측정을 위해 팔로워, 리트 윗, 답글, 멘션 등의 구조적인 요소들을 통해 트윗의 전달 확률을 계산하고 사용자들의 감정적인 유사도 가 높을수록 정보 전달에 대해 높은 가중치를 적용 한다. 이렇게 측정된 영향력에 대해 감정적 요소들 을 고려함으로써 정보들이 어떻게 전달되는지를 분 석한다. 또한, 트위터 사용자들의 감정을 고려한 요 소들이 정보전달에 얼마나 영향을 주는지에 대해 분 석한다. 사용자간의 감정 요소가 정보 전달에 영향 을 미치는지 검증하기 위해 정보 전달 확산 모델인 영향력 최대화(Influence Maximization)를 통해 기 존의 영향력 측정 방법들과의 비교한다. 본 논문의 구성은 다음과 같다. 2장에서는 영향력 측정과 관련된 연구들을 살펴보고, 3장에서는 트위 터에서 구조적인 요소와 감정적인 요소가 병합되어 정보 전달에 대한 영향력을 측정하는 방법을 제시한 다. 4장에서는 실험을 통해 감정요소가 정보전달에 미치는 영향력에 대한 실험 결과를 살펴보고 5장에 서 결론을 제시한다. 기존의 많은 영향력 측정 방법들은 SNS상의 구조 적인 관점에서 바라본다. 트위터를 이용한 영향력 측정의 경우, 사용자 간의 팔로워(Follower), 리트 윗(Retweet), 답글(Reply), 멘션(Mention) 등과 같 은 트위터의 구조상 정보만을 이용하여 사용자의 영 향력을 예측했다[1, 2, 3]. 그러나 감정적인 단어에 대해 확산 속도가 다르다는 연구 결과를 통해 감정 적인 요소들이 정보 전달, 홍보, 여론형성, 의제설정 과 같이 의사결정에 영향을 준다는 것을 알 수 있다. 2. 관련 연구 영향력을 측정하는 대표적인 연구에는 중앙성 (Centrality)을 이용한 영향력 측정 방법이 있다. 중 앙성을 측정하는 방법에는 이접 중앙성, 매개 중앙 성, 연결 중앙성 등의 다양한 방법들이 존재한다. 그 중 이접 중앙성(Closeness Centrality)[8, 9, 10]은 서로 다른 두 사용자 간의 최단 경로를 측정하여 최 단경로들의 합이 가장 작은 사용자를 전체 네트워크

14 SNS 사용자의 감정 분석에 의한 영향력 측정 에서 가장 영향력이 높은 사용자로 분류한다. [11] 는 매개 중앙성(Betweenness Centrality)을 적용하 여 네트워크상에서의 한 사용자가 다른 사용자들 사 이에 위치하는 정도를 정의하는 것으로, 한 점이 담 당하는 중재자 역할의 정도로써 중앙성을 측정한다. 즉 최단 경로 위에 위치하면 할수록 그 사용자의 영 향력은 높아진다. 연결 중앙성(Degree Centrality) 은 다른 점과 연결된 정도를 중시하며, 연결망 내에 서 한 점에 연결되어 있는 점들의 합을 말한다. 영향 력은 전체 연결 수에서 각 행위자의 내향 연결 정도 와 외향 연결 정도의 비율로 측정된다. 이러한 구조 적인 중앙성을 이용한 영향력 측정은 구조만을 고려 하는 한계를 벗어나지 못한다는 문제점이 있다. 즉, 사용자들의 상관관계를 단순히 구조적인 특징만을 통해서 영향력을 측정한다는 점에서 다양한 사회적 관계성을 표현해야 하는 현실 세계의 문제를 제대로 표현하기 힘들다는 단점이 있다. 또 다른 대표적인 영향력 측정 알고리즘으로는 Google의 검색에 적용된 페이지랭크(PageRank) 알 고리즘이 있다[12]. 페이지랭크는 상대적 중요도에 따라 가중치를 부여하여 영향력을 측정한다. 페이지 랭크는 서로의 인용과 참조로 연결된 임의 그룹에 적용된다. 하지만 현실세계에 존재하는 소셜 네트워 크 특성상, 다수의 의견보다 소수의 의견이 더 높은 영향력을 제공할 수 있으므로 상대적인 중요성이 높 다고 해서 영향력이 높다고 할 수는 없다. [13]은 SNS 상에서 팔로어가 많은 사람이 영향 력이 있다 라는 가설에 반문하기 위해 시작된 연구 이다. 이 연구에서는 과학적인 데이터 기반의 검증 을 위해 2009년 트위터의 전체 데이터를 수집했다. 사용자의 영향력 척도로서 팔로어의 수, 트윗에 대 한 대답 횟수, 리트윗의 수를 측정하였다. 세 가지의 척도를 이용하여 영향력을 측정한 결과, 영향력의 순위는 일정하지 않고 척도에 따라 다르게 나타나는 것을 확인 할 수 있었다. 데이터 분석 결과, 팔로어 와 언급 혹은 리트윗과의 관계는 낮은 상관관계를 보였다. 즉, 팔로어가 많은 인기 있는 트위터 사용자 라고 반드시 언급이나 재전송이 많이 되지는 않는다 는 것이다. 즉, 인기와 영향력은 다르다는 것이다. 따라서 이러한 문제를 해결하기 위해 사용자간의 감 정적 유사성을 고려한 영향력 측정 연구가 필요하 다. 3. 제안방법 본 장에서는 트위터 상에서의 정보 전달의 영향력 을 측정하기 위한 방법을 제안한다. 영향력 측정을 위해, 본 논문에서는 트위터 데이터를 수집하고, 자 연어 처리 및 감정분석을 수행한다. 분석된 정보들 은 사용자의 트윗에서 다른 트윗으로 전달 될 확률 계산에 이용되며, 이러한 트윗의 전달될 확률 정보 를 바탕으로 사용자간의 리트윗, 팔로워, 답글, 멘션 등을 고려하여 상대적 중요도를 분석하고, 감정적 유사도 가중치를 적용하여 영향력을 파악한다. 3.1 전처리 단계 그림 3.1 트위터 데이터 수집 구성도 데이터 수집은 [그림 3.1]에서와 같이 트위터 데

SNS 사용자의 감정 분석에 의한 영향력 측정 15 이터를 수집 및 수집된 데이터를 타임라인과 리트 윗, 멘션으로 분리한다. 트위터 상의 데이터는 REST API를 이용하여 수집한다[6]. REST API는 과거에 발생한 트윗에 접근할 수 있기 때문에 정의 할 수 있는 검색 조건의 종류가 다양하다. REST API를 이용하여 수집된 정보들은 XML(확장성 생성 언어) 파일로 된 웹페이지를 읽어서 원하는 정보를 수집하는 구조로 이루어졌으며, 사용자의 타임라인, 팔로어, 리스트, 유저 정보, Account, Location, Geo 등의 정보를 검색한다. 본 논문에서는 트위터상의 사용자의 영향력을 측정하기 위해서 특정 기간 동안 인기를 끌었던 토픽에 대한 트위터 데이터를 수집한 다. 수집된 정보를 바탕으로 각 항목에 대한 리트윗, 답글, 팔로워와 멘션 등에 대해 네트워크를 구축한 다. 3.2 자연어 처리 하여, 각 사용자가 보유한 트윗 정보에 대해서는 어 근 분석(Stemming), 어근 추출, 단어 분리 과정 등 의 일반적인 용어 추출에 대한 전처리 과정을 수행 한다. 이 과정에서 사용자별 용어 출현 빈도수는 해 쉬 태그를 기준으로 감정 분석을 위하여 추가적으로 저장한다. 불용어는 관사나 전치사, 조사, 접속사와 같이 검 색을 할 때 의미가 없는 단어들을 뜻한다. 본 논문에 서는 금칙어를 제외한 불용어 테이블을 이용하여 불 용어를 삭제하였다. 어근 분석 작업은 예를 들어 명 사의 경우 단수 형태 apple, 복수 형태 apples 같 이 동일한 단어임에도 수에 따라서 형태가 다른데 이를 원형으로 변환하는 과정을 의미한다. 위의 apple 과 apples 의 경우, 변환 과정을 거쳐 기본형 apple 로 변환 될 것이다. 해당 과정을 통해 트윗 집 합으로부터 용어 및 출현 빈도로 구성된 테이블을 만든다. 3.3 감정분석 트윗(Tweet)에 포함된 감정 분석을 위해, 트위터 사용자가 트윗 작성 시 어떤 감정을 트윗에 담고 있 는지를 파악해야 한다. 사용자가 어떤 감정을 트윗 그림 3.2 데이터 자연어 처리 그림 3.2는 수집된 트위터 데이터를 이용하여 자 연어 처리를 하는 과정을 나타낸다. 영어권 데이터 를 사용하기 위해 미국 지역 내에서 발생하고, 영어 로 작성된 트윗만을 필터링한다. 이는 영어권에서 사용하는 데이터의 수와 사용자간의 관계가 다양하 기 때문이다. 또한, 영향력 측정에 비중이 적은 팔로 워 수와 트윗 작성 수가 적은 사용자에 대한 데이터 는 제외한다. 트위터 데이터의 자연어 전처리를 위 에 담았느냐에 따라서 트윗의 특성이 달라진다. 트 윗을 작성하거나 리트윗에 의견을 덧붙인 사용자가 부정적인 평가를 했다면 이 트윗이 전파되는 과정에 서 부정적인 분위기로 인한 선입견이 만들어져 트윗 을 보는 사람들에게 부정적인 영향을 미칠 수 있다. 본 논문에서는 실질적인 감정의 전파 과정을 분석하 기 위해 트윗에 내재된 사용자의 감정을 추출하고 트윗에 드러난 감정적 값을 추출한다. 본 절에서는 전처리 단계에서 트윗을 형태소 단위 로 분리하고, 분리된 정보를 기반으로 미리 정의 되

16 SNS 사용자의 감정 분석에 의한 영향력 측정 어 있는 감정 리스트에 포함된 트윗만을 추출하여 레이블링(Labeling)을 한다. 수집된 트윗들은 일상 생활에서 사용하는 자연어 형태의 언어들이기 때문 에 컴퓨터가 처리할 수 있도록 자연어 처리(NLP, Natural Language Processing) 과정이 요구된다. 감정 분석을 위해 극성 레이블을 구성하여 트윗 데 이터에서 추출된 키워드에 적용한다. 본 논문에서는 자연어 처리를 통해 수집한 트윗에서 극성을 갖는 모든 성상형용사, 상태성명사를 추출하여 극성 레이 블을 부여한다. 본 논문에서는 Stanford Sentiment Treebank를 이용하여 감정을 분석한다[7]. 이 방법은 Recursive Neural Tensor Network을 이용하여 각 단어들을 Tree 구조로 표현하고, 미리 정의된 감정 사전을 이 용하여 각각의 감정값들을 매핑 시키는 방법이다. 본 논문에서는 Stanford에서 제공하는 감정 카테고 리를 가진 API를 이용하여 감정 정보를 구분하고 각 카테고리 마다 나타나는 감정의 정도를 분석한다. 3.4 트위터 모델링 트위터에서는 다양한 방법을 이용하여 트위터 사 용자들끼리 정보를 교환하는 행위들이 존재한다. 사 용자들은 다른 사용자와의 팔로워(Follower) 관계 를 통해서 팔로워한 사용자의 트윗을 확인하거나, 팔로워한 사용자가 다른 사용자의 트윗을 리트윗 (Retweet)하거나, 혹은 답글을 작성함으로써 팔로 워가 아닌 제 3의 사용자가 그 트윗을 전달 받을 수 있다. 본 절에서는 트위터 상 사용자의 영향력을 나타내 기 위해 트위터에 대해서 다음과 같이 모델링하였 다. 수집 된 데이터에서, 트윗들의 집합은 T, 사용자 집합을 U, 해쉬태그들의 집합은 HS 라고 정의한다. 리트윗(Retweet, RT)은 트윗 i 를 리트윗하여 다 른 사용자의 타임라인에 트윗 j 가 작성된 경우로 식 (1)과 같이 나타낸다., (1) 답글(Reply, RP)은 트윗 i 에서 어떤 사용자가 답 글을 작성하여 트윗 j 가 생성된 경우로서 식 (2)와 같다., 멘션(Mention, MN)은 사용자 j 에게 멘션으로 트 윗 i 를 작성한 경우로 식 (3)과 같다., 팔로잉(Following, FW)은 사용자 i 가 사용자 j 를 팔로우한 경우이며, 이에 대해 식 (4)와 같이 나 타낸다., 해쉬태그(HashTag, HT)는 트윗 i 에서 해쉬태그 (HS)를 이용하여 작성한 경우이고 식 (5)와 같다., (2) (3) (4) (5)

SNS 사용자의 감정 분석에 의한 영향력 측정 17 3.5 트위터 영향력 측정 트위터에서는 사용자가 작성한 트윗이 리트윗, 멘 션, 답글을 통해서 주변의 사용자에게 전달된다. 하 지만, 트위터의 각 트윗간의 희박한 연결성을 가진 구조로 인해 직접적으로 링크를 통해 전달되는 행동 인 리트윗, 멘션, 답글과 같은 행동만을 고려한다면 영향력을 정확하게 계산하기 어렵다. 본 논문에서는 트윗들의 관계를 고려할 뿐만 아니라 트윗들의 전달 되는 방법에 대해서도 고려하여 영향력을 측정한다. (7) 사용자 i 가 작성한 전체 사용자에 대한 멘션을 이라고 할 때, 이 중에 사용자 j 에게 작성한 확 률에서 선택한 사용자 j 의 사용자에게 선택될 확률 ( )과 같다. (8) 는 트윗에서 멘션을 가지고 있는 트윗의 수이 다., (6) (9) 식 (6)은 감정적인 요소를 고려하지 않고 구조적 인 요소만을 고려한 영향력 측정 계산 방법이다. 식 (6)을 통해서 사용자의 행동을 통해 정보가 전달될 확률을 정의한다. 수식 (6)에서 G는 랜덤하게 트윗에 접근할 확 률과 트위터 상에서의 활동을 통해 접근 할 수 있는 경우로 나눌 수 있다. 또한, 의 값은 영 향력 점수에서 각각에 가중치를 부여 해 준다. 이들의 합은 1로 한정 지으며, 이는 각 요 소의 가중치 값이 너무 커지거나 작아지는 것을 방 지하기 위함이다. 각 트위터 상의 활동을 통해 얻어 지는 확률 계산은 다음과 같다. 사용자가 작성한 트윗은 리트윗이나 답변을 통해 다른 트윗으로 전달된다. 식 (1)과 (2)를 이용하여, 트윗 i 에서 리트윗이나 답변을 통해 트윗 j 로 전달 는 의 전체 트윗 수이다. 사용자가 i 의 팔로워들을 통해서 사용자 j 로 접 근할 확률이 라고 하면 이러한 접근을 통해서 사용자 j의 트윗에 접근 할 수 있다. 트윗 i 가 사용 자 i 의 팔로워 정보를 통해서 사용자 j로 접근해서 트윗 j 로 접근할 확률( )은 다음과 같이 나타낼 수 있다. 는 사용자 i의 팔로워 수이다. (10) (11) 는 의 전체 트윗 수이다. 될 확률( )을 식 (7)과 같이 정의한다. 트윗간의 공통 주제를 가진 사용자일수록 서로 다 른 주제를 가진 사용자보다 접근을 자주한다. 사용

18 SNS 사용자의 감정 분석에 의한 영향력 측정 자 i, j 가 각각 유사한 주제를 가지고 있는지를 정의 하기 위한 식( )은 다음과 같다. and (12) 는 해쉬태그 k를 포함한 트윗의 수이고, 는 트윗 i 에 포함된 전체 해쉬태그의 수이다. 식 (16)에서 사용자 i 와 j 의 감정적 유사함에 영 향을 미치는 리트윗, 멘션, 답글은 에 감정적 유사 함에 대한 가중치를 적용한다. 감정적 유사도가 사 용자의 행동에 대한 전달 확률에 영향을 미치기 때 문에 에 한해서만 가중치를 적용한다. 감정적 가 중치를 적용한 방법에 대해서는 식 (17)과 같이 정 의한다. 사용자 i, j 에 대해서 각각의 주제에 대한 서로의 가중치 정보를 분석한다. (13) 사용자 i 와 사용자 j 의 감정적 유사성이 비슷할 때 전달될 확률( )은 사용자들의 공통 해쉬태그 를 이용하여 사용자들이 한 주제에 대해서 어떠한 감정을 가지는 가를 정의한다. 사용자 i 와 j 가 공 통적으로 가지고 있는 해쉬태그에 대한 감정 분석 결과 집합을 hs라고 할 때, 사용자간의 감정의 유사 도는 코사인 유사도를 통해 식 (14)와 같이 정의한 다. (17) 상수 k는 유사도 결과가 0일 경우 발생하는 결과 에 대해서 잘못된 결과를 나타내는 것을 방지하기 위해서 0보다 큰 임의 값으로 한다. 최종적으로 감 정을 고려한 영향력 는 식(18)과 같다. (18) 4. 실험 (14) 식 (14)를 이용하여 식 (6)에서 정의한 영향력 측 정 방법에 감정에 대한 가중치를 식 (15)와 같이 적 용한다. 영향력 G는 다음과 같다. (15) (16) 4.1 데이터 수집 본 논문에서는 2014년 4월부터 트위터 REST API를 이용하여 트윗 데이터를 수집하였으며, 수집 된 데이터에는 특정 토픽을 포함한 데이터와 그 데 이터를 게시한 사용자들의 정보를 포함하였다. 수집 된 정보에서는 영어권 사용자들만을 대상으로 하였 고, 비교적 영향력이 적다고 판단되는 팔로워의 수 가 20 이하인 사용자들을 제외하였다. 본 논문에서 는 수집된 데이터를 이용하여 트윗들에 대한 감정 분석을 실시하였고, 사용자들의 감정 유사도를 계산 하였다. 본 논문에서는 특정 토픽 4개(Galaxy, iphone, Android, ios)를 이용하여 데이터를 수집하

SNS 사용자의 감정 분석에 의한 영향력 측정 19 였다. 이렇게 수집된 데이터를 각각 T1, T2, T3, T4로 명명하여 실험을 진행하였다. T1 T2 T3 T4 Number of users 11K 10K 9K 11K Number of tweets 77K 12K 25K 19K Number of follower links 47K 45K 32K 37K Average Degree 14.2 15.2 11.9 20.5 표 4.1 수집된 데이터 집합 통해 메시지가 얼마나 많이 전달되는지 확인 할 수 있는 영향력 최대화 결과를 통해 본 논문에서 제안 한 영향력 측정 방법과 비교한다. 1~50개의 k의 값 을 변화시켜 실험을 진행하였다. 본 논문에서는 영향력 평가를 위해 제안한 방법과 기존의 영향력 측정 방법(중앙성, 페이지랭크)들을 비교하였다. 또한, 제안한 방법과 제안한 방법에서 감정 가중치를 고려하지 않은 상태에서 영향력 최대 화 방법을 비교하였다. 영향력 최대화에 대해 정확 한 실험을 위해, 각각의 알고리즘들을 여러 번 반복 하여 평균결과를 계산한다. 4.2 영향력 최대화 4.4. 실험 결과 영향력 최대화 문제의 정의는 다음과 같이 주어진 그래프 를 사용자 V와 그들의 각 관계 E 로 표현한다. 이에 대해 각 링크 에서 전 파 확률 이 할당된다고 할 때, 영향력 최 대화 문제는 영향력 함수 를 최대화하는 k개의 노드들로 이루어진 부분집합 를 선택하는 것 이다. 이때, 영향력 함수 를 선형 임계값 모델 (Linear Threshold Model, LT-Model)과 독립 캐 스케이드 모델(Independent Cascade Model, IC-Model)을 통해 정보 전파될 때 정보가 전달되 는 노드 개수에 대한 예측값으로 정의한다[16, 17, 20, 21]. 다음 그림 4.1, 4.2는 기존 알고리즘과 본 논문에 서 제안한 방법을 이용해 k 값(사용자의 수)의 증가 에 따라 변화하는 최대 영향력을 측정한 결과이다. 이를 통해 시드 k의 값이 높을수록 정보 확산이 증 가함을 확인 할 수 있으며, 그 중 본 논문에서 제안 된 방법은 같은 k 값에서 기존 방법들 보다 더 높은 정보 확산 능력을 가짐을 확인 할 수 있었다. 이를 통해 정보 확산 능력이 높을수록 영향력이 높음을 확인할 수 있다. 4.3 비교 알고리즘 본 논문에서는 트윗 속에 존재하는 감정적인 요소 가 최초 정보 전파시 얼마만큼의 전파력을 가지고 있는지를 통해 사용자들의 영향력 측정을 평가한다. 이를 위해 영향력이 높다고 측정된 k명의 사용자를 그림 4.1 T3에서의 영향력 최대화에 대한 성능

20 SNS 사용자의 감정 분석에 의한 영향력 측정 은 그래프(Non-Sentiment)의 값보다 더욱 높은 영 향력을 보임을 확인 할 수 있다. 그림 4.2 T4에서의 영향력 최대화에 대한 성능 또한, 표 4.2는 시드 k가 50일 때, 각 메시지의 확 산 정도를 나타난 결과이다. 다른 비교 모델을 통해 서 본 논문에서 제안하는 방법이 높은 확산을 보이 는 것을 확인할 수 있다. 이를 통해 영향력 측정에서 구조적인 측면만을 고려한 방법보다는 감정적인 요 소가 고려된 정보를 통해 영향력이 높은 사용자를 측정함으로써 그 사용자가 높은 정보 확산 능력을 가지고 있음을 확인 할 수 있다. 그림 4.3 T1에서의 영향력 최대화에 대한 성능 T1 T2 T3 T4 PageRank 1522 2417.4 2555 2396 Out-Degree 1255 1987 1811 2100 In-Degree 1333 2096.1 1788 2230 Closeness 1634 2701.3 2777 2671 Between 889 1132 899 965 Proposed method 1689 2798 2800 2944 표 4.2 k가 50일 때, 영향력 최대화를 통한 결과 비교 그림 4.4 T2에서의 영향력 최대화에 대한 성능 표 4.3은 k = 50에 대해서 영향력 최대화 알고리 즘을 적용했을 때, 영향력 최대값에 대한 결과를 표 로 나타낸 것이다. 이를 통해서 감정적인 요소를 고 려한 방법에 대해서 평균적으로 114.8% 상승함을 확인 할 수 있다. 또한, 본 논문에서 감정적인 요소를 고려하지 않 은 실험 결과와 비교를 통해 감정적인 요소가 영향 력에 미치는 범위를 명확히 확인 할 수 있다. 감정적 인 요소를 고려한 그림 4.3과 4.4의 그래프 (Sentiment)의 값이 감정적인 요소를 고려하지 않

SNS 사용자의 감정 분석에 의한 영향력 측정 21 Sentim ent Non- Sentim ent 증가율 115.5 % T1 T2 T3 T4 T5 1758 2818 2671 1689 2554 1522 2300 2396 1522 2244 122.5 % 111.4 % 110.9 표 4.3 영향력 최대화를 통한 결과 비교 5. 결론 및 향후 연구 % 113.8 본 논문에서는 트위터 사용자가 트윗을 작성했을 때, 그 트윗이 사용자들의 감정적 유사도를 바탕으 로 특정 행동(retweet, mention, reply)을 통해서 얼마나 많은 인원들에게 전달되는지의 정도를 영향 력으로 나타내었다. 이러한 영향력에서 단순히 구조 적인 요소를 고려하는 것 외에도 사용자들이 작성한 트윗들의 감정적인 요소들을 통해 영향력의 전파에 영향을 미치는지를 확인하였다. 이를 위해 트위터 정보를 이용하여 트위터 상의 사용자 관계 및 사용 자의 행동들의 관계를 분석하고 사용자와의 감정적 유사 정도에 따라 영향력에 대한 가중치를 적용하여 영향력 측정하였다. 측정된 사용자들의 영향력을 검증하기 위해 네트 워크상의 정보 확산 모델을 이용하여 영향력 최대화 문제에 적용함으로써, 기존의 영향력 측정 방법과의 정보 확산 결과와 비교하였다. 이를 통해 본 논문에 서 제안한 방법에 대한 성능이 우수함을 확인하였 다. 또한, 감정을 고려하지 않은 페이지 랭크 알고리 즘과 비교하였을 때, 더 높은 정보 전파력을 나타냈 으며, 이러한 결과를 통해서 감정적인 요소가 영향 력 및 정보 확산에 많은 영향을 미친다는 것을 확인 할 수 있었다. 향후 연구로는 감정적인 요소를 고려한 영향력 측 % 정 외에도 영향력 측정과 관련된 다른 요소들을 영 향력 측정에 적용하고 이를 기존의 연구 방법과 비 교하는 것을 제안한다. 6. 참고 문헌 [1] D. M. Romero, W. Galuba, S. Asur, and B. A. Huberman. "Influence and passivity in social media". In 20th International World Wide Web Conference (WWW 11), 2011. [2] Auvinen, Ari-Matti. Social media the new power of political influence. Centre for European Studies. (2011) [3] Wei Chen, Yajun Wang, Siyu Yang, Efficient influence maximization in social networks, Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, June 28-July 01, 2009, Paris, France [4] 이승희, 박영호, "소셜 네트웍 영향력 측정 모 델 제안", 한국정보처리학회 2011년도 제35회 춘계학술발표대회 [5] 최준일 "클러스터링 및 랭킹 기법을 적용한 트 위터 사용자의 영향력 측정에 관한 연구", 대구 대학교 학위논문 2013 [6] https://dev.twitter.com/rest/public [7] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In EMNLP 2013, pages 1631 1642. [8] S. Hakimi. Optimum locations of switching

22 SNS 사용자의 감정 분석에 의한 영향력 측정 centers and the absolute centers and medians of a graph. Operations Research, 12:450{459, 1965. [9] G. Sabidussi. The centrality index of a graph.psychmetrika, 31:581-603, 1966. [10] S. Wasserman and K. Faust. Social Network Analysis: Methods and Applications. Cambridge Univ.Press, 1994. [11] Shamanth Kumar, Fred Morstattter, Huan Liu, "Twitter Data Analytics", Springer, August 19, 2013 [12] 박지혜, 서보밀, 온라인 소셜 네트워크 서비 스 환경에서 유력자의 매개 중심성이 구전 효 과에 미치는 영향, Journal of information technology applications & management [13] Jilin Chen, Rowan Nairn, Les Nelson, Michael Bernstein, Ed H. Chi, and Rowan Nairn, "Short and Tweet: Experiments on Recommending Content from Information Streams," in Proc. of the 28th international conference on Human factors in computing systems (CHI '10), pp.1185-1194, 2010. [14] Takeshi Sakaki, Makoto Okazaki, and Yutaka Matsuo, "Earthquake Shakes Twitter Users: Realtime Event Detection by Social Sensors," in Proc. of the 19th international conference on World wide web (WWW '10), pp.851-860, 2010. [15] 이미영, 최 완, "빅데이터 분석을 위한 빅데이 터 처리 기술 동향", 정보처리학회지 제 19권 제 2호 p. 20-28, 2012. 3 [16] X. He, G. Song, W. Chen, and Q. Jiang. Influence blocking maximization in social networks under the competitive linear threshold model. In SDM, 2012. [17] Amit Goyal, Wei Lu, Laks V. S. Lakshmanan, SIMPATH: An Efficient Algorithm for Influence Maximization under the Linear Threshold Model, Proceedings of the 2011 IEEE 11th International Conference on Data Mining, p.211-220, December 11-14, 2011 [18] 정기주, 서효영, 조성도, 소셜 네트워킹 서비 스(SNS) 관련 연구의 분류와 연구 동향, 한 국지식정보기술학회 논문지 제6권 제5호 2010년 10 [19] Nicola Barbieri, Francesco Bonchi, Giuseppe Manco, Topic-Aware Social Influence Propagation Models, Proceedings of the 2012 IEEE 12th International Conference on Data Mining, p.81-90, December 10-13, 2012 [20] Manuel Gomez-Rodriguez, Jure Leskovec, Andreas Krause, Inferring Networks of Diffusion and Influence, ACM Transactions on Knowledge Discovery from Data (TKDD), v.5 n.4, p.1-37, February 2012 [21] Seth A. Myers, Jure Leskovec, Clash of the Contagions: Cooperation and Competition in Information Diffusion, Proceedings of the 2012 IEEE 12th International Conference on Data Mining, p.539-548, December 10-13, 2012

SNS 사용자의 감정 분석에 의한 영향력 측정 23 정 회 윤 2013년 전남대학교 전자컴퓨터 공학과 졸업(학사) 2015년 전남대학교 전자컴퓨터 공학과 졸업(석사) 관심분야 : 데이터마이닝 지 상 훈 2011년 조선대학교 과학교육학 부(물리교육) 졸업(학사) 2014년 현재 전남대학교 전자 컴퓨터공학과 석사과정 관심분야 : 빅데이터 양 형 정 1991년 전북대학교 전산통계학 과 졸업(학사) 1993년 전북대학교 전산통계학 과 졸업(석사) 1998년 전북대학교 전산통계학과 졸업(박사) 2003년 2005년 카네기멜런 대학교 연구원 2005년 현재 전남대학교 전자컴퓨터공학부 조교수 2007년 현재 전남대학교 전자컴퓨터공학부 부교수 관심분야 : 데이터마이닝, 멀티미디어데이터분석, e-design 김 경 윤 1996년 전북대학교 산업공학과 졸 업(학사) 1998년 전북대학교 산업공학과 졸 업(석사) 2003년 피츠버그대학교 산업공학 졸업(박사) 2003년 2005년 피츠버그대학교 연구교수 2005년 현재 Wayne State University 교수 관심분야 : 협업적설계 CAD/CAM, Telerehabilitation 김 경 백 1999년 한국과학기술원 전자전 산(학사) 2001년 한국과학기술원 전자전 산(석사) 2007년 한국과학기술원 전자전산(박사) 2007년 2011년 University of California, Irvine, 박 사후연구원 2012년 현재 전남대학교 전자컴퓨터공학부 교수 관심분야 : 분산시스템, 미들웨어, 피어투피어 네트워크, 오버레이