<30312DC6EDC1FDC0A7BFF82E687770>

Similar documents
위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

8월-이윤희-1.indd

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

슬라이드 1

09오충원(613~623)

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

A Hierarchical Approach to Interactive Motion Editing for Human-like Figures

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

리텀 백서 새로저장-작은용량

슬라이드 1

02 BRAND REPORT 여기서 내 친구들도 따로 나와는 별도의 가까운 친구들이 있다는 것이 핵심이다. 즉 A와 B가 알 고 B와 C가 서로 알지만 A와 C가 서로 모를 때 B 가 A와 C를 서로 소개시켜줄 수 있고 A가 B를 거 쳐 우연하게 C까지 도달해 친구를

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

0125_ 워크샵 발표자료_완성.key

12월16일자.hwp

기업들의 SNS마케팅 전략 사례연구

CMS-내지(서진이)

<BEF0B7D0C1A4BAB8BFACB1B85F34382D32C8A35FBABBB9AEC3D6C1BE5F E687770>

chap 5: Trees

Chap 6: Graphs

I

Ⅰ. 지금 왜 연결 을 주목해야 하나 1. 웹을 통한 연결의 일상화 연결이 우리 시대를 규정하고 미래를 변화시키는 키워드가 될 것이다. 업무 중 혹은 정보 검색 중, 어느덧 지인의 미니홈피 사진첩을 클릭하는 자신을 발 견한 경험이 한번쯤은 있을 것이다. 거기서 그치지

PowerPoint 프레젠테이션

160322_ADOP 상품 소개서_1.0

<B3EDB4DC28B1E8BCAEC7F6292E687770>

서 형성되는 관계에 대한 연구 [4]가 이루어지고 있다. 실제 사회에서 하나의 집단을 가지고 할 수 있는 분석 방식이 다양하듯 인터넷에서 다양한 방면의 분석이 이루어지는 것을 확인할 수 있다. 본 보고서에서는 인터넷 커뮤니티에서 사용자들이 어떠한 관계를 나타내는지에 대

Yachtro_여병상_조경식_백인송

포맷

< FBEC8B3BBB9AE2E6169>

R을 이용한 텍스트 감정분석

DBPIA-NURIMEDIA

Issue 가하고 있어 2) 기업들은 SNS를 적극적으로 활용하기 위한 다양한 방안들을 모색하고 추진하고 있다. 특히 최근 스마트폰의 확산은 모바일환경에서 SNS를 사용가능하도록 하여 SNS의 확산에 크게 영향을 미치고 있고, SNS의 확산은 다시 스마트폰의 확산에도

대 SNS가 금융에 미치는 영향.hwp

DBPIA-NURIMEDIA

6.24-9년 6월

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

PowerPoint 프레젠테이션

정보기술응용학회 발표

02( ) CPL12-16.hwp

로거 자료실

Week13

Microsoft PowerPoint - XP Style

ÃѼŁ1-ÃÖÁ¾Ãâ·Â¿ë2

Microsoft PowerPoint - 26.pptx

Trend Analysis 유튜브는 지난 2007년 말을 기준으로 미국 시장에서만 매일 6만5천여 건의 비디오 업로드와 1천억 건의 시청 횟수를 기록했다. 현재 전 세계 비디오 포털 시장에서, Google Video, My Space TV, Yahoo!Video, Br



31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

Cloud Friendly System Architecture

Web Scraper in 30 Minutes 강철


한국언론진흥재단 지정주제 연구보고서 해외동포 언론의 국내뉴스 보도 연구 책임 연구 한동섭(한양대학교 미디어커뮤니케이션학과 교수) 공동 연구 김형일(극동대학교 언론홍보학과 교수) 연구 보조 최진호(한양대학교 미디어커뮤니케이션학과 석사과정) 발행인 이성준 편

07_À±ÀåÇõ¿Ü_0317

Social Network

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

03-최신데이터

Sequences with Low Correlation

= ``...(2011), , (.)''

歯 PDF

ø©º∫∞˙ ∞Êøµ0

001지식백서_4도

whitepaper6-KR

Chap 6: Graphs

exp

1

삼국통일시나리오.indd

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

Chap 6: Graphs

Microsoft Word - logic2005.doc


2009방송통신산업동향.hwp

Political Science& International Relations EWHA WOMANS UNIVERSITY

(5차 편집).hwp

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

< D D2D2D2D2D2D2D31372DC3D6BFACC1F82CC1A4BFACB0E62D2D2D2D2D2D2D2D2D2D2D2DC7D0C8B831C2F7BCF6C1A42E687770>

Microsoft PowerPoint - 27.pptx

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

<372E20B9DAC0B1C8F12DB0E62E687770>

Microsoft PowerPoint Relations.pptx

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 19~41 석유제품브랜드의자산가치측정 : 휘발유를 중심으로 19

Track2

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

8º»¹®-ÃÖÁ¾-¼öÁ¤

와플-4년-2호-본문-15.ps

:,,.,. 456, 253 ( 89, 164 ), 203 ( 44, 159 ). Cronbach α= ,.,,..,,,.,. :,, ( )

歯김한석.PDF

이베이를 활용한 B2C 마케팅_한국무역


38이성식,안상락.hwp

02 Vol

04 Çмú_±â¼ú±â»ç

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

<BAB9C0E2B0E820B3D7C6AEBFF6C5A9BFCD20B5A5C0CCC5CD20B0FAC7D0C0C720B1B8C1B6BFCD20C6AFC2A15FC1A4C7CFBFF528BCF6C1A4292E687770>

Figure 1: 현존하는 정적 분석 기술의 한계와 본 연구의 목표. 이러한 허위경보(false alarm)를 가질 수 밖에 없는데, 오탐율(전체 경보중 허위경보의 비율)이 정확도의 척도가 된다. 유용한 정적 분석기는 충분히 낮은 허위경보율을 가져야 한다. 대형 프로그

歯MW-1000AP_Manual_Kor_HJS.PDF

정보화 산업의 발전단계 : 정보혁명의 진화 정보화 산업의 발전단계 1세기에 두 번 정도의 큰 기술혁명이 이루어져 경제성장의 원동력으로 작용 uit 시대는 정보혁명 중 인터넷 이후의 새로운 기술혁명인 컨버전스 기술이 핵심이 되는 시대 uit 시대는 정보화의 극대화와 타

내지4월최종

Transcription:

3 소셜네트워크에서의인플루엔셜랭킹 KAIST 박호성 곽해운 MPI-SWS 차미영 KAIST 문수복 * 1. 서론 1) 아리스토텔레스는인간을사회적동물이라고일컬었다. 인간은서로서로관계를맺으며사회활동을한다. 이러한사회구성원간의관계를나타내는네트워크가바로소셜네트워크이다. 그림 1은 Zachary 가 1970 년대에관찰한대학의가라데클럽의네트워크이다 [16]. 각노드는가라데클럽의구성원을나타내며, 운동또는클럽미팅시두노드사이에지속적으로상호작용이존재할경우그두노드들은엣지로연결된다. 이가라데클럽은의견대립으로인해두개의파벌로나뉘어있었다. 그렇다면이런가라데클럽에서가 장영향력있는사람은누구일까? 클럽회장? 가장덩치가좋은사람? 누구나돌아보게끔만들만큼매력적인여성회원? 영향력을어떻게정의하느냐에따라달라지겠지만그림 1을보면노드 16, 노드 17 회원들보다는엣지를많이갖고있는노드 1과노드 34 회원들이클럽에많은영향을미칠것이라고예상할수있다. 실제로노드 1과노드 34 회원은각파벌의지도자들이다. 이렇게소셜네트워크에서영향을많이미치는사람을인플루엔셜 (influential : 영향자 ) 이라고한다. 모김치냉장고의성공신화를비롯하여다양한성공사례를선보이고있는입소문마케팅에서가장중요한것중하나가바로누가인플루엔셜인가를찾아내는것이다. 영향력있는대상에게마케팅을집중하는것이효과도좋고비용도절감할수있기때문이다. 이글에서는소셜네트워크에서어떻게인플루엔셜을찾고랭킹을매기는지에대하여다루고자한다. 2. 인플루엔셜을찾아라 그림 1 가라데클럽의네트워크 [16] * 종신회원 본연구는지식경제부및정보통신연구진흥원의 IT 핵심기술개발사업의일환으로수행하였음 [2008-F-016-02, 초정밀측정및분석기술연구 ]. 누가인플루엔셜인지를알아내고자하는연구는 Social Science 와 Computer Science에서꾸준히진행되어왔다. 소셜네트워크에서인플루엔셜의정의를한마디로나타내기는힘들다. 네트워크의종류와보고자하는영향의종류에따라그뜻이달라지기때문이다. 일반적으로인플루엔셜이라함은영향과권력을갖고있고행사하는사람을말한다. 아래에 Social Science 와 Computer Science 에서어떻게인플루엔셜에대한연구를했는지소개한다. 3. Social Science 의연구 1950 년대에발표된 Katz와 Lazarsfeld의 2단계유통이론 (two-step flow theory)[5] 에따르면정보나영향력은매스미디어에서수용자로바로전달되지않고소 24

수의의견지도자 (opinion leader) 를거쳐궁극적인수용자들에게로전달된다고한다. 사람들의태도를변화시키는데에매스미디어의영향보다접촉한의견지도자의영향이더큰것이관찰되었는데이러한의견지도자를인플루엔셜이라고볼수있다. 1960년대에발표된 Rogers 의개혁의확산이론 (diffusion of innovations)[11] 에서는혁신의수용자를혁신자 (innovators), 초기수용자 (early adopters), 초기다수수용자 (early majority), 후기다수사용자 (late majority), 지각수용자 (laggards) 의 5가지범주로나눈다. 이이론에서사회적활동을많이하는소수의혁신자와초기수용자를인플루엔셜이라고볼수있다. 이러한이론들은학계를넘어마케팅비지니스에적용되어왔다. 이러한전통적인이론과조금다른의견도있다. 2001년에 Domingos 와 Richardson 은새로운세대들이인플루엔셜의의견보다는동료와친구들의의견에더귀를기울이므로인플루엔셜을통한마케팅보다협력적필터링 (collaborative filtering) 같은네트워크에기반하는방법이더효과적일것이라주장하였다 [2]. 협력적필터링방법의예는 Amazon.com 에서자신과비슷한취향을가진사람들이어떤책을샀는지추천해주는시스템을들수있다. 2007 년 Watts와 Dodds 는시뮬레이션을통해인플루엔셜뿐아니라평범한사람들의역할도강조했다 [15]. 인플루엔셜이평범한사람들보다정보확산에자주큰영향을끼치기는하지만평범한사람들의기여없이는모든확산을설명할수없다는것이다. 최근의연구들은정보확산이인플루엔셜에만의존하지는않는다는결과를보이고있지만인플루엔셜의존재를부정하지는않는다. 또한소셜네트워크를그래프로이해해서인플루엔셜을정의하는개념을소개하겠다. 이개념들은 Wasserman 과 Faust 의책에좀더자세히소개되어있다 [14]. 가장중요한사람은대개그래프에서전략적으로좋은위치에있는사람이라고볼수있다. 좋은위치에있는사람은영향을끼칠때많은기회를가질수있으며적은제약을받기때문이다. 그렇다면좋은위치란과연무엇인가? 이질문에대해딱떨어지는정답은없지만몇몇서로다른개념들로정의를내릴 (a) Star (b) Circle (c) Line 그림 2 수있다. 그림 2는별모양으로생긴 Star 네트워크, 원형의 Circle 네트워크, 선으로이루어진 Line 네트워크의예로이개념들을설명하기위해사용하겠다. 첫째개념은 degree 이다. degree 는어떤노드가얼마나많은노드와접해있는지를측정하는개념이다. 그림 2의 (a) 에서노드 A의 degree 는 6이고나머지노드들의 degree 는 1이다. degree 가높은노드일수록정보를전달할많은기회가있다고할수있다. 그러므로 degree 가가장높은노드 A가가장좋은위치에있다. 그림 2의 (b) 에서는모든노드의 degree 가 2로같다. 이네트워크에서는모든노드의위치가동등한중요도를갖는다. 그림 2의 (c) 에서는양끝의노드 F,G만 degree 가 1 이고다른노드들은 degree 2를갖는다. 양끝단의위치만불이익을받는위치인것을알수있다. 두번째개념은 closeness이다. closeness 는어떤노드가다른노드들과얼마나가까운지를측정하는개념인데한노드와다른노드들간의경로의길이 (path length) 의합으로나타낼수있다. 그림 2의 (a) 에서노드 A는다른노드들과모두거리 1이떨어져있는반면다른노드는노드 A를제외한다른노드들과거리 2가떨어져있다. 그러므로경로의길이가가장짧은노드 A가 closeness가가장좋다고할수있으며가장좋은위치가된다. 그림 2의 (b) 에서는한노드에서다른노드들까지의경로의길이가각기다르지만모든노드들이동일한경로길이분포를갖고있기때문에모든노드의 closeness는같다. 그림 2의 (c) 에서는 A의경로길이의합이 12로가장짧고양끝의 F,G의경로길이의합이 21로가장길다. 즉 A 의위치가가장좋은위치인것이다. 세번째개념은 betweenness이다. betweenness는어떤노드가다른노드쌍사이에위치하는정도를측정하는개념이다. 그림 2의 (a) 에서노드 A가노드 F 에게접근하기위해서는바로접근하면되지만노드 C가노드 F에접근하기위해서는반드시노드 A 를거쳐가야만한다. 중간에서정보의흐름에가장잘개입할수있는노드 A가가장 betweenness가높다. 그림 2의 (b) 에서는모든노드들이동일한 betweenness 를갖고있으며그림 3의 (c) 에서는양끝단의노드 F,G는정보의흐름을차단할능력이없어서 betweenness 가가장낮으며중심에가까운노드일수록 betweenness가높다. 4. Computer Science 의연구 인플루엔셜을찾기위한노력은 Computer Science 소셜네트워크에서의인플루엔셜랭킹 25

커뮤니티에서도계속되었다. 특히인터넷의발달로전통적인소셜네트워크가확장된거대한온라인소셜네트워크들이등장하면서더욱활발히연구되었다. 온라인소셜네트워크는 Facebook, Cyworld, Flickr, Twitter, Myspace 등종류가많아전부를예로들수없을정도이다. 각기다른온라인소셜네트워크마다제공하는기능과성격이다르기때문에인플루엔셜을찾는유일한방법이존재하는것은아니다. 하나의온라인소셜네트워크서비스에서도인플루엔셜의정의에따라찾아지는결과가달라진다. 여기서는최근가장주목을받고있는 Twitter를중심으로인플루엔셜에대한연구를소개하고자한다. Twitter 라는마이크로블로깅서비스에서는사용자들이 140자이하의단문메세지를간단히전달할수있는기능을제공하고있다. Twitter에서는다른사용자를 follow 할수있으며 follow 함으로써소셜네트워크에서의관계가맺어진다. follow 한사용자가작성한메시지 ( 앞으로 tweet 이라고일컫겠다 ) 는자신의 Twitter페이지나스마트폰같은이동통신기기에서확인할수있다. 2009 년에발생한뉴욕허드슨강의비행기추락사고를기존뉴스매체보다 Twitter 에서먼저알려주거나국가교통정보센터에서설연휴교통정보를 Twitter를통해알려주는사례를통해빠른정보전달력과그유용함으로주목받고있는서비스이다. 일반사용자뿐아니라사회적으로유명한연예인, 스포츠스타, 오피니언리더, 정치인, 언론사, 기업, 단체등각계각층이소통및홍보의목적으로즐겨사용하고있다 ( 그림 3). 전통적인소셜네트워크그림 3 국가교통정보센터와김연아의 Twitter 표 1 follower 의수에의한랭킹 (top 10) 와정보를전달하는뉴스채널의성격을동시에갖고있는 Twitter에서인플루엔셜은누굴까? Cha et al. 은 Twitter에서 influence 가어떻게정의될수있는지알아보기위해사용자의 follower 의수, tweet 이 retweet 된횟수, 이름이 mention 된횟수등다양한기준을방대한데이터에적용하여비교하였다 [1]. 이러한다양한측정기법중본글에서는 follower 수의집계와 retweet된횟수에대해주목해보겠다. 여기서 follower 의수는앞서설명한 degree 와비슷한개념으로얼마나많은사람들이사용자의 tweet 을직접전달받게되는지를나타내는것이다. 2010년 Kwak et al. 이발표한 follower 수에의한인플루엔셜의랭킹은표 1과같다 [8]. 이기준으로인플루엔셜을정의할경우팬이나지지자가많은유명인사들이인플루엔셜이라는것을알수있다. 하지만이랭킹만이인플루엔셜을설명한다고할수는없다. 그래서사람들이생각해본것이페이지랭크 (PageRank) 알고리즘이다 [10]. 구글이사용하고있는이알고리즘은여러링크로서로연결된인터넷웹페이지들의네트워크에서어떤페이지가가장중요한페이지인지를알아내는알고리즘이다. 페이지랭크랭킹은랜덤으로웹서핑을하는사용자가링크를따라가면서웹서핑을할때어떤웹페이지에머무르는시간이얼마나긴지를알아볼수있는랭킹이다. 이알고리즘을웹페이지들과비슷한링크구조를갖는소셜네트워크에적용하면누가가장영향력이있고중요한사람인지알수있다. 페이지랭크는단순히웹페이지를향한링크의숫자를세는것이아니라네트워크에서웹페이지의영향이흐르게하여랭킹을계산한다. 같은숫자의링크를갖고있는두웹페이지가있을때유명한웹페이지들로부터링크를많이받은웹페이지가그렇지않은웹페이지보다랭킹이높게된다. 한페이지의페이지랭크를계산하는방법은식 (1) 과같다. 26

표 3 retweet 되는수에의한랭킹 (top 10) (1) : PageRank PR(pi) 는 pi의페이지랭크이고 d는 damping factor, N은웹페이지의총개수, M(pi) 는 pi 페이지를링크한페이지들의집합, L(pj ) 는 pj 페이지에서밖으로나가는링크의개수이다. damping factor 란웹서핑을하는사람이계속링크를따라클릭하여이동할확률이다. 1 - d의확률로웹서퍼는링크를따라가지않고랜덤한페이지로점프하게되며대개 d의값은 0.85 로준다. 식 (1) 을살펴보면한웹페이지는자신의페이지랭크를자기가링크하고있는페이지에골로루나눠준다는것을알수있다. 링크를받은페이지쪽에서이렇게나눠받은페이지랭크를 Damping factor 를고려해서합산한것이페이지랭크값이된다. 이과정을페이지랭크값들이변동이크게없이수렴할때까지반복하여최종페이지랭크의값을구한다. 이페이지랭크를 Twitter 사용자를웹페이지로생각하고 follow 관계를링크로생각하여적용한결과는표 2와같다 [8]. follower 수가많을수록페이지랭크가높은경향이있기때문에표 1과비교하여구성은비슷하지만인플루엔셜의미의차이에의해순서가일부바뀌었다는것을볼수있다. Twitter가제공하는기능중 retweet이라는기능이있다. 다른사람으로부터들은 tweet 을자신의 follower 들도알수있도록전달하는기능으로원래의 tweet 을그대로전달하거나자신의의견을덧붙여서전달할수도있다. 어떤사용자의 tweet 이얼마나 retweet 되었나를집계하면그 tweet 이얼마나유명한지알수있으며그사용자가얼마나영향을미칠수있는지를알수있다. 이러한집계에의한랭킹의결과가표 3에나와있다 [8]. 이랭킹을보면표 1, 표 2와는다르게상위랭킹에연예인이나정치인같은유명인사들의수가줄고대신뉴스매체들이많이등장했음표 2 페이지랭크에의한랭킹 (top 10) 을알수있다. 특히 Mashable 이나 TweetMeme, Tech- Crunch 같은소셜미디어나 IT기술에관한특정주제에관한뉴스매체들이많은영향을끼치는것이특징이다. 이랭킹에서의인플루엔셜은여러사람에게전달될수있도록 retweet될만한가치가있는소식을많이전해주는사람들이라고할수있겠다. 페이지랭크를 Twitter에바로적용하지않고 Twitter 에맞게수정하는방법도있다. Daniel Tunkelang은 tweet 이 retweet될확률을고려하여 TunkRank를제안하였다 [12]. TunkRank에서는영향 (influence) 을식 (2) 와같이정의한다. Influence(X) 는사용자 X가작성한 tweet 을읽을사람들의수의기대값이다. 이때이 tweet 의 retweet으로읽은사람의수도포함한다. (2) : TunkRank Followers(X) 는 X를 follow 하는사용자의집합이고 Following(Y) 는 Y가 follow 하는사용자의집합이다. Y가 X의 follower 라면 1 / Following(Y) 의확률로 X가작성한 tweet 을읽는다고가정한다. Y가 X의 tweet 을읽을때 p의확률로 retweet을한다. 이런가정아래 Influence(X) 는 X가쓴 tweet 을읽게되는사람의수를나타내게된다. 이알고리즘을구현하여랭킹을실시간으로조회해볼수있는웹사이트 [13] 도있으며상위랭킹은표 4와같다. 사용자의 tweet 이얼마나읽히는지를보여주는인플루엔셜랭킹이다. retweet 되는확률 p를사용자마다같게두었기때문에실제로는다른사용자보다 retweet을좀더많이받는뉴스매체들이표 3과는다르게상위권에잘보이지않는다. Kwak et al. 은정보의확산에있어서정보를수용하는순서가중요하다고생각하여 Twitter에유효수용자 (effective reader) 라는개념을도입하여인플루엔 소셜네트워크에서의인플루엔셜랭킹 27

표 4 TunkRank 랭킹 (top 10) 표 5 유효사용자를고려한랭킹 (top 10) 셜을찾았다 [7]. 유효수용자는같은문맥의정보를이전에접해보지않은새로운정보수용자를뜻한다. 예를들어동계올림픽결과에관한 tweet 을이미읽어서정보를알고있는정보수용자에게같은문맥의새로운 tweet 이전달된다면이정보수용자는유효수용자가아니다. follower 의수와유효수용자의수를비교해보면 80% 의 Twitter 사용자가자신의 follower 의 20% 만을유효수용자로가지고있다고한다. 이결과는 follower 의수만많다고인플루엔셜이라고할수없다는사실을뒷받침한다. 그래서 Kwak et al. 은정보수용순서를고려하여아래와같은유효사용자에기반한인플루엔셜랭킹을제안하였다. 전체사용자를 U라고할때 S(u) 는사용자 u의상태를나타낸다. 사용자의상태는 0과 1 두가지로상태 0은같은문맥의정보를아직받지못한상태를나타내고상태 1은이미관련정보를알고있는상태를나타낸다. 모든사용자의상태는상태 0으로초기화된다 ( 식 (3)). U (3) 사용자 u가작성한 tweet w에대한유효사용자 ER0(w) 는식 4와같이 u의 follower 중에상태가상태 0 인사용자의집합이다. and (4) 사용자 u의영향 IF0(u) 는사용자 u가작성한모든 tweet 의유효사용자수의합이된다. 식 (5) T(u) 는사용자 u가작성한모든 tweet 의집합이다. (5) 여기에사용자가 tweet 을읽을확률과사용자의기 억력까지고려한모델로부터얻은인플루엔셜랭킹은표 5와같다. 이랭킹에나타난대부분의인플루엔셜은뉴스미디어로표 1, 2의결과와는큰차이를보인다. 정보가퍼지는데있어서유효수용자에큰영향을미치는인플루엔셜은뉴스미디어라는사실을알수있다. 한편 Huberman et al. 은 Twitter에서의관계가단순한 follow 로이루어진 follower/followee 관계와메시지를보내는등실제적인상호작용이있는친구관계로나뉘어진다고보고친구관계네트워크가더많은영향을미치는네트워크라고하였다 [4]. 5. 인플루엔셜랭킹의비교 지금까지인플루엔셜을찾는여러방법을소개해왔다. 이러한방법으로찾아진인플루엔셜랭킹을어떻게비교해야할까? 아래에몇가지방법을소개한다. 이방법들로두랭킹이얼마나비슷하거나다른지를알아볼수있다. 두랭킹을각각 R 1, R 2 이라고하고랭킹의길이를 l이라하자. 우선두랭킹이얼마나겹치는지를알아볼수있다. 두랭킹의겹침 (overlap) O는식 (6) 과같이나타낼수있다. (6) O는두랭킹의공통인구성원이얼마나많은지에대한수치로구성원의순서에는영향을받지않는다. Kendall 은두랭킹의차이를측정하기위해 Kendall tau 거리 (Kτ ) 를제안하였다 [6]. Kτ 는식 (7) 과같이나타낼수있다. (7) 이때 r 1 과 r 2 가 R 1, R 2 에서같은순서로나타나면 는 0 의값을가지고 r 1 과 r 2 가반대의순서로 28

나타나면 는 1 의값을갖는다. 이렇게구해진 Kτ 로두랭킹의순서가얼마나차이가나는지를측정할수있다. 그러나 Kendall 의방법은두랭킹의길이가같고그구성원도동일해야한다는한계가있다. 그래서 Fagin et al. 은 Kτ 의한계를극복하기위해구성원의순서가다르거나한쪽랭킹에만등장하는등두랭킹의차이별로페널티를주는방법을제안하였다 [3]. 기본틀은식 (8) 과같이 Kendall 의방법과비슷하지만페널티를합산하는방법에서차이가난다. (8) 은 (i) r 1 이오직한쪽랭킹에만등장하고 r 2 는다른랭킹에만등장하는경우 ; (ii) r 1 이한쪽랭킹에서 r 2 보다순서가앞서고 r 2 만다른랭킹에등장하는경우 ; (iii) r 1, r 2 가양쪽랭킹에모두등장하나그순서가다를경우에는 1의값을갖고, 나머지경우에는 0의값을갖는다. 이방법을이용하면두랭킹의구성원이동일하지않더라도길이가같은랭킹의차이를측정할수있다. 식 (9) 와같이정규화하여나타내면 K는 K = 0일경우두랭킹이완전히다르다는것을 K = 1일경우완전히일치한다는것을나타낸다 [9]. (9) 그림 4 는위의 K 를이용하여표 1, 2, 3 에서본 follower 수에의한랭킹 (RF), 페이지랭킹에의한랭킹 (RPR), retweet 되는수에의한랭킹 (RRT) 을상위 20 위 랭킹부터상위 2000위랭킹까지비교한결과이다 [8]. RRT 랭킹이다른두랭킹과차이가많이난다는사실을알수있는데이는이랭킹이다른두랭킹이찾지못한인플루엔셜을찾는랭킹이라는것을뜻한다. 그림 4 K 를이용한랭킹의비교 [8] 6. 결론전문가들은사람들이검색엔진에서직접정보를얻는것보다친구나동료의추천으로부터정보를얻으려는경향이증가함에따라소셜미디어및소셜네트워크의웹트래픽이검색엔진의트래픽을초과할가능성이있다고한다. 실제로지난 12월 Facebook 이 Google보다 Yahoo, MSN, AOL 같은메이져포털사이트로의트래픽을더많이발생시켰다 [17]. 이런상황에서소셜네트워크에서인플루엔셜을찾는것은더욱중요한문제가될것이다. 이글에서는소셜네트워크에서서로다른의미를갖는다양한관점의인플루엔셜을찾을수있다는것을소개하였다. 인플루엔셜의정의가다양한만큼랭킹의종류도다양한데한랭킹이다른랭킹보다더좋다고단언하기는힘들다. 어떤인플루엔셜로부터새로운정보를얻는것이가장좋겠는가? 어떤인플루엔셜에게마케팅캠페인을실행하면가장효과가좋겠는가? 이와같은참조자의목적에알맞은랭킹을참조하는것이중요하다. 각종정보미디어와인터넷네트워크가연결되고네트워크의다양한특성을정량화하는것이쉬워짐에따라앞으로 Computer Science 에서이분야에더욱큰기여를할것으로기대된다. 참고문헌 [ 1 ] M. Cha, H. Haddadi, F. Benevenuto, and K. P. Gummadi. Measuring User Influence in Twitter: The Million Follower Fallacy, In Proc. of International AAAI Conference on Weblogs and Social Media (ICWSM), 2010 [ 2 ] P. Domingos and M. Richardson. Mining the network value of customers. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, pages 57-66. ACM NewYork, NY, USA, 2001 [ 3 ] R. Fagin, R. Kumar and D. Sivakumar. Comparing top k lists. In SODA 03: Proceedings of the fourteenth annual ACM-SIAM symposium on Discrete algorithms, pages 28-36, Philadelphia, PA, USA, 2003 [ 4 ] B. A. Huberman, D. M. Romero, and F. Wu. Social networks that matter: Twitter under the microscope. arxiv:0812.1045v1, 2008 [ 5 ] E. Katz and P. Lazarsfeld. Personal influence : The part played by people in the flow of mass communications. Free Press, 1955 소셜네트워크에서의인플루엔셜랭킹 29

[6] M. Kendall. A new measure of rank correlation. Biometrika, 30(1-2):81?93, 1938 [ 7 ] H. Kwak, C. Lee, H. Park, and S. Moon. Finding influentials based on temporal order of information adoption in twitter. WWW 10 poster session, 2010 [8] H. Kwak, C. Lee, H. Park, and S. Moon. What is twitter, a social network or a news media? WWW 10: Proceedings of the 19th international conference on World wide web, 2010 [ 9 ] F. McCown and M. L. Nelson. Agreeing to disagree : search engines and their public interfaces. In JCDL 07: Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries, pages 309-318, New- York, NY, USA, 2007 [10] L. Page, S. Brin, R. Motwani, and T. Winograd. The pagerank citation ranking : Bringing order to the web. 1998 [11] E. Rogers. Diffusion of innovations, New York:Free Press. 1962 [12] D. Tunkelang. A Twitter Analog to PageRank. http://thenoisychannel.com/2009/01/13/a-twittera nalog-to-pagerank/, 2009 [13] Tunk Rank. http://tunkrank.com, 2009 [14] S. Wasserman and K. Faust. Social network analysis : Methods and applications. Cambridge Univ Pr, 1994 [15] D. Watts and P. Dodds. Influentials, networks, and public opinion formation. Journal of Consumer Research, 34(4):441-458, 2007 [16] W. Zachary. An information flow model for conflict and fission in small groups. Journal of Anthropological Research, 33(4):452-473, 1977 [17] Facebook Beats Google in Directing Web Portal Traffic. http://www.commercetuned.co.uk/news/ facebook-beats-google-in-directing-web-portaltr affic-053.php, 2010 박호성 2009 KAIST 전산학과학사 2009~ 현재 KAIST 전산학과석사과정재학중관심분야 : 소셜네트워크, 웹서비스, 클라우드컴퓨팅 E-mail : hosung@an.kaist.ac.kr 곽해운 2006 KAIST 전산학과학사 2007 KAIST 전산학과석사 2007~ 현재 KAIST 전산학과박사과정재학중관심분야 : 소셜네트워크, 웹서비스사용자행태분석, 추천시스템 E-mail : haewoon@an.kaist.ac.kr 차미영 2002 KAIST 전산학과학사 2004 KAIST 전산학과석사 2008 KAIST 전산학과박사 2008~ 현재 MPI-SWS 박사후연구원관심분야 : 대규모네트워크시스템, 멀티미디어스트리밍시스템, 온라인소셜네트워크 E-mail : mcha@mpi-sws.org 문수복 1988 서울대학교컴퓨터공학과학사 1990 서울대학교컴퓨터공학과석사 2000 University of Massachusetts at Amherst, 컴퓨터공학과박사현재 KAIST 전산학과부교수관심분야 : 미래인터넷, 소셜네트워크, 복잡계네트워크, 테스트베드 E-mail : sbmoon@kaist.edu 30