언론정보연구 48 권 1 호, 2011 년, 87 113 http://icr.snu.ac.kr/jcr 서울대학교언론정보연구소 트위터는소셜네트워크인가? 네트워크구조와정보전파의관점 곽해운 KAIST 전산학과박사과정 haewoon@an.kaist.ac.kr 이창현 KAIST 전산학과박사과정 chlee@an.kaist.ac.kr 박호성 KAIST 전산학과박사과정 hosung@an.kaist.ac.kr 문수복 KAIST 전산학과교수 sbmoon@kaist.edu 이연구에서는 4100만명이상의트위터사용자정보와 14억 7천만개의팔로 (Follow) 관계, 그리고사용자들이남긴 1억개이상의트윗들을수집, 분석하여트위터사용자네트워크의구조적특성과정보전파의특성을분석하였다. 단방향팔로관계의상호성 (Reciprocity) 은일반적인사회적관계및여타온라인소셜네트워크에서관찰되는상호성보다상당히낮은 22.1% 로관찰되었으며이는트위터에서의팔로관계가친밀한사회적관계에기반하고있지만은않다는것을보여준다. 트위터의사용자들은오프라인에서의이슈와관련된트윗들을활발히기록하며, 많은팔로어를갖는허브 (Hub) 사용자들이풍부하게존재하고, 팔로어를많이갖지못한사용자들도리트윗을통해정보를빠르고넓게퍼뜨릴수있다는것을정량적으로밝혔다. 관계의단방향성과낮은상호성, 그리고빠르고넓은정보전파는다른소셜네트워크서비스에서는찾아볼수없는트위터의고유한특성으로서, 새로운정보전파매체로서의가능성을보여준다. KEYWORDS 트위터 온라인소셜네트워크 네트워크구조 정보전파 87
1. 서론 2006년처음서비스를시작한트위터 (Twitter) 는 2010년 10월전세계 1 억 7,500만명의사용자를확보한온라인웹서비스가되었다. 2010년 4 월시점의발표에따르면매일약 30만명의사용자가새롭게트위터를사용하기시작하였는데, 10월시점에는매일약 50만명의새로운사용자가트위터에가입하는것으로더욱그성장세가가속되고있다 1). 전세계 5억명의사용자를확보하고있는온라인소셜네트워크서비스인페이스북 (Facebook) 의시장확대와맞물려마이스페이스 (MySpace) 나오르컷 (Orkut) 등의다른온라인소셜네트워크서비스들의규모가축소되고있는것 2) 과는달리트위터는지속적으로그서비스의규모가확대되고있다. 이것은트위터가제공하는유저경험이페이스북또는여타소셜네트워크서비스들이제공하는것과는다른것임을암시하지만, 트위터가제공하는다른사용자들과온라인관계를맺고, 짧은글을남길수있고, 다른사용자의글을확인할수있는기본적인기능은다른온라인소셜네트워크의기능들과일견유사하다. SMS나스마트폰을통해글을남길수있는기능역시최근의온라인소셜네트워크서비스들대부분이제공하는기능이다. 그렇다면어째서트위터만이페이스북의성장에크게영향을받지않고있는것일까? 최근미디어에자주보도되고있는트위터의모습을살펴보면그답을간접적으로찾아볼수있다. 2009년 1월 15일허드슨강에불시착한비행기의사진 3) 이트위터를통해널리알려진다든가, 같은 2009년 6월이란부정선거의시위소식도거의실시간으로트위터를통해전세계로퍼져나갔다. 한국에서도 2010년 9월 21일서울에많은비가내렸을때 1) http://www.nytimes.com/2010/10/31/technology/31ev.html 2) http://www.vincos.it/world-map-of-social-networks 3) http://twitter.com/#!/jkrums/status/1121915133 88
트위터사용자들이실시간으로각지역의홍수상황을사진과함께업데이트함으로써기존의뉴스미디어보다더빠르고효율적인정보전달을시도한바있다 (WikiTree, 2010). 이런정보의전파는기존의온라인소셜네트워크를통해서는얻지못했던, 또는얻기어려웠던효용이었다. 이러한트위터의특징을아래의질문에대한대답을통해단계적으로분석하려는것이이연구의목적이다. 1) 트위터의단방향적인팔로관계의특성은어떠한가? 2) 트위터에서활발히전달되는정보의종류와성격은어떠한가? 3) 입소문방식의리트윗을통해정보는얼마나빨리, 넓게퍼져나가는가? 먼저페이스북을비롯한여타온라인소셜네트워크서비스들이기본적으로친한친구들, 또는오프라인에서원래서로알고있던사이의연결을위한서비스제공에초점이맞춰져있다면트위터는그보다느슨하고긴연결을중심으로서비스를제공하고있다는것을밝히고, 그것을가능케한단방향적팔로관계의특성을알아본다. 다음으로다른온라인소셜네트워크와의비교를통해트위터의네트워크구조가갖는특성을알아본다. 또한트위터에서활발히전달되는정보의종류와시간적특성에따른분류를수행하였다. 마지막으로트위터네트워크위에서정보를널리알리기위해사용되는리트윗 (Retweet) 의기능을알아보고, 리트윗에의한정보전파의특성을알아보려고한다. 이연구는저자의기존연구 (Kwak, Lee, Park & Moon, 2010) 에서수집된데이터및실험결과의일부를트위터의미디어적특성이라는관점에서재해석한결과가포함되어있음을알려둔다. 89
2. 이론적배경 1) 트위터의기능소개 이장에서는트위터가제공하는기능들중트위터가정보전파에유리한특성을갖게하는핵심기능들을간략하게소개한다. 먼저일반적인온라인소셜네트워크의양방향친구관계와다른트위터의단방향팔로관계를언급하고, 단방향온라인관계가트위터에서의메시지전달기능과밀접하게결합되어있음을설명한다. 또한사용자들이어떤식으로메시지를주고받으며인터랙션할수있는지를알아본다. 다음으로트위터의정보에다양한방법으로접근을가능하게하는 API(Application Programming Interface) 에대해알아보고, 마지막으로리트윗이라불리는메시지의공유기능에대해서적으려고한다. (1) 단방향 (One-way) 온라인관계맺기싸이월드를시작으로마이스페이스, 페이스북등의온라인소셜네트워크서비스의온라인관계는 친구초대 ( 또는신청 ) 와 초대 ( 신청 ) 수락 의두단계로형성되는것이일반적이다. 예를들어사용자 A와온라인친구관계를맺고싶은사용자 B가있을때, B가 A에게먼저친구관계신청을하게되고 A는 B의친구신청을수락하는순서로온라인친구관계가형성이되는것이다. 다른사용자로부터의친구신청을수락하는행위는대부분의온라인소셜네트워크서비스에서필수적인단계로, 두사용자가모두새로운온라인관계의형성에신청과수락이라는형태로동의를하는과정이필요하다. 이러한신청과동의의두단계는온라인소셜네트워크서비스에서의친구관계가대칭적이기때문이다. 즉, 일반적인온라인소셜네트워크서비스들에서는어느사용자가먼저친구신청을했는지는중요하지않으며사용자 A가사용자 B의친구라면, 사용자 B 역시사용자 A의친구라는대칭적이고동등한온라인관계를형성한다. 90
이와달리트위터에서는단방향의온라인관계를형성할수있다. 사용자 A가사용자 B와온라인관계를맺고싶을때, 사용자 B의동의가없어도사용자 A가일방적으로사용자 B를팔로 (Follow) 하는단방향의관계를맺을수있는것이다. 이때사용자 A를사용자 B의팔로어라하고, 사용자 B를사용자 A의팔로이라고한다. 온라인소셜네트워크에서의온라인관계형성과정과트위터에서의온라인관계형성과정을비교해보면두가지의큰차이를발견할수있다. 하나는온라인관계의형성에있어상대의동의가필요없다는점이고다른하나는형성된온라인관계가대칭적이지않다는것이다. 온라인관계의형성에있어상대의동의가필요하지않다는것은트위터에서의온라인관계가다른온라인소셜네트워크에서보다쉽게형성될수있다는것을의미한다. 온라인소셜네트워크에서친구신청을할때에는상대방이신청을수락할지에대한고려가선행되기때문에온라인에서만의새로운관계를형성하는데노력하기보다는, 기존의오프라인에서알고있던친구들을중심으로온라인친구관계를형성하게되는것이보통이다. 또한많은온라인소셜네트워크에서온라인친구관계에따라사진등의컨텐츠를열람할수있는권한을조정하기때문에친구신청 / 수락의과정이조심스럽게일어나는편이다. 그러나트위터의경우에는한사용자가다른사용자를팔로할때상대방의동의없이자신의의사만으로온라인관계를형성할수있고관계가맺어진이후에도팔로어와팔로이의명확한구분이존재하기때문에쉽게온라인관계가형성될수있다. 결과적으로온라인친구신청에대한심리적인부담이전혀없기때문에다양한계층의사람들과보다쉽게온라인연결을맺게되는데, 이런방식으로맺어진관계들은주변의또래집단안에한정되는관계가아니라기존의집단을크게벗어나는긴연결들이되어정보전파에있어중요한역할을할수있게된다 (Granovetter, 1973). 91
(2) 단방향온라인관계와메시지의전달트위터에서의단방향온라인관계는단순히다른사용자에대한지지나애정만을나타내는것이아니라트위터에서의메시지전달과밀접한관련이있다. 트위터에서각사용자는 140자길이의짧은메시지를남길수있다. 이메시지는트윗 (Tweet) 이라부른다. 트위터에서는로그인을통해인증된사용자의기본화면에서그사용자가팔로하고있는모든사용자들의최근트윗들을시간의역순으로정렬해서보여준다. 이화면은타임라인 (Timeline) 이라고부르는데시간이지나가면계속해서자동으로새로운트윗들이업데이트되게된다. 즉, 한사용자가다른사용자를팔로하는것은해당사용자의트윗을타임라인에서지속적으로구독 (subscribe) 하겠다는의미를갖는다. 이것은블로그의 RSS 주소를 RSS 리더에등록하는경우와비슷하다. 트위터에서팔로관계를맺을때상대방의동의가필요하지않듯이, 블로그의 RSS 주소를 RSS 리더기에등록하는데도블로그관리자의동의는필요하지않다. 또한팔로관계를맺고나면상대방의새트윗이사용자의타임라인에업데이트되게되는데이것역시블로그의 RSS 주소를등록하고나면블로그에새글이올라올때마다 RSS 리더에새글이업데이트되는것과같다. 즉팔로는단순히친교를나타내는온라인관계만이아니라트윗이라는컨텐츠의구독을하는기능적인역할도담당하고있다. 직접특정사용자를지칭해서트윗을남길수도있는데이때는상대방의아이디 (ID) 앞에 @ 를붙이고트윗을남기면된다. @ 를사용해서사용자에게직접트윗을남기는경우두사용자간의온라인관계가반드시맺어져있어야하는것은아니며, 사용자는타임라인과는다른별도의페이지에서자신에게남겨진모든메시지를확인할수있다. 즉많은팔로이를갖고있어서그들의최신트윗에의해타임라인이빠른속도로갱신되는사용자의경우에도다른사용자들이 @ 를이용해자신에게남긴트윗은쉽게확인할수있다. 이때 @ 의위치가트윗의맨앞인지아닌지에따라그트윗의전달이달라지므로구별해서사용해야한 92
다. @ 의위치가맨앞인경우해당트윗은리플라이라불리며 ( 예 : A가작성한트윗이 [@B 트윗내용 ] 인경우 ) 사용자 A와사용자 B의커뮤니케이션으로고려되어, 사용자 A와사용자 B를모두팔로하고있는팔로어들에게만전달이되게된다. 그러나 @ 의위치가맨앞이아닌경우에는해당트윗을남긴사용자의모든팔로어의타임라인에전달된다. 이경우를멘션이라고한다. 트윗스레드 (thread) 의관점에서트윗을분류하는경우에는 @ 가트윗의맨앞에나온경우에도해당트윗이다른트윗에대한대답이아닌경우리플라이라부르지않기도하지만, 이연구에서는트윗이어느사용자에게전달되는지를기준으로트윗의종류를구분하였다. (3) 트위터의정보에접근할수있는다양한 API 몇년전 Web 2.0 이라는용어가사용되기시작했을기반기술들중하나로 Open API 4) 를꼽는경우가많았다. Open API는웹서비스에기록되는사용자데이터를웹서비스에접근해야만확인할수있는것이아니라, 인터페이스를공개해서웹서비스의외부에서도서비스내부의데이터를읽고쓰게해주는기술들의총칭이다. 특히트위터는다양한종류의 API를제공하고있어서 5) 다른서비스와의연계가매우활발한편이다. New York Times, Huffington Post, CNN 등의언론사이트에서는각뉴스기사에트위터 API를연동해놓아서각사용자들이간단한버튼클릭을통해해당기사에대한링크를남길수있게되어있다. 또한 iphone등의모바일애플리케이션등에서도듣고있는음악에대한정보, 현재방문하고있는레스토랑의정보등을버튼클릭한번만으로트윗을쉽게남길수있게되어있다. 이는트위터외부에서트위터로의정보유입이쉽게일어날수있다는것을의미하며, 앞에서말했듯이이러한트윗들은해당사용자를 4) http://en.wikipedia.org/wiki/open_api 5) http://dev.twitter.com 에다양한 API 들의정의와설명, 용례등이정리되어있다 93
팔로하고있는모든팔로어들에게자동으로전달된다. (4) 트윗의재전송기능, 리트윗앞서말한것처럼한사용자가트윗을작성하는경우그사용자를팔로하고있는팔로어들에게해당트윗이전달되는데, 트윗을전달받는팔로어들은다양한목적으로해당트윗을다시자신들의팔로어들에게재전송할수있다. 이경우마치입소문이퍼지듯이트윗의작성자로부터그팔로어로, 다시그팔로어의팔로어로트윗이전달되어갈수있다. 이렇게트윗을재전달하는행위를리트윗 (Re + Tweet) 이라고하는데재전달하는횟수의제한이없기때문에재전달이반복되면점점많은사람이트윗을접하게된다. 버튼클릭한번만으로자신의팔로이의트윗을팔로어들에게재전달하는것이가능하며, 이런편의성은트위터에서의빠른정보전파를가능하게한다. 홍수속보나교통상황등의소식은리트윗을통해트위터내에서빠르고넓게전달될수있다. 이연구에서는수집한트윗을바탕으로리트윗의효과를속도와범위의측면에서분석하고정보전파의매체로서의트위터의가능성을보이려고한다. 3. 연구방법론 이장에서는트위터의미디어적특성을정량적으로분석하기위해데이터를수집한방식을소개하고, 수집된데이터의상세를설명한다. 이연구에서사용된데이터는사용자들의팔로관계, 사용자들이공개해놓은개인정보, 그리고사용자들이남긴트윗이다. 1) 사용자들의온라인관계 트위터의소셜그래프 API(Social Graph API) 6) 를이용하면한사용자의 팔로이리스트와팔로어리스트를얻을수있다. 트위터의사용자 ID 는 94
단조증가하는정수 7) 이기때문에스노우볼샘플링등의방법을통하지않고도사용자들의관계정보를쉽게수집할수있다. 이연구에서는 2009년 6월부터 3개월간약 4200만명의트위터사용자들의 14억 7천만개의팔로관계를수집하였다. 데이터수집에는 20대의서버를사용했으며각서버는트위터의화이트리스트 (White list) 8) 에등록되어시간당최대 2만번의쿼리를트위터서버측으로전송하였다. 화이트리스트에서버가등록되지않는경우에는서버당한시간에 150 350 번의쿼리밖에전송할수없으므로이연구와마찬가지로정보를대량으로수집하려는경우에는화이트리스트등록과정이필수적이다. 2) 사용자들의개인정보 사용자들의개인정보는트위터의유저 API(User API) 9) 를사용하여수집하였다. 사용자들이트위터에등록해놓은개인정보는사용자들의트위터페이지의배경색, 배경이미지, 사용자이름, 짧은프로필, 사용자의사진, 사용자의위치, 사용자가있는시간대등을포함한다. 이때사용자의위치는사용자가입력한정보에기반하고있어특정공통포맷을 6) http://dev.twitter.com/doc/get/friends/ids 와 http://dev.twitter.com/doc/get/followers/ids 에정의되어있는 Social Graph API의형식에맞춰팔로이와팔로어리스트를조회하기원하는사용자의아이디 (ID) 를 HTTP 질의의인자 (parameter) 로넘기면 HTTP 응답으로받을수있다. 7) 모든사용자는내부적으로관리되는정수 (integer) 아이디를갖게되는데이아이디는시간에따라 1씩차례로증가하게된다. 그러므로모든사용자들의관계정보를얻기위해서는 Social Graph API의인자로사용자 ID를 1씩증가시키며질의를하면된다. 모든사용자에대해중복없이팔로어와팔로이리스트를질의할수있다. 8) 트위터는자사의 white list에등록되어있지않은서버들에대해서는서버당질의수를제한하는방법으로트래픽을조절하고있다. White list에서버를등록하기위해서는 API를사용하는이유등을기재한신청서를트위터에온라인으로제출해야하며트위터내부규정에따른심사과정을통해 white list에등록되게된다. 자세한정보는 http://dev.twitter.com/pages/rate-limiting 에서얻을수있다. 9) http://dev.twitter.com/doc/get/users/show 사용자의어떤개인정보를얻을수있는지소개되어있다. 95
따르고있지않으므로정보를해석하는데일반적으로어려움이있으므로시간대정보만으로충분한경우에는그방법이편리하다. 또한사용자의트위터가입일, 남긴트윗의수, 즐겨찾기의수등사용자의트위터활용상황정보도포함한다. 이러한정보들은사용자들의온라인관계에더해사용자개인의특성을보다명확하게파악하는데도움을준다. 3) 사용자들이남긴트윗 트위터에서사용자들이남기는트윗의많은부분은요점이없는잡담 (Pointless babbles) 이라는연구가 2009년에발표된바있다 (PearAnalytics, 2009). 그런트윗을모두포함한대용량의데이터를통해정보의전파를연구하는것은데이터의처리시간과저장용량의문제가발생할수있으므로, 이연구에서는그런종류의잡담을제외한나머지트윗들로대상을한정하려고한다. 트윗의수집범위를한정하는데사용한방법은트위터에서발표하는트렌딩토픽 (Trending topic) 리스트이다. 이리스트는현재트위터에서가장많이언급되고있는상위 10개의단어또는연속된몇개의단어들을트위터에서짧은시간간격으로 ( 약 5 분 ) 집계하여발표하는것이다. 즉이리스트에포함되어있는단어들을포함한트윗은단순히요점이없는잡담이라기보다는현재많은사람들의관심의대상이되는특정토픽에대한느낌이나의견등을담고있으므로해당토픽에대한정보가어떤식으로전파되는지에관한연구를위해보다유용하게사용될수있다. 트렌딩토픽리스트에포함된단어들을언급하고있는트윗들을모으기위해두단계로동작하는데이터수집기 (Crawler) 를구현하였다. 먼저, 트렌딩토픽 API 10) 를이용해 5분간격으로트렌딩토픽을수집하였다. 그리고수집한트렌딩토픽들을포함하는트윗을검색 API(Search API) 11) 로 10) http://dev.twitter.com/doc/get/trends/current 96
지속적으로검색하고수집하였다 ( 현재는트위터의트위터의스트리밍 API(Streaming API) 12) 를사용하는것이더편리하다 ). 이때마지막으로트렌딩토픽리스트에포함된시점으로부터 2주일간계속해서토픽을언급하는트윗들을수집하였다. 결과적으로 4,262개의트렌딩토픽에대해 1 억 6백만개의트윗을수집할수있었다. 수집된자료중프라이버시문제로부터자유로운데이터들은연구목적을위해프로젝트홈페이지 13) 를통해공유가이루어지고있다. 4. 연구결과 : 트위터네트워크의구조적특성 이장에서는단방향팔로관계로구축된트위터네트워크의구조적특성을알아본다. 먼저단방향관계의상호성 (Reciprocity) 을알아보고, 다음으로네트워크에서각사용자들이갖는팔로어수의분포를살펴본뒤이러한특성들이트위터내에서의정보전파에어떻게작용하는지를알아본다. 1) 단방향관계의상호성 트위터사용자들사이의팔로관계가일반적인온라인소셜네트워크의양방향관계와다른단방향관계라는것은앞에서서술한바있다. 하지만두사용자간에서로팔로를하는한쌍의단방향관계는온라인소셜네트워크의양방향관계와비슷한특성을갖게된다는것을알수 11) http://dev.twitter.com/doc/get/search 12) http://dev.twitter.com/pages/streaming_api 트위터의스트리밍 API는특정쿼리를일정시간간격으로반복해서검색결과를얻을때유용하게사용할수있는데, 데이터를수집하는시점에는트위터의스트리밍 API가공개되어있지않았다. 13) http://an.kaist.ac.kr/traces/www2010.html 97
있다. 극단적으로트위터의모든단방향관계에대해쌍을이루는대칭적인관계가존재한다면트위터네트워크는일반적인온라인소셜네트워크의구조와비슷하게된다. 그렇다면실제트위터네트워크는얼마나양방향적인특성을갖고있을까? 이것을정량적으로측정하는방법이네트워크의상호성을측정하는것이다 (Wasserman and Faust, 1994). 단방향네트워크의상호성은다음과같이계산한다. 두단방향관계가짝을이루고있는사용자짝의수관계가존재하는사용자짝의수 예를들어 A <-> B -> C 의단방향관계들을갖는네트워크가있다면관계가존재하는사용자쌍의수는 (A, B) 와 (B, C) 의 2이고, 두단방향관계가쌍을이루고있는사용자쌍의수는 (A, B) 의 1이므로이네트워크의상호성값은 r=0.5 가된다. 이연구에서수집한 14억 7천만개의트위터의단방향팔로관계로이루어진네트워크에서상호성값을계산한결과 0.221 이라는낮은값을얻을수있었다 (Kwak et al., 2010). 이것은온라인관계가형성되어있는사용자쌍을고르면그중 22.1% 만서로팔로를하고있음을의미한다. 이값은다른온라인소셜네트워크의커뮤니케이션에서보고된상호성값들, 0.68의플리커 (Flickr)(Cha, Mislove & Gummadi, 2009), 0.84의야후! 360(Yahoo! 360)(Kumar, Novak & Tomkins, 2006), 0.77 의싸이월드방명록 (Chun, Kwak, Eom, Ahn, Moon & Jeong, 2008) 과비교하면매우낮은수치이다. 한국인사용자에게익숙한싸이월드서비스에서제공되는방명록을사용한사용자들의메시지교환은트위터의팔로관계처럼한사용자가다른사용자에게일방적으로메시지를남길수있는방식임에도불구하고트위터보다 3배이상더높은상호성이관찰되었다. 이는트위터의팔로관계가실제로다른온라인소셜네트워크에서사용자들이맺는양방향성관계와다름은물론이고, 싸이월드의 98
방명록에서관찰되는커뮤니케이션관계와도다름을보여준다. 트위터의단방향적인관계가서로짝을이루지않고대부분은비대칭적으로만형성되어있다는사실은, 트위터의팔로관계가단순히친교를나타내는사회적인관계가아니라, 트윗을구독하기위한기능적인용도로많이사용되고있음을보여준다고할수있겠다. 2) 팔로어수의분포 다음으로알아볼트위터네트워크의구조적특성은사용자가갖는팔로어수의분포이다. 일반적인온라인소셜네트워크에서한사용자와관계를맺고있는이웃 (neighbor) 수의분포를그려보면멱함수 (power-law) 를따른다는것은잘알려져있다 (Mislove, Marcon, Gummadi, Druschel & Bhattacharjee, 2007). 이웃수의분포가멱함수분포함수를따른다는것은이웃수가 (d) 인사용자의수와이웃수가 10x(d) 인사용자의수의비율을 1/k라할때, 이웃이 10x(d) 인사용자의수와이웃이 100x(d) 인사용자의수의비율역시 1/k로유지되는것을의미한다. 이웃수의분포가멱함수분포를따르는경우에는극단적인 ( 매우많거나, 매우적은 ) 값을갖는사용자가 normal 분포의경우보다더많이존재하게된다. 이웃수의분포를그래프로그리는경우이웃의수가많은사용자가그래프의꼬리부분에위치하게되기때문에일반적인 normal 분포의꼬리보다멱함수분포의꼬리가두껍게나타나게되는데이러한현상을두꺼운꼬리분포 (heavy tail 또는 fat tail) 이라고한다. 그렇다면트위터에서사용자가갖는팔로어수의분포는어떤분포를따르고있을까? 이질문에대한답을위해각사용자가갖는팔로어수를 < 그림 1> 에표시하였다. 그래프의 y축은상보누적함수 (Complementary cumulative density function, CCDF) 으로표시되었다. 이것은, 어떤한점의 x 값이상의모든 x 값들이갖는비율을누적한값이며, 해당 x 값의누적분포 (Cumulative density function, CDF) 값을 1 에서뺀값과같다. 예를들어그래프의빨간선이 x=10 5 일때 y=10-5 를 99
통과하고있는데이것은팔로어를 10만명 (10 5 ) 이상갖는트위터사용자의비율이전체의 10-5 를차지한다는뜻이다. 멱함수그래프는로그- 로그 (log-log) 평면에서직선으로표시되므로네트워크의이웃수를분포할때는일반적으로로그- 로그 (log-log) 평면에서그래프를그리게된다. < 그림 1> 에서 10만명에서 100만명사이의팔로어를갖는사용자들이멱함수로예측한녹색실선의값보다더많이존재함을알수있다. 즉, 다시말해이사용자들의트윗은자신의팔로어로전달되는것만으로도한번에 10만명에서 100만명에게전달된다는것을의미하고, 이렇게많은팔로어를갖는사용자들의비율이일반적인온라인소셜네트워크의특성에따라예측한것보다훨씬높게나타나는것이다. 이것은앞서알아본트위터의단방향관계가갖는특성이가져온결과라고보는것이타당하다. 상대적으로쉽게온라인관계를형성할수있는팔로의특성에따라트위터의사용자들이기존에관심이있었던정치가 ( 예 : @BarackObama: Barack Obama, 2011년 1월 1일현재팔로어 620만명, @Number10gov: UK Prime minister, 2011년 1월 1일현재팔로어 176 그림 1. 팔로어수의분포 : 직선으로표시된멱함수분포보다더많은수의허브가존재함을알수있다 100
만명 ) 또는스타 ( 예 : @aplusk, Ashton Kutcher, 2011년 1월 1일현재팔로어 615만명, @britneyspears, Britney Spears, 2011년 1월 1일현재팔로어 648만명 ) 등을팔로하고그들의트윗을구독하고있는것이다. 이런스타들뿐만이아니라뉴스기사를트윗으로남기는매스미디어계정들 ( 예 : @nytimes, New York Times, 현재팔로어 282만명 ) 도많은팔로어를갖는계정중에하나이다. 즉, 팔로어를많이가진허브유저에의한정보전달이, 더많은허브유저에의해일어날수있는것이트위터의특징이다. 3) 트위터의네트워크구조적특성요약 트위터의팔로관계는일반적인온라인소셜네트워크의양방향친구관계와는다르게관계의형성을위한상대의동의가필요없고, 또한관계역시비대칭적이라는특징이있다. 이러한특징들은일반적인온라인소셜네트워크와는차별되는트위터네트워크의구조적특징을가져왔다. 하나는낮은값의상호성이고다른하나는많은수의허브 (hub) 유저들이다. 두구조적특징모두트위터가기존온라인소셜네트워크서비스와는다른특성을갖고있음을보여준다. 기존의온라인소셜네트워크서비스들이사용자들사이의친한 (social) 관계를바탕으로오프라인에서잘알던사용자들간의관계유지에초점을두고있다고한다면, 트위터에서는자신이기존에관심이있었던사용자또는기업, 언론계정들을팔로하며트윗을구독하는특성을보인다. 트위터에서의이러한단방향연결은많은팔로어를가짐으로서직접정보전파에큰역할을할수있는사용자들을만들어낼뿐만이아니라, 오프라인에서의또래집단과또래집단사이를길게이어주는가늘고긴연결 (Granovetter, 1973) 의특성을가지게되어빠르고넓은정보전파를가능하게한다. 101
5. 연구결과 : 트위터에서의정보전파 이장에서는세달동안수집한트렌딩토픽들을언급한트윗들을대상으로트위터에서활발히전달되는정보의종류와성격을알아보려고한다. 그리고리트윗의형태로입소문 (word-of-mouth) 형태로퍼지는정보전파의규모와속도에관해논의할것이다. 1) 트렌딩토픽의유형 세달동안수집한 4200 여개의트렌딩토픽중에서해당트렌딩토픽을언급한트윗이많은순서대로 100개의트렌딩토픽을골라 New York Times의기사분류를따라토픽을분류한결과를 < 표 1> 에정리하였다. 그결과영화나연예인들의가십기사를포함한 arts 분류가 35개의트렌딩토픽을포함하는가장큰분류였다. 이하토픽이포함된순서를따라 technology(19), sports(11), world(9), style(7), U.S. region(7), politics(4), health(3), weather(2) 의분류에트렌딩토픽이속하는것을알수있었다. 아무런분류에도속하지않은트렌딩토픽은 RT 와같은트위터에서기능적인요소를담당하는단어로서정보전파의역할을하는단어가아니었으므로제외하였다. 트렌딩토픽은단어한개내지는두개로이루어져있기때문에동일하게지역을지칭하고있더라도문맥에따라분류가달라지게된다. 그러므로해당토픽이왜트렌딩토픽으로선정되었는지를충분히이해할필요가있는데, 트렌딩토픽과기간, 그리고트렌딩토픽으로선정된이유를잘정리하고있는웹사이트 14) 의자료를참고하여분류를수행하였다. 이러한분류과정을통해트위터에서사용자들이많이이야기하는주제들은대부분오프라인의이슈와밀접한관련이있음을알수있었 14) http://www.whatthetrend.com 해당토픽이왜트렌딩토픽이되었는지를위키형식으로누구나편집할수있게정리하고있는서비스이다. 102
표 1. 트렌딩토픽의분류 분류 분류에속한토픽의수 대표토픽의예 Arts 35 Harry potter, Michael Jackson, True blood, American idol Technology 19 Apple, iphone, Blackberry, Gmail, Bing, Facebook Sports 11 Football, Brazil, England, Lakers, Miami World 9 Iran, #iranelection, France, Air France, Kim, Tehran Style 7 Father s day, Starbucks, Breakfast U.S. region 7 New York, Texas Politics 4 Obama, President, President Obama Health 3 Mexico, Atlanta(* 신종플루 ) Weather 2 Rain 다. 이전연구 (Kwak et al., 2010) 에서트렌딩토픽들중 85.8% 는해당토픽을언급한전체트윗의 50% 이상이트렌딩토픽으로떠오른날쓰여짐을보였다. 이결과를바탕으로크레인과소넷 (Crane & Sornette, 2008) 의연구내용에따라트렌딩토픽의인기곡선을기준으로토픽들을분류한결과뉴스속보와같이갑자기등장하여빠르게인기를얻고다시빠르게인기를잃는트렌딩토픽 (headline news) 이나꾸준한인기를얻고오래지속되는트렌딩토픽 (persistent news), 순간적인피크를갖는트렌딩토픽 (ephemeral) 등을골라낼수있었다. 이연구에서는트위터와같은소셜미디어서비스에서트렌딩토픽에대한사용자들의상호작용을관찰한결과를덧붙이려고한다. 해당트렌딩토픽을포함한트윗을남긴사람수를기준으로상위 20개의토픽에대해각트윗들의목적에따른분류 ( 리플라이, 리트윗, 멘션의세분류와, 이세분류에포함되지않은나머지는모두싱글턴 (Singleton) 이라는분류로정의 ) 한결과가 < 그림 2> 이다. < 그림 2> 에서눈에띄는것은높은비율의싱글턴트윗들이다. 이 103
트윗들은리플라이 (Reply) 나멘션 (Mention) 처럼다른사용자와의인터랙션을위해쓰여진것이아니라트윗을작성한사용자의팔로어에게전달되는역할을수행한다. 친교목적이아니라트윗구독을위한온라인관계가형성되는것으로미루어볼때사용자간의인터랙션이아니라트렌딩토픽에대한정보전달을위한트윗, 또는정보전달역할을하는트윗이많이작성되는것은예측가능한현상이다. 재미있는것은높은비율의리플라이트윗이다. 리플라이는전적으로상대방과의의견교환등의인터랙션을위한트윗이다. 이것은대부분의트윗이요점이없는잡담 (Pointless babbles) 이라고했던 PearAnalytics의연구 (2009) 에서는부각되지않았던, 오프라인에서의이슈와같은트렌딩토픽들에대해서는사용자사이에서의상호작용을하기위한트윗도많이작성됨을의미한다. 다음으로주목해서살펴볼것은리트윗을하는트윗들이차지하고있는비율이다. 각토픽들에대해서약 5 15% 정도의비율을차지하고있는리트윗들은각각원래의트윗을자신들의팔로어들에게다시한번재전송하는목적을갖고작성된것이다. 또한각토픽의성격에따라트윗의내용을재전송하려는리트윗의비율이다른것이발견되었다. 그림 2. 상위 20 개의트렌딩토픽을포함하는트윗들의목적에따른분류비율 104
2) 리트윗을통한빠른정보전파 그렇다면리트윗은실제로얼마나빠르고넓게정보를전파할까? 우선리트윗에의한정보전파네트워크의모양을파악해보자. < 그림 3> 은 hcr (Health care reform, 2009년에있었던오바마대통령의의료보험개혁과관련한트윗 ) 을포함하는트윗들이리트윗을통해전파된네트워크구조이다. 네트워크의각노드는서로다른사용자를나타내고노드를연결하는링크는리트윗을통해정보가전달된것을의미한다. 링크의방향은정보의전파방향을나타내며링크의색은각각다른트윗을의미한다. 높은비율의최대연결성분 (Giant Connect Component, GCC) 과, 많은수의짧은리트윗트리는이전연구 (Kwak et al., 2010) 에서보였던 air france 리트윗네트워크와비슷한형태이다. < 그림 3> 의아래에위치하고있는, 최대연결성분 (GCC) 에포함되지않은 connected component들중에는길이가 1짜리리트윗 tree들을많이찾아볼수있다. 즉, 정보의소스 (source) 가트윗을남겼고, 그소스의팔로어중하나가해당트윗을리트윗한경우인데이경우리트윗 tree 의길이는 1이지만해당트윗에노출되는사용자의수는두사용자의팔로어수의합이된다. 이전연구 (Kwak et al., 2010) 에서사용자가갖는팔로어가 1,000 명이하인사용자들에대해팔로어수와무관하게그들의트윗이리트윗되는경우수백명의추가적인사용자들에게트윗이전달됨을밝혔다. 이는많은수의팔로어를갖지못한일반사용자들도입소문 (Word-of-mouth) 을통하면정보를널리퍼뜨릴수있는환경이갖추어져있다는것을의미한다. 리트윗에의한정보전파역시굉장히빨리일어나는데모든트렌딩토픽들에대해, 50% 의리트윗은원래의트윗이쓰여진시간으로부터 1시간이내에, 그리고 75% 의리트윗이하루이내에일어남을밝혔다 (Kwak et al., 2010). 이렇게대부분의리트윗이원래의트윗이쓰인지얼마안되는시간안에활발히일어나는이유에대해서는두가지가능 105
그림 3. hcr 을포함하는트윗들의리트윗시각화 : 각노드는유저를나타내고노드를연결하는링크는리트윗에의한정보의전파를나타낸다. 링크의색 (color) 은각기다른트윗을나타낸다 성을생각해볼수있다. 첫째는정보의가치가시간이감에따라빠르게떨어지는경우이다. 어떤사용자가자신의팔로이들이적은트윗을읽고자신의팔로어들에게도그트윗을보여주고싶을때리트윗을하게된다. 그런데만약트렌딩토픽이특히속보성뉴스에관한것이라면그사건이발생한시점에는자신의팔로어들이아직그소식을알지못할것이라는생각으로리트윗을활발히하게되겠지만, 어느정도시간이흘러어느정도그뉴스가알려진이후라는생각이들면더이상그트윗을리트윗하는일은없어질것이다. 이시나리오는트렌딩토픽들중약 85% 가해당토픽을언급하는트윗들이빠르게늘어나고또빠르게줄어든다는사실로부터설득력을얻는다. 두번째가능성은타임라인의한정된길이때문에트윗이노출되는시간이정해져있다는것이다. 사용자 106
들은일반적으로어느정도의시간을사이에두고트위터에로그인하여타임라인에쌓여있는트윗들을보게된다. 이때사용자가얼마나거슬러올라가며트윗을확인하느냐에따라그사용자가과거어느정도시간까지의트윗을볼수있느냐가달려있다. 사용자가읽지못하는트윗은리트윗될수도없으므로시간이지나감에따라한트윗이리트윗될확률은자연스럽게감소한다할수있다. 두가능성중어느쪽이더많은경우를설명하는지에대해서는좀더사용자중심의연구가필요하다. 위의결과는모든트렌딩토픽에대한리트윗의효용을분석한것이지만앞에서언급한대로트렌딩토픽의인기곡선에따른분류를적용하여트렌딩토픽의종류와정보의전파의관계에관한연구도향후수행할예정이다. 3) 트위터에서의정보전파특성요약 사용자들이많이언급한상위 100개의트렌딩토픽들의분석을통해실제오프라인에서의이슈들이트위터에서많이이야기되는것을밝혔다. 이전연구 (Kwak et al., 2010) 를통해많은트렌딩토픽들이빠르게인기를얻고그만큼빠르게인기를잃는것을밝힌바있으며그것은트위터내에서의화제가지속적으로빠르게바뀐다는것을의미한다. 또한트렌딩토픽들을언급하는트윗들중에서는리플라이의비중이높은것을보였는데, 이것은소셜미디어서비스들에서사용자간인터랙션을통해컨텐츠가소비되는경향을보여준다. 기존의매스미디어가일방적인정보전달에중심을두던것과는달리, 트위터와같은온라인관계를기반으로한서비스들에서는사용자간의메시지교환을통해해당정보에대한의견교환이일어날수있으며이것이소셜미디어서비스에서정보가소비되는특성이라할수있다. 리트윗을통한정보전파네트워크에서는많은사람들에게리트윗을당하는몇몇소스의존재를확인했고짧은길이의리트윗트리역시많이확인할수있었다. 대형언론계정들의정보가아니라, 일반사용자들의 107
트윗을리트윗하는짧은길이의리트윗트리들은실제로트위터에서의정보전파가허브노드에만의존하는것이아니라지엽적인많은정보소스로부터동시다발적으로퍼져나간다는것을확인할수있게한다. 이전연구 (Kwak et al., 2010) 에서사용자가갖는팔로어가 1,000명이하인사용자들에대해팔로어수와무관하게그들의트윗이리트윗되는경우수백명의추가적인사용자들에게트윗이전달됨을밝혔다. 이는많은수의팔로어를갖지못한일반사용자들도입소문 (Word-of-mouth) 을통하면정보를널리퍼뜨릴수있는환경이갖추어져있다는것을의미한다. 그리고리트윗들에의한정보전파는굉장히빨리일어난다는것을밝혔는데, 이연구에서그러한현상이발생하는두가지가능성에대해논의하고, 각가능성들을정확히검증하기위해서는사용자중심의정성적인트위터연구의노력이더필요하다는제언을하였다. 6. 향후연구의방향 정보전파가쉽게일어나는트위터를이용해어느사용자가정보전파에있어서큰영향력을발휘하는지에관한연구가활발히진행되는것은자연스러운일이다. 이전연구 (Kwak et al., 2010) 에서팔로어의수와, 트위터네트워크로부터계산한페이지랭크 (PageRank) 와, 리트윗된횟수로각각계산한사용자의순위가각기다름을보인바있다. 뒤이어비슷한시기에트위터에서사용자가갖는팔로어수는그사용자의트윗이리트윗된횟수와는관련이없다는정량적인연구도발표된바있다 (Cha, Haddadi, Benevenuto & Gummadi, 2010). 또한사용자의입장에서어떤팔로이로부터전달되어온정보를가장신뢰하는지에관한화이트페이퍼 (Vocus, 2010) 들도출간되어있는상태이다. 특히이분류에속하는연구들을수행할때주의해야할점은영향력이라는용어의범위를명확하게정의하는일이다. 이때몇가지요소 108
들을고려할수있다. 우선첫째는정보전달의현상을관찰하는방법에관한것이다. 트위터에서가장명시적으로한사용자에게서다른사용자로정보가퍼져나가는것을보여주는것은리트윗이다. 하지만리트윗은정보의전달을측정하는수단으로사용하기에는단점이몇가지있는데, 첫째로는네트워크의형태에따라서어떤리트윗은이미정보를다알고있는사람들에게중복된정보를전달하는역할만을할수있다는것이다. 이경우그리트윗은정보전달의관점에서새로운사용자에게정보를전달하지못한, 그야말로있으나없으나한트윗이되게되므로이런리트윗들로부터활발한정보전달이일어났다는결론을얻는것은어렵다고할수있다. 두번째단점은리트윗은비록트윗을읽은사용자들이 더널리알려야할필요가있는 정보라고수동적인분류를한것이지만그러한과정이항상자신이원래팔로하고있던사용자들의트윗에대해서이루어진다는점은편향된분류가일어날가능성이있다는것이다. 예를들면어떤유명스타의트윗은중요한정보를담고있지않음에도불구하고그스타의팬에의해리트윗될수있다. 세번째단점은트위터에는수동적인 (Passive) 사용자가많음에도불구하고리트윗여부만을관찰하여정보가퍼진것으로관찰한다면, 실제로해당트윗을전달받아읽었지만리트윗을하지않은많은수의수동적인독자 (reader) 들을고려하지않는방법이된다는것이다. 리트윗을통해정보전달을측정하는것은명확한방법이기는하지만위와같은단점이있으므로연구목적에맞게정보전달을정의하고그에맞춰어느사용자가그러한유형의정보전달에가장큰영향을끼쳤는지를분석하고, 명확하게진술할필요가있다. 두번째로고려해야할요소는전파되는정보의유형에관한것이다. 전파되는정보가어떤분류에속한정보이냐에따라사용자의영향력은크게달라질수있다. 물론다양한토픽에대한최신소식을골고루잘전달하는 New York Times와같은계정들도있지만 IT 토픽에만특성화된테크크런치 (@TechCrunch) 나매셔블 (@Mashable) 과같은계정들도있다. 이것들은쉽게알수있는경우이지만같은정치뉴 109
스에관해서라도진보주의의정보를전달하는데큰역할을하는사용자와보수주의의정보를전달하는데큰역할을하는사용자는다를수있다. 이러한세세한정보의분류에따른영향력의변화를정확히알기위해서는트윗컨텐츠의기계적인카테고리분류만이아니라의미분석도필요하게된다. 세번째로고려해야할요소는영향력의지속성에관한것이다. 사용자의영향력을평가한결과를마케팅등의다양한응용사례에이용하기위해서는사용자의영향력의지속성에관한지식이필요하게된다. 이지속성은시간의변화에따른지속성으로생각하기쉽지만트위터네트워크는지속적으로새로운사용자가유입되고기존의사용자가빠져나가며, 동시에새로운온라인관계도생겨나고기존의온라인관계가없어지기도하는등정보를전달하는경로자체도지속적으로변화하기때문에트위터내부요소의변화에따른영향력의지속성도중요하게고려되어야한다. 이러한요소들을고려하여트위터의정보전파에있어서사용자의역할, 팔로관계의역할과같은다양한연구가지속적으로수행될것이라예상된다. 7. 결론및함의 이연구에서는싸이월드나페이스북으로대표되는기존의온라인소셜네트워크서비스들과는다른트위터에서의정보전파특성을다루었다. 약세달의기간동안사용자들의온라인관계, 사용자들이트위터에서공개해놓은개인정보, 그리고사용자들이남긴트윗데이터를수집하였고, 개인정보를침해할여지가없는범위내에서수집한데이터의일부를연구목적으로공유하고있음을밝혔다. 먼저트위터의단방향팔로관계에주목하였다. 단방향팔로관계는트위터에서의메시지전달기능과밀접하게결합되어있는데, 실제로트위터사용자간의팔로네트워크에서상호성값을측정해본결과여 110
타온라인소셜네트워크서비스에서관찰되는것보다상당히낮은값이관찰되었다. 이는트위터네트워크의팔로관계가친교를나타내고기존의관계를유지하는데사용되는것보다, 트윗을구독하는용도로사용되고있음을말해주는정량적인증거로고려될수있다. 트위터의단방향적인팔로관계는다른온라인소셜네트워크에서공통적인특성을기반으로예측한것보다더많은수의허브 (hub) 유저들을탄생시켰다. 이러한허브유저들은많은팔로어를가짐으로써하나의트윗을작성하는것만으로도수십수백만명에게직접정보를전달할수있는영향력을갖게되었다. 또한많은사용자들이언급한상위 100개의트렌딩토픽들은실제오프라인에서의이슈들과많은관련이있음을보였다. 트렌딩토픽을언급하는트윗들중높은리플라이의비중으로부터소셜미디어서비스에서사용자간의메시지교환을통해기존의매스미디어들의단순정보배포와는달리해당정보에대한의견교환이일어날수있으며이것은정보를소비하는방식의변화로보인다는것을보고했다. 리트윗을통한정보전파네트워크에서는많은사람들이리트윗을하는몇몇주요정보소스의존재를확인했고, 짧은길이의많은리트윗트리로부터트위터에서의정보전파는허브노드에만의존하는것이아니라지엽적인많은정보소스로부터동시다발적으로퍼져나간다는것을확인할수있었다. 이전연구를통해많은수의팔로어를갖지못한일반사용자들도리트윗이라고하는입소문 (Word-of-mouth) 을통하면정보를빠르고넓게퍼뜨릴수있는환경이갖추어져있다는것을보였다. 즉, 이연구를통해트위터에서는오프라인의이슈와관련된토픽들을주제로활발한트윗이기록되고, 많은수의허브는그런트윗을몇십, 몇백만명에게손쉽게전달할수있으며, 비록팔로어를많이갖지못한사용자들도리트윗을통하면많은사용자에게자신의트윗을빠르고넓게퍼뜨릴수있다는것을정량적으로설명하였다. 111
참고문헌 Cha, M., Mislove, A., & Gummadi, K. P. (2009). A measurement-driven analysis of information propagation in the Flickr social network. Proceedings of the 18th international conference on World Wide Web. Cha, M., Haddadi, H., Benevenuto, F., & Gummadi, K. P. (2010). Measuring user influence in Twitter: The million follower fallacy. Proceedings of international AAAI conference on weblogs and social media. Chun, H., Kwak, H., Eom, Y-H., Ahn, Y-Y., Moon, S., & Jeong, H. (2008). Comparison of online social relations in terms of volume vs. interaction: A case study of Cyworld. Proceedings of the 8th ACM SIGCOMM conference on Internet measurement. Crane, R., & Sornette, D. (2008). Robust dynamic classes revealed by measuring the response function of a social system, Proceedings of the National Academy of Sciences, 105(41), 15649 15653. Granovetter, M. S. (1973). The strength of weak ties. The American Journal of Sociology, 78(6), 1360 1380. Kumar, R., Novak, J., & Tomkins, A. (2006). Structure and evolution of online social networks. Proceedings of the 12th ACM SIGKDD international conference on knowledge discovery and data mining. Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a social network or a new media? Proceedings of the 19th international conference on World Wide Web. Mislove, A., Marcon, M., Gummadi, K.P., Druschel, P., & Bhattacharjee, B. (2007). Measurement and analysis of online social networks. Proceedings of the 7th ACM SIGCOMM conference on Internet measurement. PearAnalytics (2009). Twitter study August 2009, white paper, http://goo.gl/cca2s. Vocus (2010). Influencer grudge match: Lady Gaga versus Bono!-What makes an influencer: a survey by Vocus and Brian Soils, white paper, http://goo.gl/xxgju. Wasserman, S., & Faust, K. (1994). Social network analysis: Methods and 112
applications. Cambridge University Press. WikiTree (2010). 서울 물난리 트위터현장중계, http://goo.gl/owsg4. 최초투고일 2011. 01. 10 논문수정일 2011. 02. 10 게재확정일 2011. 02. 12 113