디지에코 보고서 2015.07.04 ISSUE&TREND 복잡한 세상을 데이터로 풀어내는 방법 ICCSS2015 키노트를 중심으로 kt경제경영연구소 남미현 (mihyun.nam@kt.com) I. 기업의 고민과 학계의 연구 II. ICCSS2015 키노트 소개 - 빅데이터에 대한 기대와 오해 - 페이스북의 데이터 분석 방법 III. 시사점 빅데이터 시대가 구체화되고 있다. 국내에서도 빅데이터를 활용한 마케팅 사례가 보도되거나, 빅데이터 분 석을 기반으로 개발된 신상품이 출시되고 있다. 이제 머신러닝, 딥러닝 기법도 발전하며 기계가 인간을 대 신해 판단하는 인공지능의 시대까지 예측되고 있다. 그럼에도 불구하고 기업들은 여전히 기회와 동시에 어려움을 느끼고 있다. 거대한 데이터를 처리하는 기술적인 어려움에서부터, 빅데이터에 대한 이해가 달라 생기는 오해까지 아직도 해결해야하는 부분이 많다. 지난 6월 핀란드 헬싱키에서 ICCSS2015라는 학회가 열렸다. 이 학회에서 빅데이터를 기반으로 인간 행동 과 사회 현상을 증명하고자 하는 다양한 연구들이 발표됐다. 본 보고서는 첫째, 빅데이터/소셜네트워크/복 잡계로 일컬어지는 분야를 이끌고 있는 석학들이 제기하는 빅데이터의 화두와 특징을 살펴본다. 둘째, 페 이스북의 연구 사례를 방법론 중심으로 소개한다. 최신의 연구 사례를 통해 기업의 빅데이터에 대한 이해 와 활용에 실마리를 제공하고자 한다.
I. 기업의 고민과 학계의 연구 이제 전망보다 경험이 중요해진 빅데이터 지난 4월 모 기업에서 개최한 빅데이터 사례 발표에 많은 사람들이 몰렸다. 예상하지 못 한 듯 운영진은 모자란 자리를 만드느라 분주했다. 그래도 자리를 잡지 못한 사람들은 벽에 기대어 2시간 가까이 진행된 사례 발표에 집중했다. 사람들을 집중하게 만든 건 바 로 시행착오의 경험담이었다. 흔히 빅데이터의 가치를 빙산의 일각으로 표현한다. 하지 만 실무자들은 2%의 가치와 보이지 않는 98%의 수작업을 경험했을 것이다. 이제 빅데 이터 그리고 성공적 이라는 단어만으로는 통하지 않을 정도로 경험치가 쌓이면서 기업 들의 고민은 깊어져간다. 기업에서 빅데이터 분석 역량을 강화하기 위해 많은 시도를 하고 있다. 실무를 위한 통 계분석프로그램인 R이나 Hadoop 교육도 증가했다. 그러나 기능적인 부분이 충족되더라 도 궁극적으로 빅데이터 결과물에 대한 이해나 분석 방법에 대한 프레임워크가 공유되 고 내재화되어야 해결되는 부분이 있다. ICCSS2015에서 논의된 빅데이터에 대한 화두와 분석 방법론을 소개하고 기업에 적용 가능한 이해와 활용 방법을 찾고자 한다. ICCSS(International Conference On Computer Social Science) 6월 8일부터 11일까지 핀란드 헬싱키에서 개최된 ICCSS2015는 Computer Social Science 관련 학회다. 기조연설을 맡은 코넬대 사회학 교수 Michael Macy는 Computer Social Science란 인간행동과 사회현상을 컴퓨터를 활용하여 분석하는 연구로 정의했다. 이번 학회에서 발표된 연구들의 제목을 워드클라우드로 분석해보면 Social, Network, Model이 라는 단어가 두드러진다. 사회 현상을 인터랙션 관점, 즉 네트워크로 분석하고, 이를 모 델로 단순화시키면서 복잡한 세상을 설명하고자 하는 연구들임을 알 수 있다. 그림1. ICCSS2015에서 발표된 연구 제목들의 워드클라우드 (출처: kt 경제경영연구소) 2
빅데이터 분야는 다학제적 특징을 갖고 있다. 이번 학회의 대표적인 키노트 연사들은 사 회학, 물리학, 인류학, 컴퓨터공학 등 각기 다른 전공분야의 연구를 이끌고 있는 석학들 이다. 기업도 마찬가지다. 전통적 방식의 고객 조사업무에 내부 데이터 분석이 필요해지 고, 정형데이터인 CRM 업무에 비정형데이터인 소셜 분석이 접목되기도 한다. 기존의 전 문 분야에서 어떻게 빅데이터를 접목하여 역량을 강화시킬 수 있을지 아래의 키노트 발 표자들의 연구를 참고하면 도움이 되리라 생각한다 Michael Macy(Cornell) : 모델링, 온라인 실험, 디지털기기를 활용한 인터랙션 추적 등 을 통해 익숙하지만 불가사의한 사회적 이론을 증명하는 연구를 주로 진행하며, 최 근에는 509만 트위터 메세지나 120억 휴대전화 로그데이터를 활용한 연구 발표 A.László Barabási(Northeaster University) : Linked: The New Science of Networks 의 저자. 물리학 교수로 1999년 Scale-free Network의 발견을 이끈 그의 연구는 현재 휴 대폰이나 온라인 상의 커뮤니케이션 데이터를 통한 사회시스템 규명에 확대적용 중 Michael Macy Albert-László Barabási Robin Dunbar Sinan Aral Lada Adamic 그림2. ICCSS2015 키노트 연사 (출처: ICCSS2015 홈페이지) Robin Dunbar(Oxford) : 사회진화론 관점에서 인간행동과 조직에 관한 연구 진행. 인 간이 친밀하게 지낼 수 있는 최대한의 수는 150명이라는 던바의 숫자 를 페이스북 등의 온라인 관계에도 적용하여 설명 Sinan Aral(MIT) : 과학자이자 기업가. IT를 접목한 마케팅 분야 전문가로 Facebook, Yahoo, MS 등 글로벌 기업의 빅데이터 분석을 통한 비지니스 가치, 소셜미디어와 IT 투자 등 자문 Lada Adamic(Facebook) : 네트워크에서 정보의 확산과 영향에 대한 연구를 주로 하며, 바이럴마케팅 양상이나 온라인 소셜미디어의 커뮤니케이션 패턴, 구조적 패턴을 웹 그래프를 활용하여 밝혀내고자 함 3
II. ICCSS2015 키노트 소개 빅데이터에 대한 기대와 오해 커뮤니케이션의 오류는 단어에 대해 각자 다르게 이해하기 때문에 생기는 경우가 많다. 쉬운 단어 Big 과 Data 의 조합인 빅데이터 도 저마다의 이해에서 비롯된 기대와 오해 가 많은 단어다. 예를 들어, 빅데이터가 복잡한 문제의 원인을 밝혀내리라고 기대한다. 그러나 Michael Macy는 빅데이터는 측정(measurement)할 수는 있지만, 그것이 곧 왜인 지 원인을 설명(explanation)해주지는 못한다고 했다. 예를 들면 우범지역을 예상할 수는 있지만 범죄를 줄이기 위한 방법은 또 다른 논의를 필요로 한다. 슈퍼마켓 고객의 구매 패턴을 분석한 알고리즘은 고객 1인당 소비금액을 늘리기 위해서 직원을 적절한 위치에 배치해야한다는 것을 알려주지만, 이 방법이 왜 효과를 내는지는 설명해주지 않는다. 이 밖에도 Michael Macy가 Opportunities and Challenges for computational social science 라는 제목의 기조연설을 통해 제안한 빅데이터의 화두와 특징을 소개한다. 빅데이터 분석에 이론이 필요한가? 빅데이터 경영을 다루는 많은 책들이 혁신을 위해서는 어떠한 기존 선입관이나 업무지 식을 배제하고 데이터가 말하는 결과를 받아들이라고 한다. 그러나 쉽지 않다. 우선 거 대한 데이터를 어떤 기준으로든 처리할 필요가 생기기 때문이다. 또한 빅데이터에 대한 공통적인 이해와 데이터 기반의 의사결정이 기업에 내재화되어 있지 않는 상황이라면, 빅데이터 분석을 통한 판단에 왜? 라는 질문이 수반되기 마련이다. 기업과 비슷한 고민이 학계에서는 빅데이터 시대에 이론이 필요한가?라는 논의다. 2008 년 Wired magazine에 실린 Christ Anderson의 The End of Theory : The Data Deluge Makes the Scientific Method obsolete 라는 글은 빅데이터가 이론의 종말을 가져올 것이 라고 예상했다. 또한, Google의 리서치팀 디렉터 Peter Norvig은 모든 모델은 틀렸고, 점 차 모델 없이도 성공적인 결과를 낼 수 있을 것이라고 말한 바 있다. 그림3. The End of Theory 기사 (출처: Wired Magazine 웹페이지) 하지만 Michael Macy는 두 가지 이유에서 이론의 필요를 주장했다. 첫째, 우리에게 주어 지는 데이터는 모래더미이기 때문이다. 빅데이터는 대개 정제되어 있지 않은 상태로 처 4
리 가능한 수준보다 더 많이, 또 찾아내고자 하는 결과에 필요한 것보다 더 많이 주어진 다. 이런 상황에서 이론은 데이터의 활용 목적을 결정하고 그에 필요한 데이터를 결정하 는 데에 도움을 줄 수 있다. 둘째, 우리는 그 모래사장에서 바늘을 찾아야 하기 때문이 다. Macy는 빅데이터에서 중요한 것은 big 이 아니라 different 를 찾아내는 것이라고 말하면서, 유의미한 결과를 찾기 위해서는 통계적 의미로부터 이론적으로 유의미한 해석 을 끌어내야함을 강조했다. Survey vs Big Data 빅데이터 시대에 이론이 필요한가라는 논의의 배경은 과거의 이론을 뒷받침하는 연구방 법은 대개 샘플 기반의 조사였기 때문이다. 지난 한 세기 동안 진행된 조사 방법은 응답 자의 규모가 한정되며, 응답자들의 영향 변수를 전혀 고려하지 못한다는 태생적 한계가 존재한다. 예를 들어 설문조사를 통해서는 응답자의 친구나 이웃, 동료의 의견이 배제된 채 오로지 응답자 개인의 의견만 파악할 수 있었다. 반면, 빅데이터는 개인과 개인 간의 관계와 영향력을 알 수 있다. 비슷한 유형의 사람들은 서로 함께 모이는 경향이 있다는 homophily 는 네트워크 분석에서 중요한 기준이다. homophily를 통해 개인들을 특정 기 준에 따라 군집화할 수 있고, 이로써 이론 없이도 사회구성원 간의 네트워크와 인터랙션 패턴을 파악하여 사회 현상을 설명할 수 있게 된 것이다. Survey Big data 원자적(Atomistic) 설명 가능 개인 간 관계(Relational) 설명 가능 개인적 경험 유사 성향 (homophily) 개인적 관심 영향력 (influence) 표1. Survey와 Big Data의 차이 (출처: ICCSS2015 발표자료) 빅데이터로 인해 수집할 수 있는 데이터의 특징이 변화하면서 학계의 연구방향도 달라 졌다. 이제 전세계 수많은 개인들의 실시간 행동데이터를 기반으로 행위자 간의 관계를 규명, 사회의 복잡한 역학관계를 설명하는 방향으로 연구가 변화하고 있다. Old School New School Interactions Factors Actors Explanations Atomistic Relational Outcomes Equilibrium Dynamics Networks Random/complete Complex Experiments Psych sophs Global millions Observation Retrospective Real time behavior 표2. 빅데이터 출현 이전과 이후 학계 연구의 변화 (출처: ICCSS2015 발표자료) 5
페이스북의 데이터 분석 방법 지난 6월 30일 페이스북의 저커버그는 자신의 페이스북 페이지에서 한 시간 동안 Q&A 세션 을 열었다. 질문자로 참여한 스티븐 호킹 박사는 저커버그의 최대 관심사를 물었고, 저커버그는 사람(people) 이라고 답했다. 또한 그는 인간의 사회관계를 지배하는 수학법 칙이 있으리라 믿는다고도 했다. 이러한 저커버그의 사람과 관계에 대한 수학적 관심은 페이스북의 리서치센터를 통해서도 알 수 있다. 페이스북의 리서치센터는 더 개방적이고 더 연결된 세상을 만든다는 페이스북의 미션을 실현하기 위해 다양한 연구를 수행하고 있다. 이번 학회에서 페이스북 리서치센터 소속의 Lada Adamic은 페이스북에서 얼마나 다양한 정치적 정보가 공유되는지를 밝히고자 한 연구를 발표했다. Adamic은 발표 서두에 이번 연구가 어떤 이론이나 현상을 증명하고자 한 것이 아니며 오로지 데이터를 통한 분석 결과를 내고자 했다고 말했다. 본고에서도 연구 내용보다는 페이스북이 데이터를 정의, 계량화, 분석하는 방법을 중심으로 재구성하여 소개하고자 한다. 연구 개요 - 제목 : From friend to friend to friend (ICCSS2015) - 내용 : 페이스북에서 다양한 정치적 뉴스와 의견이 공유되는 양상을 데이터로 분석 - 데이터 : 미국 페이스북 유저들이 공유한 7백만 이상의 URL ( 14.7월~ 15.1월) 정보 / 유저들이 본인 소개에 게시한 정치적 성향 연구방법 1. 연구 문제를 측정 가능한 데이터로 정의 페이스북이 보고자 했던 정치적으로 다양한 정보 란 무엇일까? 빅데이터는 정량적 분석 이다. 그러나 대개 결론에 필요한 데이터가 바로 존재하지 않는다. 따라서 연구 문제를 측정가능한 데이터로 정의하는 것이 필요하다. 페이스북은 정치적으로 다양한 정보 란 유저가 밝힌 본인의 정치적 성향과 다른 성향의 콘텐츠를 수용하는 것으로 정의했다. 아 래의 그래프는 이 연구의 결론을 보여주는데, cross-cutting content로 표현된 데이터를 확인할 수 있다. 그림4. 페이스북에서 정보수용 단계별로 다양한 정보가 소비되는 양상 (출처:페이스북 리서치센터) 6
연구방법 2. 필요한 데이터를 같은 기준으로 계량화 결론에 필요한 데이터를 정의했다고 하더라도, 이는 몇 단계를 거쳐 계량화할 수 있다. 위의 그래프에서 cross-cutting content라는 데이터도 viewer의 정치적 성향과 콘텐츠의 정치적 성향 간의 차이에서 비롯된 것이다. 그럼 viewer와 콘텐츠의 정치적 성향은 어떤 데이터로, 어떻게 계량화 할 수 있는가? 정보를 계량화한 부분은 다음과 같다. 1) 유저의 정치적 성향 계량화 : 프로필에 밝힌 정치적 성향을 키워드 에 따라 -2(매우 자유주의적), -1(자유주의적), 0(중립), +1(보수적), +2(매우 보수적)의 5점 척도로 계량 2) 하드콘텐츠, 소프트콘텐츠 분류 : 머신러닝 기법 중 하나인 Support Vector Machine 을 활용하여 공유한 콘텐츠를 하드콘텐츠와 소프트콘텐츠로 자동 분류 3) 하드콘텐츠를 공유한 유저의 정치적 성향을 계산하여 콘텐츠의 정치적 성향을 부여. 예를 들어, 자유주의 유저(-1) 3명, 중립(0) 1명, 보수(+1) 1명이 어떤 콘텐츠를 공유했다 면, 그 콘텐츠는 -2를 부여받음. 이로써 유저와 콘텐츠 간 동일한 5점 척도로 정렬 가능 그림5. 콘텐츠와 공유자 간 정치적 성향 정렬 방법 (출처 : 페이스북 리서치센터) III. 시사점 ICCSS2015에서 발표된 최신 연구들을 바탕으로 기업에 적용할 수 있는 시사점은 다음과 같다. 첫째, 고객 간 비교, 그룹 간 동일 항목 비교보다는 고객 간, 그룹 간의 관계와 영향 력을 분석한다면 새로운 인사이트를 발견할 수 있다. 둘째, 빅데이터를 업무에 활용할 시 에는 빅데이터의 특징과 결과물의 장단점을 분명히 이해하고 계량이 가능한 방법으로 기 획해야 한다. 셋째, 개인정보활용에 대한 이슈는 늘 존재했지만 여전히 중요하다. 빅데이터를 활용한 학계의 연구는 열정적이었다. 이러한 연구결과에 지속적인 관심을 갖 고, 방법을 적용해보면 복잡한 고객의 마음을 데이터로 풀어낼 수 있으리라 기대한다. 7