복잡계 네트워크와 데이터 과학의 구조와 특징 정하웅(KAIST, 물리학과) 2015.12.
1 I. 서론 II. 본론 1. 세상은 복잡계로 이루어져 있다 가. 복잡계란 무엇인가? 나. 복잡계를 이해하기 위한 몇 가지 네트워크 사례들 2. 네트워크의 이해를 위한 전제들 가. 네트워크의 분류 나. 네트워크의 대부분을 차지하는 항공망 네트워크 다. 네트워크는 왜 항공망 을 이루는가? 라. 항공망 네트워크와 친구치료 가능성 3. 복잡계 네트워크의 응용 가. 구글의 성공 배경 나. 구글의 데이터 활용 다. 네트워크 생물학 라. 효모 단백질 네트워크 마. 데이트 허브와 파티 허브 4. 데이터 과학과 복잡계 네트워크 과학 III. 제언 1. 데이터 과학의 주의점 2. 데이터 과학의 중요성 3. 빅데이터 활용 방안
2 1 서론 - 복잡계 네트워크와 데이터 과학은 정보 를 이용하여 복잡한 세상을 이해하 려는 학문으로 정의할 수 있음 - 이러한 과학을 체계적으로 접근하기 위해 필요한 학문은 바로 물리학 임 - 하지만 물리학 은 그 효용 가능성에 비해 어렵고 난해한 학문으로 인식되 고 있음 - 그 한 예로 네이버에서 물리 라는 키워드는 어렵다 라는 단어와 연결되고 이로 인해 물리학은 지루하고 까마득한 공식으로 채워진 학문이라는 인식 이 팽배해 있다는 사실을 확인할 수 있음 - 하지만 물리학은 우리의 생활과 밀접한 관계를 맺고 있는 것일 뿐만 아니 라 설문결과 아인슈타인, 뉴턴, 갈릴레오라는 물리학자 3명이 가장 잘 알 려져 있는 과학자로 꼽을 수 있을 정도로 과학에서는 친숙한 학문임 - 대표적인 여성과학자 퀴리부인, 최근의 가장 유명한 과학자 스티븐 호킹 박사 역시 물리학자라는 점에서 보면 우리에게 가장 잘 알려져있는 과학 자들은 대부분 물리학자라는 것을 알 수 있음 - 국내의 유명 과학자의 경우, 이휘소 박사를 언급할 수 있으며, 이러한 물리 학은 우리에게 친숙할 뿐만 아니라 근본적이고 역사가 깊은 학문이라 할 수 있음 - 특히 문학상을 제외한 모든 노벨상 분야 수상자들 중에는 물리학자들 혹은 물리학자였던 사람이 있을 정도로 물리학은 지구상에서 학문의 근본을 이 루고 있다고 말할 수 있음 - 일예로, DNA 이중 나선 구조를 밝혀 노벨 생리*의학상을 수상한 바 있는 프랜시스 크릭(Francis Crick)은 의학자가 아닌 물리학자였고 첫 번째 노벨 경제학상을 수상한 얀 틴베르헌(Jan Tinbergen)이라는 사람 역시 경제학자 가 아니라 물리학자 였음 - 더 나아가 조지프 로트블랫이라는 인물은 핵과 관련한 연구를 했던 물리학 자였다가 이후 반핵운동을 해서 1995년 노벨 평화상을 수상하기도 했음 - 이렇듯 물리학이 차지하는 의미는 기초과학의 근본으로 다양성의 문제에서 세상을 묶는 공통된 이론을 찾는 갈래 따기라고 할 수 있을 것이며 이는 물리학이 다방면에 걸쳐 우리의 삶과 생활에 밀접한 관계를 맺고 있다는 사실을 증명하는 말로서, 가장 중요하게 이해하고 있어야 할 주제라 할 수 있을 것임
3 2 본론 1. 세상은 복잡계로 이루어져 있다 가. 복잡계란 무엇인가? - 과학을 이용하여 세상을 이해하기위해서는 먼저 복잡계 라는 용어에 대한 이해가 선행되어야 할 것임 - 그러나 사실상 복잡계 (complex system)란 용어의 정의는 정확하게 기술될 수 없을 만큼 복잡 그 자체라 할 수 있으며 오히려 복잡계 의 정의는 복 잡하고 어려운 것 이라는 막연한 이해가 정답일 수 있을 정도로 풀기 어 려운 난해함이 뒤얽혀 있는 것이라고 할 수 있음 - 이러한 맥락에서 보면 우리가 살고 있는 사회 그 자체도 복잡계 의 정의 안에 속하는 대상이고 현대 문명이 구축해 놓은 정보통신네트워크의 총아 인터넷 도 그 원리 상 복잡계 라 할 수 있음 - 앞서 언급했듯 복잡계 는 정의내릴 수 없을 만큼의 복잡함이라 할 때 우리 몸을 이루고 있는 생명현상 자체도 가장 어려운 복잡계에 속함 - 예를 들어 뇌 의 경우, 뇌를 구성하는 기본 요소인 뉴런은 전기신호를 보 낸다는 차원에서 비교적 간단한 원리의 회로처럼 보이지만 그 원리는 단 순함을 결합해서는 발견할 수 없는 기억과 판단 그리고 감성이라는 설명 할 수 없는 인간의 본성적 특성을 나타내기도 함 - 이처럼 복잡하여 그 원리를 전혀 알 길이 없는, 다시 말해 모른다고 인식 되는 모든 것을 통칭하여 복잡계 라고 말할 수 있음 - 복잡계 는 복잡하여 알 수 없는 영역이라는 의미를 넘어서 또 하나의 특징 을 가지고 있는데, 그것은 복잡계라 명명할 수 있는 것들, 예컨대 사회, 뇌, 인터넷, 생명현상 등은 얼핏 보기에는 서로 간에 어떠한 관계도 나타 나지 않는것처럼 보인다는 것임 - 그럼에도 불구하고 이러한 대상들을 하나의 복잡계 로 상정할 수 있는 공 통점은 바로 네트워크 라는 관계 망 때문임 - 네트워크 란 가장 간단하게 말해서 점과 점을 연결하는 것을 말하며 이것 은 복잡계를 점과 선으로 바꾼다는 개념으로 이해해도 무방함 - 예컨대 인터넷이 네트워크라면 점 은 컴퓨터이고 선 은 전화선이나 랜 케
4 이블이 되는 것이며 그것이 무선이라 하더라도 전자기파가 선이 된다는 측면에서 보면 결국 점과 선으로 이루어진 네트워크라 할 수 있음 - 생명현상도 복잡계의 범주에 속하므로 당연히 네트워크라는 관계망을 가지 고 있다고 볼 수 있으며 이는 DNA로부터 출발하는 생물학의 Central Dogma를 이해하면 자연스럽게 드러나게되는 특징이기도 함 - DNA는 단백질을 만드는데 사용되고, 이렇게 만들어진 단백질들은 서로 결 합하여서도 작동된다는 측면에서 점 은 단백질이고 선 은 단백질끼리 연 결되는 현상을 의미한다고 볼 수 있음 - 이러한 이해를 통해 생명현상의 가장 중요한 신진대사를 이해해보면 생명 현상이란 유전자와 단백질, 생화학물질이 연결된 복잡한 네트워크에 의해 발생하는 현상인 것임 - 하지만 이러한 생명현상은 지극히 복잡한 구조를 가진 덕분에 우리가 쉽게 이해하기 힘들다는 맹점을 가지고 있으므로 네트워크를 이해하기 위해서 는 지극히 복잡한 생명현상을 언급하기보다 먼저 우리가 이루고 살아가고 있는 사회 를 예로 드는 것이 훨씬 더 명료한 이해를 도모할 수 있음 - 앞서 언급한대로 사회(Society)도 역시 점 은 개인이고 선 은 개인이 맺는 사회관계라 할 수 있으며 사회를 네트워크로 이해하는 시도는 이미 오래 전 사회학자들로부터 이루어져 왔음 - 이에 대해 몇 가지 예시를 들면 다음과 같음 나. 복잡계를 이해하기위한 몇 가지 네트워크 사례들 a. 스탠리 밀그램(Stanley Milgram)의 작은 세계 실험 - 이러한 사회 네트워크의 개념은 편지를 전달하는 간단한 실험을 통해 6단 계 분리(six degrees of separation) 이론으로 정립되기도 하였음 - 이 이론을 연구한 사회학자는 스탠리 밀그램(Stanley Milgram)으로서 그의 이 이론의 주제는 지구상의 어떤 두 사람을 잡더라도 평균 6단계만 거치 면 둘이 서로 아는 사람이 된다는 내용임 - 6단계 분리 이론에 따르면 본인을 출발점으로 하여 마지막 종착 대상이 되는 사람 가운데 5명의 관계만 놓이면 연결된다는 이론임 - 비슷한 실험을 국내에서는 5단계 분리 이론으로 연세대 사회학과 김용학 교수님이 진행한 바 있음 (국내의 경우 5단계인 이유는 인구수가 적기 때 문임)
5 - 하지만 이 이론에 따라 목적한 대상을 찾는데 성공할 수 있는 비율은 국내 의 경우 17%에 불과하고, 미국의 경우 30%에 그쳤다고 함. 특히 미국의 경우 확률 수치가 과장된 수치라는 의혹이 있었다고 하니 성공확률이 낮 다는 것은 6단계의 분리 실험의 조심해야할 점으로 기억해야함 - 사회 네트워크 이론은 그것이 도식화되면 그 자체로 가장 명확하게 판별할 수 있는 가장 유용한 도구이기도 함 - 그 사례 제시는 다음과 같음 b. 테러리스트 네트워크 - 9 11테러를 벌인 테러리스트들의 연결네트워크의 경우 이것은 최고 기밀의 파일이 될 수밖에 없을 것임 - 하지만 테러리스트들의 네트워크는 FBI가 아닌 발디스 크렙스(Valdis Krebs)라는 학자에 의해 만들어졌음 - 이 네트워크를 보면 테러 기획의 중심인물이 누구인지를 한 눈에 판별할 수 있게 됨 - 이렇게 알게된 중심인물을 대상으로 감시 및 체포활동을 벌인다면 테러의 참극은 예방될 수도 있을 것임 - 실제로 이러한 네트워크 분석을 통해 중심인물을 특정하여 테러 예방 혹은 수배자 검거에 성공한 사례가 있음 - 사담 후세인 체포와 오사마 빈라덴 암살 작전에 이 네트워크 분석 기법이 사용된 것으로 알려지고 있음 - 특히 점조직으로 운영되어 그 흐름을 알 수 없는 조직일 경우에도 이 네트 워크 분석 기법을 통하면 중심인물을 비교적 쉽게 특정할 수 있다는 사실 이 입증된 것임 c. 100대 부자 네트워크 - 테러리스트 네트워크가 해외의 사례라면 국내에서 관심을 가질 수 있을 법 한 사회 네트워크는 우리나라 100대 부자들의 혼맥네트워크 임 - 특히 100대 부자들의 혼맥네트워크를 그려보면 거의 대부분이 연결되는 바, 국내 부자들은 대부분 친인척 관계라고 해도 과언이 아님 - 이 네트워크는 한국 경제를 이해하는데 중요한 역할을 할 것이 자명함 - 정리하자면 앞서 언급한 대로 복잡계란 어렵고 복잡하여 뭔지 모를 무언가
6 라고 할 수 있으며 복잡계라는 그 구조는 네트워크 라는 것으로 구성되어 있음 - 네트워크는 말 그대로 점과 점을 잇는 선의 관계 즉 복잡계의 뼈대를 이루 고 있는 것이며 네트워크의 중요성과 복잡계를 이해해야하는 이유는 바로 네트워크와 복잡계는 떼려야 뗄 수 없는 관계이기 때문이라는 사실임 2. 네트워크의 이해를 위한 전제들 가. 네트워크의 분류 - 네트워크의 분류는 네트워크의 생김새로 판별할 수 있음 - 네트워크는 고속도로 와 같이 생긴 균일한 네트워크와 항공망 과 같은 균 일하지 않은 네트워크로 구분될 수 있음 a. 고속도로 네트워크 - 고속도로 네트워크는 균일하고 고르게 연결되어 있는 네트워크를 말함 - 이것은 연결선을 각 점들이 공평하게 나눠가진 네트워크라 할 수 있음 - 고속도로 네트워크는 연결선 분포함수(한 점에 선이 몇 개 연결되어 있는 지에 대한 분포)가 비교적 평균값(3~5개)에 몰려있는 종 모양 곡선 을 그 려냄 b. 항공 네트워크 - 항공 네트워크는 균일하지 않으며 쏠림현상이 일어나 어느 한 점의 연결이 매우 집중된 곳이 있는 네트워크를 말함 - 이것은 불공평하게 연결된 네트워크라 할 수 있고 이러한 불공평함은 연결 선 분포함수가 아주 적은 곳에 주로 몰려있으나 많은 경우도 작지만 0이 아닌 확률로 존재하는 멱함수 분포 곡선 을 그려냄 - 네트워크의 모양은 연결선 분포함수 그래프를 통해 고속도로 네트워크인지 항공망 네트워크인지를 판별할 수 있는 것임 나. 네트워크의 대부분을 차지하는 항공망 형태
7 a. 월드 와이드 웹 네트워크 - 월드 와이드 웹 네트워크에서 점 에 해당하는 것은 웹 페이지이고 선 에 해당하는 것은 하이퍼링크 쉽게 말해서 클릭 하여 연결된 페이지로 넘어 가는 것을 말함 - 월드 와이드 웹 네트워크의 모양을 판별하기 위해서는 한 웹 페이지에 몇 개의 연결, 하이퍼링크가 걸려 있는가를 파악하면 간단하게 해결됨 - 그러나 웹상의 웹 페이지는 그 수를 헤아릴 수 없이 많아서 수작업으로는 파악이 불가능함 - 이를 해결하기위해서 웹 페이지당 연결된 하이퍼링크 수를 세어주는 프로 그램(로봇이라고 일컬어짐)을 만들어 본 연구진들이 그 수를 그래프로 만 드는 작업을 수행하기도 하였음 - 이를 통해 월드 와이드 웹의 네트워크 모양은 항공망 모양임을 밝힘 - 이 사실을 최초로 확인한 본 연구진들의 연구는 곧 네이쳐지에 발표됨 b. 인터넷 기간망 네트워크 - 인터넷이라는 용어와 월드 와이드 웹은 혼동해서 쓰는 흔한 용어임 - 하지만 인터넷은 월드 와이드 웹 페이지를 물리적으로 연결해주는 케이블 이라고 생각하는 것이 더 타당함 - 이를 일컬어 인터넷 기간 망 이라 할 수 있음 - 월드 와이드 웹 네트워크가 항공망 구조를 가지고 있다는 연구에 이어 바 로 인터넷 기간망 네트워크를 조사하였으며 이 역시 항공망 구조를 가지 고 있다는 사실을 확인할 수 있었음 - 여기에서 불거진 오해가 바로 월드 와이드 웹과 인터넷이라는 용어상 혼동 이었으나, 엄밀히 말하면 월드 와이드 웹은 가상공간의 세계이고 인터넷 기간망은 물리적 공간의 세계로 컴퓨터 여러 대를 케이블로 연결한 세계 이므로 두 개념은 명확히 구분됨 c. 섹스 네트워크 - 인터넷과 상관없는 네트워크 구축을 위해 사회관계망에 대해 구체적으로 접근하고자 할 때 남녀의 관계를 특정하여 네트워크를 파악하고자하는 시 도는 여러 가지 난제가 있음에도 가장 유용한 사회연결망이라 할 수 있음
8 - 특히 이 연구는 바로 AIDS와 같은 성접촉 전염 질병의 확산 경로를 파악 하기위해서 사용될 수 있다는 점에서 그 효용가치가 높다고 할 수 있음 - 이것은 전염 경로를 파악하기 위해서 사용될 수 있다는 측면에서 단순히 가십성 연구라기보다 예방의학차원에서 유용하게 사용될 수 있는 가능성 을 입증한 사례이며 실제로 AIDS확산 예방에 활용되기도 하였음 d. 무비스타 네트워크 - 섹스네트워크는 사생활 침해라는 문제로서 제한적이라는 한계로 인하여 보 다 구체적인 결과를 산출하는데 근본적인 제약이 있음을 인정할 수밖에 없음 - 그렇다면 섹스네트워크와 유사한 관계망을 가지고 있으면서 사생활의 문제 라는 제약을 극복할 수 있는 공개적인 사회네트워크의 좋은 예로 무비스 타 네트워크를 생각해 볼 수 있음 - 무비스타 네트워크는 인간관계망을 살펴보는데 있어서 보다 더 명료하고 구체적이며 보다 더 정확한 사회 네트워크를 알아 볼 수 있다는 측면에서 의미있다고 할 수 있음 - 하지만 이 네트워크의 연구는 궁극적으로 개인적 친분관계를 파악하기보다 같은 영화에 출연한 배우의 관계로 한정지어 그 관계도를 알아보고자 하 였으므로 실질적인 친분 관계를 따지게 될 경우 어느 정도의 문제점이 노 출될 수 있으나, 수 개월 함께 영화작업을 한다는 직업의 특수성을 감안 하면 그 문제는 어느 정도 극복될 수 있는 사안이라고 판단하는 바임 - 먼저 무비스타 네트워크를 알아보기 위해서 본 연구진들은 영화 데이터 제 공 사이트인 IMDB라는 사이트에서 1880년대 무성영화부터 2013년까지의 영화 출연자 리스트를 확보하는 작업으로 본 네트워크 파악의 연구를 시 작함 - 이를 통해 무비스타 네트워크에서도 허브 역할의 스타가 존재하고 있다는 사실을 밝혀 낼 수 있었음 - 결과적으로 총 20여만명의 출연 배우들을 연결하여 무비스타 네트워크도 항공망 네트워크의 형태를 가지고 있다는 사실을 밝혀냄 e. 논문 네트워크 - 논문 네트워크는 공저자와의 관계망을 살피기 위함이라기보다는 논문 인용
9 횟수를 통해 파악한 논문들의 인용 네트워크라고 할 수 있음 - 여기에도 허브 역할을 하는 논문, 즉 인용이 많이 이루어지는 논문이 존재 하는 항공망 구조임을 확인함 f. 기타 네트워크 - 이러한 네트워크의 연구는 경제네트워크, 이를 테면 주식상관관계의 네트 워크를 밝혀내고 그 관계망을 통해서 가장 영향력있는 기업을 판별해 낼 수 있고, 생물학에서도 마찬가지로 허브역할을 하는 중요한, 즉 신약개발 후보물질이 될 만한 단백질을 파악할 수 있으며, 언어학에서도 비슷한 말 과의 관계를 통해 허브 역할을 하는 단어를 파악할 수도 있음 - 결론적으로 말해서 세상에 존재하는 대부분의 네트워크는 항공망 으로 구 성되어 있음 다. 왜 네트워크는 항공망 을 이루는가? - 그렇다면 왜 네트워크는 고속도로 가 아닌 항공망 구조를 이루게 되는가? - 이러한 질문, 다시 말해 왜 대부분의 네트워크가 항공망을 이루는 것일까 라는 질문에 대한 가장 간단한 대답으로는 빈익빈, 부익부 현상 을 제시 할 수 있음 - 이를 선호적 연결 (preferential attachment)이라고 불리는, 즉 연결선이 많 은 점이 연결선이 적은 점보다 향후 훨씬 더 연결이 빨리 늘어날 확률이 크다는 알고리듬을 통해 네트워크를 구축하면 항공망 네트워크가 자연스 럽게 나타남 - 그렇다면 왜 항공망 네트워크와 같이 불균일한 네트워크가 세상에 많이 나 타나는가? 하면 그 이유로는 첫 번째 허브를 통한 효율적인 통신/소통의 가능성과 두 번째 더 견고한 네트워크 구축 가능성 때문임 a. 효율적인 이용 - 네트워크 상에서 출발점과 도착점을 정하고, 두 지점 간을 네트워크를 통 해서 이동할 때, 고속도로는 많은 중간점들을 거쳐가야 하지만, 항공망에 서는 허브로 가서 쉽게 다른 점들로 이동할 수 있는 편리함이 있음
10 b. 견고한 네트워크 - 견고하다는 의미는 네트워크의 일부가 고장이 나거나 불통이 되었을 때 네 트워크의 대부분의 점들이 큰 문제를 느끼지 못한다는 것을 의미함 - 몇몇 허브를 지닌 항공망 구조를 가짐으로서 적은 수의 허브만 잘 관리하 면 대부분의 조그마한 점들은 관리할 필요가 없다는 의미에서 견고한 네 트워크의 의미를 지님 라. 항공망 네트워크와 친구치료 의 가능성 - 친구치료 라는 방법은 항공망 네트워크에서 허브 역할을 하는 지점에 보 다 효율적으로 접근하여 치료하기 위한 방법에 붙인 이름임 - 항공망 네트워크에서는 허브의 역할이 중요한 모형이며 따라서 모든 항공 망 네트워크의 활용 가능성은 허브를 중심으로 진행되어야 활용가능성이 극대화됨 - 예컨대 AIDS의 예방을 위해서는 바이러스를 퍼트리는 허브역할의 인물을 찾아 치료를 하면 확산을 효율적으로 막을 수 있다는 것임 - 하지만 섹스 네트워크에서 허브(카사노바)를 발견하기란 쉬운 일이 아니므 로 이를 쉽게 발견하고자 하는 원리가 친구 치료 임 - 쉽게 말해 치료해야할 허브가 누구인지를 제3자의 입장에서 특정하기란 쉽지 않지만 그 네트워크에 속해 있는 임의의 대상을 하나 골라, 자신의 친구 중 한사람에게 치료제를 투입할 수 있게 한다면 친구가 많은 허브는 자연스럽게 선택될 확률이 높아지고, 결국 허브에게 치료제가 전달되는 효과를 낳게 됨 - 네트워크는 이러한 특징을 가진 채 우리 사회, 우리의 몸, 온 우주에 걸쳐 퍼져 있는 신비로운 대상이라 할 수 있으며 따라서 그 원리만 제대로 이 해한다면 우리의 일상생활에 적용할 수 있는 영역은 무궁무진할 것으로 판단됨 3. 복잡계 네트워크의 응용 - 세상 모든 것은 네트워크라고 해도 과언이 아니며 작게는 인간의 몸속에서 크게는 사회관계자체가 네트워크로 이루어져 있다고 해도 과언은 아님 - 네트워크를 이해하고 특히나 항공망 네트워크를 잘 활용해야하는 이유는
11 바로 여기에 있으며 그러므로 네트워크가 어떻게 응용되고 있는지를 살펴 보는 것은 매우 중요한 일이라 할 수 있음 가. 구글의 성공배경 - 이를 위해서 구글의 성공배경을 알아볼 필요가 있음 - 실제로 구글의 성공배경과 항공망 형태의 네트워크와의 상관관계는 매우 밀접하다고 할 수 있음 - 먼저 구글의 성공배경은 빠른 접속속도와 강력한 검색엔진 덕이라 할 수 있음 - 이를 테면 정보의 과잉 시대에는 검색을 무조건 많이 보여주는 형태는 큰 효용성이 없고 오히려 검색된 결과를 어떻게 보여주느냐하는 문제가 훨씬 중요한 문제로 대두되었음 - 사실상 구글의 성공배경에는 강력한 검색엔진과 함께 검색된 수많은 정보 를 보여주는 형태에서 또 다른 성공요인을 발견할 수 있음 - 이전에 승승장구했던 야후 라는 검색시스템은 검색된 웹문서를 카테고리별 로 정리하여 보여주었고, 이는 거의 수동의 형태로 진행되었음. - 검색어를 카테고리별로 분류하여 보여주는 시스템은 원하는 정보에 도달하 기까지 매우 편리한 시스템이긴 했으나 야후는 웹에서 검색하게 될 정보 가 천문학적 수로 증가할 것이라는 사실을 간과하고 말았음 - 구글은 이 문제를 페이지랭크(PageRank)'라는 알고리즘을 통해 해결함 - 페이지 랭크 의 원리는 다음과 같음 - 검색된 웹페이지 중 어떤 것을 먼저 보여줄 것인가? 이 질문에 구글은 연 결이 많은 페이지를 일순위로 보여주는 원칙을 세움 - 이것은 가장 연결이 많이 된 웹페이지를 이용하여 가장 많은 사람이 원하 는 정보로 접근가능하게 하는 방법으로 네트워크 구조의 중요성을 활용한 방법이었음 - 바로 이러한 웹페이지 네트워크 연결망이 항공망 네트워크이었기에 가능한 알고리즘이었음 - 구글의 성공배경에는 월드 와이드 웹이 불공평한 항공망 네트워크로 구성 되어 있다는 것을 기업의 이윤으로 연결시킨 최초의 기업임 나. 구글의 데이터 활용
12 a. 독감환자 예측 - 구글은 2008년에 <네이쳐>에 논문을 내기도 함 - 논문의 주제는 전 세계에 독감환자가 몇 명인지를 예측하겠다는 내용임 - 미국에는 CDC(Center for Disease Control)이라는 질병 통제 예방센터가 있는데, 이 기관에서 매주 각 지역의 독감환자, 독감 유사 증상 환자 수를 파악해서 보고서를 제출함 - 이러한 작업의 목적은 실시간으로 독감환자 수를 모니터하다가 환자 수가 급증하면 그 주변을 차단하여 전국적인 확산을 막으려는 것이었음 - 굉장히 중요한 역할을 하는 이 보고서는 사실 상 굉장히 구시대적인 노동 집약적 방식이었음 - 먼저 일선에서 근무하는 지역 의사에게 독감환자가 오면 상부보고 지침을 내림 - 따라서 각 병원의 의사는 독감환자 수를 파악하여 보고를 올림 - 이 보고 방식은 동에서 구, 구에서 시, 시에서 도, 그리고 최종 정부에 넘 어가는 형식으로 이루어짐 - 거의 2주 가까이 소요되는 이 방식으로는 독감예방의 차원이 즉각적으로 이루어져야한다는 점에서 보면 결코 부합하지 않는 방식이라 할 수 있음 - 구글은 이러한 상황에 도전하여 구글 검색어에 독감관련 용어를 가려내고 검색 지점을 ip주소와 GPS를 통해 확보하여 지역별 수치를 실시간으로 제공할 수 있는 방법을 고안해냄 - 이때 중요한 것이 연관검색어를 찾는 것이고 구글은 50개의 독감관련 연 관검색어를 확보하여 2003년부터 2007년까지의 데이터를 검증한 후 2008년에 예측 결과를 내놓았음 - 구글의 독감트렌드 예측결과는 실제 독감환자 데이터와 거의 맞아 떨어짐 을 증명함 - 이때 50개의 연관검색어는 정확도와 신뢰성 확보를 위해 공개를 하지 않음 - 이를테면 50개의 검색어를 공개할 경우, 독감과 무관한 사람들이 재미로 검색해 보는 경우가 생겨 정보에 노이즈를 섞을 우려가 있기 때문임 b. 선거결과 예측 - Google이 신이라 불리는 이유 중 하나는 구글지도를 봐도 알 수 있는데 Naver나 Daum 지도에서는 청와대를 검색하면 그 위치가 뜨지 않지만 (실 제로 Naver 지도에서 검색되는 청와대는 음식점임) Google 지도를 통해 청와대를 검색하면 청와대의 위치가 정확하게 뜸.
13 - 왜냐하면 한국에서는 국가안보라는 이유로 청와대 검색을 불가능하게 만들 었기 때문임 - 하지만 구글은 서버가 외국에 있어서 이러한 제약을 받지 않음 - 한편 2007년 대통령 선거 후보자 득표수와 그 당시 각 후보자 Google의 검색 웹페이지 수의 상관관계가 매우 높은 것으로 나타남. - 이 얘기는 구글 검색을 해서 뜨는 웹페이지 검색수가 후보자 득표율와 거 의 일치한다는 것을 의미함. - 구글을 통해 2008년 미국대통령 선거결과를 이러한 방법으로 맞출 수 있 었으며, 당시 선거결과는 오바마, 힐러리, 메케인 순으로 나타남. - 이러한 방법을 통하여 본 연구진들은 2011년 서울시장 선거도 맞출 수 있 었으며, 박원순 후보와 나경원 후보의 득표율과 Google 검색량이 일치했 다는 사실을 확인할 수 있었음. - 동일한 방법으로 2012년 미국 대통령 후보 검색량과 득표율도 일치함. - 이러한 방법이 알려지자 조선일보의 조호진 기자는 2012년 12월 22일에 대선 승자 알려면 구글 검색 빈도수에게 물어봐? 라는 제목으로 2012년 한국의 대통령 선거결과와 Google 트렌드를 통해 나온 결과가 거의 일치 한다는 내용의 기사를 씀. - 박근혜 후보와 문재인 후보를 비교한 결과 대선 투표일인 18일 문재인 후 보의 검색량은 전날 57에서 89로 급상승하였고 이 기간 박근혜 후보는 80에서 99로 올라감. - 기사에 따르면 두 후보의 검색량을 합산해보면 당시 박근혜 후보은 52.7%, 문재인 후보는 47.3%로 나타났는데 실제 최종 득표율을 보면 박근혜 후보 는 51.55%, 문재인 후보는 48.02%로 나타남. - 구글의 검색량으로 본 두 후보의 지지율이 막대한 비용을 지불한 방송 3 사의 출구조사만큼 정확했다는 것임.
14 c. 데이터를 이용한 언어, 역사, 문화 분석하기 - Google에서는 전 세계에 있는 책들을 다 스캔하겠다! 라는 포부를 갖고 세상의 모든 책을 품은 거대한 디지털 도서관을 목표로 구글 북스 라이브 러리 프로젝트(Google books library project) 를 시작한 바 있음 - 세상의 모든 책을 디지털화하겠다는 이 프로젝트를 접하게 되면 정말 가 능할까? 라는 의문을 가질 수 있으나 놀랍게도 2004년부터 현재까지 대략 3000만여 권 이상의 책이 이미 디지털화가 됨. - 구글은 OCR(optical character reader)을 이용하여 문자화 작업까지 끝마친 것임 - 그러나 이러한 프로젝트는 저작권 문제에 부딪힘에 따라 데이터를 공개할 수 없었음. - 저작권 문제에 부딪힌 구글 북스 라이브러리 프로젝트 는 몇몇 연구자에 의해 책에 있는 내용들을 하나하나의 단어로 조각내어 (저작권을 피하고) 연도별로 특정 단어가 몇 개 정도 나오는가를 계산하는 N-gram 프로젝트 를 진행하게 됨. - 구글은 디지털화한 책에 있는 단어와 어휘들을 통하여 인간 사회의 흔적을 분석하면 인간의 역사와 문화에 대한 새로운 발견이 가능할 것이라고 생 각했었음 - 이러한 목표를 가지고 구글 엔그램 뷰어(Google Ngram Viewer, https://books.google.com/ngrams) 를 개발하게 되었고 Google이 디지털 작업을 한 책들 내에 있는 8,000억 개 정도 되는 단어의 사용 빈도 추이 를 연도별 그래프로 보여주는 프로그램이 완성됨 - 이 프로그램을 통해 단어를 검색을 해보면 단어의 연도별 등장 횟수가 다 르다는 것을 알 수 있음. - 이를테면 slavery라는 단어를 검색하면 이 단어가 많이 나오게 된 시대적 배경을 읽을 수 있는데 (남북전쟁, 시민운동시기 등), 실제로 사람들은 자 신들이 많은 관심을 갖고 있는 대상, 단어, 소재를 자연스럽게 책에 담아 내기 마련이기 때문임 - 따라서 각 시대별로 화두가 되고 있는 단어들은 연도별로 다를 수밖에 없 으며 이러한 흐름을 그래프로 한 눈에 보여주는 것이 Google Ngram Viewer라는 서비스임. - 디지털화된 데이터를 통하여 정확한 시대상을 읽어낼 수 있는 단어의 빈
15 도수 로 그 시대상을 해석하는 작업은 Culturomics로 불리움 - 재미있는 것은 이러한 프로젝트를 통해 과거 사람들의 생각을 읽어낼 수 있는 것이 가능해졌다는 것임. - 앞에서 언급했던 것처럼 오늘날 사람들은 자신이 관심을 가지고 흥미를 가 지고 있는 것에 대해 검색엔진을 통하여 검색을 하기 때문에 관심이 되는 단어들은 많이 등장할 수밖에 없음. - Google Ngram Viewer는 현재의 검색엔진을 과거로까지 연장시켜 과거 사 람들의 생각들을 정량적으로 읽게 해준 서비스라고도 할 수 있는 것임. <추가내용> Ngram은 여러 가지 다양한 데이터 검색방식 중 절단검색 이라는 방법으 로 데이터를 검색하는 것임. 이것은 부분 문자열 을 가진 자료를 불러오 는 것임. 즉, Ngram방식은 단어를 n개의 음절로 쪼개어 검색하는 것임. Google은 이러한 방식을 이용해 모든 책들의 음절을 쪼개어 검색이 가능 하도록 만든 것임. - 재미있는 것은 Google Ngram Viewer에 여러 개의 단어를 집어넣어 사용 빈도를 비교해 볼 수 있다는 것임 - 예를 들면, 닭이 먼저냐 달걀이 먼저이냐(Egg vs. Chicken)를 알기위해 두 단어를 비교해보면 달걀이 훨씬 많이 나온다는 것을 확인할 수 있으므로 아마도 달걀이 더 먼저일 것으로 추측하는 것임 - 또한 지옥에나 가라! 와 천국에 가세요! (Go to hell! vs. Go to heaven!) 라는 말 중 어떤 말이 더 많이 나오게 되는 가를 확인할 수 있음 (결과는 1910년을 기준으로 지옥에나 가라 는 말이 더 많이 나옴). - 이 밖에 Science vs. Religion, Data vs. God도 검색하여 시대별로 어떤 단 어가 많은지 그 변화추이를 확인할 수 있기도 함 - 이로써 과거에는 종교의 힘이 강력했지만 점점 과학이 그 종교를 넘어서기 시작했다는 사실도 확인할 수 있으며, Data의 등장회수가 God을 넘어서는 구글 신 의 시대가 도래했음을 알 수도 있음 - 이처럼 우리의 시대상 변화를 단어 검색으로 통해 수치화하고 그려볼 수 있음
16 - 이러한 단어 검색은 한 시대의 상황을 읽어내는 것만이 아니라 책의 편집 방식 변화까지도 읽어낼 수 있음. - 예를 들어서, Beft vs. Best의 검색을 통해 책의 편집 방식을 알 수 있는데 과거에는 책에 S자를 인쇄할 때 길게 뻗은 S자의 모양으로 인쇄를 하였 음. - 이에 따라 긴 S는 디지털화되어 읽혀질 때 f자로 읽히게 되어 Beft는 Best 의 옛날 편집방식에 해당되는 것임. - 분명 오늘날에는 S라는 활자를 인쇄하더라도 긴 S자의 모양은 찾아볼 수 없음. - 그런데 이것을 Beft와 Best 검색을 통해 쉽게 비교해 볼 수 있는데, 1800 년을 기점으로 Beft는 줄어들고 Best는 증가하는 것을 검색을 통해 알 수 있기 때문임 - 다시 말해 책의 편집방식 변화를 시대적으로 읽어낼 수 있다는 것임. - 또한 이처럼 단어만을 추출하여 검색하는 방식은 문화의 트렌드를 읽어내 는 것만이 아니라 검열지수(Suppression Index)도 만들 수 있게 함. - 그 예로 러시아 태생의 화가이자 판화가인 마르크 샤갈(Marc Chagall) 검 색을 통해 그 수치를 만들어볼 수 있음. - Marc Chagall의 단어가 영어로 되어 있는 책 에는 꾸준하게 증가하는 것 을 알 수 있으나 독일어로 되어 있는 책 에서의 Marc Chagall의 단어는 1933년과 1945년 사이에 큰 감소가 있음을 발견할 수 있었음 - 그의 이름은 1940년쯤에는 급격하게 줄어들어 등장하지 않다가 1945년부 터 다시 증가하고 있는 것을 알 수 있음. 이것은 무엇을 의미하는 것일까?
17 - 결과적으로 이 결과는 당시 독일 나치 정부의 인위적인 검열이 있었다는 것을 알려주고 있음. - 마르크 샤갈은 작품을 만들 때 러시아의 민속적인 주제와 유대인의 성서에 서 영감을 받았는데, 반유대주의를 표방하던 독일 나치 정부에서는 분명 이러한 마르크 샤갈의 작품을 검열했을 것임. - 이러한 내용을 가지고 Suppression Index를 만들어 억압의 정도를 수치화 할 수 있음. - 보다 구체적으로 말해서 이것은 본래 변화의 흐름상 기대되는 값 (expected)에서 실제 관찰되는 값(observed)의 비율을 가지고 확인할 수 있는 것이기도 함 - 한편 최근 디지털 기술 발달로 인하여 정보의 확산속도와 개인의 적응력
18 (adaptation)이 높아져 새로운 기술들을 받아들이는 적응력도 빨라졌지만, 그 댓가로 망각의 정도도 빨라지고 있음(We are losing interest in the past more rapidly.). 이것은 새로운 단어의 빈도수가 얼마나 빨리 떨어지 는가를 통해 알 수 있음. - 이와 같은 내용들을 책에 나온 거대한 단어 자료를 수치화하여 인간의 문 화를 분석하는 것이 바로 Culturomics 임 - Culturomics는 빅데이터를 통하여 인간 문화의 트렌드를 읽어내는 것을 말 함 - Jean-Baptiste Michel과 Erez Lieberman Aiden은 What we learned from 5 million book(2011년 7월 TED 강연) 에서 Culturomics를 다음과 같이 정 의함. - Culturomics is the application of massive scale data collection and analysis to the study of human culture. <추가내용> Culturomics는 유전체학(genomics) 에서 파생된 단어임. 이것은 생물학에 서 DNA 염기서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터 역시 인간의 언어와 문화에 대한 유형을 보여준다는 의 미를 담고 있는 것. - 단어검색을 이용한 영어문법교정도 빅데이터를 활용해 볼 수 있는 영역임 - 이상구 서울대학교 빅데이터 연구팀에서는 단어검색의 빈도수를 이용하여 문법교정도 가능하다는 것을 보여줌. - 예를 들어, 어떤 단어 다음에 어떤 다른 단어가 가장 많이 나오는지를 통 계분석을 하여, 문장을 문법 규칙이 아닌 다음에 많이 나오는 단어들로 수
19 정하여 문장을 고치는 문법교정이 잘 작동함을 보였음. - 이것은 많이 쓰이는 단어 순서로 된 문장이 가장 보편적으로 사용되는 형 식을 갖춘 것이고 이것이 보편 문법이라는 사실을 알려줌 - 이처럼 앞으로는 단어 검색을 통한 빈도수를 비교하여 문법을 교정할 수있 게 됨. - 다시 말해서 빅데이터가 영문학의 문법까지 관여할 수 있게 된 것임. - 이와 같이 여러 관점에서 보면 빅데이터 * 는 얼마나 잘 쓰느냐의 문제가 가장 큰 화두가 된다고 해도 과언이 아님 d. 빅데이터란? 가트너 그룹의 정의에 따르면 일반적으로 빅데이터는 3V+1C 로 표현할 수 있음. 3V - Volume (데이터 단위 규모, MB, GB TB, PB, EB ): 데이터의 양이 많다 는 것을 의미함 - 구글 번역할 때 한글에서 영어로 번역하면 어색하지만 한글에서 일본어로 번역한 상태에서 영어로 번역을 돌리면 비교적 어색하지 않은 문장이 많 이 발견됨 - 그렇다면 일본에서 영어로의 번역이 잘 되는 이유는 무엇인가? - 그것은 구글 번역기가 작동될 때 기존 텍스트를 비교하여 번역작업을 하게 되기 때문인데, 이를테면 일본어에서 영어로 번역과정이 정확한 이유는 일 본의 텍스트 data가 한국 data에 비해서 많기 때문이라 할 수 있음. 이는 data는 많으면 많을수록 그만큼 좋다는 것임. - Velocity (데이터 활용주기 hour-week second-minute ): 이는 데이터의 발생 빈도, 생성 및 변화 속도가 빨라졌다는 것을 의미함 - 다시 말해서 SNS 등을 통해 데이터가 빨리 생성되고 실시간으로 분석되며 확산속도 역시 빠르다는 것을 의미함 - Variety (데이터 정형 비정형 ): 이는 데이터 형태가 다양하다는 것을 의미함 - 사용자 생성 콘텐츠(User Generated Contents)로 인하여 데이터의 형태가 동영상, 음악, 메시지, 위치정보, 센서 데이터 등처럼 데이터의 형태가 다 양해지고 있음
20 - 즉, 데이터가 비정형의 상태에서 매우 다양한 형태로 생성되고 있는데 바 로 이러한 현상을 반영한 단어가 Variety임. 1C - Complexity: 데이터의 복잡성이 증가하였다는 것을 의미함. <추가내용> Gartner의 애널리스트, Douglas Laney는 2001년에 연구보고서, 3D Data Management: Controlling Data Volume, Velocity and Variety 에서 데이 터 관련 이슈와 기회를 데이터의 양(volume), 데이터 입출력의 속도 (velocity), 데이터 종류의 다양성(variety)이라는 세 가지 차원으로 정의함. 이 3V 모델은 빅데이터를 정의할 때 가장 널리 사용되는 정의임. 최근에 는 빅데이터를 정의할 때 진실성(veracity)이나 가변성(variability)을 추가하 여 4V로 정의하기도 함. 정하웅 교수처럼 복잡성(complexity)를 추가하여 3V+1C로 정의내리는 경우도 있음. 다. 네트워크 생물학 - 빅데이터에 대한 논의는 계속 중요해지고 빈번해지고 있는 실정임 - 실제로 2008년 <네이처>에서 구글 10주년을 기념해 빅데이터 특집호를 만든바 있음 - 당시 <네이처>에는 페타바이트(petabyte, 100만 기가바이트), 엑사바이트 (exabyte, 10억 기가바이트)로 계속해서 올라가는 방대한 데이트들로부터 어떤 유용한 정보를 뽑아 낼 것인가를 고민하는 데이터 마이 닝 (data-mining)과 생물학에서 생성되는 대규모 데이터를 요긴하게 사용 하고자 하는 바이오 큐레이션 (bio-curation) 등 빅 데이터와 관련한 이야 기들이 수록되어 있었음 - 예컨대 1990년대에서 시작해서 2003년에 끝을 맺은 인간 유전자 지도 프 로젝트 (Human Genome Project, HGP)의 경우 인간의 유전체 정보만 완 성하면 암은 물론, 모든 병의 정복과 개인별 맞춤형 질병 극복 방법이 제 시될 것이라고 장밋빛 미래를 기대했으나, 그러한 시대는 오지 않았음 - 그 이유는 유전체 정보란 그 정보의 단순 나열에 그칠 뿐 그 상호 정보간 의 훨씬 다양한 연결망은 알아낼 수 없었기 때문임 - 그래서 예를 들면 어떤 단백질이 있는냐가 중요한 것이 아니라 어떤 단백 질이 어떤 단백질과 결합하느냐라는 새로운 문제에 직면하게 됨
21 - 네트워크의 관점에서 보면 단백질이라는 점 은 확보를 했고, 어떠한 단백 질과 연결되는지 선 을 밝혀내야하는 임무를 부여받은 것임 - 네트워크 생물학(network biology)이나 인간 유전체 네트워크 계획이 언급 되는 이유는 바로 이러한 문제에 대한 인식 때문임 - 생물에서도 네트워크 이론이 중요하게 대두된 이유는 바로 인간 유전체를 통해 알게 된 단백질간의 상호 연결가능성의 중요도 때문임 라. 효모 단백질 네트워크 - 생물학 분야에서 가장 크게 관심을 두는 것은 신약 개발임 - 수많은 단백질 중에서 중요한 신약 후보 물질을 찾아내기 위해서는 단백 질-단백질 간의 네트워크를 아는 것이 중요함 - 효모를 이용하여 단백질간 결합을 찾아내는 방법 (yeast two-hybrid)은 가 장 잘 알려진 방법임 - 효모는 단백질 두 개가 연결되면 파랗게 변하는 속성을 만들 수 있음 - 이 원리를 이용하여 각 단백질에 이름을 붙인 후 효모 반응을 통해 네트워 크를 그려낼 수 있음 - 이렇게 그려낸 효모 단백질 네트워크 역시 항공망 네트워크의 형태를 가짐 - 여기에도 허브역할을 하는 즉 연결망을 많이 갖는 단백질이 등장하는데, 이들을 이용하면 신약 개발의 가능성이나 그 밖의 활용가능성이 높은 단 백질들을 찾아낼 수 있음 - 이는 많은 연결망을 갖는 단백질의 중요도를 높게 평가하여 순위를 매긴후 새로운 단백질, 혹은 알려지지 않은 단백질의 중요도를 예측해 볼 수도 있음 - 중요도는 그 단백질이 갖는 연결망이 몇 개인지를 파악하여 순위 분포도에 배치함으로써 비교적 정확한 예측이 가능함 마. 데이트 허브와 파티 허브 - 문제는 항공망 네트워크에서 허브 역할을 하는 점이 무조건 중요하므로 항 상 신약개발 후보물질이 될 수 있느냐임 - 사실, 연결선을 많이 가진 허브의 연결관계는 동시에 같은 공간에서 한 번 에 여러 개의 연결망을 갖는 경우와, 순차적으로 여러 공간과 여러 시간 에 연결망을 갖는 경우로 나뉠 수 있음
22 - 한 번에 여러 연결망을 갖는 허브를 파티 허브 라고 하고 다른 시간과 다 른 공간에 걸쳐 여러 연결망을 갖는 허브를 데이트 허브 라고 함 - 여기서 중요도를 따져보면 단연 데이트 허브 가 더 중요한 의미를 갖는다 고 할 수 있음 - 데이트 허브는 이를 테면 돌아다니면서 여러 사람을 만나는 인물과 같은허 브라고 할 수 있기 때문임 - 파티 허브는 전체 네트워크에서 지워도 전체 연결 정도에 큰 영향을 미치 지 않는 반면 데이트 허브는 삭제되면 전체 네트워크가 산산조각나서 더 이상 네트워크라고 부를 수없는 지경에 이르게 하기도 함 - 데이트 허브가 중요한 이유는 궁극적으로 시간과 공간을 함께 고려하는 허 브이기 때문임 - 이것은 네트워크에서도 시간과 공간의 문제는 중요한 부분을 차지한다는 것을 알려주는 중요한 대목임과 동시에 단순히 연결숫자만을 고려해서는 문제의 궁극적 해결을 이룰 수 없다는 것을 의미함 - 여러 가능성을 가지고 있는 네트워크는 특히 실생활에서 응용가능하며 해 결하기 힘든 일에 효율적인 답을 제시해 줄 수 있기도 함 - 가장 대표적인 예가 교통체증에 관한 이야기임 - 우리와 밀접한 관계를 맺고 있는 교통체증에 네트워크 이론을 가미하면 우 리가 모두 이득을 얻을 수 있는 효율적인 교통분산 정책, 즉 절대적 최적 화와 상대적 최적화라는 두가지 값과 이 둘을 비교, 산출할 수 있는 PoA(Price of Anarchy)라는 값을 계산할 수 있고, 이를 통해 우리가 행하 는 무질서에 대한 대가를 표현하는 값을 얻어 교통정책에 활용할 수 있음 - 이러한 원리를 이용하면 교통체증을 효과적으로 풀 수 있는 방법을 찾아낼 수 있고, 실제로 이러한 것을 교통안전 정책과 연결을 하면 좋은 합의점 을 도출할 수도 있을 것임 4. 데이터 과학과 복잡계 네트워크 과학 가. 허브, 매개자, 중심자 - 인터넷, 생명현상, 사회 등 다양한 복잡계를 설명하는 네트워크에는 각각의 점마다 중요도 지수를 부여할 수 있음 - 가장 많이 사용되는 지표가 허브, 매개자, 중심자를 들 수 있음 - 네트워크 분석에서 연결선 지수 (degree centrality)가 높은 사람을 허브
23 (hub)라고 칭하고 중요도를 높게 평가함. - 하지만 네트워크 사회에서 더 중요한 사람은 서로 다른 두 집단을 연결하 는, 즉 많이 거쳐 가게 되는 인물인, 매개지수 (betweeness centrality)가 높은 매개자(linker)임 - 중심도 (closeness centrality)는 전체 네트워크에서 얼마나 중심에 있느냐를 나타내는 지수로 소문을 가장 먼저 퍼트리면 좋은 사람에 해당함 - 네트워크에서 중요한 것은 단지 허브 만이 아니라 바로 이 지수들을 통해 나타날 수 있는 연결지수, 매개지수, 중심도가 높은 각각의 점들로 나름의 중요한 역할들을 함
24 3 제언 1. 데이터 과학의 주의점 - 데이터 분석과 해석에 있어서 상관관계와 인과관계의 구분은 매우 중요한 부분임 - 데이터를 접근할 때 사람들은 상관관계와 인과관계를 헷갈려하기 쉬움. 데 이터가 보여주는 것은 어디까지나 그것의 현상 겉모습을 보여줄 뿐이지 그것의 정확한 논리적 관계를 보여주지는 못함. 데이터는 인과관계를 절대 로 보여주지 못함!! 빅데이터가 절대 만능이 아니라는 사실임. 상관관계는 어디까지나 인과관계로 해석하기 위한 힌트를 제공해줄 뿐임. 추가적으로 생각해볼 점: 모든 통계에서 보여주는 데이터 관계는 상관관계임. 인과관계를 해석하는 것은 통계 프로그램의 계산도 아니고 데이터 그 자체도 아님. 데이터의 인과관계는 사람들이 스스로 파악해야 하는 것임. 이것은 그 동안의 쌓여진 인문학적 이론 지식 체계를 통해서 가능할 것임. 이론과 현실, 인문학과 데이터를 잘 병행해서 분석할 필요가 있을 것임. 2. 데이터 분류의 중요성 - 데이터를 무조건 묶는다고 좋은 것은 아님. - 묶으려면 그 자체로 효용성이 높도록 분류하고 유기적으로 연결해야 함 - 이를테면 뇌의 신경계를 이루고 있는 뉴런(neuron)이 잘 뭉쳐지면 뇌가 되 지만 그렇지 않다면 우리가 뇌 라고 부를만한 능력은 없었을 것임 - 뉴런과 마찬가지로 전기신호를 내는 건전지를 무작위로 한 데 묶어놔 봐야 쓸모없는 고철덩어리가 됨 - 다시 말해 묶더라도 필요한 것끼리 잘 묶어서 쓸모 있는 것으로 만드는 것 이 중요하다는 것임. - 데이터를 네트워크로 묶는 것 역시 마찬가지일 것임 - 가까운 미래에는 사물인터넷(internet of things)로 인하여 모든 사물에 ip 주소가 부여되고 인터넷을 통해 세상의 사물들이 서로 연결되는 새로운
25 연결네트워크가 형성하게 될 것임 - 이것은 인간과 사물이 인터넷을 매개로 하여 모두 연결된 사회에 살게된 다는 것을 의미함 - 네트워크 과학과 빅데이터가 중요한 이유는 이러한 시대상의 변화와 이로 인하여 겪게 될 일상적 삶의 차이 때문임 - 따라서 앞으로는 네트워크과학과 빅데이터라는 정보가 얽혀 있는 시스템 을 고려해야할 것임 - 정보와 네트워크가 결합해야만 복잡계에 대한 모형화가 가능하고 그것을 통해서 우리가 지금까지 손조차 대지 못했던 복잡계를 예측하고 조절할 수 있게 될 것임 - 사회나 생명현상, 인터넷같은 복잡한 시스템을 조절 가능하다면 우리의 미 래는 암울하지만은 않을 것이라 확신하는 바이나, 여기에는 네트워크와 정 보를 잘 엮는 방법이 진지하게 고민되어야 한다는 전제가 놓인다는 것을 잊지 말아야 함 - 데이터의 방대함이 전제된 디지털 문명 속에서 데이터의 나열과 분류, 표현이 더 중요할 수밖에 없는 이유는 바로 이러한 빅데이터의 특징때문 임 3. 빅데이터의 활용 방안 차후 빅데이터와 관련된 연구 분야는 어떤 부분으로 확장 가능할 지? - 최근의 본 연구실의 연구결과에 따르면 미술 회화작품을 시대 별로 구분하 여 분석한 결과, 시대별 차이를 수치화 하는 것이 가능한 것으로 파악됨. 얼마나 다양한 색을 사용했는가? 중세시대와 다른 시대가 색의 차이는 어 떻게 발생하는지를 살펴볼 수 있음. - 예를 들면, 중세시대에는 혼합이라는 테크닉이 없었기 때문에 색상의 다양 성이 떨어짐. 르네상스 이후 오일 페인팅이 나와 색을 섞을 수 있었음 - 하지만 연구의 제한점도 많아서, 색 추출에 문제가 많음(조명, 색온도, 카메 라마다 감도가 다르기 때문). 그러나 다양한 소스에서 제공하는 이미지를 기반으로 공통점을 찾아 차후 연구를 진행 중. - 미술사를 전공하지 않아도 수치로 정확히 접근하면 잘 알려진 사실들을 정 량적으로 확인할 수 있을 것임. - 그외에도 역사적인 자료, 즉 조선왕조실록 등, 사료에 등장하는 인물, 사건 을 분석하여 네트워크에 얹어 분석할 수도 있을 것임
26 빅데이터로 인한 프라이버시의 문제는 어떻게 해소할 수 있는가? - 사실상 빅데이터에서 프라이버시 문제에는 정답이 있을 수 없음. 데이터는 많아질수록 정확하고 그 중요도가 증가하므로, 많은 양을 모으는 것이 중 요, 하지만, 다양한 책임소재의 문제, 어떻게 누가 관리해야하는 문제 등이 가장 큰 이슈로 부각될 가능성이 있음 빅데이터를 사용할 때 버려지는 데이터의 문제는 어떻게 해석할 수 있는가? - 적은 데이터의 판단 한계와 많은 데이터의 판단의 차이는 디테일을 버리고 큰그림, 평균을 볼 수 있는 경우인가의 문제로 귀결됨. - 이런 경우의 안 좋은 점은 모든 통계가 가지고 있는 한계와 같음. 전수조 사하면 그 가치 판단을 결정할 수 있을 것. - 또한 질적 연구를 해야 할 때 빅데이터가 보여주는 상관관계를 어떻게 인 과관계로 풀어나가야 할 것인가가 어려운 숙제 중 하나임
27