<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

Size: px

Start display at page:

Download "<28C6EDC1FD293230313630365FBBF5B1B9BEEEBBFDC8B0283036323829C3D6C1BE2E687770>"

용화 견
7 years ago
Views:

2 국립국어원 정간위 심의필 ISSN 새국어생활 제26권 제2호(2016년 여름) Vol. 201 인쇄일 발행일 2016년 6월 30일 펴낸이 송철의 편집위원 남길임 이광표 주세형 진정란 최경봉 기획 편집 이승재 김지숙 신다원 제작 늘품플러스 펴낸 곳 국립국어원( 주소 서울특별시 강서구 금낭화로 154(방화3동 827번지) National Institute of Korean Language 154, Geumnanghwa-ro, Gangseo-gu, Seoul, Korea 전화 (02) 전송 (02) 정기 구독 신청 및 구독 소감, 건의 사항 등 문의 새국어생활 담당자 (02)

go.kr) 주소 07511 서울특별시 강서구 금낭화로 154(방화3동 827번지) National Institute of Korean Language 154, Geumnanghwa-ro,

3 2016년 제26권 제2호 여름

4 2016년 제26권 제2호 여름 [특집] 빅데이터 시대의 국어 자료 언어 자료의 보고, 빅데이터 9 이기황 빅데이터의 정확한 언어와 모호한 언어 31 김형석 언어 자료로 세상 보기 - 산업 분야의 언어 처리와 세종 말뭉치 운용 57 전채남 21세기 세종 말뭉치 제대로 살펴보기 - 언어정보나눔터 활용하기 73 황용주 최정도

5 지금 이 사람 국어 정보화와 전문용어 표준화의 선구자 - 최기선 한국과학기술원 교수를 만나다 87 이경우 세계의 언어 정책 이집트의 사회언어학적 특징과 언어 정책 107 윤은경 그분을 그리며 선청어문( 先淸語文 )의 국어교육자, 난대( 蘭臺 ) 이응백( 李應百 ) 선생 133 민현식 국어 산책 오징어 윤, 쌍길 철 의 추억 147 홍성호 국립국어원 소식 159 [부록] 표준국어대사전 정보 수정 내용 169

7 빅데이터 시대의 국어 자료

9 특집 1 언어 자료의 보고, 빅데이터 이기황 다음소프트 1. 들어가는 말 이른바 빅데이터의 시대가 도래하였다. 거대 정보 기술(IT) 기업 가운데 하나인 아이비엠(IBM)이 최근 조사한 바에 따르면, 매일 2.5엑사바이트(1엑 사바이트=1,000,000테라바이트)의 데이터가 생성되고 있다. 더욱 놀라운 사실은 전 세계에서 폭발적으로 생성되는 데이터의 90%가 최근 2년 이내에 생성되었다는 것이다(IBM, 2015). 이렇듯 방대한 양의 데이터는 미세먼지와 오존의 농도를 측정하는 센서, 카카오톡과 같은 메신저 서비스, 주식 거래소 등 다양한 원천에서 쉴 새 없이 생성되고 있다. 최근 빅데이터가 특별한 주목을 받는 이유는 그 규모 때문만은 아니다. 고도로 산업화된 오늘날 우리가 삶 속에서 겪는 여러 가지 문제를 해결하는 데 성공적으로 사용되고 있기 때문이다. 정부 주도의 빅데이터 활용 촉진 기관인 K-ICT 빅데이터 센터( 의 빅데이터 글로벌 사례 집 (한국정보화진흥원, 2015, 2016)에서는 고객 관리, e-비즈니스, 의료, 제조, 재난 공공 등의 빅데이터 활용 분야를 소개하고 있는데 이는 수많은 빅데이터의 성공적인 적용 사례 중 극히 일부에 불과하다. 또한 최근 많은 화제를 몰고 온 인공 지능 바둑 에이전트 알파고(AlphaGo) 는 대규모 데이 9

최근 빅데이터가 특별한 주목을 받는 이유는 그 규모 때문만은 아니다. 고도로 산업화된 오늘날 우리가 삶 속에서 겪는 여러 가지 문제를 해결하는 데 성공적으로 사용되고 있기 때문이다. 정부 주도의 빅데이터 활용 촉진 기관인 K-ICT 빅데이터 센터(https://kbig.

10 터의 유용성을 극명히 드러내었다. 주목할 것은 빅데이터의 80% 이상이 텍스트, 음성, 영상 등 구성 요소의 구조적 속성을 명시적으로 규정하기 어려운 반정형, 혹은 비정형 데이터로 구성되어 있으리라고 추정된다는 점이다(Economist, 2015). 여기서 텍스트 라 함은 컴퓨터로 처리될 수 있는 형태로 저장된 글, 곧 언어 자료를 뜻한다. 실제로 앞서 소개한 빅데이터의 성공적인 적용 사례 가운데 상당수는 텍스트 자료의 분석을 통해 이루어진 것이다. 이와 같은 상황에서 우리는 빅데이터, 특히 텍스트로 이루어진 빅데이터를 언어의 탐구에 활용할 수 있는 가능성에 대하여 고려하게 된다. 언어 연구에 있어서 대규모 언어 자료인 말뭉치를 이용하는 것은 더 이상 낯선 일이 아니다. 그러므로 빅데이터를 언어 연구에 활용할 수 있는 방안에 대하여 고민하는 것은 매우 당연한 일이다. 1) 이 글에서는 빅데이터의 개념과 특성을 언어 연구와 연관 지어 살펴보고 빅데이터를 언어 연구에 활용하기 위한 절차를 기술적 요건과 함께 소개하고 자 한다. 그러나 자세한 기술적인 사항을 깊이 소개하는 것은 이 글의 범위를 벗어나는 일로 판단되어 개략적인 설명에 그쳤다. 2) 또한 빅데이터를 언어 연구에 활용하는 일은 아직 걸음마 단계에 있으므로 명확한 방향을 제시하기 어려운 부분도 존재한다. 1) 언어 자료가 언어 연구에 유효한가에 대해서는 논쟁이 계속되고 있다. 촘스키는 최근 진행된 면담에서 제기된 빅데이터의 유효성에 관한 질문에 답변하면서 잘 설계된 실험을 통해 축적된 데이터의 사용에 대해서는 긍정적으로 평가하였으나 빅데이터의 유효성은 여전히 매우 부정 적으로 평가하였다(뉴스센터, 2016). 2) 빅데이터를 언어 연구에 활용함에 있어서 적절한 기술의 도입과 활용은 필수적이다. 최근 말뭉치 언어학, 전산 언어학 등의 연구가 비교적 활발히 이루어지며 기술의 도입과 활용이 예전에 비해 활발해진 것은 사실이지만 빅데이터를 사용하기 위해서는 한 번의 도약이 더 필요하다. 10

그러므로 빅데이터를 언어 연구에 활용할 수 있는 방안에 대하여 고민하는 것은 매우 당연한 일이다. 1) 이 글에서는 빅데이터의 개념과 특성을 언어 연구와 연관 지어 살펴보고 빅데이터를 언어 연구에 활용하기 위한 절차를 기술적 요건과 함께 소개하고 자 한다.

11 2. 빅데이터란 무엇인가? 2.1. 빅데이터의 정의 빅데이터 라는 말은 이제 결코 생소한 용어가 아님에 틀림이 없지만, 어떠한 데이터가 빅데이터인지에 대해서는 명확히 규정하기가 쉽지 않은 것이 현실이다. 3) 그럼에도 불구하고 다음에 보이는 가트너(Gartner)의 정의 는 가장 포괄적이면서도 고전적인 빅데이터의 정의로 널리 인용된다. 빅데이터의 정의(Gartner) Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation. 그림 1 빅데이터의 기본 속성: 3V ( 3) 빅데이터의 소개 자료는 이루 나열하기 힘들 정도로 많다. 다소 비즈니스 편향적이기는 하지만 IDG(2012)는 빅데이터에 대한 간략한 이해에 많은 도움이 된다. 한국소프트웨어기술인협회 (2016)는 교과서로 활용될 수 있도록 단권으로 구성된 개론서이다. 11

빅데이터의 정의(Gartner) Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information

12 위 정의의 핵심은 이른바 3V로 알려진 빅데이터의 기본 속성에 있다. [그림 1]은 빅데이터의 기본 속성 3V를 요약적으로 보여 준다. 이들 속성에 대하여 차례로 살펴보자. 첫 번째 V는 규모 혹은 용량 을 뜻하는 볼륨(Volume)이다. 빅데이터 의 빅 은 규모가 크다는 빅데이터의 속성을 글자 그대로 드러낸다. 데이터 규모가 데이터의 가치를 결정짓는 유일한 속성은 아니지만 어느 정도의 질이 보장된다면 규모가 큰 데이터에서 추출된 정보의 신뢰성이 상대적으 로 높다는 것은 일반적으로 알려져 있다. 그러므로 데이터에 기반을 둔 연구에서는 가능한 한 규모가 큰 데이터를 확보하기 위한 노력을 기울인다. 다만 데이터 수집, 저장, 처리 등의 공정에서 맞닥뜨리게 되는 현실적 한계는 무시할 수 없는 문제이다. 그런데 최근 컴퓨터 하드웨어와 소프트웨 어의 급격한 발달로 이 한계가 급속히 무너지고 있다. 예를 들어, 2003년 인간 게놈 프로젝트를 통해 30억 개의 염기쌍 해독을 하는 데에 13년간 총 30억 달러의 비용이 들었는데 현재는 약 3.2기가바이트 용량의 인간 게놈 서열을 2시간 내에 1,000달러의 비용으로 해독할 수 있다고 한다 (IDG, 2012). 그렇다면 얼마나 규모가 큰 데이터가 빅데이터인가? 아이비엠이 2012년 에 1,000명이 넘는 관련 분야 전문가들을 대상으로 실시한 설문 결과에 따르면 절반이 넘는 응답자가 적어도 1테라바이트는 넘어야 빅데이터라고 부를 수 있다고 하였다(슈렉 외, 2012). 1테라바이트는 디브이디(DVD) 220 장의 저장 용량과 맞먹는 규모이다. 그런데 서두에 언급한 대로 매일매일 생성되는 데이터가 엑사바이트급인 오늘날 테라바이트급이 아니라 페타바 이트급 데이터도 그리 희귀하지는 않다. 앞서 언급한 대로 데이터의 규모는 기본적으로 상대적인 개념일 수밖에 없다. 점점 더 많은 데이터가 생성될 것이고 이를 저장할 수 있는 저장 매체의 용량도 점점 더 커질 것이다. 또 한 가지 데이터 규모의 상대성에 12

다만 데이터 수집, 저장, 처리 등의 공정에서 맞닥뜨리게 되는 현실적 한계는 무시할 수 없는 문제이다. 그런데 최근 컴퓨터 하드웨어와 소프트웨 어의 급격한 발달로 이 한계가 급속히 무너지고 있다. 예를 들어, 2003년 인간 게놈 프로젝트를 통해 30억 개의 염기쌍 해독을 하는 데에 13년간 총 30억 달러의 비용이 들었는데 현재는 약 3.

13 영향을 미치는 요소는 데이터의 종류이다. 예를 들어, 같은 용량의 데이터라 고 해도 그 데이터가 데이터베이스에 저장된 정형 데이터인지 동영상 데이터 인지에 따라 전혀 다른 데이터 처리 방법이 요구되므로, 빅데이터의 정의는 특정한 유형의 데이터가 사용되는 산업과 응용 분야에 따라 달라진다. 결국 데이터의 규모는 중요한 빅데이터의 정의 요소 가운데 하나임에 틀림없지만 어느 정도 규모가 빅데이터에 해당한다고 규정하는 것은 의미가 없다. 따라서 앞서 보인 가트너의 정의와 같이 혁신적인 형태의 자료 처리 방법이 필요할 정도의 규모 라고 정의하는 것이 합리적이라고 결론지을 수 있다. 이러한 생각을 적극적으로 확장하면, 규모로는 스몰데이터이더라도 그 데이터를 바라보는 새로운 관점과 시각이 동반된 새로운 방식의 자료 처리와 해석이 더해진다면 빅데이터로 볼 수 있을 것이라는 주장도 가능할 수 있다. 두 번째 V는 속도 를 뜻하는 벨로시티(Velocity)이다. 빅데이터는 그 규모가 클 뿐만 아니라 매우 빠른 속도로 생성되는 데이터를 말한다. 앞서 보인 바와 같이 빅데이터는 다양한 원천으로부터 생성되는데 이들 원천의 공통된 특징은 데이터 생성 속도가 매우 빠르다는 것이다. 기상 정보 측정 장치는 시시각각으로 변하는 기상 정보를 측정하여 기록하는데 그 데이터 생성 속도는 오로지 미리 정한 데이터 측정 사이클에 의해 결정된다. 미국의 대형 마트 체인인 월마트 에서는 시간당 100만 건 이상의 거래 정보를 처리한 다고 한다(쿠키어, 2010). 소셜 네트워크 서비스(SNS)에서 생성되는 메시지 역시 매우 빠른 속도로 생성된다. 우리는 소셜 네트워크 서비스를 통하여 엄청난 속도로 소식이 퍼져 나가는 것을 여러 번 목격한 바 있다. 소식의 확산은 바로 데이터의 생성에 의해 이루어지는 것이다. 오늘날 스마트폰으로 대표되는 휴대 가능한 기기의 확산으로 개인화된 데이터가 엄청난 속도와 양으로 생성되고 있음은 널리 알려진 사실이다. 13

이러한 생각을 적극적으로 확장하면, 규모로는 스몰데이터이더라도 그 데이터를 바라보는 새로운 관점과 시각이 동반된 새로운 방식의 자료 처리와 해석이 더해진다면 빅데이터로 볼 수 있을 것이라는 주장도 가능할 수 있다. 두 번째 V는 속도 를 뜻하는 벨로시티(Velocity)이다. 빅데이터는 그 규모가 클 뿐만 아니라 매우 빠른 속도로 생성되는 데이터를 말한다.

14 이렇듯 데이터의 엄청난 대응 속도에 반응하여 데이터의 분석 또한 실시간 으로 이루어져야 하는 요구가 발생하였다. 실시간 교통 안내 시스템은 그러한 예의 하나다. 지속적으로 수집되는 교통량과 통행 정보를 바탕으로 한, 실시 간으로 최적화된 교통 안내를 할 수 없는 시스템은 아무런 쓸모가 없다. 유용한 정보를 제공하는 빅데이터의 실시간 분석을 위해서는 새로운 기술의 개발이 필수적으로 요구된다. 그런 기술의 목표는 고속으로 생성되어 사라져 갈 수밖에 없는 데이터로부터 실시간으로 유의미한 정보와 지식을 산출해 내는 것이다. 세 번째 V는 다양성 을 뜻하는 버라이어티(Variety)이다. 역시 앞서 언급 한 대로 빅데이터는 다양한 원천으로부터 생성되기에 다양한 형태를 지닌다. 과거 컴퓨터를 이용한 데이터 처리에 있어서 처리 대상은 각종 측정치, 계산 값 등을 기록한 수치 데이터가 주종을 이루었으며, 텍스트가 포함되었다고 해도 가로와 세로가 잘 구성된 목록형 데이터, 다른 말로 정형 데이터가 대부분이었다. 그런데 컴퓨터의 활용 분야가 확대되면서 전자우편, 소셜 미디어 포스팅과 같은 비정형 텍스트, 그리고 방대한 음성과 영상 데이터가 축적되고 있다. 글머리에서 언급한 바와 같이 이러한 반정형, 혹은 비정형 데이터가 오늘날 생성되고 있는 데이터의 80% 이상을 차지할 것이라 추정되 고 있다. 다양한 형태의 데이터에 대한 관심은 빅데이터가 유행하기 전에도 존재하 였다. 그런데 다양성이 빅데이터의 정의 요소로까지 중요해진 것은 최근의 기술적 진보와 무관하지 않다. 예를 들어, 최근 이미지 처리 기술이 급격히 발전하여 안면 인식을 통해 고객의 성별과 나이 등을 파악하고 이를 마케팅에 활용하는 일이 현실화되기 시작했다(간도미와 하이더, 2015). 즉 종전에는 축적되기는 하여도 제대로 활용할 수 없었던, 특수한 처리 기술이 요구되는 다양한 형태의 데이터가 풍부하고도 유용한 정보를 제공할 수 있는 소중한 자원의 지위를 갖게 되었다. 14

역시 앞서 언급 한 대로 빅데이터는 다양한 원천으로부터 생성되기에 다양한 형태를 지닌다. 과거 컴퓨터를 이용한 데이터 처리에 있어서 처리 대상은 각종 측정치, 계산 값 등을 기록한 수치 데이터가 주종을 이루었으며, 텍스트가 포함되었다고 해도 가로와 세로가 잘 구성된 목록형 데이터, 다른 말로 정형 데이터가 대부분이었다.

15 이상으로 가트너의 빅데이터의 정의 에 나타난 3V, 즉 볼륨(Volume), 벨로시티(Velocity), 그리고 버라이어티(Variety) 에 대하여 알아보았다. 이 들 속성은 빅데이터에만 있는 고유 속성이라기보다는 빅데이터라는 현상 을 이해하기 위한 상대적인 속성으로 이해해야 한다. 이 상대적 속성을 드러내는 핵심 요소는 혁신적인 데이터 처리와 해석 방법에 있다. 한편 위의 3V에 더하여 몇몇 기업들이 다음과 같은 V를 추가로 제시하였 다(간도미와 하이더, 2015). Veracity: 아이비엠(IBM)이 추가한 네 번째 V로 진실성 을 뜻한다. 이는 데이터 원천의 특성상 어느 정도 존재할 수밖에 없는 데이터의 불확실성, 비신뢰성 등을 지적한 것이다. 특히 소셜 미디어 등에 나타난 소비자의 의견 등은 어느 정도의 불확실성을 가질 수밖에 없다. 그러나 이러한 데이터의 유용성 자체를 부정할 수는 없다. Variability: 새스(SAS)는 빅데이터의 추가 속성으로 variability와 complexity, 즉 가변성 과 복잡성 을 제시하였다. 가변성은 데이터 생성 속도가 변할 수 있음을 지적한 것이고 복잡성은 데이터가 단일 원천으로부터가 아니라 여러 원천이 복잡하게 뒤엉켜 있는 상태에서 생성될 수 있음을 지적한 것이다. Value: 오라클(Oracle)이 추가한 것으로 가치 를 뜻한다. 오라클에 의하면 빅데이터에 포함되는 원본 데이터들은 상대적으로 규모에 비해 가치가 적다. 그런데 이와 같이 저가치 밀도 의 데이터를 대량으로 분석했을 때에 큰 가치가 창출될 수 있다는 것이다. 15

이는 데이터 원천의 특성상 어느 정도 존재할 수밖에 없는 데이터의 불확실성, 비신뢰성 등을 지적한 것이다. 특히 소셜 미디어 등에 나타난 소비자의 의견 등은 어느 정도의 불확실성을 가질 수밖에 없다. 그러나 이러한 데이터의 유용성 자체를 부정할 수는 없다.

16 2.2. 소셜 빅데이터 앞서 빅데이터의 80% 이상이 비정형 데이터로 추정되며, 이 가운데 특히 텍스트 데이터가 매우 중요한 위치를 차지하고 있음을 언급하였다. 빅데이터 를 구성하는 텍스트 데이터의 주요 원천은 소셜 미디어이다. 4) 소셜 미디어는 인간의 사고와 행위를 인간 스스로 기록하여 생성하는 장이라는 점에서 특수한 가치를 지니고 있다. 사용자들은 소셜 미디어를 통해 연결되어 온라인 환경에서 새로운 공동체를 형성하고 서로의 생각과 일상을 공유하며 그 기록을 텍스트로 남긴다. 이와 같은 현상은 온라인 공동 체의 형태를 지닌 온라인 카페나 게시판에서도 관찰된다. 나아가 포털 서비스 의 포스팅, 뉴스 기사 등에 대한 댓글 또한 온라인 공간에서의 미디어 소비와 여론 생성 현장을 고스란히 기록하고 있다. 위와 같은 배경에서 미디어, 혹은 플랫폼으로서의 소셜 미디어와 빅데이터 현상이 결합된 소셜 빅데이터라는 개념이 등장하였다(송길영, 2012, 2015; 벨로-오르가즈 외, 2016). 언어 자료로서의 빅데이터를 이야기할 때 소셜 빅데이터의 개념을 다루지 않을 수 없다. 그러므로 이 글에서 빅데이터라 함은 곧 소셜 빅데이터를 가리킨다. [그림 2]는 벨로-오르가즈 외(2016)에서 보인 소셜 빅데이터의 개념을 나타내는 그림이다. 벨로-오르가즈 외(2016)가 [그림 2]를 통해 특히 강조하고자 하는 것은 소셜 빅데이터 분석이 근본적으로 학제적이라는 것이다. 이 논문에서는 관련 된 분야로 데이터 마이닝, 기계 학습, 통계학, 그래프 마이닝, 정보 검색, 언어학, 자연 언어 처리, 시맨틱 웹, 온톨로지, 빅데이터 컴퓨팅을 나열하고 있다. 즉 수치 데이터와 정형 데이터 중심의 일반적인 빅데이터에 비해 비정 4) 소셜 미디어는 개방, 참여, 공유의 가치로 요약되는 웹 2.0 시대의 도래에 따라 소셜 네트워크의 기반 위에서 개인의 생각이나 의견, 경험, 정보 등을 서로 공유하고 타인과의 관계를 생성 또는 확장할 수 있는 개방화된 온라인 플랫폼 으로 정의된다(위키피디아). 소셜 미디어에는 블로그, 소셜 네트워크 서비스, 위키, 마이크로 블로그 등이 포함된다. 16

나아가 포털 서비스 의 포스팅, 뉴스 기사 등에 대한 댓글 또한 온라인 공간에서의 미디어 소비와 여론 생성 현장을 고스란히 기록하고 있다. 위와 같은 배경에서 미디어, 혹은 플랫폼으로서의 소셜 미디어와 빅데이터 현상이 결합된 소셜 빅데이터라는 개념이 등장하였다(송길영, 2012, 2015; 벨로-오르가즈 외, 2016).

17 형의 텍스트 중심이 되는 소셜 빅데이터의 분석에서는 언어학, 자연 언어 처리 분야 등의 참여가 필수적으로 요구되는 것이다. 바꾸어 말하면 소셜 빅데이터야말로 언어학의 연구 대상이라고 할 수 있다. 그림 2 소셜 빅데이터의 개념(벨로-오르가즈 외, 2016) 3. 언어 자료로서의 빅데이터 3.1. 균형 말뭉치와 모니터 말뭉치 언어 연구를 위한 대표적 언어 자료인 말뭉치는 여러 가지 기준에 따라 다양한 유형으로 분류할 수 있다. 그 가운데 하나는 원자료의 수집 방식에 17

18 따라 말뭉치를 균형, 혹은 표본 말뭉치와 모니터 말뭉치로 구분하는 것이다 (맥에너리 외, 2011). 균형 말뭉치란 탐구 대상이 되는 언어 전체, 즉 모집단의 표본 자료로서의 역할에 충실하기 위해, 즉 대표성을 극대화하기 위해 말뭉치에 포함되는 원자료들을 다양한 매체, 장르에 걸쳐 선정하고 이들의 포함 비율을 적절히 조절하여 구성한 말뭉치를 말한다(맥에너리 외, 2006). 그러므로 균형 말뭉 치는 조심스럽게 준비된 원칙에 따라 한 번 구성되면 그 내용과 규모가 고정된다. 이에 비해 모니터 말뭉치는 시간이 흐름에 따라 규모가 점점 커지는 말뭉 치를 말한다. 원자료의 추가는 연간, 월간, 그리고 일간으로 이루어질 수도 있다. 말뭉치의 구성을 미리 설계할 수 없으므로 포함된 원자료의 균형성을 보장하는 것은 불가능하다. 모니터 말뭉치의 개념은 싱클레어(1991)에서 처음 주창된 것으로 균형 말뭉치의 폐쇄성이 살아 있는 언어 현상의 발굴, 그리고 매우 드물게 발생하지만 유의미한 언어 현상의 관찰에 적합하지 않다는 점을 지적하며 고안된 것이다. 맥에너리 외(2006)에서는 모니터 말뭉치의 강점으로 언어 변화의 관찰이 가능하다는 점을 들면서 신어의 등장과 사멸 등에 대한 연구를 예로 들었다. 또한 모니터 말뭉치가 매우 오랜 기간 축적되면 문법의 변화 등도 추적이 가능할 것이라고 보았다. 그러나 모니터 말뭉치는 균형성을 보장할 수 없으므 로 신뢰도가 높은 통계 정보의 추출이 불가능하고 내용과 규모가 고정되지 않으므로 연구 결과의 비교가 불가능하다는 문제점을 지적하였다 말뭉치로서의 웹 모니터 말뭉치와 유사한 개념으로 말뭉치로서의 웹이 있다(킬가리프와 그레펜슈테트, 2003). 현재 주어진 가장 방대한 언어 자료임에 틀림없는 18

그러므로 균형 말뭉 치는 조심스럽게 준비된 원칙에 따라 한 번 구성되면 그 내용과 규모가 고정된다. 이에 비해 모니터 말뭉치는 시간이 흐름에 따라 규모가 점점 커지는 말뭉 치를 말한다. 원자료의 추가는 연간, 월간, 그리고 일간으로 이루어질 수도 있다. 말뭉치의 구성을 미리 설계할 수 없으므로 포함된 원자료의 균형성을 보장하는 것은 불가능하다.

19 웹을 언어 연구에 활용하려는 시도이다. 웹에 존재하는 모든 언어 자료를 오프라인 사용을 위해 저장하는 것은 불가능한 일이므로 이 접근에서는 구글 등의 상용 검색 엔진, 그리고 언어 연구를 위해 특별히 고안된 인터페이스 인 웹콥(WebCorp) (르누프, 2003)을 사용한다. 말뭉치로서 웹을 사용하는 가장 큰 장점은 역시 방대한 규모로부터 온다. 항상 그러한 것은 아니지만 보통의 균형 말뭉치에서 그 용례를 찾기 어려운 비교적 희귀한 언어 현상의 경우에도 웹에서는 상당히 많은 건수의 용례를 찾을 가능성이 있다. 또한 모니터 말뭉치의 경우와 마찬가지로 새로이 생성되 는 데이터의 반영이 매우 빠르므로 새로이 등장한 단어나 표현의 추적에도 매우 유용하다. 그러나 말뭉치로서 웹을 사용할 때에는 검색 엔진 등의 제한적인 방법을 사용할 수밖에 없다는 근본적인 한계에서 벗어나기 어려워 그 용도가 제한될 수밖에 없다. 또한 검색 엔진의 검색 결과 수의 표시가 어떤 과정을 통해 생성되는지 알 수 없기 때문에 안정적인 통계 데이터를 얻을 수 있다는 보장을 하기 어렵다 말뭉치로서의 빅데이터 위의 원자료 수집 방식에 따른 말뭉치의 유형 분류로 보면 빅데이터는 모니터 말뭉치의 부류에 속한다. 한편 웹에서 생성된 데이터로 구성되었다는 점에서 말뭉치로서의 웹의 성격도 어느 정도 지니고 있다. 다만 빅데이터는 분석을 위해 모든 데이터를 데이터 원천으로부터 수집, 저장하여 사용하기 때문에 말뭉치로서의 웹이 갖는 한계는 없다. 말뭉치로서 빅데이터가 갖는 첫 번째 가치는 그 규모이다. 글쓴이의 일터 에서 경험한 바에 따르면 대표적인 마이크로 블로깅 서비스인 트위터에서 생성되는 한국어 작성 트윗은 하루에 최소 500만 건에 이르며 대표적인 19

그러나 말뭉치로서 웹을 사용할 때에는 검색 엔진 등의 제한적인 방법을 사용할 수밖에 없다는 근본적인 한계에서 벗어나기 어려워 그 용도가 제한될 수밖에 없다. 또한 검색 엔진의 검색 결과 수의 표시가 어떤 과정을 통해 생성되는지 알 수 없기 때문에 안정적인 통계 데이터를 얻을 수 있다는 보장을 하기 어렵다. 3.

20 블로그 서비스인 네이버 블로그에서 생성되는 블로그 포스트는 하루 최소 50만 건에 이른다. 이 규모는 물론 말뭉치로서의 웹의 규모에는 훨씬 미치지 못하지만 그 어느 한국어 말뭉치보다도 규모가 크다. 5) 물론 아무리 규모가 크다고 해도 모든 한국어 사용자가 트위터, 혹은 블로그 서비스를 이용하는 것이 아니며 여기에 한국어의 양상이 모두 반영되 어 있다고 할 수는 없다. 그럼에도 불구하고 한국어의 언어적 특성에 대한 탐구에 있어서 기존 말뭉치가 주지 못하는 풍부한 용례를 제공할 수 있다. 또한 맥에너리 외(2006)가 모니터 말뭉치에 대하여 지적한 대로 빅데이터는 균형성과 대표성에 있어서 문제가 있다고 볼 수 있다. 균형성과 대표성은 통계적 유의성에 기반을 둔 일반적인 통계적 연구 방법, 즉 모집단으로부터 추출한 비교적 작은 규모의 표본에서 통계적 유의성을 바탕으로 결론을 도출하고 이를 모집단으로 일반화하는 연구 방법에서 제기되는 문제이다. 그런데 모집단은 아닐지라도 모집단의 상당 부분을 포함하는 빅데이터에 있어서는 통계적 유의성이 그렇게 큰 의미를 갖지 못한다(간도미와 하이더, 2015). 그러므로 빅데이터로부터 통계적 정보를 얻기 위해서는 기존의 통계 적 방법이 아닌 새로운 방법의 개발이 요구된다. 6) 대규모 말뭉치로서 빅데이터가 지니는 진정한 가치는 데이터의 원천인 소셜 미디어의 특성에서 찾아야 할 것이다. 예를 들어, 빅데이터는 언어 사용의 맥락과 언어 공동체에 대한 새로운 시각을 제공할 수 있을 것이다. 빅데이터에 포함된 언어 자료를 생성한 사람들은 넓게 보면 한국어라는 특정한 언어를 사용하며 이 시대를 살아가는 언어 공동체의 일원이다. 그러나 자료 생성자들 은 지역, 직업, 연령, 관심사 등에 따라 각자 다른 맥락에서 한국어를 사용한다. 5) 한국어 트윗과 네이버 블로그 포스트의 일일 생성량은 글쓴이의 일터에서 측정한 것으로 실제 생성량과는 차이가 있을 것이다. 6) 특히 최근에는 베이지안 통계 기법의 활용이 여러 분야에서 시도되고 있다(알렌비 외, 2014; 스콧 외, 2016). 20

또한 맥에너리 외(2006)가 모니터 말뭉치에 대하여 지적한 대로 빅데이터는 균형성과 대표성에 있어서 문제가 있다고 볼 수 있다. 균형성과 대표성은 통계적 유의성에 기반을 둔 일반적인 통계적 연구 방법, 즉 모집단으로부터 추출한 비교적 작은 규모의 표본에서 통계적 유의성을 바탕으로 결론을 도출하고 이를 모집단으로 일반화하는 연구 방법에서 제기되는 문제이다.

21 빅데이터는 언어 사용의 현장에서 동떨어지고 고립되어 존재하는 언어의 조각들이 아닌 무한히 확장될 수 있는 맥락 속의 언어를 들여다볼 수 있게 해 준다. 이를 통해 진정으로 동적인 언어 공동체의 생성과 발전의 양상을 살펴볼 수 있을 것이다. 이는 빅데이터가 단발적인 언어 사용을 담는 것에서 그치는 것이 아니라 다양한 환경에 처한 매우 많은 언어 사용자들의 언어 사용 양상을 비교적 장시간 지속적으로 담을 수 있기에 가능한 일이다. 말뭉치로서 빅데이터가 갖는 또 하나의 가치는 앞서 논의한 데이터 생성 속도와 관련이 있다. 소셜 미디어 서비스, 특히 마이크로 블로깅 서비스인 트위터에서는 초 단위로 새로운 트윗이 생성된다. 이를 통해 언어 연구자들은 언어 현장의 시간성을 정확히 파악할 수 있다. 특정한 발화가 이루어진 계절, 날짜, 시간은 물론이고 그 발화에 영향을 미쳤을 수도 있는 언어 외적 요소들 에 대한 추적도 어느 정도 가능하다. 예를 들어, 우리 사회에 큰 영향을 미친 사건이 사람들의 언어 사용에 끼친 영향들을 관찰할 수 있을 것이다. 또한 특정한 언어 사용 양상이 사람들 사이에서 어떻게 펴져 나가는지, 즉 언어 사용 양상의 확산에 관한 연구도 가능할 것이다. 앞서 언급한 대로 빅데이터의 주요 속성 가운데 하나는 그 형식의 다양성 이다. 이제까지의 언어 연구는 어쩔 수 없는 기술적, 또는 자료 수집의 제약으 로 글말 중심으로 이루어져 왔다. 그런데 최근 기술의 발전 양상을 볼 때에 동영상을 언어 연구에 적극적으로 활용하게 될 날이 그리 멀지 않아 보인다. 먼저는 동영상에 포함된 음성의 인식이 가능하게 될 것이다. 이어서 동영상의 배경과 참여자를 인식하여 수많은 동영상을 자동으로 분류하고 이를 맥락화 하는 일이 가능해질 것이다. 이는 언어 연구의 방법론과 대상에 있어서 작지 않은 변혁을 불러올 것으로 기대된다. 7) 7) 앞서 기술한 대로 빅데이터는 언어 연구의 대상과 방법에 상당한 변화를 가져올 것으로 보인다. 글쓴이는 한걸음 더 나아가 빅데이터가 기존 언어학의 확장이 아닌 전혀 새로운 시각의 언어학 출현, 즉 패러다임의 변화를 불러일으키지 않을까 조심스럽게 점쳐 본다. 21

22 4. 빅데이터 활용의 절차의 기술적 요건 앞에서 언급하였듯이 빅데이터를 언어 자료로 활용하기 위해서는 일정한 절차를 거쳐야 하며 각 절차에는 적절한 기술적 요건이 따른다. 이 글에서는 라브리니디스 외(2012)에서 도식화한 빅데이터 분석의 과정을 언어 연구의 관점에 맞추어 설명한다 데이터 수집 빅데이터를 언어 연구에 활용하기 위한 가장 첫 단계는 데이터 수집 단계 이다. 소셜 미디어 서비스로부터의 데이터 수집에는 크게 세 가지 방법을 이용할 수 있다. (1) 데이터 제공 서비스 이용 소셜 미디어 서비스로부터 데이터 제공 업무를 대행하는 업체의 서비스를 이용하는 방법으로, 가장 안정적으로 데이터를 수집할 수 있다. 대표적인 서비스 업체로는 트위터 데이터를 공급하는 지닙(GNIP, 이 있다. 이 업체의 서비스를 이용하면 실시간으로 생성되는 모든 트윗, 혹은 표본 데이터를 수집할 수 있다. 이 업체에서 제공하는 가장 특징적인 서비스는 과거에 작성된 트윗에 접근할 수 있도록 해 주는 서비스이다. 과거 현존하는 가장 영향력 있는 과학 철학자 중 한 사람인 이언 해킹은 그의 저서 우연을 길들이다 에서, 19세기 초까지 모든 과학을 지배하던 결정론적인 믿음을 뚫고 다른 어느 법칙이나 원리로 환원될 수 없는 우연 이라는 개념이 받아들여지는 과정을 보였다. 해킹은 우연과 확률은 과학에 있어서 거대한 사고의 전환을 가져 왔으며, 오늘날 가장 엄정한 과학으로 인정받는 양자론의 근간을 불확정성의 원리가 이루게 되었음을 논증하였다. 빅데이터는 자연 과학이 경험한 패러다임의 변화를 언어학도 마찬가지로 경험하게 될 것이라 믿는다. 이세돌과 알파고의 바둑 대국을 보면서 과연 알파고가 바둑을 이해하고 있는지에 대한 논쟁이 벌어졌던 것처럼 인간과 대화를 나누고 소설을 쓰는 컴퓨터가 과연 인간의 언어를 정확히 이해하고 있는지에 대한 논쟁이 벌어지는 날이 올 것이고, 그때 우리는 언어, 그리고 언어 연구에 대한 생각을 많이 바꾸어야 할지도 모른다. 22

23 에 생성된 트윗을 수집할 수 있는 유일한 방법은 이 서비스를 이용하는 것이다. 이와 같은 장점을 지닌 이 서비스를 사용하는 데에 있어서 가장 큰 난관은 사용료이다. (2) 오픈 에이피아이(Open API) 사용 두 번째 방법은 소셜 미디어 서비스 업체에서 제공하는 오픈 에이피아이 (Open API)를 이용하여 데이터를 수집하는 방법이다. 소셜 미디어 서비스는 다른 서비스와의 연동이 매우 중요하므로 서비스 업체에서는 다양한 형태로 데이터를 생성하거나 데이터에 접근할 수 있는 오픈 에이피아이를 제공한다. 오픈 에이피아이를 사용하기 위해서는 이를 주어진 규격에 따라 사용하는 컴퓨터 프로그램을 작성해야 한다. 8) 트위터의 경우 트윗의 수집에 이용할 수 있는 샘플 에이피아이, 검색 에이피아이, 스트리밍 에이피아이, 그리고 레스트 에이피아이를 제공한다. 이 가운데 스트리밍 에이피아이는 검색어를 지정하여 실시간으로 생성되는 트윗들을 수집할 수 있도록 해 준다. 한 번 실행할 때에 지정할 수 있는 검색어의 수에 제한이 있고 에이피아이 호출 간격에도 시간제한이 있기 때문에 대량의 트윗 수집을 위해서는 여러 컴퓨터에서 수집 프로그램을 구동해야 한다. (3) 웹 접근 수집 마지막 방법은 오픈 에이피아이가 제공되지 않는 자료원으로부터 데이터 를 수집할 때에 사용하는 방법으로, 인간이 웹브라우저를 통해 해당 서비스를 이용하는 것을 흉내 내는 프로그램을 작성하여 데이터를 수집하는 것이다. 8) 트위터 오픈 에이피아이(Open API)를 쉽게 사용할 수 있도록 도와주는 라이브러리들이 프로그 래밍 언어별로 존재한다. 23

24 데이터 접근 스케줄링을 비롯한 많은 고려 사항이 따르는 방법이나 에이피아 이가 제공되지 않는 서비스에 대한 유일한 데이터 수집 방법이다 데이터 정제와 정보 추출 많은 경우에 수집된 자료는 바로 사용할 수가 없고 일정한 정제 과정을 거쳐야 한다. (1) 필터링 필터링이란 연구 목적에 부합하지 않거나, 나아가 연구 목적 성취에 방해가 되는 데이터를 걸러내는 과정이다. 트위터의 경우 자동으로 트윗을 생성하는 봇 의 트윗을 제거한다든지, 이벤트성 트윗을 제거한다든지 등의 처리를 할 수 있다. 블로그의 경우 상당수를 차지하는 광고성 포스트를 제거할 수 있다. 물론 이 과정은 연구 목적에 따라 다른 접근을 하게 될 수도 있다. (2) 중복 제거 소셜 미디어에서 생성된 데이터는 다양한 형태의 데이터 중복이 존재한다. 트위터의 경우에는 리트윗 이라는 형태의 적극적인 데이터 전파 기능이 있어서 데이터 중복이 발생한다. 블로그의 경우에도 소위 퍼나르기 에 의한 데이터 중복이 발생한다. 이러한 데이터 중복을 어떻게 처리할 것인가도 연구 목적에 따라 결정된다. (3) 가공 데이터 가공은 오픈 에이피아이가 아닌 웹 접근 수집에 모아진 데이터일 경우 주로 이루어져야 하는 일이다. 즉 렌더링을 위해 부가된 에이치티엠엘 (HTML) 태그 등을 제거하고 순수 텍스트만 추출하는 과정을 거쳐야 한다. 24

25 단순히 제거할 뿐만 아니라 최소한의 구조적 정보인 포스트의 제목, 본문을 구분하고 작성자, 작성 날짜와 시간, 태그 등을 분절해야 한다. (4) 언어 처리 정보 추출 단계에서 이루어져야 할 일은 언어 처리이다. 언어 처리라 함은 자동화된 언어의 형식적 분석을 말하는데 현실적으로 한국어 데이터에 대하여 할 수 있는 언어 처리는 형태소 분석이다. 형태소 분석이 이루어지지 않은 데이터를 언어 연구에 이용하는 일은 불가능하지는 않다. 그러나 많은 경우에 형태소 분석은 효과적인 언어 연구를 위한 최소한의 언어 처리 단계일 것이다. 과거에는 일반 연구자들이 자동화된 데이터의 처리에 사용할 수 있는 형태소 분석기가 거의 없었지만 최근에는 무료로 사용할 수 있는 공개 형태 소 분석기들이 등장하여 많은 연구자에게 큰 도움이 되고 있다. 그러나 형태소 분석기를 연구 목적에 맞게 조절하여 사용하는 일은 결코 쉽지 않은 일이다 데이터의 구조화와 통합 데이터의 구조화는 연구자들이 언어 처리가 적용된 데이터에 쉽고도 효과 적으로 접근할 수 있도록 해 주는 일이다. 즉 자소, 음절, 형태소, 어절, 연어, 구 등의 언어 단위별로 다양한 질의 조건을 부가하여 데이터에 접근할 수 있어야 한다. 또한 데이터 통합에 의해 다양한 원천으로부터 수집된 데이터를 하나로 통합하여 접근할 수 있어야 하며 각종 메타 데이터에도 접근이 가능해야 한다. 매우 방대한 양의 데이터를 효율적으로 저장해야 하기 때문에 여러 대의 25

26 컴퓨터로 이루어진 분산 파일 시스템이나 분산 데이터베이스를 사용해야 하는 경우가 있다. 9) 4.4. 데이터 모델링과 분석 이 단계에서는 구조화된 데이터로부터 데이터를 효율적으로 질의하여 데이터에 대한 분석이 이루어져야 한다. 예를 들어, 특정 단어의 의미 변화에 대한 연구를 수행한다면 그 단어의 의미를 파악할 수 있는 실마리 문맥을 분류하고 그 변화를 추적할 수 있어야 한다. 빅데이터를 활용할 때에는 매우 많은 양의 데이터를 사용하게 되므로 자동화된 데이터 마이닝 기법의 도움을 받지 않을 수 없다. 다양한 데이터 마이닝 기법이 언어 연구에 어떻게 접목될 수 있는지에 대해서는 다양한 실험과 검증을 통해 밝혀져야 할 것이다. 이 단계에서는 통계적 분석도 수행하게 된다. 앞서 언급한 바와 같이 통계적 유의성에 기반을 둔 전통적 통계 분석 방법이 빅데이터에서는 큰 의미가 없다는 지적이 있다. 그러나 그 대안은 아직 마련되지 않았다. 한편 웹 규모의 빅데이터를 이용한 언어 처리의 경험을 간략히 요약한 해일러비 외(2009)는 빅데이터를 이용한 언어 연구에서도 참고할 만하다. 이 논문에서는 다음과 같은 교훈 을 역설한다. 존재하지 않는 주석된 데이터를 기대하지 말고 존재하는 대규모의 데이터를 이용하라. 데이터를 이용한 연구에서는 탐구 대상 데이터를 해석하고 이용하기에 편리한 주석을 중요하게 여긴다. 나아가 주석된 9) 빅데이터의 분산 저장과 처리에 관련하여 많은 기술적 진보가 있었고 지금도 진행 중이다. 특히 아파치 하둡( 아파치 스파크( 오늘날 빅데이터 처리의 핵심 기반 기술이다. 26

27 데이터의 부재가 연구의 발전을 가로막는 장애임을 지적하기도 한다. 언어 연구에 있어서 주석된 데이터라 함은 형태소, 단어, 구, 문장 등의 언어 단위의 분절과 최소한의 해석이 이루어진 데이터를 말할 것이다. 이러한 언어 주석 데이터가 언어 처리와 언어 연구에 큰 도움이 됨은 틀림이 없다. 그러나 이러한 주석 데이터를 구축하는 데에는 엄청난 비용과 시간이 소요되며, 일반적인 규모를 훨씬 뛰어넘는 빅데 이터에 주석을 부가하는 일은 비현실적이다. 그러므로 주어질 가능성 이 거의 없는 주석 데이터에 의존하지 않고 대규모로 주어지는 원시 데이터를 어떻게 이용할 수 있는지에 대하여 깊이 고민해 보아야 한다. 정교하고 일반화된 규칙보다는 개별 사실에 집중하라. 이 논문의 저자들은 최근의 기계 번역에서 기억된(memorized) 개별 번역 사례의 중요성을 예로 들면서 일반화된 규칙보다 개별 사실을 최대한 이용할 것을 권장한다. 이 교훈은 언어 현상을 간명히 설명할 수 있는 일반화된 규칙의 작성에 관심을 두는 언어학 연구에서는 받아들이기 힘들 수도 있다. 다만 소규모 데이터에서 도출된 규칙은 언제든지 그 적용 범위에 한계가 올 수 있다는 점을 알아야 한다는 점에는 동의할 수 있을 것이다. 나아가 지식의 표현이 일차술어논리 형식의 간결한 규칙으로 되어야만 한다는 것 또한 편견일 수 있다는 사실을 인정해야 한다. 수많은 개별 사실과 개별 사실들의 조합으로부터 도출된 확률적 표현 또한 훌륭한 지식 표현의 방법 가운데 하나이다 결과의 해석 가장 어려운 단계이다. 연구 가설이 주어진 연구였다면 빅데이터에 의해 가설이 지지되는지 그러지 않는지를 검증하여야 하며, 연구 가설이 주어지지 않은 탐색적 연구였다면 연구 결과가 다른 연구로 이어질 수 있도록 정리해야 27

28 한다. 결과의 해석을 효과적으로 전달하기 위하여 적절한 시각화 기법의 활용을 적극적으로 고려해 볼 필요가 있다. 방대한 데이터로부터 도출된 복잡한 결론을 글로만 표현하는 데에는 한계가 있을 때가 많기 때문이다. 5. 맺는말 이 글에서는 빅데이터의 특성을 먼저 살펴보고, 빅데이터, 특히 소셜 빅데 이터가 언어 연구에 새로운 전기를 마련해 줄 수 있는 언어 자원으로서의 가치가 있음을 논하였다. 이어서 빅데이터를 언어 연구에 활용하기 위한 절차를 기술적 요건과 함께 간략히 설명하였다. 앞서 언급한 대로 빅데이터를 언어 연구에 활용하는 일은 아직 걸음마 단계에 있다. 그리고 해결해야 할 문제도 다수 존재한다. 특히 개인 정보 보호의 문제는 연구 윤리에 있어서 매우 중요한 문제이다. 또한 비즈니스의 목적으로 서비스되고 있는 데이터를 이용하기 때문에 데이터의 공유 등에 있어서 자유롭지 못한 부분이 많은 것도 문제이다. 이미 우리는 빅데이터의 시대에 살고 있고 어떠한 형태로든 빅데이터와 연관이 되어 있다. 이러한 시대에 빅데이터를 언어 연구에 활용하는 것은 필연적 인 일일 수도 있다. 활발한 토론과 다양한 시도가 이루어지기를 기대해 본다. 28

29 참고 문헌 송길영(2012), 여기에 당신의 욕망이 보인다, 쌤앤파커스. (2015), 상상하지 말라. 북스톤. 이안 해킹 저 정혜경 역(2012), 우연을 길들이다, 바다출판사. / Hacking, I.(1990), The Taming of Chance, Cambridge University Press. 한국소프트웨어기술인협회 빅데이터전략연구소(2016), 빅데이터 개론, 광문각. 한국 IDG(2012), 빅 데이터의 이해, IDG Tech Report. index.php?sv=title&q=knowledge/pds_&tgt=view&idx=15326/ (검색일: ). 한국정보화진흥원 미래전략센터(2015), 2015년 빅데이터 글로벌 사례집. dx=15614&sv=title/(검색일: ). 한국정보화진흥원 ICT융합본부(2016), 2016 글로벌 빅데이터 융합 사례집. dx=16137/(검색일: ). Allenby, G. M., Bradlow, E. T., George, E. I., Liechty, J. and McCulloch, R. E.(2014), Perspectives on Bayesian Methods and Big Data, Customer Needs and Solutions, 1(3): Bello-Orgaz, G., Jung, J. J. and Camacho, D.(2016), Social big data: Recent achievements and new challenges. Information Fusion, 28: Cukier, K.(2010). The Economist, Data, data everywhere: A special report on managing information. (검색일: ). Gandomi, A. and Heider, M.(2014), Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35: Gartner, IT Glossary: Big Data. big-data/(검색일: ). Halevy, A., Norvig, P. and Pereira, F.(2009), The Unresonable Effectiveness of Data, IEEE Intelligent Systems,

30 Economist(2015), The data deluge: Five years on. content/dam/veritas/docs/reports/eiu-veritas-data-deluge.pdf/ (검색일: ). IBM(2015), Big Data and Analytics. data/bigdata/what-is-big-data.html/(검색일: ). Kilgarriff, A. and Grefenstette, G.(2003), Introduction to the special issue on the Web as Corpus, Computational Linguistics, 29(3): Labrinidis, A. and Jagadish, H. V.(2012), Challenges and opportunities with big data, Proceedings of the VLDB Endowment, 5(12): McEnery, T. and Hardie, A.(2011), Corpus Linguistics: Method, Theory and Practice, Cambridge University Press. McEnery, T., Xiao, R. and Tono, Y.(2006), Corpus-based Language Studies, Rutledge. Newscenter, Conversations on linguistics and politics with Noam Chomsky, 2016년 4월 18일 자. -on-linguistics-and-politics-with-noam-chomsky /(검색일: ). Renouf, A.(2003), WebCorp: providing a renewable data source for corpus linguists, S. Granger and S. Petch-Tyson(eds.) Extending the Scope of Corpus-based Research: New Applications, New Challenges, Rodopi, Schroeck, M., Shockley, R., Smart, J., Romero-Morales, D. and Tufano, P.(2012), Analytics: The real-world use of big data. How innovative enterprises extract value from uncertain data, IBM Institute for Business Value. therealworduseofbigdata.pdf/(검색일: ). Scott, S. L., Blocker, A. W., Bonassi, F. V., Chipman, H. A., George, E. I. and McCulloch, R. E.(2016), Bayes and big data: The consensus Monte Carlo algorithm, International Journal of Management Science and Engineering Management, 11(2): Sinclair, J.(1991), Corpus, Concordance, Collocation, Oxford University Press. 30

31 특집 2 빅데이터의 정확한 언어와 모호한 언어 김형석 한국과학기술원(KAIST) 경영대학 교수(경제학 전공) 전주곡: 빅데이터 는 시대정신(Zeitgeist)인가? 바야흐로 빅데이터 시대이다. 소위 빅데이터 전문가 라고 불리는 일군의 무리가 마치 중세 시대 복음서를 무시무시한 방식으로 전파하는, 어떠한 토라 도 단다면, 마녀 로 낙인찍혀 재단의 불쏘시개가 될 것이라고 엄중한 예언을 하는, 구글 신(Google 神 )은 알고 있다며 구글 신, 구글 신 구글 신 염불하는, 구글 신 이 못 박힌 십자가를 앞세워 이교도의 군대로 겁 없이 행군하는 구글교 순례자들의 환영을 재현한다는 의미에서의 빅데이터 시대이다. 좀 더 직접적으로 표현한다면 전쟁터이건 유대인 수용소이건 베를린의 음악당에 서건 바그너(Wagner) 를 합창하는 나치의 순례자들처럼, 국어학자의 학술 지이건, 회장님의 집무실이건, 회장 사모님들의 미술관 포럼 에서건, 빅데이 터 를 화학조미료 뿌리듯이 뿌리는 포스트모던 한 셰프 의 감각과도 같다는 의미에서의 빅데이터 시대이다. 그나마 유대인의 목숨이 아니라 기업가의 돈주머니와 학생들의 돈주머니를 노린다는 점에서, 스와티카 와 히틀러의 나의 투쟁 이 아니라 미국 명문 M대학의 권위를 업은 명망가들이 작성한 자연(Nature) 방법서 와 과학(Science) 방법서 를 중심으로 대물주의( 大物主義 ) 광기를 수출한다는 점에서, 나치보다는 인본주의적이다. 또한 이 글을 31

32 작성하는 필자의 목숨에 지장을 주지 않는다는 점에서 빅데이터 시대는 참으로 존경의 예를 갖출 만하다. 그렇다고 1945년 5월 1일 베를린 함락전의 나치처럼, 아주 미약한 존재라고 보기는 어렵다. 1) 구글교 의 순례자들이 극악 무도 하게 불쑥 내민 빅데이터 라는 십자가 앞에서 뱀파이어 라고 낙인찍힐 수 있다는 두려움을, 적어도 인문학자는 체감할 수 있기 때문이다. 그 두려움의 실체를 정확히 밝힘으로써 인문학자가 뱀파이어 가 아님을 소명( 疏明 )하는 의미에서 아마도 필자에게 이 글의 의뢰가 왔을지도 모르겠다. 의뢰자의 교환 동기 의 가치를 중시하는 경제학자답게, 이 글에서는 빅데이터 의 실체를 해부할 뿐만 아니라, 인문학자의 온전한 두려움 또한 해체하는 것을 목표로 한다. 빅데이터 의 정의( 定義 ) 인문학 우상 숭배 타파를 외치는 빅데이터 의 홍위병들은 여러분의 돈주 머니와 영혼주머니를 노리지만, 마오쩌둥( 毛澤東 )의 홍위병들이 그랬듯이, 그들이 외치는 구호 빅데이터 자체의 의미는 가늠하지 못한다. 빅데이터 란 단어 자체가 주는 사전적 의미는 단순히 말해 데이터가 크구나! 라고 외치 는 감탄문의 범주를 벗어나지 못한다. 남모를 열등감의 원인 이 크기 에서 비롯될 때, so big! 이라는 외침은 홍위병의 집단의식을 일깨우기 마련이 다. 2) 따라서 전통적으로 왜소 콤플렉스의 악몽을 겪어 왔던 한국적 상황에서, 홍위병들이 외치는 빅데이터 는 자생적인 재구조화 없이, 대물주의( 大物主義 )와의 야합( 野合 )을 통하여 시대의 총아, 새로운 패러다임의 재래로 위치 가 격상되었다. 1) 베를린의 공식 함락일은 1945년 5월 2일이다. 2) 남모를 열등감의 원인 이라는 표현은 한강의 채식주의자 (창비, 2007)에서 발췌하였다. 32

33 그렇다면, 실제 빅데이터 란 무엇을 의미하는가? 빅데이터 의 사전적 의미는 정보 수집 기법의 발전에 따른 관찰된 정보량의 비약적 증가, 그렇게 증가된 정보량의 저장 기술 확대를 의미한다. 특히, 여기에서의 정보량은 디지털 화한 정보량, 표준국어대사전 의 순화된 말로 표현한다면, 0과 1 두 개의 수치로 환원 된 수치적 정보량을 말한다. 다시 말하면, 관찰 횟수와 저장 규모 두 개의 차원에서 보았을 때, 빅데이터 라 불리는 정보량의 물리적 크기는 말 그대로 so big! 이다. 예를 들어, 한 사람의 사회적 경험에 대한 정보량을 얻기 위해, 빅데이터 연구에서는 보통 한 사람에 관한 사회적 행동 변수 30개를 정하고, 그 30개 변수를 6분마다 18개월 동안 관찰한다. 3) 즉 한 사람에게서 얻는 정보량 또는 데이터는 대략 =3,888,000 이다. 주의해야 할 것은 이 데이터 수는 한 사람에게서만 얻어낸 것이라는 점이다. 그러나 빅데이터 를 정의할 때 무엇보다 주목해야 할 것은, 그 정보량 이 무엇에 관한 정보량인가? 즉 데이터가 지향하고 있는 지점이 어디인가를 파악하는 것이다. 사실 3,888,000이라는 숫자가 원자 또는 소립자에 대한 데이터 숫자라면 so big! 이라는 감탄문은 위선적 인 감탄에 가깝다. 외계 인이 크다. 라고 말하는 것은, 큰 것은 알지만 우리의 크기와 상관없기에 냉소적으로 말하는 커요. 에 가깝다. 우리의 감탄이 머무는 지점이 바로 인간의 삶에 관한 정보를 담고 있기에, 우리는 비로소 위선의 가면을 내려놓고 정말로 커요. 라고 말한다. 다시 말하면, 빅데이터 는 인간의 삶에 대한 수치 화된 정보량이다. 인간의 삶에 관한 수치화된 정보량이 크기에, 우리는 이것을 빅데이터 라고 부른다. 또한 30개의 행동 변수 가 선사하는 3,888,000개의 숫자가 한 개인의 삶을 이해할 수 있다는 믿음 도 빅데이터 라는 언어에 반영되어 있다. 양으로 승부해서 질로 승화할 수 있다 는 소박한 공대생 의 3) 알렉스 펜틀런드의 창조적인 사람들은 어떻게 행동하는가 (박세연 옮김, 와이즈베리, 2014) 참조. 33

34 믿음을 빅데이터 라는 시적 용어로 표현한 것이다. 결국 정보 기술의 발전에 의한 방대한 양의 정보를 수집하고 저장할 수 있는 물리적 기술력이라는 하부 구조(substructure) 위에, 인간의 삶조차 양으로 승부하면 그 삶의 질을 이해할 수 있다 는 상부 구조(superstructure) 를 가진 믿음 체계로 볼 수 있겠다. 삶의 이해 방식으로서의 빅데이터 : 공대생의 재도전 일단 믿음 체계가 형성되면, 특히 그 믿음 체계가 사람을 향해 있는 것이라면, 그 믿음 체계 특유의 삶을 이해하는 방식이 드러나기 마련이다. 믿음 체계로서 의 빅데이터 또한 특유의 이해 방식을 선사하는데, 이 특유의 이해 방식은 삶을 이해하는 전통적인 방식과는 확연한 대척점에 있다. 우리는 우리의 삶을 이야기할 때, 모호하다 고 말한다. 국립국어원 표 준국어대사전 에 의하면, 모호하다 는 말이나 태도가 흐리터분하여 분명 하지 않다. 로 정의된다. 따라서 우리의 삶이 모호하다 고 규정짓는 것은 우리의 삶이 흐리터분하여 분명하지 않고, 이런 이유로 그러한 삶을 분명한 말 이나 분명한 태도 라는 매개체( 媒介體 )로 표현한다 한들, 모호함 의 무 게가 너무나 무겁기에, 그 무거움에 짓눌린 우리의 언어나 태도 또한 흐리터 분하고 분명함과는 거리가 멀 수밖에 없다. 결국 모호한 우리의 삶을 분명한 언어 말로 이해한다는 것은 모호함 의 코끼리를 분명함 이라는 부처님의 손가락으로 지탱하려는 위태로운 곡예처럼 보인다. 가끔 찾아오는 위태로운 곡예는 우리 삶에 신선한 자극을 주고 생기를 북돋아 주지만, 그러한 곡예가 일상이라면, 그 곡예는 우리 삶의 일부가 될 수 없다. 즉 위태로운 곡예는 예외적일 때만 가치가 있다. 따라서 모호 한 삶을 분명한 언어로 이해하다 는 것은 우리의 삶을 이해하는 전통적인 방식이 아니다. 우리의 삶을 이해하 34

35 는 전통적인 언어 방식은 모호한 언어이다. 모호함 의 무게에 짓눌려 질식 상황을 처절하게 분명한 언어로 고발하기보다, 그 모호함 의 무게를 온전히 받아들이는, 그 처절하게 숨 막히는 상황과 함께 산화하는 메시아 의 메시지 와도 같은 모호한 언어가 오히려 이율배반적으로 우리의 모호한 삶을 분명히 전달하는 것이, 삶을 이해하는 전통적인 언어 방식이다. 그래서 우리의 모호한 삶을 모호한 언어로 이해하는 전통적인 이해 방식의 정점 은 바로 시 이다. 김소월의 <산유화>라는 시를 통해 우리가 우리의 모호한 삶을 어떻게 모호한 언어로 이해하는지 알아보자. 산에 산에 피는 꽃은 저만치 혼자서 피어 있네. 최근 화제가 되었던 시를 잊은 그대에게: 공대생의 가슴을 울린 시 강의 (휴머니스트, 2015)에서 정재찬 교수가 지적했듯이, 시어 저만치 가 의미하는 거리는 수치로 치환( 置換 ) 가능한 물리적 거리가 아니다. 이 시의 화자와 꽃 사이의 거리 저만치 를 1미터, 5미터, 10미터, 200미터로 이해하는 것은 삶의 모호함 이라는 무게에 짓눌려 압사해 버린, 분명한 언어 란 이름을 가진 사내의, 피에 버무린 살점이 꽃잎처럼 산화하는 것을 보는 것과 같다. 시어 저만치 는 모호함의 천공( 天空 ) 을 완연( 完然 )히 짊어질 수 있는, 모호한 존재였던 거인족( 巨人族 ) 아틀라스처럼, 모호함의 무게를 원망 없이, 속절없 이 감내하는 모호한 언어의 극치를 보여준다. 시어 저만치 의 거리는 그냥 지나치기는 아쉬운 거리, 그러나 내 손길을 뻗친다 한들, 인연의 끈을 잡을 수 없는 거리, 아련히 다가오는, 그러나 이내 시나브로 멀어져 가는 복학생 오빠 와의 거리, 그래서 가슴 설레는, 한( 恨 )이 이슬처럼 망울지는, 마음 의 35

36 모호함 을 드러내는 거리이다. 모호한 언어야말로 모호한 삶을 분명히 전달 할 수 있는 언어임을 김소월의 시어 저만치 가 오히려 정확히 보여준다. 화자와 꽃 사이에 벌어지는 삶의 모호한 만상( 萬象 )을 1미터, 5미터, 10미터, 200미터 등과 같은 정확한 언어 로 이해하는 것은 언어의 폭력성 또는 언어술 사의 재능 없음을 드러내는 분명한 언어 방식이다. 그렇기에 모호한 삶을 모호한 언어로 정확히 전달하는 시라는 이해 방식이야말로 인문학의 정점 이자 극치라는 것이 전통적인 견해이다. 삶의 이해 방식으로서의 빅데이터 는 바로 이 전통적인 견해가 선험적으 로 배제해 왔던, 분명하고 정확한 언어 방식으로 화자와 꽃 사이의 거리를 정확한 잣대 로 재고자 하는 시도이다. 화자와 꽃 사이에 벌어지는 삶의 모호한 만상을 1미터, 5미터, 10미터, 200미터 등과 같은 정확한 언어 로 재단하는 것이 삶의 민낯을 드러낼 수 있고, 그러한 몸짓이 의미 있음을 보이고자 하는 시도이다. 양으로 승부하여 질로 승화할 수 있음 을 보이고자 하는 공대생의 재도전이기도 하다. 즉 시 가 추구하는 방식과는 달리, 정확 한 언어로 모호한 삶을 이해하고자 하는 시도이다. 모호한 천공 을 수많은 숫자로 조합하고 빚어낸, 인공족( 人工族 ) 아틀라스로 지탱하고자 하는 시도 인 셈이다. 이제 시 의 화자와 꽃 사이의 거리를 어떻게 정확한 언어, 즉 수치화된 정보량을 활용하여 이해할 수 있는지, 모호한 언어 를 대표하는 시어 저만치 를 어떻게 정확한 언어 로 대체할 수 있는지 빅데이터 방식으로 알아보자. 빅데이터 방식으로 시어 저만치 를 명확한 빅데이터 언어 로 대체하기에 앞서, 먼저 일반적 의미에서의 빅데이터 분석 을 소개하고자 한다. 36

37 문법적 은유(grammatical metaphor)로서의 빅데이터 분석 빅데이터 방식으로 삶을 이해한다는 것은 기본적으로 인간의 삶을 분석 ( 分析 )한다는 것이다. 표준국어대사전 에 의하면, 분석이란 얽혀 있거나 복잡한 것을 풀어서 개별적인 요소나 성질로 나눔 을 뜻한다. 즉 분석이란 분석의 주체가 분석의 대상 또는 객체를 얽혀 있거나 복잡한 그 무엇으로 전제한 후, 대상의 복잡함과 대비되는 단순함 을 표상하는 개별 요소 및 성분으로 분해하여 대상의 실체를 까발리는 것을 의미한다. 따라서 빅데이 터 가 이해하는 삶은 분석의 대상이자, 얽혀 있고 복잡한 것이다. 인간의 모호한 삶은 모호한 시어로만 이해되는 신비로운 천공이 아니라, 단순히 얽혀 있어 복잡한, 그래서 우리가 풀어내 까발려야 하는 실타래 일 뿐이다. 그 실타래 를 풀기 위한 가위 를 성분 또는 요소라 말할 수 있는데, 빅데이터 분석 에서는 그 가위 를 행동 변수 라 부른다. 다시 말해서, 인간의 모호한 삶을 행동 변수 라는 명확한 언어 로 분해하는 것이다. 결국 빅데이터 분석 이란 빅데이터 의 사전적 의미, 그 사전적 의미에서 파생된 신념 체계, 다시 신념 체계에서 파생한 삶을 이해하는 방식, 그 이해하는 방식이 보편적 분석 의 범주와 결합된 것을 의미한다. 즉 빅데이터 분석 이란 할리데이(Michael Halliday)의 언어 이론을 차용하자면, 지금까지 논의한 빅데이터 의 일차 적(congruent) 표현을 문법적으로 은유화(grammatical metaphor)한 것 이다. 행동 변수 란 관찰 가능한 보편적 인간의 직접적 행동과 보편적 인간의 의도, 선호 등 직접적으로 관찰 불가능한 주관적 요인을 간접적 반복적으로 관찰할 수 있는 신호들(signals)을 의미한다. 반복적으로 관찰 가능하기에 행동 변수 는 사전적 의미에서 빅데이터 화 할 수 있다. 즉 인간의 특정 행동 및 특정 선호를 나타내는 행동 변수 는 수리 언어화 또는 수치화 된 후 빅데이터 란 이름의 정보량으로 기억되는 것이다. 더 나아가, 행동 변수와 37

38 행동 변수 간에 인과율 또는 인과관계를 확정할 수 있다면, 우리는 행동 변수 를 통해 인간의 특정 행동이 예측 가능하다 고 말할 수 있다. 여기까지 논의한 빅데이터 분석 은 사실 보편적 과학 분석의 속성에서 크게 벗어나지 않는다. 보편적 과학 분석과 빅데이터 분석의 결정적인 차이점 은 우리가 관찰한 행동 변수 를 조종하는 우리의 그림자 가 존재한다는 점이다. 다시 말해서, 행동 변수 는 보편적 인간의 어떤 선택의 결과로 파생된다. 굳이 비유하자면 빅데이터 분석 은 피아니스트의 피아노 연주를 감상하 고 비평하는 음악 평론가의 평론(critique) 과 같다. 분석의 주체가 관찰하는 하나의 행동 변수 는 무명의 피아니스트가 이름 모르는 작곡가의 악보에서 반복적으로 뽑아 오는 특정한 음높이에 위치해 있는 도 음을 듣는 것과 같다. 분명히 피아니스트가 미치광이가 아닌 사람 인 것은 알건만, 빅데이 터 분석가 라는 명함을 가진 음악 평론가는 오직 특정한 높이의 도 음만을 관찰하는 것과 같다. 여러 높이의 도 음을 반복적으로 듣고, 또한 여러 높이의 미, 솔 음을 구별해서 피아니스트가 들려주는 미지( 未知 )의 곡 과 이를 파악하는 음악 평론가의 작업을 빅데이터 분석 이라 부를 수 있겠다. 관찰된 데이터 또는 수치화된 정보량에서는 행동 변수 로 명명된 도, 미, 솔, 또는 도, 파, 라 만 기록될 뿐, 그 행동 변수 도 를 어느 시점에서 선택한 피아니스트의 의도, 목적 등은 데이터에 기록되지 않는다. 그러나 데이터에서 기록되지 않는다고 해서, 피아니스트의 존재가 무시될 수는 없다. 분명히 피아니스트가 행동 변수 로 피아노 건반을 감촉 함으로써 체계적으 로 선택하고 있다는 것을 알기 때문이다. 특히 이 피아니스트가 들려주는 곡의 악보를 사전적( 事前的, ex ante)으로, 또는 선험적( 先驗的, a priori)으 로 알지 못할 때, 행동 변수 를 조종하는 우리의 그림자 로서의 피아니스트의 존재는 빅데이터 분석 에서 절대 무시될 수 없다. 과학 분석에서의 행동 변수 는 행위의 시작이자 끝이지, 그 행위를 조종하 38

39 는 그림자 를 논하지 않는다. 원자의 속도 는 바로 관찰 행위의 시작이면서 마지막에 불과하다. 그 원자의 속도 를 조종하는 것이 있다면, 그것은 또 다른 행동 변수 이어야 하지, 행동 변수가 아닌 그림자 일 수는 없다. 칸트의 인과율 형식에 관한 논쟁에서 방사성 원자 라듐 B가 전자를 방출하고 라듐 C로 변하는 과정에는 어떠한 원인도 없다 는 하이젠베르크(Werner Karl Heisenberg)의 주장은 자연 과학 분석과 인간의 삶을 대상으로 삼는 빅데이 터 분석 의 본질적 차이를 오히려 극명히 드러낸다. 반면, 빅데이터 의 분석 대상이 인간의 삶이기에, 행동 변수 수립 시 항상 그 행동 변수 를 선택하는, 그러나 행동 변수 는 아닌, 그렇기에 직접적으로 관찰 가능하지 않은, 우리의 그림자 이자 피아니스트를 염두에 두어야 한다. 실전 연습: OK 큐피드의 사례 4) 앞 장에서 빅데이터 분석 의 의미와 모형적 사고 에 기인한 빅데이터 분석 자체의 모호함까지 살펴보았다. 이제 모호한 언어 를 대표하는 시어 저만치 를 어떻게 정확한 언어 로 대체 가능한가를 시현해 보고자 한다. 먼저 빅데이터 분석 에서 가장 중요한 시발점은 관찰 가능한 행동 변수 의 존재 여부를 파악하는 것이다. 첫째, 맥락 에 맞는 수치화 가능한 행동 변수 를 설정할 수 있어야 하고, 그 행동 변수 에 대응하는 반복 관찰 가능한 데이터가 존재해야 한다. 앞 장에서 논의했듯이, 행동 변수 란 반복적으로 관찰 가능한 보편적 인간의 직접적 행동과 보편적 인간의 의도, 선호 등 직접적으로 관찰 불가능한 주관적 요인을 간접적 반복적으로 관찰할 수 있는 신호들을 포함한다. 따라서 행동 변수 는 보편적 인간의 의도, 선호, 4) 이 절의 분석 내용은 크리스티안 루더의 빅데이터 인간을 해석하다 (이가영 옮김, 다른, 2015)를 참조하였다. 특히 [그림 1], [그림 2], [그림 3]은 해당 문헌에서 발췌하였다. 39

40 동기에 의한 제반 행위를 포괄하기 때문에, 김소월의 시 <산유화>에서 꽃과 화자의 심적 거리 저만치 를 행동 변수 화하는 것이 결코 불가능하지 않다. 먼저 저만치 거리에 있는 대상 꽃 은 화자 에게 연모( 戀慕 )의 대상이다. 전통적 으로 연모의 대상은 이성 상대이기에, 저만치 에 피어 있는 꽃 은 화자인 내 가 연모의 감정을 느끼는 이성 상대로 분석할 수 있다. 연모의 감정이란 결국 수많은 이성 상대 가운데 하나를 선호하는 것이다. 여기서 우리는 보편적 화자인 나 를 분석하는 것이지, 카사노바를 분석하는 것이 아니다. 따라서 보편적 화자인 나 는 수많은 상대에서 오로지 하나의 꽃 을 선호하고 선택할 수 있다는 행동 강령의 제1원리(the first principle) 를 부여할 수 있을 것이다. 만일 수많은 상대, 꽃, 화자인 나 를 숫자로 표시할 수 있다면, 또한 그러한 숫자를 모을 수 있다면, 우리는 빅데이터 분석 을 통해 성공적으로 저만치 를 명확한 언어로 대체할 수 있을 것이다. 따라서 먼저 수많은 이성 상대 를 수치화하는 것이 가능할지 여부를 따져야 할 것이다. 만일 반대편에 있는 선택 가능한 이성 상대를 숫자로 표현할 수 있다면, 내 가 선택하는 꽃 도 선택 가능할 것이고, 꽃 입장에서 보면, 화자 인 나 도 수많은 이성 상대 중 하나이므로 수치로 표현 가능할 것이다. 물론 꽃 또한 반대편 성( 性 )을 대표하는 카사노바인 경우는 배제한다. 다시 말하면, 모호한 언어 저만치 는 명확한 언어 선호도 로 대체 가능할 것이 다. 물론 저만치 의 상대를 어떤 숫자로 대표해야 할지 결정하는 것은 쉬운 문제가 아닐뿐더러, 설사 대표하는 숫자를 찾았다 한들, 그 숫자를 기록한 데이터를 모으는 것도 쉬운 문제는 아니다. 양으로 승부하여 질로 승화 하려 는 공대생의 재도전은 여전히 험난한 길인 것처럼 보인다. 그러나 미국의 데이트 사이트 OK 큐피드 운영자이자 데이터 과학자 크리스티안 루더(Christian Rudder)는 놀라운 발상으로 데이터 과학자 가 양으로 승부하여 질로 승화 하는 돌파구를 찾아냈다. 일단 매년 1,000만 명 이상이 방문하는 사이트를 운영하기 때문에, 적절한 행동 변수만 정해진다 40

41 면, 5년간 자료 5,500만 개를 생성하는 것이 가능했다. 또한 남녀 간의 데이트 를 성사시키는 사이트를 운영하기 때문에 남녀 간 선호에 관한 정보를 비교적 쉽게 수집할 수 있었다. 크리스티안 루더가 고안해 낸 행동 변수 는 아래와 같다. 1) 여성은 어떤 나이의 남성을 가장 매력적으로 생각하는가? 2) 남성은 어떤 나이의 여성을 가장 매력적으로 생각하는가? [그림 1]은 OK 큐피드 자료를 활용하여 조사한 연령별 여성의 남성에 대한 선호 연령을 표로 나타낸 것이다. 예를 들어, 20세인 여성이 가장 매력적 으로 느끼는 남성의 연령은 23세인 것을 의미한다. 또는 20세인 여성은 23세인 남성을 선호 한다. 시어 저만치 는 여성의 남성 연령 선호도 로 대체된다. 표에서 보듯이, 21세인 여성은 23세의 남성을, 22세인 여성은 24세의 남성을, 23세의 여성은 25세의 남성을 가장 선호하는 것을 알 수 있다. 시어 저만치 의 거리는 그냥 지나치기는 아쉬운 거리, 그러나 내 손길을 뻗친다 한들, 인연의 끈을 잡을 수 없는 거리, 아련히 다가오는, 그러나 이내 시나브로 멀어져 가는 복학생 오빠 와의 거리, 그래서 가슴 설레는, 한( 恨 )이 이슬처럼 망울지 는, 마음 의 모호함 을 드러내는 거리이지만, 이 연령 선호도는 왜 복학생 오빠 와의 거리가 그토록 한이 이슬처럼 망울지는 거리인지, 숫자로 정확히 보여준다. 정확한 언어로 말하자면, 20세 초반의 여성은 2 3살 많은 남성을 체계적 으로 선호하는 경향이 있기에, 복학생 오빠 가 저만치 거리에 자리를 차지할 가능성이 매우 높다. 41

42 그림 1 또한 [그림 1]은 여성의 나이가 증가함에 따라, 선호하는 남성도 비교적 비례적 으로 올라간다는 것을 알 수 있다. 예를 들어 29세의 여성은 29세 남성을, 30세 여성은 30세 남성을, 31세 여성은 31세 남성을 선호함을 알 수 있다. 그러나 여성의 나이가 32세를 넘어감에 따라, 연하의 남성을 선호하 는 경향이 강해지고 있음을 알 수 있다. 놀랍게도, 작금의 송중기 열풍 사태를 이 도표는 정확한 숫자로 보여 준다. 지금까지의 논의를, 크리스티 안 루더가 명명한 나이 비교선 을 가지고 재구성할 수 있다. [그림 2]는 42

43 [그림 1]을 여성의 나이와 남성의 나이가 같은 나이 비교선 으로 재구성한 것이다. 그림 2 대각선으로 그려진 나이 비교선 을 보면, 복학생 오빠 와의 거리, 송중기 열풍 사태 등을 보다 명확히 파악할 수 있다. 이제 남성의 연령 선호도를 알아보고자 한다. [그림 3] 역시 OK 큐피드 자료를 활용해서 작성되었으며, 대각선의 점선은 나이 비교선 을 나타낸 것이다. 43

44 그림 3 남성의 경우, 나이 비교선 은 의미가 없다. 남성은 오로지 20대 초반의 여성만이 저만치 거리에 피어 있는 꽃 이기 때문이다. 저만치의 꽃 이 20대 초반으로 고정되어 있다면, 과연 그 거리를 내 손길이 뻗친다 한들, 인연의 끈을 잡을 수 없는, 아련히 다가오는, 한이 이슬처럼 망울지는 모호하고, 미묘 한 거리라고 말할 수 있을까? 남성에게 애당초 같이 늙어가는 원숙미에 대한 존경은 있지도 않다. 남성의 꽃 에 대한 반응은 지극히 생화학적 반응처럼 보인다. 20세와 21세의 남성은 저만치 한이 이슬처럼 망울지는 시감( 詩感 ) 을 만끽할 수도 있을 것이다. 빅데이터 분석 에 의하면, 20세, 21세의 남성이 한이 맺힐 정도로 아끼는 20세의 여인은 오직 23세 복학생 오빠 쪽으로 44

45 시선이 고정되어 있다는 것을 빅데이터 분석 이 보여주기 때문이다. 크리스티안 루더가 지적했듯이, 이런 연구 결과는 진실의 이면에 가려져 있는 우리의 허영심과 취약점 을 공공연히 드러낸다. 모호한 천공 을 수많은 숫자로 조합하고 빚어낸, 인공족 아틀라스로 지탱했을 때, 우리는 까발려진다. 이런 의미에서 명확한 언어 는 폭력적 이다. 빅데이터 분석 의 명과 암: 구글 독감 예측 프로그램 OK 큐피드 사례에서 보여주듯이, 인간의 모호한 삶은 모호한 시어로만 이해되는 신비로운 천공이 아니라, 단순히 얽혀 있어 복잡한, 그래서 우리가 풀어내 까발려야 하는 실타래 일 뿐이다. 양으로 승부하여 질로 승화한다 는 공대생의 무모한 재도전은 성공적인 것처럼 보인다. 인공족 아틀라스의 사촌 뻘인 구글 신은 여기서 더 나아가, 빅데이터 기법 을 활용하여 전 세계의 독감 환자 수를 예측할 수 있(다고 주장하)는 빅데이터 분석 을 예시하였다. 5) OK 큐피드 사례에서와 같이, 독감 환자 수를 예측하기 위해서는 독감 환자를 식별하는 행동 변수 를 찾아내는 것이 중요하다. 특히 우리의 그림자 가 조종 하는 행동 변수 의 모습을 보여주는 것이 중요하다. 구글이 고안해 낸 행동 변수 는 아래와 같다. 사람들은 독감 증상이 있는 경우, 기침, 고열, 해열제 등과 같은 독감 증상 관련 용어를 검색 엔진을 통해 검색할 것이다. 5) 구글의 독감 예방 프로그램에 보다 관심 있는 독자는 정하웅 김동섭 이해웅 저의 구글 신은 모든 것을 알고 있다 (사이언스북스, 2014)를 참조하기 바란다. 45

46 그림 4 구글 자체가 검색 엔진을 운용하기 때문에, 어느 시점에, 어느 지역에서 독감 증상 관련 검색어가 증폭 하는지 구글 서버를 통해 파악할 수 있고, 또한 데이터로 기록할 수 있다. 실제 구글은 독감 환자 수와 가장 연관성이 높은 검색어 50개를 선정하고, 2003년에서 2007년 사이의 데이터를 수집 분석한 후, 2008년 환자 예측치를 발표하였다. [그림 4]는 구글의 2008년 예측치를 실제 독감 환자 집계 수와 비교한 것이다. [그림 4]에서 보듯이, 구글 예방 프로그램은 거의 완벽하게 독감 환자 수를 예측했다! 모호한 천공 을 수많은 숫자로 조합하고 빚어낸, 인공족 구글로 지탱했을 때, 모호한 천공 은 더 이상 그렇게 무거워 보이지 않는다. 구글 신을 숭배하기만 한다면, 저만치 거리에 있는 20세 여인에게 가슴 설렜던, 그러나 그 감정을 시어 저만치 로 세련되게 표현할 재능이 없는 공대생조차 모호한 천공 을 지탱할 수 있음을 보여주는 사례인 셈이다. 이제 구글은 거인족 아틀라스를 대신해, 모호한 천공 을 짊어질 수 있어 보인다. 구글은 모호한 천공 정도는 한 손가락으로도 지탱할 수 있는 폭력성 을 자랑이라도 하는 듯, 2012년 독감 환자 수 예측치를 발표하였고, 이 예측치 는 실제 환자수와 일치할 것이라 장담했다. [그림 5]는 2012년 구글의 예측치와 46

47 미국질병통제예방센터가 실제 보고한 독감 환자 수(CDC 예측 이라 명명된 것)를 비교한 것이다. 그림 5 구글 신의 장담과는 달리, 구글 독감 환자 수 예측 프로그램은 정확히 실제 환자수보다 2배이상을 과대 예측하였다! 삶의 모호함 이라는 무게에 짓눌려 압사해 버린, 피에 버무린 살점이 꽃잎처럼 산화한 사내의 이름은 바로 구글 신 이었다. 모호한 천공 은 여전히 버겁고, 그 버거움을 짊어져야 하는 사내는 거인족 아틀라스이지, 인공족 구글 신 이 아님을 보여준다. 그렇 다면 이러한 구글 예측 실패는 구글이 고안한 빅데이터 분석 의 실패인가? 아니면 일반적 의미의 빅데이터 분석 의 한계인가? 다음 장에서 이 질문에 대한 답을 찾고자 한다. 47

48 모형적( 模型的 ) 사고 로서의 빅데이터 분석 보편적 과학 분석과 달리, 우리의 그림자 가 빅데이터 분석 과정에 투영되 어야 하는 이유는, 관찰의 대상이 분석의 주체인 보편적 인간, 바로 우리 자신이기 때문이다. 분석의 주체인 보편적 인간이 바로 보편적 인간을 관찰 분석 대상으로 삼기에, 빅데이터 분석 에서는 항상 분석의 대상과 분석의 주체 간의 거리, 즉 관찰자인 보편적 인간과 관찰 대상인 보편적 인간 사이의 거리는 시어 저만치 정도의 모호한 거리이다. 대부분의 빅데이터 분석 에 관한 저작( 著作 )들을 보면, 관찰자인 보편적 인간과 관찰 대상인 보편적 인간 사이의 거리에 저만치 만큼의 모호한 거리가 있다는 것을 인식 하지 못하거나, 설사 인식한다 하더라도 단순히 우려 하는 수준에 머물고 있다. 관찰자인 보편적 인간과 관찰 대상인 보편적 인간 사이에 저만치 놓여 있는 모호한 지대( 地帶 )를 확산시키는 중심축은 소위 빅데이터 분석가 의 모형적( 模型的 ) 사고 에 대한 진지한 고찰의 결여에 있다고 진단할 수 있다. 앞의 절에서 본 구글 독감 예측 프로그램의 과대 예측은 바로 구글의 빅데이터 분석가 가 세심하게 모형적 사고 를 고찰하지 못한 점에 있다고 말할 수 있다. 모형적 사고 를 이해하기 위해서는 먼저 모형 이 무엇인지 이해할 필요가 있다. 모형 이란, 세계의 관측자로서의 문제의식 을 갖고 있는 관찰자가, 세계 의 속성 중 필수 불가결한 요소만 취사선택하는 추상화 의 과정을 통하여 실존하는 세계를 수리적 언어 로 축소화, 재구성한 작은 세계(microcosm) 를 의미한다. 모형적 사고 란 이 축소화되고 재구성된 작은 세계를 가지고 실제 세계를 분석하는 것을 의미한다. 또한 만일 내가 이 축소화된 세계에 살고 있다면, 나는 어떠한 행동을 할까? 또는 나는 어떠한 행운과 불행을 맞이할 수 있을까? 머릿속으로 상상하는 것을 사고 실험(Das Gedankenexperiment) 이라고 하는데, 모형적 사고 는 이 사고 실험 의 활동도 내포한다. 48

49 이 모형적 사고 의 근저에는 세계의 관측자로서의 인간이 이 복잡하고 모호한 세계를 즉시적 으로 이해하는 것은 불가하지만, 순차적 점진적으로 이해하는 것은 가능할 것이라는 믿음을 암묵적으로 전제하고 있다. 20세기를 대표하는 독일의 수학자 힐버트(David Hilbert)의 묘비명에 적혀 있는 우리 는 알아야 한다. 그리고 우리는 알 것이다.(Wir müssen wissen, Wir werden wissen.) 라는 어구는 바로 모형적 사고 의 기본적, 암묵적 전제를 함축적으 로 표현한 것이라 볼 수 있다. 따라서 모형적 사고 란 우리의 삶이 회색 인 것은 알지만, 복잡하고 모호한 색깔이기에 상대적으로 분명한 색깔인 흑색 과 백색으로 일단 우리의 삶을 이해하는 것을 의미한다. 모호한 회색의 삶을 이해하기 위해, 필수 불가결한 요소인 흑색을 취사선택하는데, 이렇게 흑색을 취사선택하는 과정을 변수화( 變數化 ) 라고 부른다. 즉 취사선택된 필수 불가 결한 요소는 변수( 變數, variable)로 표현하는 것이다. 반면에 선택받지 못한, 버려지는 삶의 나머지 요소는 상수화( 常數化 ) 처리를 하는데, 상수( 常數, constants)라는 말 자체가 의미하듯이, 취사선택되지 못한 나머지 요소는 관찰자의 관찰 유무와는 독립적으로 항상 변하지 않는 것, 일정한 속성을 유지하는 것으로 간주한다. 변수는 크게 행동 변수 와 매개 변수( 媒介變數, parameter) 로 나누어질 수 있는데, 행동 변수란 관찰자의 관찰 기간 동안, 계속 관찰되어야 하는 대상이고, 매개 변수란 관찰자의 명백한 관찰 대상이지 만, 관찰 기간 동안 일정한 속성을 유지하는 것, 즉 관찰 기간 동안은 변하지 않는 안정성 을 갖는 변수로 이해된다. 모든 과학적 모형은 행동 변수, 매개 변수, 상수 세 가지로 이루어져 있다. 모형적 사고 란 결국 행동 변수, 매개 변수, 상수, 이 세 가지 성분으로 세상을 이해하는 것이다. 빅데이터 분석 은 우리의 삶을 대상으로 삼기 때문에, 빅데이터 분석 에서의 모형 은 한 가지 성분을 더 추가하게 되는데, 앞에서 논의했다시피, 우리의 그림자 인 가공의 인격체 가 부여되어야 한다. 이 가공의 인격체 는 바로 모형이 펼쳐내는 축소화된 세계에서, 행동 변수와 매개 변수를 조종하는 우리의 아바타 라 볼 수 있다. 49

50 이 인격체인 아바타 의 존재가 순수 과학에서의 모형과 인간의 삶을 다루는, 빅데이터 분석 을 포함한 사회 과학에서의 모형과의 차이를 만들어 낸다. 요약하면 빅데이터 분석 에서의 모형적 사고 란 상수, 매개 변수, 행동 변수, 그리고 변수들을 조종하는 가공의 인격체 네 가지 성분으로 세상을 이해하는 것이다. 여기서 반드시 지적되어야 할 것은, 빅데이터 분석 에서 다루는 모형 에서 우리의 아바타, 즉 가공의 인격체 는 사전적( 事前的, ex ante)으로, 또는 선험적( 先驗的, a priori)으로 존재하고 행동 변수를 결정하지만, 사후적 ( 事後的, ex post)으로, 또는 경험적( 經驗的, a posteriori)으로는 실존하지 않는다는 점이다. 다시 말하면, 우리가 데이터에서 관찰하는 것은 행동 변수이지, 인격체 가 아니다. 우리의 아바타 는 사후적으로 관찰된 행동 변수를 통해 귀납적으로 추리( 推理 )한다. 동시에 연역적으로 행동 변수를 조종하는 우리 인격체 의 의지, 목적, 동기 등을 추론해 인격체 의 행동 강령 제1원칙(the first principle) 을 수립한 후, 선험적 으로 우리 인격체 의 존재를 (논리적으 로) 증험한다. 귀납적으로 추리하고, 동시에 연역적으로 논증할 때, 우리의 아바타, 우리의 그림자, 우리의 일그러지고, 이름 없는 피아니스트 의 실체 를 어느 정도 가늠할 수 있을 뿐이다. 그러나 이렇게 파악한 인격체 의 실존조 차도 철저히 맥락적(contextual) 이다. 다시 말하면, 가공의 인격체 는 세상 이치의 맥락에 따라, 다양한 몸짓을 보여 줄 뿐이지, 전체의 모습을 절대 보여 주지 않는다. 이 가공의 인격체 가 맥락적일 수밖에 없는 이유는 바로 세상의 회색을 재현하는 것이 아니라, 세상의 흑색만을 재현하는 모형적 사고 안에서 또는 모형의 사고 실험 에서만 존재할 수밖에 없기 때문이다. 모형의 용어로 좀 더 정확히 표현한다면, 각 모형은 일정하게 변하지 않는 상수항( 常數項 )을 가지고 있고 또한 관찰 기간 동안은 변하지 않는 안정성 을 갖는 매개 변수를 포함하고 있다. 이러한 불변적인 성질의 안정성 은 우리가 관심 있는 필수 불가결하다고 믿는 요소(행동 변수)를 어떻게 잡을 것인가, 다시 말하면 필수 불가결한 요소를 흑색으로 볼 것인가, 또는 백색으로 볼 것인가, 또한 관찰 50

51 기간을 어떻게 잡을 것인가에 따라 정해지기 때문에, 모형 세계는 맥락적일 수밖에 없고, 그 모형 세계에 살고 있는 우리의 아바타 또한 맥락적인 존재이다. 서두에서 지적했듯이, 빅데이터 분석 에서 부지불식간에 드러나는 관찰자 인 보편적 인간과 관찰 대상인 보편적 인간 사이의 모호한 거리는 바로 모형 세계에 사전적으로, 또는 선험적으로 존재할 수밖에 없는 아바타 의 불완전한 실존성, 그리고 맥락적인 관념성에 기인하는 것이라 하겠다. 그리고 이 아바타 의 불완전하고 맥락적인 몸짓은 오로지 모형적 사고 의 진지한 고찰에서만이 파악될 수 있다 하겠다. 이제 다시 구글 독감 예측 프로그램 사례로 돌아가자. 구글이 고안한 행동 변수 는 사람들은 독감 증상이 있는 경우, 기침, 고열, 해열제 등과 같은 독감 증상 관련 용어를 검색 엔진을 통해 검색할 것이다. 라는 것이었다. 그런 모형적 사고 의 관점에서 보면, 이 행동 변수는 좀 더 세심하게 다루어질 수 있다. 다시 말하면, 모형적 사고 를 반영하여 이 행동 변수 를 세심하게 재구성하면 아래와 같다. 우리의 아바타 는 독감 증상이 있는 경우, 기침, 고열, 해열제 등과 같은 독감 증상 관련 용어 50개를 검색 엔진을 통해 즉시 검색할 것이다. 또한 이 행동 변수와 더불어 구글은 암묵적 으로 아래의 매개 변수 또는 상수항 을 고안했다. 우리의 아바타 는 독감 증상이 없다면, 독감 증상 관련 용어 50개를 결코 검색하지 않을 것이다. 다시 말하면, 구글의 예측 프로그램은 적어도 관찰 기간 동안 우리의 아바타 는 독감 증상이 없다면, 독감 증상 관련 용어 50개를 결코 검색하지 않을 것이다. 라는 아바타 의 행동 강령이 준수된다는 매개 변수 를 부지불식 51

52 간에 고안했다. 실제 2008년에 이 매개 변수 는 매우 안정적 이었다. 다시 말하면, 우리의 아바타 가 그러했듯이 실제 독감 증상이 있는 사람들만 검색을 했기에, 구글의 예측 프로그램은 정확했다. 그러나 2012년은 전혀 다른 양상이 펼쳐진다. 우리의 아바타 는 독감 증상이 없다면, 독감 증상 관련 용어 50개를 결코 검색하지 않을 것이다. 라는 이 매개 변수 가 전혀 안정적 이지 않았다. 다시 말하면, 2012년에는 독감 증상이 없는 사람들도 독감 관련 단어를 검색했다! 그렇다면 2012년에는 왜 독감 증상이 없는 사람도 독감 관련 단어를 검색했을 까? 그것은 바로 뉴스, 신문과 같은 언론 매체가 구글의 독감 예측 프로그램에 서 내놓은 예측치를 보도하기 시작했고, 이 예측치가 보도됨에 따라, 독감에 걸리지 않은 사람들도 다가올 독감을 미리 예방하기 위해 독감 관련 검색어를 검색하기 시작했기 때문이다. 모형으로서의 구글 독감 예방 프로그램은 바로 우리의 아바타 는 독감 증상이 없다면, 독감 증상 관련 용어 50개를 결코 검색하지 않을 것이다. 라는 매개 변수를 잘못 다루었다고 말할 수 있다. 결론적으로 구글 독감 예측 프로그램은 명백히 모형 이다. 그러나 이 독감 예측 프로그램의 설계자는 이 프로그램이 모형적 세계 를 재현하는, 세상의 축소판이라는 것을 간과한 듯하다. 또한 모형 은 맥락적 이라는 것도 간과한 듯하다. 2008년의 매개 변수와 2012년의 매개 변수가 다를 수 있다는 것을, 그래서 모형 은 맥락적이라는 것을 간과한 것이다. 마지막으로 구글 예측 프로그램은 프로그램 설계자(관찰자) = 모형 세계의 아바타 = 실존하는 사람들 이라는 중대한 과오를 범한 듯이 보인다. 이 절의 서두에서 밝혔듯이 관찰자인 보편적 인간과 관찰 대상인 보편적 인간 사이에는 시어 저만치 정도의 모호한 거리가 태생적으로 존재한다. 그리고 그 모호한 거리는 바로 모형적 사고 의 이면일 뿐이다. 52

53 결어 한강의 연작 소설 채식주의자 는 한 편의 음악과도 같은 소설이다. 주인공이 비폭력성 의 상징인 나무 로 변용되어 가건만, 놀랍게도 그 비폭 력성 을 성취하도록 돕는 것은 다면 형태의 폭력성 이다. 폭력성 은 우리의 살점을 먹어 대는, 천진한 어린 악마가 우리 귀에 속삭이는 방식으로, 또는 바로크 음악의 푸가처럼 폭력 이라는 일관성 있는 주제를, 여러 성부에 있는 화자의 입을 통해 노래하는 방식으로 전달된다. 폭력성 은 때로는 무지로, 때로는 무관심으로, 때로는 꽃 과의 모호한 거리 저만치 를 명백하게 파괴 하는 피에 버무린 살점을 꽃잎처럼 산화하는 사내의 모습으로 등장한다. 주인공 또한 폭력성 의 주제를 또 다른 성부에서, 자기 학대, 소통 부재의 폭력성 의 마법에 걸린 것처럼 노래한다. 그러나 이 다양한 성부에 기거하는 폭력성 은 주인공을 십자가 형태의 나무가 있는 골고다 언덕으로, 마치 예정된 길을 인도하듯이 인도한다. 그럼에도 진흙 속의 연꽃 이라는 상투적 인 노래, 즉 명백히 한 가지 으뜸음을 가진, 조성( 調聲, tonality)을 가진 음악을 허락하지 않는다. 오히려 1721년에 출간된 바흐(Johann Sebastian Bach)의 평균율 1권 중 마지막 푸가에서, 인류 역사상 최초의 12음 기법으로 작성된, 무조( 無調, atonality) 음악의 가능성을 목도한 쇤베르크 (Arnold Schönberg)의 환희를, 채식주의자 는 재현한다. 채식주의자 는 독자로 하여금 으뜸음을 허용하지 않는, 무조성( 無調聲, atonality)의 소리를 발견하는 쇤베르크의 그 환희 를 만끽하게 해 준다. 빅데이터 분석 또한 우리의 삶을 한 편의 음악처럼 들려준다. 빅데이터 가 들려주는 음악은 그냥 지나치기는 아쉬운 거리, 그러나 내 손길을 뻗친다 한들, 인연의 끈을 잡을 수 없는 거리, 아련히 다가오는, 그러나 이내 시나브로 멀어져가는 복학생 오빠 와의 거리, 그래서 가슴 설레는, 한( 恨 )이 이슬처럼 망울지는, 마음 의 모호함 을 드러내는 저만치 를 으뜸음으로 하는 음악이 53

54 아니다. 소설 채식주의자 처럼, 빅데이터 를 움직이는 동인( 動因 )은 다양 한 형태의 행동 변수 가 보여 주는 폭력성 이다. 명확히 대칭적이고 균등한 가치를 가진 12개의 폭력적인 음은 저만치 라는 으뜸음을 허락하지 않는다. 12개의 음은 으뜸음 저만치 를 분석( 分析 )의 이름으로 갈기갈기 찢어버리고, 까발린다. 바로 쇤베르크의 12음 기법에 의한 무조 음악의 이상을 삶이라는 악보에 기록하는 것, 이것이 빅데이터 의 기본 성향이다. 20세기 최고의 바흐 건반 음악 연주자인 글렌 굴드(Glenn Gould)의 연주에서도 이러한 빅데이터 의 시체 해부자 성향을 볼 수 있다. 글렌 굴드의 주법은 고적한 산사의 목탁 소리와도 같은 명확한 언어를 전달한다. 굴드는 특히 그냥 지나치기는 아쉬운 거리, 그러나 내 손길을 뻗친다 한들, 인연의 끈을 잡을 수 없는 거리, 아련히 다가오는, 그러나 이내 시나브로 멀어져가는 복학생 오빠 와의 거리, 그래서 가슴 설레는, 한( 恨 )이 이슬처럼 망울지는, 마음 의 모호함 을 드러내 는 저만치 를 으뜸음으로 하는 낭만적인 피아노곡의 얼굴을 목탁 소리와 같은 점묘법을 통해 가차 없이 지워 버린다. 곡의 민낯 을 여과 없이 까발린다. 남겨지는 것은 회색빛 불교의 승려복 그리고 머리카락 하나 없는 두상뿐이다. 그럼에도 굴드는 멈추지 않는다. 굴드는 명확한 목탁 소리로 언제나 해체하고 싶은 시체 해부자의 본능에 시달렸다. 실제 바흐 연주자로 유명하지만, 12음 기법으로 작성된 쇤베르크의 곡 또한 너무나 잘 연주하였다. 그러나 끊임없는 해부의 본능으로 탄생한 쇤베르크의 곡을 듣고 있노라면, 모호함 을 제거한 후에 샘솟는 명확한 환희가 아니라, 해체하고 나니, 아무것도 없다는 공허함 만이 몰려온다. 오직 시체 해부자의 본능에 시달리는 빅데이터 분석 은 모형 적 사고 를 진지하게 고찰해 본 적이 없는 서툰 빅데이터 분석가 의 모습이지, 빅데이터 의 진면모와는 거리가 멀다. 분명히 모형적 사고 는 또 다른 차원의 저만치 라는 모호한 거리를 만들어 낸다. 채식주의자 는 폭력적이지만, 삶의 색채를 지워 버리지는 않는다. 진짜 빅데이터 분석 은 폭력적이지만, 우리 삶의 색채를 더욱 다채롭게 만들어 줄 것이다. 삶에서 무조성의 소리를 54

55 발견하는 쇤베르크의 환희는 우리의 모호한 삶을 더욱 모호하면서도 분명하 게 이해하게 해 줄 것이다. 마지막으로 모형적 사고 를 가장 잘 이해했던 사람은 시인 무리에 있다. 하나의 몸짓 외에는 명확히 서술할 수 없는 모호한 삶에 명확 하고 폭력적인 언어의 이름을 붙임으로써 저만치 거리에 있는 존재를 꽃 으로 확정해 버리 는 것, 바로 회색에서 필수 불가결하다고 믿는 것에 흑색이라는 명확한 모형을 설정해 버리는 행위를 시인은 아래와 같이 읊조린다. 6) 내가 그의 이름을 불러주기 전에는 그는 다만 하나의 몸짓에 지나지 않았다. 내가 그의 이름을 불러주었을 때 그는 나에게로 와서 꽃이 되었다. 6) 김춘수의 시 <꽃> 중에서. 55

57 특집 3 언어 자료로 세상 보기 산업 분야의 언어 처리와 세종 말뭉치 운용 전채남 더아이엠씨 1. 빅데이터의 시대, 쌓이는 언어 자료 빅데이터의 시대는 소셜 미디어의 일상화로부터 시작되었다. 몇 년 사이에 카카오스토리, 페이스북, 트위터, 인스타그램, 유튜브 등 다양한 소셜 네트워 크 서비스(SNS)가 등장하고 이용자들이 급증하면서 엄청난 양의 데이터들 이, 또 다양한 형태의 데이터들이 실시간으로 생산되고 있다. 소셜 네트워크 서비스는 우리가 살아가는 세상의 모든 흔적을 데이터로 남기고 있기 때문이 다. 이와 함께 정보 통신 기술(ICT)의 발달로 우리가 이용할 수 있는 데이터 들은 엄청나게 늘어나고 있다. 소셜 미디어 시대가 되면서 수십 억 페이지에 이를 만큼 늘어난 반면 띄어쓰기 오류, 구어체, 미등록어, 오용어 등으로 인해 문서의 질은 낮아졌다. 비공식적, 비격식적 문서의 양이 절대적으로 늘어나면서 불완전한 문장 또는 문법에 어긋나는 표현들도 함께 늘어나게 되었다. 이러다 보니 사용자들은 정보 과부하에 의한 피로감을 해소하기 위해 필요한 것만 요약하길 원한다. 실제로 최근 2년 사이에 세계는 이전 인류 역사의 전체 기간보다 더 많은 데이터를 생산하였다. 그리고 2020년경이 되면 1초당 약 1.7메가바이트의 새로운 데이터가 생산될 것으로 예상된다. 이런 데이터는 페이스북, 카카오 57

58 톡, 메일 등을 통해 보내지는 메시지와 메일들로부터 생산되고 있을 뿐만 아니라 디지털 사진들과 점차 증가하는 비디오 데이터로부터도 생산되고 있다. 2020년경에는 전 세계에서 60억 개 이상의 데이터를 온전히 수집하는 스마트폰이 사용될 것으로 예상된다. 전화기가 스마트해지고 있을 뿐만 아니 라 스마트 텔레비전, 스마트 워치, 스마트 미터, 스마트 홈, 스마트 테니스 라켓, 스마트 전구 등 우리 주변의 대부분 기기가 스마트해지고 있다. 2020년 경에는 500억 개 이상의 인터넷 연결 기기(IoT)가 운영될 것이다. 이것은 엄청난 양의 다양한 데이터(텍스트와 비디오 데이터로부터 센스 데이터까 지)가 상상할 수 없는 수준까지 증가할 것이라는 의미한다. 세상이 스마트해지는 만큼 빅데이터가 갈수록 중요해지고 있다. 각종 언론에서 연일 빅데이터와 관련된 보도를 하고 사람들은 빅데이터를 대명사 처럼 사용하고 있다. 많은 정부 기관과 기업은 업무를 효율적으로 수행하기 위해서, 성과를 개선하기 위해서, 가치를 창출하기 위해서 빅데이터를 점점 더 활용하는 추세이다. 빅데이터는 몇 년 전까지는 불가능하였지만 현재는 가능해진 기술, 즉 데이터를 수집하고 분석할 수 있는 기술의 발달과 관련이 있다. 새로운 기술 로 인해 향상된 능력을 가질 수 있게 되어 더 많은 데이터를 수집하고 저장, 분석할 수 있어 빅데이터 이용이 가능하게 되었다. 위키피디아(Wikipedia) 는 빅데이터를 기존 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 이라 고 정의하고 있다. 그리고 여기에는 이런 데이터로부터 가치를 추출하고 결과를 분석하는 기술까지 포함하고 있다. 쇤버거와 쿠키어(2013)는 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해 내는 일 로 빅데이터를 정의하고 있다. 그들은 이유를 아는 것보다 결과를 아는 것이 중요하기에 인과성(causality)에서 상관성 58

59 (correlation)으로 분석의 초점을 옮겨야 한다고 주장한다. 아이디시(IDC, 2011)는 대규모의 다양한 데이터로부터 수집, 검색, 분석을 신속하게 처리하 여 경제적인 가치를 발굴하도록 설계된 차세대 기술 및 아키텍처로 4브이 (Volume, Variety, Velocity, Value)를 특성으로 제시하고 있다. 비정형 데이터의 활용에 주목하여 생각을 만드는 기술 이라고 빅데이터를 정의하기 도 하는데, 이는 사람들의 자연스러운 디지털 대화를 수집하여 그 속에 내포 된 인식, 이해, 의견, 반응 등을 읽어 내는 기술이라는 의미를 가지고 있다(김 정선, 2015). 지금까지 연구자들의 빅데이터 정의가 다소 차이는 있지만 전반적으로 데이터 수집, 저장, 정제, 분석 등과 관련된 기술뿐만 아니라 이를 활용하는 해석 능력, 이를 통해 가치를 창출 할 수 있는 통찰력을 포함하고 있다. 빅데이터에 대한 장점을 쇤버거와 쿠키어(2013)는 다음의 세 가지로 정리 하였다. 첫째, 빅데이터로 인해 훨씬 더 많은 데이터를 분석할 수 있고 어떤 때는 특정 현상과 관련된 모든 데이터를 분석할 수 있다. 둘째, 빅데이터와 같은 방대한 데이터를 들여다볼 때는 정밀성에 대한 욕구가 다소 느슨해져서 샘플링 오류가 줄어들어 측정 오류에 대해서는 좀 더 관대해질 수 있다. 셋째, 거대 규모의 데이터를 취함으로써 인과관계 추구라는 오래된 습관에서 멀어지는 대신 패턴이나 상관성을 찾아내어 새로운 이해와 귀중한 통찰을 얻을 수 있다. 2. 텍스트 마이닝(Text Mining), 언어 자료 처리 빅데이터가 있다고 해도 우리가 잘 활용하여 데이터를 통한 통찰력을 발휘할 수 없다면 빅데이터는 거의 가치가 없다. 데이터를 잘 활용하기 위해 서는, 즉 통찰력으로 유용한 결과를 도출하기 위해서는 데이터를 분석할 59

60 수 있도록 데이터의 정제와 처리가 필요하다. 그런데 일반적으로 텍스트 데이터는 비정형 데이터로서 복잡한 구조를 갖기 때문에, 이를 정제하고 처리하는 일은 쉽지 않다. 데이터 정제의 방법에는 수동적인 방법과 자동적인 방법이 있다. 수동적인 방법은 데이터를 수집한 이후에 연구자가 워드나 엑셀 프로그램을 사용하여 일일이 특수문자, 조사, 띄어쓰기 등을 확인한 후 분석 가능한 형태로 수정하 고 정리하는 것이다. 때때로 텍스트 마이닝의 과정에서 수집된 단어를 정제하 는 단계에서 컴퓨터 프로그래밍을 통해 자동으로 실시하기도 한다. 텍스트 데이터를 자동으로 정제하는 방법은 언어 정보 처리의 한 분야이 다. 언어 정보 처리는 컴퓨터와 인간 사이의 언어 소통을 강화하는 일로, 컴퓨터를 비롯한 기기가 인간의 언어를 잘 알아듣도록 하는 일과 인터넷이나 문서로 축적되어 있는 언어 자료를 인간이 잘 이용할 수 있도록 하는 일이다. 정보 통신 기술의 발달로 사람들의 스마트 기기 사용이 늘어나면서 점점 언어 정보 처리가 중요해지고 있다. 언어 정보 처리는 컴퓨터가 사람의 일상 언어를 이해하고 생성할 수 있도 록 함으로써, 컴퓨터를 인간의 지적 활동의 보조자 및 지원 도구로 활용하도 록 한다. 다시 말해 언어 정보 처리의 한 목적은 컴퓨터가 인간의 언어를 자동 번역, 요약, 인식하도록 하는 것이다. 우리나라에서는 국어 정보 자료를 구축하여 정보를 쉽고 편리하게 활용할 수 있는 국어 정보화 기반을 조성하기 위해 1998년부터 21세기 세종계획: 국어 정보화 추진 중장기 사업 을 실시하였다. 이에 따라 본격적으로 한국어 말뭉치(Corpus), 즉 세종 말뭉치 가 구축되었다. 일정 규모 이상의 크기를 갖추고 그 시대의 언어 현실을 골고루 반영한 기계 가독형 국어 자료의 집합체인 말뭉치를 만들기 위해 현대 국어, 역사 자료, 구어 자료 등 다양한 분야의 자료를 망라하였다. 구축된 자료는 사전 편찬을 위한 용례 추출, 어휘의 빈도 조사, 언어 교육, 철자 교정기 및 번역 프로그램을 만들기 위한 60

61 분석 대상 자료 등으로 활용되고 있다. 언어 정보 처리 기술은 기술적인 특성에 따라 언어 처리 기반 기술과 응용 기술로 구분할 수 있다. 언어 처리 기반 기술은 입력된 텍스트의 형태, 구문, 의미, 구조 등을 자동 추출하거나 문장을 생성하는 기술을 말하며 언어 정보 처리 응용 기술은 정보 검색, 자동 번역, 텍스트 마이닝 기술 등을 포함한다. 텍스트 마이닝은 텍스트 데이터에서 형태소 분석과 자연 언어 처리(Natural Language Processing) 기술을 활용하여 일정한 의미 단위로 구획한 뒤 유용한 정보를 추출하는 기법이다. 텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트의 빈도를 계산하거나 카테고리를 찾아내는 등 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 자연 언어 처리(NLP)는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해, 혹은 컴퓨터의 언어를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. 컴퓨터가 인간이 사용하는 언어, 즉 자연 언어를 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량 언어 자원과 통계적, 규칙적 알고리즘을 활용한 형태소 분석이 사용되고 있다. 형태소 분석은 자연 언어 처리의 가장 기본적인 단계로, 어절을 의미를 갖는 가장 작은 단위인 형태소로 분리하고 품사를 찾아내는 것이다(곽수정 외, 2013). 빠른 속도의 형태소 분석을 위해 세종 형태 분석 말뭉치와 같은 기분석 말뭉치를 활용하기도 한다. 세종 형태 분석 말뭉치는 장기간에 걸친 형태 분석 및 검토 과정을 거쳐 형태 분석의 신뢰도가 상대적으로 높기 때문에, 규칙이나 통계를 기반으로 한 형태소 분석기와 결합하여 사용된다. 규칙에 의한 접근은 정해진 규칙에 따른 형태소 분석으로 특수한 부분에 대한 조건까지 제시해 줄 수 있으므로 중의성을 해결하는 성능이 우수한 반면 구축하고 유지 관리하는 데 부담이 많다. 시간과 비용이 많이 들어 많은 규칙을 만들기가 어렵고 규칙 관리자의 능력이 중요하므로 전문가가 61

62 필요하다. 띄어쓰기의 규칙으로 휴리스틱(heuristic), 바이어블 프리픽스 (viable prefix)를 이용한 최장 일치 기법, 접두 명사 및 접두사와 이웃하는 명사 간의 조합 규칙 이용법, 형태소 분석 결과 이용법 등이 있다. 통계에 의한 접근은 단순하고 계산적으로도 부담이 적으며, 언어의 생산성 에 잘 대처할 수 있고 영역 지식의 쉬운 활용이 가능하다. 그러나 이 접근은 통계를 낼 수 있는 정도의 자료(대용량 말뭉치 필요)를 확보하여야 하고 통계를 추출한 해당 말뭉치 분야나 유사 분야에 대해 우수한 성능을 보이지만 다른 분야에는 적용이 힘들다. 텍스트 마이닝은 텍스트로부터 고품질의 정보를 도출하는 과정과 관련이 있다. 고품질의 정보는 일반적으로 통계적 패턴 학습과 같은 수단을 가지고 패턴과 트렌드의 장치(devising)를 통해 도출된다. 텍스트 마이닝은 보통 입력 텍스트의 구조화 보통 파싱(parsing), 몇 가지 파생된 언어적 특징의 추가와 제거, 그리고 데이터베이스에 후속적 추가, 구조화된 데이터 안에 서의 패턴 도출, 그리고 마지막으로 출력의 평가와 이해 등의 과정을 포함한다. 텍스트 마이닝에 있어 고품질은 통상 관련성, 참신함, 그리고 관심도 등의 몇 가지 조합을 의미한다. 전형적인 텍스트 마이닝 기술은 텍스트 범주화 (categorization), 텍스트 군집(clustering), 콘셉트/개체 도출, 알갱이 (granular) 분류의 생산, 감성 분석, 문장 요약, 개체 관계 모형화(예: 개체 인식 사이의 관계 학습) 등을 포함한다. 텍스트 분석은 정보 검색, 단어 빈도 분포를 연구하는 어휘 분석(lexical analysis), 패턴 재인(pattern recognition), 태깅/주석(tagging/annotation), 정보 추출, 링크와 연상 분석을 포함하는 데이터 마이닝 기법, 시각화 (visualization), 그리고 예측 분석(predictive analytics)을 포함한다. 핵심 적으로 무엇보다도 중요한 목표는 분석을 위해 자연 언어 처리(NLP)와 분석 방법을 활용하여 텍스트를 데이터로 바꾸는 것이다. 텍스트 마이닝의 전형적인 활용은 자연 언어로 쓰인 일련의 문서를 스캔하 62

63 거나, 예측 분류 목적을 위해 문서군(document set)을 모형화하고, 혹은 추출된 정보를 가지고 데이터베이스 또는 검색 지수에 덧붙이는 것이다. 3. 빅데이터 분석, 언어 자료의 활용 빅데이터를 잘 활용하기 위해서는 우선 데이터를 잘 분석할 필요가 있다. 빅데이터 시대에 맞추어 데이터 분석의 방법도 놀랄 만한 진전이 이루어지고 있어 웹과 소셜 네트워크 서비스상의 다양한 데이터를 수집하고 분석할 수 있게 되었다. 웹과 소셜 네트워크 서비스에는 이용자들의 자발적 참여에 의한 비정형 데이터들이 축적되어 있어 특정 현상에 대한 색다른 분석을 해 볼 수 있다. 한편 디프 러닝(Deep Learning)과 같은 기계 학습(Machine Learning) 의 알고리즘이 빅데이터 분석에 활용되기 시작하였다. 알고리즘은 현재 발성 된 단어들을 이해할 수 있고 음성 단어를 텍스트로 바꾸어 기술할 수 있다. 그리고 내용, 의미, 감성을 알기 위해 이런 텍스트를 분석할 수 있다. 예를 들면 우리가 어떤 사람이나 사물에 대하여 좋게 이야기하는지 아닌지를 텍스트의 감성 분석을 통해 알 수 있다. 사람들이 세상을 이해하고 미래를 예측할 수 있도록 매일 점점 더 향상된 알고리즘들이 나타나고 있다. 이런 알고리즘은 기계 학습과 인공지능(Artificial Intelligence) 독자적으로 학습 하고 의사결정하는 알고리즘의 능력 이 짝을 이루어 괄목할 만한 성과를 내고 있다. 이세돌 9단과 세기의 바둑 대결을 벌여 널리 알려진 알파고 (AlphaGo)가 대표적인 사례이다. 빅데이터 분석은 통계학과 전산학의 분석 방법을 주로 사용한다. 정형 빅데이터의 분석에는 데이터 마이닝과 기계 학습의 알고리즘을 대규모 데이 터 처리에 맞도록 개선하여 활용하고 있다. 인터넷과 소셜 미디어의 생활화로 63

64 비정형 빅데이터가 폭발적으로 증가하면서 비정형 빅데이터의 분석에는 주로 시맨틱 네트워크 분석, 감성 분석, 군집 분석 등을 많이 활용하고 있다. 시맨틱 네트워크 분석(Semantic Network Analysis)은 소셜 네트워크 분석의 한 종류이다. 소셜 네트워크 분석(Social Network Analytics)은 수학의 그래프 이론(Graph Theory)에 뿌리를 두고 있는데 사람이나 사물의 관계를 노드와 링크의 구조로 파악하는 기법이다. 소셜 네트워크의 연결 구조, 연결 중심, 연결 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하 여, 소셜 네트워크상에서 입소문의 중심이나 허브 역할을 하는 노드를 찾는 데 주로 활용된다. 시맨틱 네트워크 분석은 소셜 네트워크 분석을 텍스트 데이터에 응용하여 특정 현상의 인식이나 개념의 해석에 있어서 의미의 관계를 중심으로 분석하 는 방법이다. 소셜 네트워크 분석이 사람들 사이의 특정 네트워크 특성으로 네트워크에 포함된 사람들의 사회적 행위를 설명하는 시도라면, 시맨틱 네트 워크 분석은 소셜 네트워크를 기반으로 개념을 노드로 나타내고 개념 간의 관계를 연결로 나타낸 그래프이다. 개념은 단어나 구로 표현되는 정보 단위이 며 의미는 다른 개념들과의 관계 속에 내재되어 있는 것이고 관계는 개념들 간의 연결을 나타내는 개념의 특정 범주를 의미한다. 시맨틱 네트워크는 다양한 개념들을 연결하고 의미가 주요하다는 관점에서 개념(concept)은 관련된 단어들의 합성체로서 사회 네트워크에서의 노드와 같고 개념 간 연결은 서술(statement)이며 네트워크 분석의 선이다. 시맨틱 네트워크 분석은 행위자 간 연결성을 중시하는 소셜 네트워크 분석과 달리 단어들의 공유된 의미를 토대로 체계적 구조를 분석하는 데 주안점을 두고 있다. 시맨틱 네트워크 분석은 핵심 단어 사이의 의미론적 연관이 중요한 요소이고, 핵심 단어의 동시 발생 빈도는 소셜 네트워크 관점 의 중요한 요소이다. 시맨틱 네트워크 분석의 장점은 표준화되지 않은 텍스트 자료로부터 구조화된 형태의 정보를 추출함으로써 커뮤니케이션 과정의 64

65 양상을 시각화할 수 있다는 점이다. 검색된 결과를 추출하여 핵심 단어의 빈도와 매트릭스 자료를 만들어 핵심 단어 간 관계를 알아봄으로써 전체 데이터에 대한 구조화된 자료를 시각적으로 나타낼 수 있다. 시맨틱 네트워크 분석 방법은 핵심 어휘 및 단어 간의 의미론적 관련성을 규명하는 데 있어서 객관성을 확보하기 위해 유시넷(UCINET), 노드엑셀(NodeXL), 게피 (Gephi), 파옉(Pajek) 등 자동화 도구인 소프트웨어가 개발되어 사용되고 있다. 시맨틱 네트워크 분석은 자동화된 도구인 소프트웨어를 활용하여 수행하 는데, 가장 먼저 분석의 대상이 되는 데이터의 수집으로부터 시작된다. 데이 터 수집의 원천으로부터 획득된 개별 객체들은 메시지 내 주요 단어의 빈도 분석을 통해서 주요 키워드를 도출하는 단계로 이어지고 이를 기반으로 네트워크 다이어그램의 설계를 통한 의미론적 분석이 진행된다. 네트워크 분석을 이용하여 연결 구조의 특성을 파악하는 것은 여러 지표를 통해 이루어진다. 분석은 네트워크를 구성하는 단위들을 노드로 단위들의 관계를 링크로 정의하여 이루어지는데 링크의 연결 정도(degree), 밀도 (density) 등을 통해 네트워크가 어떻게 얼마나 결속되어 있는지 그 형태를 알아볼 수 있다. 시맨틱 네트워크 분석에서 활용되는 여러 지표 중에서 가장 중요한 개념이자 많이 쓰이는 측정 방법 중 하나는 중심성(centrality)이다. 중심성은 노드가 전체 네트워크에서 중심에 위치하는 정도를 표현하는 지표 를 의미하는데, 이는 연결 중심성(degree centrality), 근접 중심성(closeness centrality), 매개 중심성(betweenness centrality) 등으로 세분화할 수 있다 (freeman, 1978). 시맨틱 네트워크 분석을 실시한 후에 특정 대상에 대한 에고 네트워크 분석(Ego Network Analysis)을 실시하여 감성 분석(Sentiment Analysis) 을 실시할 수 있다. 감성 분석은 소셜 미디어와 인터넷 데이터, 문서 등의 시맨틱 텍스트를 긍정, 부정, 중립으로 판별하여 선호도를 측정하는 기법이 65

모두 보기

<28C6EDC1FD293230313630365FBBF5B1B9BEEEBBFDC8B0283036323829C3D6C1BE2E687770>

<28C6EDC1FD293230313630365FBBF5B1B9BEEEBBFDC8B0283036323829C3D6C1BE2E687770> 특집 3 언어 자료로 세상 보기 산업 분야의 언어 처리와 세종 말뭉치 운용 전채남 더아이엠씨 1. 빅데이터의 시대, 쌓이는 언어 자료 빅데이터의 시대는 소셜 미디어의 일상화로부터 시작되었다. 몇 년 사이에 카카오스토리, 페이스북, 트위터, 인스타그램, 유튜브 등 다양한 소셜 네트워 크 서비스(SNS)가 등장하고 이용자들이 급증하면서 엄청난 양의 데이터들 이,