<BAF2B5A5C0CCC5CDB7CEBCAD5FB4BABDBAC4DCC5D9C3F75FC8B0BFEBB9E6BEC85FC3D6C1BEC0CEBCE22E687770>

Similar documents
**09콘텐츠산업백서_1 2

wtu05_ÃÖÁ¾

<B3EDB4DC28B1E8BCAEC7F6292E687770>

SIGIL 완벽입문

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

뉴스평가지수의개발과적용

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

Cloud Friendly System Architecture

W7_Business_ 제품설계

ë–¼ì‹€ìž’ë£„ì§‚ì‹Ÿì€Ł210x297(77p).pdf


<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

PDF_Compass_32호-v3.pdf

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

2ÀåÀÛ¾÷

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Chapter Chapter

< C617720BBF3B4E3BBE7B7CAC1FD20C1A632B1C72E687770>

<BBEAC0E7BAB8C7E8C1A6B5B52E687770>

< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

수출및수입액현황 (2016) 6억 1,284 만달러억 1 7,045 만달러 4억 4,240 만달러 2015 년대비 15.4 % 증가 2015 년대비 11.1 % 증가 2015 년대비 1.3 % 증가 수출액 수출입차액 수입액 지역별수출액 ( 비중 ) 일본 4,129만달러

고3-02_비문학_2_사회-해설.hwp


CR hwp

<5B DB1B3C0B0C0DAB8A65FC0A7C7D15FB5F0C0DAC0CEBBE7B0ED5FC5F8C5B62E706466>

로거 자료실

CC hwp

Layout 1

ㅇ ㅇ

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

탐사보도 국내외 탐사보도 사례 분석 및 최신 탐사기법 학습 IRE(Investigative Reporters&Editors) 컨퍼런스 참가 및 해외 탐사보도 기관 방문 취재 데이터, VR, 드론 활용 보도 등 과 테크놀로지, 시대 원칙과 KPF 디플로마 경제보도 법적

장애인건강관리사업

1 제 26 장 사회간접자본의확충

Untitled-1

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

È޴ϵåA4±â¼Û


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2

- 2 -


신성장동력업종및품목분류 ( 안 )


올바른뉴스저작물활용방법 ㅇ직접작성한보도자료원문그대로게재하거나언론사홈페이지로의 단순링크 * 방식활용 직접링크 (deep link)** 는현재까지는저작권법상의복제, 전송에는해당되지않는다는것이법원의판단이지만, 직접링크를상업적으로이용하여경제적이득을취했을경우에는민법상부당이득,


01정책백서목차(1~18)

hwp

내지(교사용) 4-6부

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

hwp

09³»Áö

2009방송통신산업동향.hwp

암호내지

발간등록번호대한민국의새로운중심 행복도시세종 2015 년기준 사업체조사보고서 Report of The Census on Establishments

<B3EDB9AEC0DBBCBAB9FD2E687770>

2

표지 모았어요

1. 경영대학

2011년_1분기_지역경제동향_보도자료.hwp

교육학석사학위논문 윤리적입장에따른학교상담자의 비밀보장예외판단차이분석 년 월 서울대학교대학원 교육학과교육상담전공 구승영

CSG_keynote_KO copy.key

Microsoft Word - src.doc

( ),,., ,..,. OOO.,, ( )...?.,.,.,.,,.,. ( ),.,,,,,.,..,

2002report hwp


Microsoft PowerPoint - chap01-C언어개요.pptx

(연합뉴스) 마이더스

커버콘텐츠

피해자식별PDF용 0502

신규투자사업에 대한 타당성조사(최종보고서)_v10_클린아이공시.hwp

기본소득문답2

경북지역일자리공시제내실화방안

한국정책학회학회보

보도자료 2014 년국내총 R&D 투자는 63 조 7,341 억원, 전년대비 7.48% 증가 - GDP 대비 4.29% 세계최고수준 연구개발투자강국입증 - (, ) ( ) 16. OECD (Frascati Manual) 48,381 (,, ), 20

맘톡광고소개서

View Licenses and Services (customer)

2010 년 10 월넷째주 ( ) 1. IT와타산업융합위한민관노력강화 2. 한국, IT산업분야국제표준제안건수세계 1위달성 3. 한국, 3년연속세계브로드밴드경쟁력 1위기록 4. 삼성SDS, 2011년 IT메가트렌드선정 'Smart' 와 'Social' 이핵심

04 특집

이베이를 활용한 B2C 마케팅_한국무역

hwp

Special Theme TV SNS 2015 Spring vol

¾ç¼ºÄÀ-2


i4uNETWORKS_CompanyBrief_ key


....pdf..

2002report hwp

Print

PowerPoint Presentation

Microsoft PowerPoint - 권장 사양

ad hwp

3월2일자.hwp

C O N T E N T S 목 차 요약 / 3 Ⅰ. 브라질소비시장동향및특성 경제현황 2. 소비시장의특성 Ⅱ. 브라질소비시장히트상품분석 최근히트상품 년소비시장, 이런상품을주목하라! Ⅲ. 우리기업의 4P 진출전략

04 Çмú_±â¼ú±â»ç

에너지절약_수정


저작권동향 2019 년제 15 호 미국 YouTube, 기존의저작권침해신고방식을개편할것이라는계획을발표하다 유현우 ( 단국대학교일반대학원 IT 법학협동과정지식재산권법전공박사과정수료 ) 2019년 7월 9일 YouTube는최근이슈가되고있는크리에이터의

Transcription:

한국언론진흥재단지정 2014-14 빅데이터로서뉴스콘텐츠 활용방안연구 김성태ㆍ박창신ㆍ최홍규

한국언론진흥재단지정주제연구보고서 2014-14 빅데이터로서뉴스콘텐츠활용방안연구 책임연구 김성태 ( 고려대학교미디어학부교수 ) 공동연구 박창신 (TCN 미디어대표이사 ) 최홍규 (EBS 교육방송연구소연구위원 ) 발행인 김병호편집인 김성수발행일 2014년 11월 10일초판제1쇄발행 한국언론진흥재단 100-750 서울특별시중구세종대로 124 전화 (02)2001-7744 팩스 (02)2001-7740 www.kpf.or.kr 이보고서의내용은한국언론진흥재단의공식견해가아닌연구자의연구결과임을밝힙니다. c 한국언론진흥재단, 2014 비매품

빅데이터로서뉴스콘텐츠활용방안연구 책임연구 김성태 ( 고려대학교미디어학부교수 ) 공동연구 박창신 (TCN 미디어대표이사 ) 최홍규 (EBS 교육방송연구소연구위원 )

본문목차 요약문 Ⅰ. 서론 1 1. 문제제기및연구의필요성 1 2. 연구목적 3 3. 연구의구성 4 II. 빅데이터시대의도래 5 1. 빅데이터란무엇인가? 5 2. 글로벌트렌드로부상한빅데이터 7 3. 빅데이터의활용과방법적적용 11 III. 뉴스콘텐츠기반 DB 활용및유통현황 16 1. 국내외뉴스콘텐츠기반 DB 활용 16 1) 인포그래픽강조형 16 2) 데이터활용및재생산기능형 22 3) 오픈데이터매개형 25 4) 독자참여및해석강조형 30 2. 국내외뉴스콘텐츠기반 DB 유통현황 35 1) 기사콘텐츠현황 35 2) 사진콘텐츠현황 52 IV. 뉴스콘텐츠기반빅데이터베이스 (BD) 구축및활용방안 57 1. 통합적접근의 BD 구축필요성 57

2. 뉴스콘텐츠표준화와저작 -편집권 63 1) 뉴스콘텐츠거래규격의표준화 63 2) BD구축을위한저작ㆍ편집권이슈 67 3. 대용량뉴스콘텐츠활용과유료서비스를통한수익성확보 70 4. 경쟁력있는공익형뉴스플랫폼제안 76 1) 뉴스콘텐츠유통시장개선의필요성 76 2) 뉴스콘텐츠 BD를적용한공익형뉴스플랫폼 78 3) 공익형뉴스플랫폼의운영주체논의 80 5. BD 기반뉴스아카이빙시스템활용방안제안 82 1) 뉴스기사분석시스템을활용한수익모델 82 2) BD를활용한 ( 빅 ) 데이터저널리즘경쟁력확보 84 6. 빅데이터베이스 (BD) 구축과운영방향에대한가능모델 ( 안 ) 91 1) 기존 < 카인즈 > 확장형빅데이터베이스 (BD) 구축 91 2) 콘텐츠제공사와포털의 상생협력형 BD 제공위원회 설립 94 3) 공동협력형뉴스콘텐츠 BD 포털 구축 96 : 한국신문협회와한국언론진흥재단의역할을강조하며 96 4) 독자형 ( 독립운영 ) 뉴스콘텐츠 BD 제공포털 구축 103 : 언론사들의독자적합작법인포털운영을중심으로 103 Ⅴ. 통합형 BD 를활용한프리미엄뉴스분석서비스모델제안 : 분석사례를중심으로 106 1. 뉴스콘텐츠분석알고리즘개발 : 한국은행 사례 106 2. 뉴스파급과정과범위측정 : 방송통신이슈분석사례 124 3. 미래 IT 트렌드예측 : 통합형빅데이터활용사례 139 Ⅵ. 결론및제언 146 참고문헌 152 부록 160

표목차 < 표 3-1> 연합뉴스의뉴스콘텐츠기반 DB 활용사례매일경제의 18 < 표 3-2> 뉴스젤리의뉴스콘텐츠기반 DB 활용사례 20 < 표 3-3> 뉴욕타임스의뉴스콘텐츠기반 DB 활용사례 22 < 표 3-4> 매일경제의뉴스콘텐츠기반 DB 활용사례 23 < 표 3-5> 가디언 (The Guardian) 의뉴스콘텐츠기반 DB 활용사례 25 < 표 3-6> 프로퍼블리카 (Propublica) 의뉴스콘텐츠기반 DB 활용사례 27 < 표 3-7> OKFn 의뉴스콘텐츠기반 DB 활용사례 28 < 표 3-8> BBC 의뉴스콘텐츠기반 DB 활용사례 34 < 표 3-9> 카인즈뉴스콘텐츠 DB 현황 36 < 표 3-10> 카인즈에수록된고 ( 古 ) 신문리스트 36 < 표 3-11> 네이버뉴스라이브러리수록매체와서비스기간 37 < 표 3-12> 비플라이소프트 아이서퍼 DB 의중앙지, 경제지, 스포츠지수록현황 38 < 표 3-13> 아이서퍼신문지면 PDF 서비스총매체현황 39 < 표 3-14> 비플라이소프트잡지매체현황 43 < 표 4-1> 뉴스콘텐츠저작권관련사업구조 68 < 표 4-2> 국내적용가능한해외뉴스콘텐츠유료화모형의내용 74 < 표 4-3> 거래단계조합 -운영주체에따른운영방식의특징 81 < 표 5-1> 기사건수기준한국은행관련뉴스기사현황 108 < 표 5-2> 기사분량기준한국은행관련뉴스기사현황 109 < 표 5-3> 한국은행관련기사활용어휘분석 115 < 표 5-4> 방송통신이슈관련소셜텍스트의파급범위별언급빈도 125 < 표 5-5> 범위에서특성을보이는정보화정책관련공통키워드수치 126 < 표 5-6> 지속성에서특성을보이는정보화정책관련공통키워드수치 131 < 표 5-7> 소셜텍스트의채널간언급빈도상관관계 135 < 표 5-8> 상호작용성에서특성을보이는정보화정책관련공통키워드수치 136 < 표 5-9> 소셜미디어에서발견되는주요 IT 이슈의파급공간별빈도 140 < 표 5-10> 특허정보원에서발견되는주요 IT 이슈의파급공간별빈도 142 < 표 5-11> 국내관련기관에서발견되는주요 IT 이슈의파급공간별빈도 143

그림목차 < 그림 2-1> 데이터의과거-현재 -미래 7 < 그림 2-2> 전략기술트렌드에따른영향 8 < 그림 2-3> 전세계정보량의증가와미디어의발달추이 9 < 그림 2-4> 빅데이터의 4V 개념도 10 < 그림 2-5> 빅데이터시스템클라우드구성도 12 < 그림 2-6> 소셜텍스트빅데이터플랫폼의주요분석결과비주얼 13 < 그림 2-7> 뉴스및소셜미디어등텍스트빅데이터의분석방식사례 15 < 그림 3-1> 연합뉴스의미디어랩이운영하는데이터 visualization 사이트 16 < 그림 3-2> 연합뉴스미디어랩사이트에서제공하는포토맵기사 17 < 그림 3-3> 뉴스젤리의데이터활용뉴스생산사례 19 < 그림 3-4> 뉴욕타임스의데이터활용기사생산사례 21 < 그림 3-5> 가디언 (The Guardian) 의데이터활용뉴스생산사례 24 < 그림 3-6> 프로퍼블리카 (Propublica) 의데이터활용뉴스생산웹사이트 26 < 그림 3-7> 프로퍼블리카 (Propublica) 의데이터활용뉴스생산사례 26 < 그림 3-8> IBM 의데이터활용뉴스생산사례 29 < 그림 3-9> 스마트뉴스의데이터활용뉴스생산사례 30 < 그림 3-10> BBC 의데이터활용뉴스생산사례 32 < 그림 3-11> 텍사스트리뷴 (The Texas Tribune) 의데이터활용뉴스생산사례 34 < 그림 3-12> 기업의기사콘텐츠사용용도 ( 유료 ) 48 < 그림 3-13> 보험사에뉴스콘텐츠가제공되는사례 49 < 그림 3-14> 기사콘텐츠의웹진활용사례 50 < 그림 3-15> 대학이나도서관에뉴스콘텐츠가제공되는사례 51 < 그림 3-16> 연합뉴스의헬로포토 53 < 그림 3-17> 뉴스뱅크이미지 54 < 그림 3-18> 뉴스콘텐츠중사진콘텐츠사용용도현황 55 < 그림 3-19> 뉴스뱅크이미지에서실제로온라인판매된과거사진의예 56 < 그림 4-1> 인문사회과학적개념의방법론적용에따른플랫폼특성도출 61 < 그림 4-2> 빅데이터분석범위및개선에대한도식화 62 < 그림 4-3> NewsML 의계층구조요약 63 < 그림 4-4> NewsML 기반의광고사례 : 뉴스뱅크시스템 64 < 그림 4-5> 하드디스크가격추이 (USD/GB) 71 < 그림 4-6> 오바마와롬니의연설문단어활용빈도그래픽 72

< 그림 4-7> 사띠아메브자야테 의시청자피드백분석결과 75 < 그림 4-8> 뉴스콘텐츠유통 C(Content)-P(Platform)-N(Network)-D(Device) 78 < 그림 4-9> 뉴스콘텐츠 BD 를통한공익형뉴스플랫폼도식화 79 < 그림 4-10> 공익형뉴스플랫폼을통한콘텐츠거래단계 81 < 그림 4-11> 뉴스큐레이션서비스화면 : 뉴스소스 ( 가칭 ) 82 < 그림 4-12> 카카오토픽서비스 83 < 그림 4-13> 가디언기사 a list of schools in Manchester and Salford(1821) 85 < 그림 4-14> 가디언의기사 : Afghanistan: the war logs 86 < 그림 4-15> 내러티브사이언스로봇저널리즘기사작성과정 : QUILL 87 < 그림 4-16> 내러티브사이언스문장만들기예시 : QUILL 88 < 그림 4-17> 뉴스콘텐츠 DB 를통해이뤄질수있는분석내용 89 < 그림 4-18> 상생협력형뉴스콘텐츠 BD 제공위원회 설립모델 96 < 그림 4-19> 공동뉴스포털사업의주요목표 97 < 그림 4-20> 공동협력형뉴스콘텐츠 BD 제공포털의물리적구성 98 < 그림 4-21> 공동협력형뉴스콘텐츠 BD 제공포털 구축모델 100 < 그림 4-22> 지역신문사와거점지역포털구축 : 지역별도메인할당 100 < 그림 4-23> 공동협력형뉴스콘텐츠 BD 포털에서가능한서비스사례 102 < 그림 4-24> 독자형뉴스콘텐츠 BD 제공포털 구축모델 103 < 그림 4-25> 독자적언론사포털사이트구축을위한단계별전략 104 < 그림 4-26> 독자형뉴스콘텐츠 BD 제공포털 에서제공가능한서비스사례 105 < 그림 5-1> 한국은행관련뉴스기사현황 106 < 그림 5-2> 한국은행관련기사게재공간별현황 107 < 그림 5-3> 한국은행관련월별언론보도현황 110 < 그림 5-4> 한국은행관련소셜텍스트빅데이터분석절차 112 < 그림 5-5> 뉴스콘텐츠관련뉴스내용섹션별수집내용 113 < 그림 5-6> 한국은행관련소셜텍스트측정을위한알고리즘사례 114 < 그림 5-7> 4월한국은행관련기사주제별현황및어휘클러스터차트 116 < 그림 5-8> 5월한국은행관련기사주제별현황및어휘클러스터차트 117 < 그림 5-9> 6월한국은행관련기사주제별현황및어휘클러스터차트 118 < 그림 5-10> 7월한국은행관련기사주제별현황및어휘클러스터차트 119 < 그림5-11> 월별 SNS( 블로그, 커뮤니티, 카페 ) 댓글상세분석을통한감성분석결과 120 < 그림 5-12> 유관기관간뉴스기사내용분석결과 : 경제이슈 122 < 그림 5-13> 유관기관간뉴스기사내용분석결과 : 세부경제이슈 -가계부채, 금융안정 123 < 그림 5-14> 유관기관간뉴스기사내용분석결과 : 세부경제이슈 -고용, 성장, 투자 123 < 그림 5-15> 방송통신이슈의자기상관 (AC) 시계열그래프 ( 신뢰구간내 ) 130 < 그림 5-16> 소셜미디어에서발견되는주요 IT 이슈 139

< 그림 5-17> 소셜미디어에서발견되는주요 IT 이슈별키워드네트워크 : 텔레매틱스 141 < 그림 5-18> 특허정보원에서발견되는주요 IT 이슈 141 < 그림 5-19> 특허정보원에서발견되는주요 IT 이슈별키워드네트워크 : ITS 142 < 그림 5-20> 국내유관기관에서발견되는주요 IT 이슈별키워드네트워크 : RFID 144 < 그림 5-21> 주요 IT 트렌드분석결과 145 < 그림 6-1> 경쟁력있는 BD 운영모델구성체계 149 < 그림 6-2> 뉴스콘텐츠기반 BD 구축및활용방안요약 151

요약문 본연구에서는빅데이터이슈가부각되면서논의되고있는데이터분류와유통의문제를뉴스영역으로끌어들여뉴스시장을보다활성화시킬수있는방안을제시해보고자한다. 이를통해, 뉴스콘텐츠에대한저장, 처리, 분석체계에관한아이디어를제시할수있을것이며아울러, 침체돼있는뉴스시장에활력을불어넣을수있을것으로기대한다. 또한, 본연구는뉴스콘텐츠에최적화된방식의데이터수집-유통의모델을산출함에있어이전과는다른방식의정교화된적용모델을제시해보고자한다. 오늘날뉴스콘텐츠의주요유통채널인포털및소셜미디어서비스등과연계한바람직한비즈니스환경은요소별로고려해야할사항이많은것이사실이다. 본연구에서는빅데이터로서뉴스콘텐츠를다루는데있어키플레이어들에대해살펴보고이들의역할모델, 이익창출모델등을살펴봄으로써보다선순환적인비즈니스생태계를조망하는단계적접근을시도하였다. 본연구는크게 6개파트로구성되어있다. 우선, 서론에서는현시점에서빅데이터로서뉴스콘텐츠활용연구가왜필요하며본연구가지향하는바가무엇인지에대해밝혔다. 다음으로빅데이터개념과동향에대해서살펴보고빅데이터가도래한오늘날의환경에서데이터베이스를도구로뉴스콘텐츠를생산, 유통하고있는현황에대해살펴보았다. 세번째파트에서는뉴스콘텐츠를대용량데이터로활용하면서뉴스를생산하고있는국내외사례들을살펴보았다. 또한, 기사나사진과같은콘텐츠에대한최근의생산, 유통방식에대해구체적으로살펴보고자했다. 이부분에서연구자는실질적으로뉴스콘텐츠가빅데이터로서더욱체계화될수있는방안에대해숙고하는계기를마련할수있다고보았다. 다음으로네번째파트에서는총 6개장에걸쳐현재뉴스콘텐츠를기반으로한데이터베이스의문제점과당면과제를도출해보고공익형뉴스플랫폼, 뉴스아카

이빙시스템개선등을통해향후가능한사업영역들을살펴보았다. 그리고경쟁력있는빅데이터베이스 (BD) 운영모델을제안하였다. 이파트에서는뉴스콘텐츠를정보서비스의핵심적소재로활용하여빅데이터환경에서가치있는비즈니스생태계모델을도출하는데목적을두었다. 다섯번째파트에서는프리미엄뉴스분석서비스를제안함에있어기존의다양한빅데이터분석사례들을통해가능한뉴스분석솔루션에대해제시해보았다. 마지막으로결론및제언부분에서연구자는연구내용을통해어떠한시사점을얻었으며, 향후추가적으로수행이필요한연구내용에대해언급하였다. 결론적으로본보고서에서다음과같은연구결과들을얻을수있었다. 우선, 물리적기반인뉴스콘텐츠 BD를구성하는기술적포맷은기본적으로오픈소스를제공하는 API 로구성되어야하며콘텐츠유통포맷은 Korea NewsML 과 UCI 를활용하여체계정립이필요하다. 또한, 이들 BD가시장에서바람직한유통구조를이루기위해서는행정체계, 법률내용, 유통주체, 포맷구성에대한논의가지속적으로이루어져야한다고보았다. 이처럼뉴스콘텐츠를개방적이고통합적으로유통하기위한체계는이와같이기술과사회적시스템에의해고려되어야할것이다. 하지만, 이것만으로뉴스콘텐츠의선순환적유통체계를기대하기에는무리가따른다. 뉴스의경우에특히그것을생산하는주체의영향력이상대적으로컸으므로뉴스유통과재생산과정상의이들단계를구성하고있는사업주체들을고려하기어려웠다. 이러한문제로통합적인서비스를매단계에서구축하기에는절차상어려움이따를수밖에없었던것이사실이다. 뉴스콘텐츠가온ㆍ오프라인에서배포되기시작하면서뉴스콘텐츠기반의 DB 활용이다양해졌으며이로인한현 DB체계의문제점도함께부각된것이사실이다. 따라서현재구축되어있는뉴스포털은미디어기술발전속도에비해활용도가떨어지고데이터가치가수직상승하는동안그에걸맞은서비스를개발하지못했다. 웹 2.0 시대이후강조되던개방ㆍ공유ㆍ참여의철학이뉴스콘텐츠유통영역에서발현되지못한점도혁신적인뉴스콘텐츠 DB를정착시키지못한원인이되었다. 이로인해기존뉴스영역에국한된서비스의무용론이대두되기에이르렀다. 이후데이터저장및유통에대한기술이발전하고하드디스크의가격이하락하면

서이른바빅데이터시대에접어들게되었다. 새로운데이터환경에서뉴스콘텐츠영역에서는비즈니스모델개발이시급하게되었으며이를위해거래규격표준화, 유료서비스, 저작ㆍ편집권등유통질서등에있어서대대적인개편이필요한시점으로돌입하게된것이다. 따라서, 오늘날뉴스콘텐츠기반의 BD가제대로구축되기위해서는공익형뉴스플랫폼, 다양한비즈니스모델, 저널리즘경쟁력등이확보되는기반위에서통합형 BD가필요하다. 이는빅데이터분석기술이더욱발전하고실시간으로모바일접속이가능해지는스마트시대를맞이해필연적인선택지가될것이라고판단된다. 뉴스콘텐츠기반통합형 BD의방식은앞서논의한바와같이다시세가지방식의모델로가능하다. 상생협력형뉴스콘텐츠제공위원회, 공동협력형뉴스콘텐츠 BD 제공포털, 독자형 BD 제공포털등이그것이다. 결론적으로는뉴스콘텐츠기반통합형 BD가구축되어야하며이를운영하기위한사업모델은운영주체에따라달라진다는얘기다. 마지막으로, 이러한노력속에서뉴스콘텐츠기반의통합, 개방형 BD 가구축되어다양한서비스를통해뉴스콘텐츠생산자뿐만아니라사회구성원에게도그이익이돌아가는상생의선순환구조가만들어져야한다고본다.

Ⅰ. 서론 1. 문제제기및연구의필요성 오늘날의광범위한뉴스콘텐츠를분석하기위해서포맷화된빅데이터분석이필요하다는의견이증가하고있다. 뉴스환경에서데이터소스가다양해지고있기때문이다. 데이터수집능력및이를분석하는기술이개발ㆍ보급되어보다다양한방식으로뉴스콘텐츠수집및분석이가능해졌다. 정치, 경제, 사회, 문화전영역의사안들을다루고있는뉴스의경우이를분석하는체계나원칙을수립하지않으면데이터분석과제가동일하다고하더라도전혀다른분석결과를얻을수있다. 즉, 내용이매우다채롭고이를수용하는계층역시다양하기때문에이에대한분석이정교하게이루어져야하는특징이있다. 뉴스콘텐츠데이터가대용량화되고있는오늘날에는더욱그러하다. 사실빅데이터는과거부터현재까지어느시대에나존재했다. 그러나이러한데이터의가치를높게평가하고이를분석하고자하는노력은최근디지털화된데이터가기하급수적으로늘어나면서가속도가붙고있는상황이다. 1) 뉴스콘텐츠도예외가아니다. 1990 년대말부터불어닥친인터넷열풍에힘입어최근뉴스콘텐츠는디지털화된형태로생산, 유통되고있다. 이러한디지털화된뉴스콘텐츠가체계화될경우어떠한텍스트데이터보다도높은콘텐츠적가치를가지게될것이다. 따라서이제는뉴스콘텐츠를디지털화된빅데이터로인정하고 1) 본연구진중일부는소셜미디어상의대용량데이터분석프로그램인 STAR 솔루션 (Social Text Analysis & Research Solution) 을적용하여빅데이터연구를수행한경험이있으며, 다양한분석알고리즘개발에참여한바있다. 빅데이터로서뉴스콘텐츠활용방안연구 1

이를체계화하려는노력이필요한시점이다. 본연구에서는빅데이터이슈가부각되면서논의되고있는데이터분류와유통의문제를뉴스영역으로끌어들여보다뉴스시장을활성화시킬수있는방안을제시해보고자한다. 빅데이터를처리하기위해개발되고있는알고리즘, 솔루션등을통해뉴스콘텐츠에대한저장, 처리, 분석체계에관한아이디어를제시할수있을것이며이를통해침체되어있는뉴스시장에활력을불어넣을수있을것으로기대한다. 결국뉴스콘텐츠도커다란정보시장의제품으로여겨져이를체계적으로관리하고유통시키기위해서는여타분야에서시행하고있는바와같이빅데이터관리체계를도입해야한다고보는것이다. 따라서, 본연구에서는뉴스콘텐츠에최적화된방식의데이터수집-유통의모델을산출함에있어보다정교한방식의적용모델을제시해보고자한다. 다음으로뉴스콘텐츠주요유통채널인포털및소셜미디어서비스등과연계한바람직한비즈니스환경에대해서도논의해볼필요가있다. 포털과소셜미디어는위치정보, 게임, 음악, 동영상, 쇼핑등의정보와결합하여새로운문화상품과서비스를창출하고커뮤니케이션의주요통로로활용되고있다. 최근에는이들서비스가제품소비및정보유통양식에결정적영향을미치면서소셜커머스, 소셜게임, 소셜검색, 소셜브라우저등다양한소셜서비스들이주목받고있다. 따라서이러한여파로인해기존에정보의저장소역할을했던종이신문의생산과유통량이급감하고있는것이며, 동시에포털과소셜미디어서비스는막강한영향력을확보해나가고있다고볼수있다. 본연구에서는빅데이터로서뉴스콘텐츠를다루는데있어키플레이어들에대해살펴보고이들의역할모델, 이익창출모델등을살펴봄으로써보다선순환적인비즈니스생태계를조망해보고자한다. 2

2. 연구목적 전술한바와같이현재디지털테크놀로지의발전으로사회전반에서생산된거의모든콘텐츠가저장돼축적되고있다. 이로인해 빅데이터 (big data) 에대한관심과이에대한활용이사회적관심의정점에있다고볼수있다. 뉴스콘텐츠는디지털기술과결합하여지난상당기간동안데이터축적이진행되어왔고, 다른영역의데이터와직간접적으로결합돼부가적이익창출의가능성을지니고있다. 따라서대표적인 빅데이터 라고볼수있다. 데이터가대용량화될때, 이를활용할수있는조건은당연히해당데이터에대한접근용이성, 혹은분석용이성일것이다. 본연구에서는뉴스콘텐츠가대용량화되어축적되어가는과정에서어떻게이러한콘텐츠들을효과적으로활용할수있을까에대해고민한다. 빅데이터로서뉴스콘텐츠는사회전반에대한새로운해석을가능하게해줄뿐만아니라, 새로운가치창출을필요로하는뉴스미디어및뉴스산업의활로가될수있기때문에이러한작업들은더가치를지닌다. 이렇듯본연구에서는빅데이터로서뉴스콘텐츠의가치를먼저살펴보고, 관련된이슈와사례를중심으로새로운가치창출및비즈니스방안모델을탐색적으로제안하고자한다. 빅데이터로서뉴스콘텐츠활용방안연구 3

3. 연구의구성 본연구는크게 6개파트로구성되어있다. 우선, 서론에서는현시점에서빅데이터로서뉴스콘텐츠활용연구가왜필요하며본연구가지향하는바가무엇인지에대해밝혀주고자한다. 다음으로빅데이터개념과동향에대해서살펴보고빅데이터가도래한오늘날의환경에서데이터베이스를도구로뉴스콘텐츠를생산, 유통하고있는현황에대해살펴보고자한다. 세번째파트에서는뉴스콘텐츠를대용량데이터로활용하면서뉴스를생산하고있는국내외사례들을살펴보고자한다. 또한, 기사나사진과같은콘텐츠에대한최근의생산, 유통방식에대해구체적으로살펴보고자한다. 이부분에서연구자는실질적으로뉴스콘텐츠가빅데이터로서더욱체계화될수있는방안에대해숙고하는계기를마련하게될것이다. 다음으로네번째파트에서는총 5개장에걸쳐현재뉴스콘텐츠기반데이터베이스의문제점과당면과제를도출해보고공익형뉴스플랫폼, 뉴스아카이빙시스템개선등을통해향후가능한사업영역들을살펴보고자한다. 그리고경쟁력있는빅데이터베이스 (BD) 운영모델을제안해보고자한다. 이파트에서는뉴스콘텐츠를정보서비스의핵심적소재로빅데이터환경에서가치있는비즈니스생태계모델을도출하는데목적이있다. 다섯번째파트에서는프리미엄뉴스분석서비스를제안함에있어기존의다양한빅데이터분석사례들을통해가능한뉴스분석솔루션에대해제시해보고자한다. 마지막으로결론및제언부분에서연구자는연구내용을통해어떠한시사점을얻었으며, 향후추가적으로수행이필요한연구내용에대해언급해보고자한다. 4

II. 빅데이터시대의도래 1. 빅데이터란무엇인가? 인간은데이터와함께생활해왔다고해도과언이아니다. 그러나데이터의폭발적생산이일어나고축적이활성화된것은최근에일어난일이다. 인간은소통을위해지난 5천년간이나기호나문자를사용했는데, 인간의역사를담은기록물들중에서약 90% 이상이최근 2년이내에작성되었다. 또한, 이들데이터중에서 80% 이상이인터넷댓글, SNS 문자등최근에데이터생산량이더욱늘어나고있는데이터이자, 사진이나동영상과같은비정형데이터인것이다 (OECD, 2013). 이러한환경변화를살펴볼때, 이제일상적인삶의기록들이데이터화되고이러한데이터를통해사회의트렌드를분석하고미래를예측하는일로빅데이터의가치를가늠할수있다. 이제까지하드웨어 (H/W) 에서소프트웨어 (S/W) 로기술의가치가변모하는시대를거쳐왔다면데이터자체에대한가치가주목받으면서기술의패러다임역시변화하고있는중이라고볼수있다 ( 신승중, 2012). 세계적인리서치자문기업인가트너 (Gartner) 는 2013 년트렌드가될만한전략기술 2) 들을발표하면서 모바일, 빅데이터 등을제시한바있다. 이중에서 빅데이터 란개념을제시하면서빅데이터가단순히소셜데이터의큰자료를고객데이터와결합하는의미라고하는데그치지않고, 비정형데이터를포함한전략적 2) 2013 년에부각되는전략기술들 : 모바일대전, 모바일애플리케이션 & HTML5, 퍼스널클라우드, 만물인터넷, 하이브리드 IT & 클라우드컴퓨팅, 전략적빅데이터, 실용분석, 인메모리컴퓨팅, 통합생태계, 엔터프라이즈앱스토어 (Gartner, 2013). 빅데이터로서뉴스콘텐츠활용방안연구 5

차원에서논의하였다. 지난 2011년맥킨지에서는 Big Data: The Next Frontier for Innovation, Competition and Productivity 라는보고서를통해빅데이터가사회의혁신, 경쟁, 생산력에있어프론티어의역할을할것이라는점을예견한바있다. 오늘날디지털환경과 IT 기술발전이데이터의개방, 접근그리고공유를가능하게하는원동력을낳았다. 이를통해방대한데이터의체계적인분석을통한부가가치창출과새로운고용의증대는시대의요구로인식되고있으며실제로데이터과학자, 즉데이터사이언티스트에대한중요성이부각되고있는추세라고할수있다. 빅데이터는용어로만놓고보면개념적으로 일반적인데이터베이스및소프트웨어로는관리하기어려운, 향후엑사바이트정도의크기를넘어설수있는정도의대용량데이터 를의미한다고볼수있다. 최근에는대용량데이터의수집, 저장, 분석기법등의의미가포함된용어로변모하고있을만큼 ( 강만모ㆍ김상락ㆍ박상무, 2012), 그영역이더욱넓어지고있는추세다. 하지만빅데이터의개념이단순히대용량의규모만으로규정되지는않는다. 빅데이터는크게데이터의크기 (Volume), 데이터의입출력속도 (Velocity), 그리고데이터의다양한형태 (Variety) 가 3대요소에속한다 (OECD, 2013). 데이터의속도란기존아날로그데이터환경에서와달리디지털화되고정형데이터화되는속도면에서향상되는정도를의미하며, 형태란정형, 비정형, 반정형데이터등데이터형태의정도를의미한다. 최근에는 IBM에서데이터진실성 (Veracity) 을기존의 3대요소에포함시켜 Volume, Velocity, Variety 와 Veracity 를빅데이터의 4V로정의하기도한다. 그런가하면빅데이터로인한가치도출의결과적측면에서 Value까지도추가적인요소로논의하고있는추세에있다. 사실상빅데이터는기존에존재하지않았던데이터의새로운출현이라고보기에는무리가있다. 그보다는기존의데이터가포맷화되고정형화될수있다는가능성의측면, 기술적인측면, 사회분석적인측면에서의미를찾아낼수있다. 빅데이터는데이터마이닝단계에서부터분석단계에이르기까지단계별로설명이가능한데, 크게저장, 검색, 관리, 공유, 분석, 추론의단계로정리해볼수있다 ( 정지선, 2011). 결국에는분석자가통찰력을발휘하여데이터가사회적으로 6

지니는의미를찾아내는것이관건이라고볼수있다. 빅데이터는분석의단계에이르기까지데이터베이스, 검색엔진, KMS, Web2.0의기술적인프라를거치게되는데이들단계들을통해빅데이터의분석시필요한기술공학-사회과학간의지적기반이필요함을가늠해볼수있다. < 그림 2-1> 데이터의과거 - 현재 - 미래 자료 : 정지선 (2011), 新가치창출엔진, 빅데이터의새로운가능성과대응전략 2. 글로벌트렌드로부상한빅데이터 2012년다보스세계경제포럼에서는 Big Data Big Impact 라는슬로건으로미래성장동력중하나로빅데이터를지목하기도했다. 물론, 빅데이터자체가산업을창출시키는효과를가져오는것이아니며빅데이터의다양한가공과분석방식으로야기되는사회적이익이반영된것이다. 정보통신기술의발달과여러산업간의융합이가속화되면서, 이를통해정형, 비정형의수많은데이터들이생성되고있다. 이러한현상에는스마트폰을위시한스마트기기의역할을빼놓을수없다. 즉, 스마트폰이확산되면서데이터의전달과공유가보다용이해졌으며, 여러유형의데이터가자유자재로신속하게변환되는, 바야흐로 빅데이터 시대가도래하게된것이다. 다음으로소셜미디어가확산된것도빅데이터가부각된현상과맥을같이한다. 소셜미디어가확산되면서우리사회에서데이터는양적이나질적으로급증했다. 소셜미디어를인터넷환경에서도출된부산물정도로여긴다면빅데이터환경에서 빅데이터로서뉴스콘텐츠활용방안연구 7

의역할을축소시킬수도있다. 그러나스마트기기환경과결합된소셜미디어서비스는커뮤니케이션네트워크를실시간으로연결시켰다는점에서중요한의미를지닌다. 사람들은이제스마트폰에탑재된소셜미디어를통해정형, 비정형, 반정형의데이터를무한정생산하고있는것이다. 이러한연장선에서대용량소셜텍스트의이슈화과정이연구의대상이되기도한다. 특히, 기존인터넷기반의데이터가저장이나검색을중심으로하는 2차적정보의확산과공유에일조했다면, 소셜미디어기반의빅데이터는사회의전체적인움직임을통찰해볼수있는포맷으로발전해나가고있기때문이다. 이러한포맷의데이터는기존데이터에비해방대하여기존의방법이나도구로는수집, 저장, 분석등이어렵다. 즉, 정형, 비정형, 반정형의데이터를분석가능한포맷으로변환시키는기술이필요한것이다. < 그림 2-2> 전략기술트렌드에따른영향 자료 : Gartner, 2013 이러한빅데이터열풍이일어나게된데에는여러이유가있겠지만이제사회적으 로데이터에대한규모를파악할수있게되었다는데에서그본질적인이유를 찾을수있을것이다. 빅데이터자체가지난수천년의역사속에서도존재했고 8

현재에도존재하고있는데이터라고한다면, 현재에는이러한데이터들의흐름을파악하고규모와형태를조망해낼수있는기술력이뒷받침된다. 따라서, 빅데이터를활용한부가가치는데이터양의증가와병행해더욱높아질가능성이존재한다고볼수있다. 최근전세계정보량의증가추이로살펴보아도이는그리놀라운일이아니다. 전세계적으로 2011 년에제타바이트시대로진입했을만큼, 데이터는기하급수적으로증가하고있으며 ( 한국정보화진흥원, 2013), 향후더욱빅데이터에대한관심이높아질것으로예측가능하다. 우리나라에서도 2013 년부터정부주도적으로빅데이터를성장동력화시키고자하는노력이지속되고있다. < 그림 2-3> 전세계정보량의증가와미디어의발달추이 출처 : 한국정보화진흥원 (2013) 이처럼, 전세계적으로디지털정보량생산이가속화되면서정보통신기술이다른산업과융합하여더욱방대한양의데이터를만들어내고있는것이다. 따라서지능화되고개인화된스마트시대에패러다임을주도하기위해서는빅데이터의활용이중요한능력으로꼽히고있다. 즉, 빅데이터분석기술이정보사회의승자를결정짓는경쟁력으로자리매김하고있는형국이다. 빅데이터로서뉴스콘텐츠활용방안연구 9

10 출처: IBM 홈페이지 (http://www.ibmbigdatahub.com/infographic/four-vs-big-data) <그림 2-4> 빅데이터의 4V 개념도

3. 빅데이터의활용과방법적적용 최근에는빅데이터를사회각계에서활용하려는다양한시도들이보인다. 국내삼성의료원은기존의환자정보를통합관리하고이를통해자살가능성이높은환자를찾아내미연에사고를방지하는시스템을구축하려고하고있다. 그런가하면, 경제분야에서는주식시장을예측하거나, 시장경기를판단하는데빅데이터를지표로활용하기도한다. 빅데이터는사람들이무심코남긴기록이나육감이데이터에반영되어있을때더욱가치를발휘하게된다. 이러한성질의데이터용량이기하급수적으로늘어날수록미래를예측할수있는가능성도높아질수있다. 미국의한보험회사에서사고를분석하는일에종사했던하인리히는보험사고에대한통계분석을하던중에큰사고이전에발생할수있는경미한사고들에대해발견한다. 그는경미한사고를통해큰사고가일어날수있는지표를발견할수있다고주장했는데, 이것이나중에하인리히의법칙 (Heinrich's Law) 으로정리되기에이른다 ( 함성원, 2013.5.24.). 하인리히법칙을통해서도알수있듯이정보의양적축적에따라미래에대한예측력이높아질수있는것이다. 따라서빅데이터에대한저장소는다양한영역에서대량의정보가축적될때더욱효과를발휘할수있어클라우드 (cloud) 시스템을활용한형태로빅데이터저장소가구성되는것이효과적이다. 아래 < 그림 2-5> 는빅데이터시스템을클라우드형태로구성해놓은시스템이다. 아래 < 그림 2-5> 에서볼수있듯이빅데이터에대한소스는모바일, 웹, 포털, SNS 등다양한채널을통해수집되고이러한데이터는문서, 칼럼, 그래프형태로처리되어 DB화된다. 소스가다양한만큼, 보다많은흔적들이데이터화되며이를통해데이터를통한예측력이확보되는결과를낳게되는것이다. 본연구에서는뉴스콘텐츠가빅데이터화되어데이터저장소에보관되는방식이나이를다시분석하여배포하는방식에초점을맞출것이다. 뉴스콘텐츠가텍스트나이미지와같은데이터로보관되거나이를다시분석하여인포그래픽 (info-graphic) 화하는작업은여타빅데이터와다르지않을것이다. 빅데이터로서뉴스콘텐츠활용방안연구 11

< 그림 2-5> 빅데이터시스템클라우드구성도 자료 : 빅데이터와클라우드시대 ( 윤용익, 김스베틀라나, 2013), www.hitech.co.kr 아래 < 그림 2-6> 은소셜텍스트빅데이터플랫폼을통해분석한결괏값에대한비주얼을소개한것이다. SOV(Share of Voice) 는여론점유율을뜻하는데웹이나 SNS에서퍼지는입소문정도를의미한다. 빅데이터를분석하고자한다면 SOV를통해기본적인이슈에대한현황을파악하고세부적인데이터분석체계를꾸려나갈수있을것이다. 또한, 감성분석 (sentiment) 을통해해당이슈의긍정이나부정적인정도를가늠해볼수있다. 그리고이슈들이어떠한언어들로구성되어있는지 (issue map) 와이슈들간의인사이트를비교 (insight comare) 하는등다양한분석결과를통해데이터를해석해볼수있다. 뉴스콘텐츠와관련된빅데이터는많은데이터형태중에서도텍스트데이터라는점을고려하여이에대한수집, 저장, 처리, 분석단계가면밀히체계화되어야하는점이특징이다. 12

자료 : e2on(2013) < 그림 2-6> 소셜텍스트빅데이터플랫폼의주요분석결과비주얼 SOV Sentiment Issue Map Insight Compare 빅데이터로서뉴스콘텐츠활용방안연구 13

아래 < 그림 2-7> 에서도살펴볼수있듯이크롤러를통해뉴스콘텐츠가실시간혹은최대 2시간단위로수집된다. 이렇게수집된데이터는비정형원문데이터로이를분석가능한데이터로변환해주는과정을거쳐야한다. 우선형태소분석을통해가장작은의미단위로쪼개서분석하며이를사전화하여구축 (indexing) 하는작업을거치게된다. 이러한작업이후에뉴스콘텐츠에속한텍스트가형태소별로스토리지화되면이들데이터를통해감성, 이슈, 트렌드분석등전술한바와같은분석을실시하게된다. 여기서다양한분석내용에기반하여알고리즘을각각다르게적용할수있으며해당알고리즘은시뮬레이션을통해최종적으로분석당사자에게채택되게된다. 분석을마친데이터는다시사전으로구축되어향후분석의횟수를늘리면늘릴수록보다정확하고예측력높은데이터분석결괏값을얻게된다. 이와같은방식으로뉴스콘텐츠에대한분류와 DB화가대략적으로진행된다. 14

자료 : e2on(2013) < 그림 2-7> 뉴스및소셜미디어등텍스트빅데이터의분석방식사례 빅데이터로서뉴스콘텐츠활용방안연구 15

III. 뉴스콘텐츠기반 DB 활용및유통현황 1. 국내외뉴스콘텐츠기반 DB 활용 1) 인포그래픽강조형 (1) 연합뉴스연합뉴스는인터랙티브뉴스전담팀을따로구성하고있으며연합뉴스데이터사이트를별도로운영하고있는데, 인터랙티브그래프에관해서는타뉴스사이트에비해선도적으로운영하고있는특징이있다. < 그림 3-1> 연합뉴스의미디어랩이운영하는데이터 visualization 사이트 16

관련사례를살펴보면데이터를이용하여다양한형식의인터랙티브그래프와차트를생성할수있게함으로써개방형시각화 (visualization) 사이트를구축하고있다. 그러나사용자가해당사이트에서올린데이터는공개하지않는원칙을고수하고있다. < 그림 3-2> 연합뉴스미디어랩사이트에서제공하는포토맵기사 빅데이터로서뉴스콘텐츠활용방안연구 17

또한, 연합뉴스가제공하는인터랙티브뉴스서비스사이트를별도로설치하여데이터시각화와정보그래픽을중심으로한기사를게재한다. 빅데이터라기보다는데이터기반의기사를생산하는것에더가깝다고할수있다. 또한, 빅데이터기사의인기도를면적으로알수있는트리맵, 주요이슈와사진을해당위치정보와함께표시한포토맵등다양한기능을이용자들에게제공하여데이터를활용한뉴스콘텐츠의흥미를유도하고있다. 연합뉴스가보여주는데이터활용사례들은시각적다양성에서그특징을찾을수있다. 빅데이터에서부각되는분야인비쥬얼라이제이션, 인포그래픽분야는단순히디자인의화려함을의미하지않는다. 그보다는대량의정보가어떻게구조적으로시각화되고얼마나독자에게해석적이해도를높여줄수있느냐가관건이된다. 이러한점에서연합뉴스의뉴스콘텐츠기반 DB는이전의사례들보다더욱시각적차원에서새로운시도를하고있다고볼수있다. 이해도는높이면서단순함을강조하여기존의복잡한도표나도식으로이루어진기사들에비해결코중량감이떨어지지않는다고볼수있다. 오늘날데스크톱 PC보다노트북판매량이늘어나고스마트폰이나태블릿PC 의출하량이 PC전체의출하량을넘어서며종이신문보다인터넷신문의구독량이늘어나고있다. 이러한현시점에서데이터시각화의차별성이곧언론사의차별성으로이어질수있다. 연합뉴스의전략은이러한뉴스영역의현세태를반영하여바람직한방향으로추진되고있다고본다. < 표 3-1> 연합뉴스의뉴스콘텐츠기반 DB 활용사례 사례별링크 데이터를이용한다양한형식의인터랙티브그래프및차트생성 http://data.yonhapnews.co.kr 인터랙티브뉴스서비스사이트 http://www.yonhapnews.co.kr/medialabs 18

(2) 뉴스젤리뉴스젤리는빅데이터로데이터베이스를분석해뉴스콘텐츠를생산하는 ' 빅데이터저널리즘 ' 스타트업에해당한다고볼수있다. 내부적으로는빅데이터의대중화가목표이며, 인포그래픽을자사의차별성으로꼽고있다. 따라서매우다채로운방식으로그래프를생성시키고이를기사화하여상대적으로그래픽시각에익숙한연령층을유도하고있다. < 그림 3-3> 뉴스젤리의데이터활용뉴스생산사례 뉴스젤리는다양한인포그래픽을제공한다. 아래 < 표 3-3> 에제시된철도민영화혹은경제관련인포그래픽은기존에경험하지못했던새로운방식의그래픽기사를선보이고있다. 뉴스젤리의빅데이터활용방식은엔터테인먼트적인요소가매우강하게나타나 빅데이터로서뉴스콘텐츠활용방안연구 19

는것이특징이다. 이는오늘의예능적요소들이주류미디어포맷으로등장하는현상과맞닿아있는부분이다. 전세계적으로스마트기기가판매되기시작한시점부터단시간내에강렬한임팩트를줄수있는콘텐츠에대한미디어이용자욕구는더욱증가했다고볼수있다. 즉, 이용자들이주요콘텐츠소비채널을웹이나앱으로상정하는한, 웹툰이나웹소설같이기존활자매체생산방식이변화된형태는더많이등장할수있다. 이점에서뉴스젤리서비스는신세대미디어이용자들의시각적만족감을극대화할수있게된다. 많은데이터를활용할수있다는얘기는달리표현하면그만큼뉴스의소재가늘어났다는의미이다. 뉴스소재의증가는뉴스의연성화로이어질수있는데, 뉴스젤리는연성화되고있는뉴스의소재들만으로자구책을마련할수없는뉴스시장에서연성적인방법론을제시했다는점에서도의미를찾을수있을것이다. 사례별링크 < 표 3-2> 뉴스젤리의뉴스콘텐츠기반 DB 활용사례 요동치는선거판세, 서울을잡아라 2 탄 후보들의말속에나타난핵심공약 http://newsjel.ly/issue/election2014_seoul2 철도민영화 http://newsjel.ly/interactive/rail_privatization 누가국가경제를이끄는가? http://chaebols.newsjel.ly 선택 2014, 당신의선택을응원합니다. http://election.newsjel.ly (3) The New York Times 뉴욕타임스는심층적인데이터분석보다는인포그래픽에중심을두고있다. 2012 미국대선에서데이터저널리즘과인포그래픽기반의선거보도서비스를선보인바있다. 프로퍼블리카와함께미국지역데이터저널리즘을선도하고 20

있다고볼수있다. 아래그림은 55개의산업별로 2008년의리먼쇼크를전후해서의트렌드를보여주는기사이다. 사례별링크를통해구글맵서비스와연동하여인포그래픽을생성하기도하며다양한시도를하고있는특징을보인다. 이는분석단계에서언급될수있는데이터가공포맷의문제와도연결된다. 따라서이종데이터간의결합을유도할수있는데이터포맷의체계적통일은결국이종산업간에서비스접점을발굴해내고이를통해부가적인서비스가치를생산해낼수있게한다. < 그림 3-4> 뉴욕타임스의데이터활용기사생산사례 따라서, 구글의데이터와뉴욕타임스의기사생산방식이만나는접점은단순히서비스의결합을의미하는것이아니라뉴스생산의가장기반이되는생산체계를건드리는차원에서해석해야한다. 오늘날뉴스콘텐츠가주로소비되는공간은인터넷을기반으로하는플랫폼이다. 그러나아직까지도온라인플랫폼에걸맞은뉴스기사서비스방식은그가능성에비해매우협소한정도의기술이나서비스 빅데이터로서뉴스콘텐츠활용방안연구 21

개발의시도가이루어지고있는정도이다. 뉴스기사정보의원천이나단초가웹이나앱에축적된정보데이터에서비롯되는현실을감안해볼때디지털화된정보간의결합이다차원적으로이루어질수록정보이용자의입장에서더욱흥미있는기사이용경험이유도될수있다. 그러나포털서비스가뉴스를생산하는언론사와항상경쟁관계로인식되었기때문에협업가능한시스템자체가논의되기어려운시장구조에있었다. 이러한측면에서뉴욕타임스는구글이라는플랫폼사업자와개방적비즈니스스탠스를취함으로써오히려새로운기회를제시하고있다고볼수있다. < 표 3-3> 뉴욕타임스의뉴스콘텐츠기반 DB 활용사례 사례별링크 지역별인종분포지도 센서스자료를구글맵서비스와결합 http://projects.nytimes.com/census/2010/explorer The Hunt for the Boston Bombing Suspects http://goo.gl/s0wuf1 Election 2012 http://elections.nytimes.com/2012 2) 데이터활용및재생산기능형 (1) 매일경제매일경제의경우데이터저널리즘에대한개념이제시되기이전에외부연구진의도움으로 100억건의티머니빅데이터분석을시도한경험이있다. 그리고 평균 적인서울시민의하루의제시, GIS분석을통한지역별유동인구시각화, 유동인구통계를범죄데이터에연계한최초의분석사례들선보이면서다양한데이터저널리즘테마를선보이는데앞장서고있다. 이는국내신문의빅데이터활용사례중에서는매우유용한가치를보여주는사례라고볼수있다. 우선, 외부인력의전문성에기반해데이터분석노력이이루어졌다는점에서 22

매일경제사례는이례적이다. 기존의뉴스서비스의경우내부인력을통한데이터수집과분석이이루어지는것이일반적이었고이러한공식이지켜지지않을경우전문성과저널리즘적진정성에서의이견에직면해야했다. 그러나데이터가대용량화되고있는현시점에서는데이터마이닝, 분석, 해석분야에서여러분야의인력활용이필수적이다. 이러한점에서매일경제의사례는모범적이라고본다. 다음으로위치정보에대한새로운해석적데이터를제시한것이특징이라고볼수있다. 기존데이터를활용한뉴스의경우시간에대한양적지표를소재로삼는경우가많았다. 디지털화된데이터를활용할경우데이터활용폭이나정보재생산이더욱활발하게이루어질수있는분야가공간데이터분야이다. 이러한측면에서매일경제의 GIS 활용사례는향후뉴스콘텐츠에해당분야의사례가더욱활성화될것이라는기대감을갖게한다. 또한, 아래사례들에서도살펴볼수있듯이매일경제의 DB 활용사례는경제전문지의성격을반영해 2차적인기사가생산될수있는여지를낳았다는점에서의미가있다. 경제전문지의기사들이한사회의경제활동에미치는변인들을다루고있다면, 데이터의활용을통해경제활동의결과를낳은더많은독립변인을유추할수있는계기를마련하고있다고볼수있다. 가령서울사람들의하루의활동범위, 시간, 감정이나정서등을계량적수치로수집하고분석하여이를한사회의경제적성과지표들과연관시켜다양한해석을시도해볼수있을것이다. < 표 3-4> 매일경제의뉴스콘텐츠기반 DB 활용사례 사례별링크 보통서울사람의하루 http://news.mk.co.kr/newsread.php?year=2005&no=430787 http://news.mk.co.kr/newsread.php?year=2005&no=430801 유동인구기반범죄데이터분석 http://news.mk.co.kr/newsread.php?year=2005&no=437801 지리학적분석물 http://news.mk.co.kr/newsread.php?year=2005&no=438082 http://news.mk.co.kr/newsread.php?year=2005&no=432428 빅데이터로서뉴스콘텐츠활용방안연구 23

(2) The Guardian 유럽지역에서데이터저널리즘을선도하고있는영국주요일간지이다. 사이먼로저스가이끌어온가디언의데이터저널리즘은데이터심층분석을기반으로고품질뉴스콘텐츠를지향한다. 가디언은활용된데이터를공개하는정책을유지하고있다. < 그림 3-5> 가디언 (The Guardian) 의데이터활용뉴스생산사례 가디언의데이터셋은가디언데이터 (guardian data) 와데이터블로그 (data blog) 에축적되고있다. 가디언은수집한데이터의 API(Application Programing Interface) 를공개해관련데이터를활용한또다른데이터서비스를만들수있게적극권장하고있는것이특징이다. 전세계언론사중에서는데이터를공개해많은사용자들이사용할수있게하는유일한언론사에해당한다고보아도무방하다. 위의그림은미국의주별동성애자권리의실태를일목요연하게보여준기사이며, 이를통해세계편집인네트워크 (Global Editors Network) 가수여하는데이터저널리즘본상을수상하기도했다. 24

가디언의사례가국내사례와다른점은기존에접근가능하지않았던뉴스에대해데이터를활용한해결책을제시해줬다는데있다. 결국빅데이터는기존의통계만으로해결되지않는부분에대해콘텐츠를생산해낼수있다는점이특징인데, 가디언의사례는이러한측면에서중요한시사점을던져준다. 지역성, 소수자문제는뉴스가지향해야하는뉴스소재였음에도불구하고이에대한데이터가부족한것이사실이다. 가디언은이러한측면에서새로운데이터활용저널리즘의기능을선보이고있는것이다. 특히, 사람들이무의식적으로남기는흔적들을정형데이터로변환하는작업을통해데이터접근성은더욱높아질수있을것이다. 가디언의이러한전략을통해, 서드파티의사업자들에게새로운비즈니스모델을기획하게함으로써산업군별상생적사업영역을창출해내는효과도얻을수있다. < 표 3-5> 가디언 (The Guardian) 의뉴스콘텐츠기반 DB 활용사례 사례별링크 Gay Rights by State http://www.guardian.co.uk/world/interactive/2012/may/08/gay-rights-un ited-states How riot rumours spread on Twitter http://www.theguardian.com/uk/interactive/2011/dec/07/london-riots-t witter 3) 오픈데이터매개형 (1) Propublica 데이터저널리즘에특화된비영리저널리즘형태를보여준다. 심층보도를강화함으로메이저뉴스콘텐츠를 1년에 3~4개꼴로생산하고있는것이특징이다. 가디언과같이데이터셋 (data set) 을공개하는정책을고수하고있으며방대한양의분석결과를인터랙티브요소를극대화한인포그래픽으로기사화하고있다. 아래그림은데이터를공개하여독자가볼수있게섹션을구성한화면이다. 빅데이터로서뉴스콘텐츠활용방안연구 25

< 그림 3-6> 프로퍼블리카 (Propublica) 의데이터활용뉴스생산웹사이트 공립학교의 AP 수업이수율과각지역의소득을연계하여분석한기회의차이 (The Opportunity Gaps) 를보여준다. < 그림 3-7> 프로퍼블리카 (Propublica) 의데이터활용뉴스생산사례 26

사실데이터셋을공개한다는원칙은경우에따라전체뉴스시장에장점과단점으로작용할수있는데현재시점에서는시장에순기능적역할을할것으로기대된다. 왜냐하면뉴스에대한재평가내지는재검색이이루어질수있기때문이다. 데이터를공개하는순간이에대한새로운시각의해석이등장하게되고독자층에서 2차적인내용의뉴스를재생산해낼수있는여력이생긴다. 또한해당데이터를활용한 2차서비스시장이활성화될수있어오히려언론사입장에서새로운시장의창출이가능하다고볼수있다. 무엇보다이러한데이터공개전략은해당데이터를활용하고자하는이용자들에게친화적인인터페이스가제공될때그효과를발휘할수있다. 아무리좋은뉴스데이터나분석툴이존재한다고해도그것을데이터수집단계나분석단계에서용이하게이용할수있느냐가매우중요한이용률제고의요인이된다는얘기다. 이러한측면에서도프로퍼블리카의뉴스콘텐츠기반 DB 활용의사례는이용용이성이부각된 UI의전형을보여준다고할수있다. 프로퍼블리카는또한심층보도의기사내용구성상데이터베이스의활용지점을설명해낸다는측면에서의미를보인다. 기존의심층보도방식은주로기자의인적네트워크나기사작성에투입되는시간적노력, 해당사안을바라보는전문적지식등에의해내용의질이평가받았다고해도과언은아닐것이다. 그러나데이터베이스를기반으로심층보도가이루어질경우데이터마이닝체계구성, 이종데이터간의결합, 데이터분석만으로설명하기어려운부분의방법론적보완등에의해내용적평가가이루어질것이다. 프로퍼블리카는이러한양질의심층보도포맷을제시하고있으며특히결합되어내용을창출하기어려울것같은이종데이터간의결합을통해새로운시각의심층보도형태를제시하고있다고볼수있다. < 표 3-6> 프로퍼블리카 (Propublica) 의뉴스콘텐츠기반 DB 활용사례 사례별링크 Tools & Data http://www.propublica.org/tools The Opportunity Gap http://projects.propublica.org/schools 빅데이터로서뉴스콘텐츠활용방안연구 27

(2) OKFn(Open Knowledge Foundation) 영국의개방형지식재단 (Open Knowledge Foundation) 은공공데이터개방의필요성과활용을촉진하기위한프로젝트를진행하고있으며, 오픈데이터 (open data) 운동을펼치고있다. EJC와데이터저널리즘 (Data Driven Journalism) 프로젝트를함께하고있다. 오픈데이터운동은개방과공유의웹정신이반영된결과라고본다. 결국데이터는모두오픈되어야하고이를통해서국민의알권리가충족될수있다면뉴스는그자체로역할을모두발휘하고있다고보는것이다. 본사례를통하여저널리즘적가치에대한재해석이이루어질수있으며이에대한단초가빅데이터에있다는것을알수있다. < 표 3-7> OKFn 의뉴스콘텐츠기반 DB 활용사례 사례별링크 Where does my money go? http://www.wheredoesmymoneygo.org Europe s energy http://energy.publicdata.eu (3) IBM IBM은빅데이터에관해선도적인그룹에해당한다. 데이터저널리즘에활용될만한공간으로는내부에서진행된여러프로젝트중에시각커뮤니케이션연구소인 many-eyes.com 을들수있다. 여기서는공공데이터시각화플랫폼을활용하여누구든데이터를올리고데이터시각화가가능하게되어있다. 데이터를새로운방식으로시각화하고이를통해기사의정보전달을용이하게할수있다는차원에서뉴스콘텐츠에활용될요소가많은것이특징이다. 즉, 이용자참여형데이터생산플랫폼인데여기서이용자는기사생산의주체인기자가될수있다. 혹은기사에서생산된데이터를업로드하고이를통해 2차분석을시도하고자하는독자층이 IBM 빅데이터서비스의고객이될수도있다. 28

IBM 의경우기사의스토리텔링을기획하고구성할수있는방법적툴을제공한다고보아도과언이아니다. 특히공공데이터의시각화플랫폼은기사작성에있어근거가될만한대부분의통계수치들을알기쉬운영상으로표현가능하다는점에서기사작성에기여하는부분이클것으로판단된다. 결국기사의공신력은기사를구성하고있는객관적데이터에의지할수밖에없다는점을생각해본다면, 공공데이터가즉각적으로시각화되는기능은기사의생산자로하여금기사아이템에더많은시간을할애할수있게할것이다. 이를통해기자직업군의업무피로도를낮추고성과나생산성을향상시키는결과를가져올수있는것이다. 아직도많은기사가생산될때데이터를시각화하고디자인하는데많은인력을투입해야하고정보의소스를구하는데도발품을팔아시간을소비해야한다. 이러한기사생산단계의상황에서 IBM 이제공하는서비스는획기적으로기사생산시스템을변화시킬수있다. < 그림 3-8> IBM 의데이터활용뉴스생산사례 빅데이터로서뉴스콘텐츠활용방안연구 29

4) 독자참여및해석강조형 (1) 스마트뉴스제공서비스스마트뉴스제공서비스는주관기관이차세대융합기술연구원이며, 참여기관이서울대학교산학협력단과 ( 주 ) 이스플러스이다. 해당서비스는카인즈기사아카이브를이용하여뉴스기사들을주제별로수집하고, 텍스트마이닝, 소셜네트워크분석, 빅데이터처리를통해뉴스요약및시각화서비스를제공하는모바일앱, 뉴스앱등을개발중에있다. < 그림 3-9> 스마트뉴스의데이터활용뉴스생산사례 이러한서비스는카인즈라는기존의아카이브를활용했다는데서특징과의미를부여할수있다. 카인즈는이제까지뉴스검색에있어커다란역할을하였음에도불구하고이에대한활용사례가부족했던것이사실인데이러한차원에서 UI, UX의활용가능성을보여줬다는측면에서의미가있다. 소위웹 1.0, 2.0, 3.0 시대를거쳐오는동안서비스의형식이변화된결과물을살펴보면이용자참여형서비스, 혹은정보의공유서비스등이등장하였다. 또한, 프로슈머와같이정보를생산하는동시에소비하는개념의미디어이용자도생겨난 30

것이사실이다. 이러한현상은미디어이용자들의적극적이용행태를반영하는것이다. 따라서, 향후검색정보에기반한뉴스서비스는이용자 분석 참여형서비스로전이될수있다. 스마트뉴스제공서비스는이용자가분석에직접참여하고이를통해결과를독자적인방식으로해석할수있도록유도한다는차원에서매우전향적인시도다. 물론, 분석의대상이되는데이터를수집하거나그것을분석하는것은프로그램이나알고리즘의몫이된다. 그러나, 이용자들에게분석의 경험 을제공하여뉴스의해석에 참여 하고있다는인식을심어줌으로써참여형콘텐츠로서뉴스의가능성을제시하고있다는점이기존과차별적인것이라본다. 이러한스마트뉴스제공서비스가향후검색단계이외에분석단계에서의알고리즘에서더욱다양화된서비스를선보인다면더욱효용가치가높은뉴스제공포맷으로기능할수있을것이라본다. (2) CEO 스코어기업및 CEO 의경영성적을평가하는사이트이다. 빅데이터분석을통해경제기사의깊이와시의성을같이가져가는전략을취하고있는것이특징이다. 기업의여러성과들을다각적인측면에서평가하며, 순위를매겨실시간으로알려주고있다. 현재는국내 500대기업 2만여명임원의데이터를분석하는작업을진행중에있다. CEO 스코어의서비스형태는초창기소셜미디어등장시기에발견되는성격과매우유사한측면이있다. 타인에대한관심이나비교에대한욕구같은미디어이용자성향들은프로필보기, 친구맺기, 가격비교, 댓글평가, 추천등과같은이용형태를활성화시킨측면이있다. 페이스북의서비스원형이인물평가였으며트위터서비스가짧은댓글을모델로하였다는점을살펴봐도이러한점들은쉽게이해할수있다. CEO 스코어의경우에도이러한관점에서성장가능성을보여주는요소가있다. 취업이나창업과같은경제활동이사회적으로관심을더욱받고있는시점에소위성공가도를달리고있는기업의수장의성과를평가한다는것은경제영역의전문가뿐만아니라일반사람들에게도매력적인소재로다가올수있다. 특히, 기존 빅데이터로서뉴스콘텐츠활용방안연구 31

뉴스들에서는 CEO의성과에대해주먹구구식의일방향적인지표를제시했다고하면 CEO 스코어에서는 CEO 를평가하고판단해볼수있는대량의데이터를제공하고있다는점에서특징이있다. 또한, 무엇보다인물에대한판단에큰관심을보이고있는최근경향에따라 CEO의경제적가치로해당인물을판단해볼수있다는소재는매력적일수있다고본다. (3) 뉴스타파비영리탐사보도전문언론으로 2013년부터데이터저널리즘부서를설치하고핵심역량으로키우고있다. 2012 대선당시논란이되었던국정원 SNS 팀의실체를트윗데이터분석을통해밝혀내었으며, 조세피난처에조성된국내자금들을폭로하는과정에서크라우드소싱저널리즘을도입하고있다. 국내데이터저널리즘의 1인자인권혜진박사가데이터저널리즘에디터로재직중에있으며, 영상중심의보도나인포그래픽뉴스형태는아직미미한수준에불과하다. (4) BBC BBC는데이터저널리즘파트를비주얼저널리즘 (Visual Journalism) 분야로접근하고있는것이특징이다. 데이터분석의시각화방안으로인터랙티브요소를가미한영상및그래픽을주로활용하고있는것도특징중의하나이다. < 그림 3-10> BBC 의데이터활용뉴스생산사례 32

방송시장에서새로운시도를하는 BBC의철학처럼다채로운인포그래픽을통해다양한독자층에대한정보전달효과를극대화하고있는것이특징이다. 즉, BBC 는인포그래픽을저널리즘의다양성차원에서접근하고있는것으로보인다. 이는뉴스초창기에겪었던문맹자들에대한생산자적고민이반영된것으로도볼수있다. 항상언론사는더많은독자에게자사의뉴스가전달되기를원한다. 신문뉴스가보편화될당시에독자층간지식수준에따른문자의해독의문제가가장신문성장에큰장애물이었다. 따라서, 서구사회에서연성화된뉴스보도는어느정도독자층확대에기여했다고볼수있다. 당시에는기사의내용적평준화가다양한독자층의흡수에영향을미친것이다. 첨단기술과자본주의발달에있어속도를가늠하기어려운오늘날에는점점더많은언론사가계량적수치나과학적방법론에의거한기사생산을요구받고있는상황이다. 그러나데이터의수치가제대로가공되지않은상태로전달되거나불분명한이론적해석을제시하거나혹은복잡한분석과정에기반된다고하면독자들의기사에대한이해도나흥미도는저하될수밖에없다. 마치이전에는내용에대한해독문제가독자확보에중요했다면현재는수치를분석하고해석하는문제가언론사의구독확보에중요한영향을미치게되는것이다. BBC의이러한고민은상호작용성이강조된기사방식에서드러난다. 독자는데이터생산과정에서응답자로혹은데이터의한부분으로참여가가능하다. 독자는언론사의조사내용에대해질문을받는순간기사의맥락에대해유추할수있고궁극적으로는기사의전체적인그림을통해이해력을높일수있고흥미까지확보할수있게되는것이다. 사회적으로계량적수치나과학적해석의중요성이더욱커지고있는요즘, BBC의전략은단순히인포그래픽의다양성을강조하고있는것이아니라다양한독자들에대한중요성을크게보고있다는점에서큰의미를보인다. 빅데이터로서뉴스콘텐츠활용방안연구 33

< 표 3-8> BBC 의뉴스콘텐츠기반 DB 활용사례 사례별링크 Fuel price calculator: How much do you pay? http://www.bbc.co.uk/news/business-21238363 The Great British class calculator: What class are you? http://www.bbc.co.uk/news/magazine-22000973 (5) The Texas Tribune 광고없는디지털비영리대안언론에해당한다. 최근에는빅데이터를활용한데이터저널리즘과시민참여저널리즘에주력하고있다. 교육, 교통, 환경, 에너지등텍사스주의주요정책뉴스와방대한분석콘텐츠를제공하는것도특징이라고할수있다. < 그림 3-11> 텍사스트리뷴 (The Texas Tribune) 의데이터활용뉴스생산사례 34

빅데이터활용분야에서가장강조되어야하는분야중의하나가시민참여저널리즘분야이다. 많은종류의데이터를분석하는방법과해석하는방법은그데이터의수에비례해나타난다고볼수있다. 따라서, 시민참여저널리즘이발달할수록데이터저널리즘의형태도다변화될수있다고본다. 2. 국내외뉴스콘텐츠기반 DB 유통현황 3) 1) 기사콘텐츠현황 문화체육관광부에따르면, 2013 년 12월31 일현재문체부에등록된정기간행물은총 1만 6,043 종이다. 이중종합일간지는 158 종, 주간신문 1,030 종, 인터넷신문이 4,913종등에이른다. 인터넷신문의확산으로인해등록매체가과거에비해크게늘어난상황에서, 이들정기간행물의모든콘텐츠를통합해서저장하고관리하는데이터베이스는현실적으로존재하지않는다. 신고만으로간행물등록이가능한상황에서문체부의정기간행물등록대장에는올라있지만실제로발행이중단된매체도상당수인것으로추산되는데다, 자체적으로도뉴스콘텐츠 DB를구축하여운영할수없는영세한매체도적지않은것으로추정된다. 따라서모든매체를아우르는뉴스콘텐츠데이터베이스를형성한다는것은현실적으로어려운일이다. 뉴스DB의범위를언론사로서의지명도와사회적신뢰도를갖추고있으면서뉴스콘텐츠를꾸준히생산하는이른바주요매체들로한정한다면, 언론사통합의뉴스콘텐츠데이터베이스는크게공적영역과민간영역의두곳에서집적되어관리되는것으로파악이되었다. 공적영역의뉴스콘텐츠데이터베이스로는국내에서는유일하게한국언론진흥재단이구축해운영하는한국통합뉴스데이터베이스시스템 (KINDS, Korean Integrated News Database System) 이있다. 카인즈는지난 1991년부터한국언론 3) 해당내용은 TCN 미디어의 2013 년자료를인용하였다. TCN 미디어가수행하는업무는 B2B 의콘텐츠이용라이선스판매 로일반독자를대상으로한유료콘텐츠서비스와는성격이다르므로자료해석시이를감안해야한다. 빅데이터로서뉴스콘텐츠활용방안연구 35

진흥재단이서비스하고있는통합뉴스검색서비스를말한다. 현재카인즈에는 1990년 1월1일이후서울지역의 10개종합일간지를비롯해 25개지역일간지, 9개경제일간신문, 지상파 3사의방송뉴스, 10개인터넷신문, 1개영자신문등의기사콘텐츠가축적되어있다. 재단에따르면, 카인즈에수록된전체기사콘텐츠건수는대략 3,000만건이며, 종합일간지에서만매일 1,500건의기사콘텐츠가추가적으로등록되고있다. 이밖에도카인즈에는독립신문, 대한매일신보, 황성신문등의고 ( 古 ) 신문이 DB화되어있어국내외의언론관련연구와조사에두루활용되고있다. < 표 3-9> 카인즈뉴스콘텐츠 DB 현황 구분 수록건수 전국종합일간지 8,381,972 영자신문 199,323 지역종합일간신문 7,492,665 인터넷. 전문신문 2,071,218 지역주간신문 106,950 경제일간신문 9,938,540 시사잡지 212,882 TV뉴스 2,461,090 합계 30,864,640 < 표 3-10> 카인즈에수록된고 ( 古 ) 신문리스트 구분 한국언론진흥재단구축 한국역사정보통합시스템제공 고 ( 古 ) 신문명 한성순보, 한성주보, 독립신문, 독립신문 ( 영문판 ), 협셩회회보, 매일신문, 황성신문, 대한매일신보, 대한매일신보 ( 영문판 / 국한문판 ), 매일신보, 시대일보, 중외일보, 중앙일보, 조선중앙일보 공립신보, 국민보, 대공보, 독립신문 ( 상해발행 ), 북미시보, 선봉, 신한민보, 시대일보, 중외일보, 중앙일보, 조선중앙일보, 대한민보, 태평양주보, 대동공보, 한민, 단산시보, 신한국보, 권업신문, 해조신문 자료 : 한국언론진흥재단 카인즈에는조선일보와중앙일보콘텐츠가빠져있으며, 다종다양한잡지와 인터넷신문을전반적으로수용하고있지는않다. 또한공익적인 DB 모델로자체적 수익모델이없어그동안추가적인뉴스콘텐츠 DB 화에어려움을겪어왔다. 뉴스검 36

색이외에민간영역에서이 DB를제3의응용서비스에활용하기도쉽지않았다. 그렇지만, 카인즈의뉴스 DB는일반에공개된유일한언론사통합의뉴스콘텐츠 DB로사회의중요한정보인프라로서의미가있다고할수있다. 한국언론진흥재단에서는카인즈를국가적뉴스아카이브로전환하고이를활용한빅데이터분석시스템을구축하는중장기사업을추진하고있다. 일단 2015 년 22억의예산을편성하여 1차년도사업을준비중이다. 민간영역의기사콘텐츠 DB는주요언론사들이각자스스로구축한 DB 이외에포털사이트인네이버의 뉴스라이브러리 를꼽을수있으나, 이뉴스라이브러리에는동아일보, 경향신문, 매일경제와한겨레등 4개매체의뉴스콘텐츠만수록되어있을뿐이어서통합뉴스 DB라고하기에는부족함이있다. < 표 3-11> 네이버뉴스라이브러리수록매체와서비스기간 동아일보 구분 네이버에서서비스되는발행연도 1920.4.1.( 창간 ) ~ 1999.12.31. ( 일제강점기의제 1~3 차무기정간, 40~45 년의강제폐간, 1950 년 6.25 전쟁기간중의일부등발행중지기간제외 ) 경향신문 1946.10.6.( 창간 ) ~ 1999.12.31. (1950 년 6.25 전쟁기간중의일부, 1959~1960 년의폐간기간등은제외 ) 매일경제 1966.3.24.( 창간 ) ~ 1999.12.31 한겨레 1988.5.15.( 창간 ) ~ 1999.12.31 네이버뉴스라이브러리는인터넷뉴스가대중화되기이전인 1920~1999년까지발행된종이신문을원형그대로디지털화하여웹에구현한뉴스아카이빙서비스이다. 해당언론사의동의를얻어신문지면을일일이스캔한뒤이를기사별로분리하였으며, 지면의면수기준으로약 77만여면이디지털화되어온라인서비스되고있다. 일반인이무료로인터넷을통해종이신문의지면그대로과거의뉴스기사를열람할수있는유일한서비스이다. 네이버라이브러리는종이신문의디지털복원과신문원형그대로의웹서비스라는점에서의미가있다. 하지만, 뉴스콘텐츠저작권자인언론사들의참여거부로인해네이버뉴스라이브러리는일부신문사의제한적인 DB서비스에그치고말았으며, 옛뉴스콘텐츠를찾는사용자들도적어네이버전체서비스중에서는부각되지 빅데이터로서뉴스콘텐츠활용방안연구 37

않은비인기서비스로전락한상태이다. 이와관련해네이버는뉴스라이브러리에대한투자도전면중단함으로써앞으로이서비스의확장을기대할수도없는상황이다. 언론사통합뉴스 DB를보유하고활용하는일은네이버보다민간기업들에서더잘이루어지고있다. 흔히 뉴스스크랩서비스 제공사업자로지칭되는이들기업은뉴스부문저작권신탁관리기관인한국언론진흥재단의유통대행사로서매일전국의각종신문을디지털형태 (PDF) 로수집하여자체적으로뉴스DB를구축하고이를전자적으로열람할수있게서비스하고있다. 이들은신문지면 PDF를개별기사단위로자르고메타데이터를입력하는등의방식으로가공한다. 그리고이를정부, 지자체, 공공기관, 기업등에뉴스스크랩기능과함께제공한다. 이들이전국주요신문을빠짐없이가장빠르고체계적으로 DB화하고있다고볼수있다. 하지만지면PDF 가공수수료를저작권자로부터받아서구축한데다지속적인 DB 보유권한이없다는한계를가지고있다. 따라서한국언론진흥재단의텍스트기반 DB인 < 카인즈 > 와통합해공공적뉴스아카이브로전환하는것이더욱효율적일것으로보인다. 이처럼전국신문의통합 DB화작업이가능했던이유는이들서비스상품이본질적으로디지털뉴스유료판매사업과정에서판매를전제로구축되었으며저작권자인언론사에수익을배분하는모델이기때문이다. 즉, 중앙전국종합일간지를비롯한대부분의신문들은수익사업의일환으로별다른갈등없이디지털지면 (PDF) 를제공하고있는것이다. < 표 3-12> 비플라이소프트 아이서퍼 DB 의중앙지, 경제지, 스포츠지수록현황 구분매체수수록매체 중앙지 14 경향신문, 국민일보, 내일신문 ( 석간 ), 동아일보, 매일일보, 문화일보 ( 석간 ), 서울신문, 세계일보, 아시아투데이, 조선일보, 중앙 Sunday( 월 ), 중앙일보, 한겨레신문, 한국일보 경제지 22 건설경제, 국토경제 ( 화 ), 그린경제 ( 수 ), 매일경제신문, 머니투데이, 부산파이낸셜뉴스, 서울경제, 시사경제신문 ( 월 ), 신소재경제신문 ( 수 ), 스페셜경제, 아시아경제 ( 석간 ), 아주경제, 이데일리, 이투데이 ( 석간 ), 일간리더스경제신문, 토요경제신문 ( 토 ), 파이낸셜뉴스, 프라임경제 ( 화 ), 파이낸셜투데이 ( 월 ), 한국금융신문 ( 월, 목 ), 한국경제, 헤럴드경제 ( 석간 ) 스포츠 7 스포츠경향, 스포츠동아, 스포츠서울, 스포츠월드, 스포츠조선, 일간스포츠, 한국스포츠 자료 : 비플라이소프트, 2014.10 현재 38

일간지수 : 총 226 개 중앙신문 14 경제신문 22 전문신문 43 < 표 3-13> 아이서퍼신문지면 PDF 서비스총매체현황 (2014 년 10 월 25 일자 ) 경향신문국민일보내일신문 ( 석간 ) 동아일보매일일보 문화일보 ( 석간 ) 서울신문세계일보아시아투데이조선일보중앙 Sunday( 월 ) 중앙일보 한겨레신문한국일보 건설경제국토경제 ( 화 ) 그린경제 ( 수 ) 매일경제신문머니투데이 부산파이낸셜뉴스 서울경제시사경제신문 ( 월 ) 신소재경제신문 ( 수 ) 스페셜경제 아시아경제 ( 석간 ) 아주경제 이데일리이투데이 ( 석간 ) 일간리더스경제신문 토요경제신문 ( 토 ) 파이낸셜뉴스프라임경제 ( 화 ) 파이낸셜투데이 ( 월 ) 한국금융신문 ( 월, 목 ) 한국경제 헤럴드경제 ( 석간 ) sp 투데이 ( 격주 / 월 ) FN 아이포커스 PD 저널 ( 수 ) 국방일보개벽신문 ( 월간 ) 경향게임스 ( 월 ) 기독일보 ( 석간 ) 기자협회보 ( 수, 토 ) 농민신문 ( 격일 ) 농수축산신문 ( 화, 금 ) 농업인신문 ( 월 ) 농축유통신문 ( 월 ) 농촌여성신문 ( 월 ) 디지털타임즈미디어오늘 ( 수 ) 미주중앙일보 베이비뉴스 ( 월간 ) 상명대학보 ( 요청시 ) 순천향대신문 ( 월 ) 시정신문 ( 목 ) 에코데일리 ( 격주 / 수 ) 여성신문 ( 월 ) 여행신문 ( 월 ) 원예산업신문 ( 수 ) 빅데이터로서뉴스콘텐츠활용방안연구 39

지역신문 (134) 40 재외동포신문 ( 격주 / 금 ) 전기신문 ( 월, 목 ) 전자신문 정보통신신문 ( 월 ) 주간한국 ( 월 ) 천지일보 청년의사 ( 금 ) 축산신문 ( 화, 금 ) 평화신문 ( 일 ) 한국농어민신문 ( 화, 금 ) 한국대학신문 ( 월 ) 한국방송대학보 ( 월 ) 한국보험신문 ( 월 ) 음악교육신문 ( 격주 / 수 ) 한국임업신문 ( 목 ) 철강금속신문 ( 월, 수 ) 환경법률 ( 수 ) 환경일보 ( 월, 수, 금 ) 국방일보 ( 무료 ) 전국 6 서울일보아시아타임즈시사일보일요신문 ( 월 ) 전국매일전국우리일보 강원 2 강원도민일보강원일보 경기도민일보경기매일경기신문경기일보경도신문경인매일 경인일보경인종합일보기호일보 경양일보 ( 구 _ 경향일보 ) 내외일보대한투데이 경기, 인천 29 서울매일 ( 구 _ 새한일보 ) 선경일보수도권일보수도일보시대일보시민일보 신아일보아시아일보우리일보인천신문인천일보일간경기 일간투데이중부일보한성일보현대일보 매일신보 ( 월, 수, 금 ) 대전, 충청 20 굿모닝충청 ( 목 ) 금강일보대전일보대전투데이동양일보 라이프타임즈 ( 격주간 ) 세종매일 ( 화, 금 ) 세종포스트 ( 월 ) 옥천신문 ( 금 ) 중도일보중부매일중앙매일

충남일보충북일보충청리뷰 ( 금 ) 충청매일충청신문충청일보 충청타임즈충청투데이 경남도민신문경남도민일보경남매일경남신문 ( 석간 ) 경남연합일보경남일보 부산, 경남, 울산 17 경상일보국제신문김해뉴스 ( 수 ) 뉴스경남부산일보 ( 석간 ) 울산매일신문울산신문울산제일일보창원일보 한남일보 ( 월, 수, 금 ) 울산광역매일신문 경북신문 ( 경도일보 ) 경북도민일보경북매일신문 경북문화신문 ( 목 ) 경북일보경북일일신문 대구, 경북 18 경상매일신문경상투데이경안일보 대경일보 ( 구일간대구경북 ) 대구광역일보대구신문 대구영남매일대구일보매일신문 ( 석간 ) 영남일보일간경북신문중부신문 ( 화 ) 광남일보광양시민신문 ( 월 ) 광양신문 ( 월 ) 광양경제신문 ( 수 ) 광양만신문 ( 목 ) 광전일보 ( 월, 수, 금 ) 광주 / 전남 22 광주드림광주매일광주일보광주타임즈남도일보 무등일보여수신문 ( 목 ) 전광투데이 ( 월, 수, 금 ) 남도투데이 전남도민일보전남매일전남일보 호남매일호남신문호남일보 The 대한일보 전북 13 새만금일보새전북신문전라매일전라일보전민일보전북일간신문 빅데이터로서뉴스콘텐츠활용방안연구 41

42 전북도민일보전북일보전북매일신문전북연합신문전북중앙신문전주매일 전주일보 제주 5 제민일보제주매일제주일보제주신문한라일보 스포츠신문 7 스포츠경향스포츠동아스포츠서울스포츠월드스포츠조선일간스포츠 한국스포츠 영자신문 3 Korea Joongang Daily TheKoreaTimes The Korea Herald 무가지 1 메트로 어린이 4 꿈꾸는학교 ( 연간 /4 회 ) 소년한국일보어린이강원 ( 목 ) 어린이동아 가판수 : 총 8 개 경제신문 2 서울경제이데일리 중앙신문 2 경향신문세계일보 기타신문 4 전자신문디지털타임스 The Korea Times The Korea Herald

< 표 3-14> 비플라이소프트잡지매체현황 매체수 : 총 111 개 2014-10-25 시사 / 경제문화 / 라이프취미 / 레포츠공학 / 기술여성 / 육아 No. 매체명 No. 매체명 No. 매체명 No. 매체명 No. 매체명 1 월간리치 (rich) 1 월간트래비 1 더골프 1 월간신재생에너지저널 1 에스테티카 2 넥스트이코노미 2 주류저널 2 월간붕어 2 월간에너지설비관리 2 우먼라이프 3 뉴스와이드저널 3 월간전원속의내집 3 골프먼스리 (GolfMo nthly) 3 농경과원예 3 패션채널 4 시사오늘 4 월간호텔 & 레스토랑 4 월간항공 4 친환경 4 어린이동산 5 월간웰스 (wealth) 5 Coffee&Tea 5 골프저널 5 월간축산 5 하이맘 6 시사저널 6 월간베이커리 6 스트릿풋 6 디지털농업 6 더주얼리 7 리더피아 7 뚜르드몽드 7 테니스코리아 7 카고프레스 7 퀸 8 엑설런스코리아 8 투어코리아 8 Best Eleven 8 월간환경 8 앙쥬 (ange+) 빅데이터로서뉴스콘텐츠활용방안연구 43

44 9 retail 9 전원생활 9 포토플러스 9 전기설비 9 레이디경향 10 이코노믹리뷰 10 패션지오 10 비디오플러스 10 HR 서비스산업 10 amang 11 금융플러스 11 웨딩 21 11 골프가이드 11 매뉴팩쳐링 11 미즈코치 12 한경비즈니스 12 요팅 12 배드민턴 12 브리즈 13 머니 13 더무브 13 덕아웃 13 여성조선 14 머니위크 14 10 magazine 14 슈맥 ( 구슈마커 ) 15 위클리경향 ( 주간경향 ) 15 헬스조선 15 루어앤플라이 16 포토경기 16 이하우징 16 탑골프 17 피플파워 17 월간불광 17 월간산 18 이코노미조선 ( 이코노미 +) 18 GRAPHY 18 루어앤플라이 19 월간조선 19 좋은이웃 ( 홀수달 ) 20 주간조선 21 이지월 (EZ Wall)

컴퓨터 / 인터넷예술 / 엔터테인먼트자동차교육 / 자기개발요리 / 건강 No. 매체명 No. 매체명 No. 매체명 No. 매체명 No. 매체명 1 컴퓨터월드 1 아이러브캐릭터 1 오토카코리아 1 대학저널 1 오가닉라이프 2 마이크로소프트웨어 2 엠엠재즈 2 MOTOR MAGAZINE 2 미대입시 2 쿠켄 3 월간앱 3 월간전시 3 CAR TUNING & SPORTS 3 미대입시 Good design 3 웰빙라이프 (well-being life) 4 월간웹 4 국악누리 ( 홀수달 ) 4 월간카오디오 4 리크루트 5 월간아이엠 5 paranoid 5 car&model 5 브레인 6 링크 6 SCENE PLAYBILL 6 퍼포먼스텐 6 캠퍼스 JOB&JOY 7 톱클래스 7 워십리더매거진 빅데이터로서뉴스콘텐츠활용방안연구 45

공공과민간영역의통합기사콘텐츠사례를살펴봤는데, 그렇다면각언론사들은스스로뉴스DB 를어떻게구축하여운영하고있을까? 이와관련해서는그어떠한통계도존재하지않고있다. 이는언론사들이자체뉴스 DB에관한자료를공개하지않는탓이기도하지만, 상당수언론사들은 DB다운 DB 를스스로갖출여력이못되는것으로도파악된다. 1920년창간한국내최고 ( 最古 ) 신문사인조선일보의사례를살펴보면다음과같다. 조선일보는지난 2007년통합 CMS(Contents Management System) 를구축한이후로기사, 사진, 인물정보등의모든콘텐츠를통합적으로관리하고있다. 조선일보에따르면, 조선일보의기사콘텐츠는텍스트와 PDF 의두가지형태로 DB화되어관리되고있는데, 텍스트로보관된기사콘텐츠는 1920년창간이래 2014년 10월20일현재까지총 309만9551건으로집계되었다. 그러나이모두가완벽하게디지털화되어있는것은아니다. 1989년이전의기사들은종이신문을스캔하여만들어낸이미지형태의 PDF로존재하는데, 기사의제목만디지털텍스트로 DB화되어있다. 따라서, 제목과본문이완벽하게데이터베이스화되어있는기사콘텐츠는전체의 43% 인 132만6472건으로집계되었다. 조선일보의경우 1920 년이래 89년까지는제목과색인어로만 PDF 형식의지면기사를확인할수있는만큼, 이기간동안의기사본문을일일이수작업으로입력해서디지털화해야하는숙제를안고있다고할것이다. 이같은현황은조선일보와함께 1920년에창간한동아일보도마찬가지이다. 현재와같은컴퓨터조판시스템이도입되기이전에, 일일이납활자를식자해서신문을찍어냈던시절에만든신문의경우디지털사본이존재할리가없다. 이경우오로지종이만남아있는데, 조선일보와동아일보의경우이들종이신문을모두마이크로필름으로찍어놓은후에, 이를 PDF 로변환하여현재까지보관하고있으면서, 각기사의제목만수작업으로타이핑하여 DB화한것이다. 이에따라조선일보와동아일보는공히 1990년이후의신문기사는전부 DB화하여검색을통해외부에서비스하고있지만, 그이전은제목과색인어검색만제공하고있을뿐이다. 조선일보와동아일보에따르면, 현재두신문은이같은자체뉴스아카이브를국내외도서관등에유료로제공하고있는데, 제공방식은데이터자체를외부에 46

제공하지않고데이터의검색과열람권한을제한적으로허용하는 유료서비스 방식이다. 이와관련하여외국의공공기관또는대학이돈을내고이용하는유료뉴스검색서비스는조선일보와동아일보이외에는없는것으로파악되었다. 기사콘텐츠의아카이빙사례분석을위해기사콘텐츠의유통현황도확인할필요가있는데, 국내에는이에관한통계자료가매우부족한형편이다. 네이버, 다음등의포털을통해대부분의뉴스가일반에의해소비되는현실에서, 포털을제외한기사콘텐츠의유통이쉽지않다. 이런측면에서뉴스저작권신탁기관인한국언론진흥재단이중심이된언론사공동비즈니스모델인뉴스코리아의괄목할만한성장은오히려매우이례적인사례라고볼수있다. 어쨌든기사콘텐츠도저작권법에의해보호받는 저작물 이기때문에기사콘텐츠가포털과언론사자체뉴스사이트이외에어떤용도로제공되는지는확인해볼가치가있다. 포털과언론사자체뉴스사이트를제외하고유료로이뤄지는기사콘텐츠의유통은크게 3가지유형으로대별된다. (1) 기사콘텐츠유통유형 1 : 공공부문제공정부부처, 지자체, 공공기관등공공부문에서뉴스콘텐츠를사용하는사례이다. 2006 년출범해성공적인언론사공동비즈니스모델로정착된뉴스코리아는 2014 년총 120억원의매출을달성해포털을제외하면뉴스콘텐츠판매부분에서가장큰매출을기록하고있다. 뉴스코리아는출범당시부터공공부문이유료화를선도하는것으로방향을잡았고현재매출비중도 60% 이상을공공부문이차지하고있다. 공공부문의경우정책홍보나성과확산등을위한뉴스사용수요가많은데다저작권보호인식이민간에비해상대적으로높기때문으로보인다. 공공부문뉴스유료화는신문사공동비즈니스모델인 뉴스코리아 를통해서이루어지고있다. 정부부처, 지자체, 공공기관등이뉴스저작권신탁관리기관인한국언론진흥재단과연간뉴스이용계약을맺고유통대행사를통해서비스를제공받는방식이다. 2014 년 7월부터라이선스방식으로상품구조를바꿔이용허락범위를넘어서는 빅데이터로서뉴스콘텐츠활용방안연구 47

불법이용을원천적으로차단하였으며기관규모별로 6 단계차등가격을적용하여 유료이용확산을꾀하고있다. (2) 기사콘텐츠유통유형 2 : 기업제공기업이유료로기사콘텐츠를사용하는사례이다. 기업의이같은행위는광고와홍보등에있어서기사콘텐츠를활용할필요가있다고판단하기때문으로, 이런경우는통상해당언론사나뉴스저작권신탁기관인한국언론진흥재단의허락을받아이뤄지게된다. 이경우기업은해당언론사에직접기사콘텐츠사용에따른대가로저작권료를지불하거나언론진흥재단을통해지불하게된다. < 그림 3-12> 기업의기사콘텐츠사용용도 ( 유료 ) 자료 : 티씨엔미디어 (2014) 위도식에서보는바와같이, 기업들은자사에유리하거나자사와관련된기사콘텐츠를온라인 (31%), 광고 (24%) 등에활용하는사례가많다. 일례로국내보험사들은보험고객을모집하고관리함에있어서언론사기사콘텐츠를적극활용하는데, 일상생활로바쁜현대인들에게보험과관련한기사콘텐츠를시의적절하게제공하는방식이다. 48

< 그림 3-13> 보험사에뉴스콘텐츠가제공되는사례 자료 : 티씨엔미디어 (2014) 보험사에서이렇게뉴스콘텐츠를활용하는다양한목적이있지만, 가장중요한목적은해당사의뉴스를스크랩하거나, 인트라넷이나홈페이지에게시하고, 고객에게이메일로전송하거나, 보험모집행위에있어광고물로활용하는목적이대부분이다. 이를통해뉴스콘텐츠는고객사내부적으로는사내홍보콘텐츠로활용되며외부적으로는고객들에게광고를통해공신력을확보하는기제로활용된다. 이와관련하여보험사가뉴스콘텐츠에서가장많이사용하는내용은금융이나건강에관련된내용으로예를들어보험가입이필요한사회적분위기나현상등을묘사하고설명하는기사들이다. 이밖에기업이사보또는사외보를발간함에있어서언론사기사콘텐츠를 빅데이터로서뉴스콘텐츠활용방안연구 49

활용하거나, 자사홈페이지를통한정보서비스에뉴스를사용하고, 사내외교육자료로기사콘텐츠를활용하는등의다양한용도로기사콘텐츠는재활용되는것으로나타났다. 이와관련해기업들의기사콘텐츠활용에서 단행본. 잡지 가 18% 를점유하는이유는기사콘텐츠를출판에활용하는사례가많기때문이다. 단행본출간에있어서특정기사콘텐츠의일부또는전부를인용할경우, 향후분쟁의소지를없애기위해저자또는출판사가해당언론사에저작권료를선지급하는경우가많다. 이는기자의노고와창의적인분석으로만들어진뉴스기사를보호받아야할저작물로인정하는경향이많아진덕분이기도하다. < 그림 3-14> 기사콘텐츠의웹진활용사례 자료 : 티씨엔미디어 (2014) 50

(3) 기사콘텐츠유통유형 3 : 대학및도서관등교육용제공 뉴스기사콘텐츠를사용하는경우를고객에따라분류해보면공공부문, 기업체, 그외에대학교와도서관등에서교육용으로활용하는경우가있다. < 그림 3-15> 대학이나도서관에뉴스콘텐츠가제공되는사례 자료 : 티씨엔미디어 (2014) 이같은경우한국언론진흥재단또는개별신문사아카이브와연간계약을통해콘텐츠의제공이이루어지며, 학술적목적이거나연구를위해서라면열람용도로도제공이가능하다. 그러나이경우고객의입장에서는열람만가능하다는단점이있다. 빅데이터로서뉴스콘텐츠활용방안연구 51

최근에는해외대학에서도한국학을배울목적으로열람하기도한다. 반면국내대학의경우에는주로과거기사 (1920~1970 년대 ) 에대한열람수요가많은것으로집계되고있다. 이러한고객의유형으로는국회도서관, 서울대학교, 연세대학교등이있으며기타국내외대학교가고객사로등록될경우에콘텐츠제공이가능하게끔구성되어있다. 2) 사진콘텐츠현황 기사콘텐츠의일종으로언론사가확보하고있는콘텐츠자산중에는보도사진이있다. 사건과사고의현장에서발로뛰어촬영한보도사진은역사성에있어서그가치가매우높은데, 이러한사진콘텐츠의역사성과고유성은모방과복제가불가능하기때문에데이터베이스로서의가치도그만큼높다고할수있다. 또한사진콘텐츠는향후의반복적인신문제작에자료사진으로얼마든지재활용이가능한데다, 출판과인쇄등에널리응용할수있다는장점이있다. 이에따라국내주요언론사들은텍스트및 PDF 형식의기사콘텐츠와는별개로사진 DB 를자체적으로구축하여사진을관리하는것으로파악되었다. 국내의대표적인보도사진콘텐츠 DB로는연합뉴스가운영하는 헬로포토 와국내주요일간지들이공동으로참여하여구축한 뉴스뱅크이미지, 뉴스코리아의 이미지클릭 등이있다. 헬로포토는단일언론사로서연합뉴스가구축한사진라이브러리다. 매일 4,000 여건이업데이트되면서축적된사진의양이방대한데다, 편리한검색과주제별묶음등서비스를통해사진의사용권한판매사업이활발하게이뤄지고있는것으로파악된다. 52

< 그림 3-16> 연합뉴스의헬로포토 뉴스뱅크이미지는 2008 년 3월문을연언론사공동보도사진아카이브로 20여개언론사의보도사진 450만컷이수록된국내최대보도사진 DB이다. 한국언론진흥재단뉴스코리아의보도사진유통대행을맡고있는 이미지클릭 은약 50만건의선별된사진을보유하고있다. 일반인들이접근하기힘든곳들의사진과한류관련콘텐츠를주력으로하여국내시장뿐만아니라외국의고객들을대상으로도판매가이루어지고있다. 헬로포토 가연합뉴스의주도아래외신사진과국내사진작가들의사진을한데모아아카이빙한뒤이의사용권을판매하는사진콘텐츠유통사이트라면, 빅데이터로서뉴스콘텐츠활용방안연구 53

뉴스뱅크이미지는 다수 언론사의 사진 콘텐츠를 원본 그대로 한데 모아 유통하는 일종의 신디케이션 모델 이라고 할 수 있다. 2014년 10월 현재 뉴스뱅크이미지에 축적된 언론사 보도사진은 약 452만 컷이며, 19세기 말의 희귀 사진을 비롯해 우리나라 현대사의 주요 사건과 인물에 관한 귀중한 사진이 두루 망라되어 있다. <그림 3-17> 뉴스뱅크이미지 언론사들의 위임을 받아 사진 콘텐츠 유통을 담당하는 티씨엔미디어에 따르면, 데이터베이스를 통해 사진 콘텐츠가 사용되는 현황은 아래 <그림 3-18>와 같이 나타난다. 가장 많은 비중이 교육용(62%)으로 활용되며 이는 타 용도에 비해 압도적인 수치이다. 여기서 교육용이라 함은 교과서와 교사용 지침서, 참고서 등의 교육관련 서적에 언론사 보도사진이 많이 활용된다는 뜻이다. 다음으로 일반 54

단행본이나잡지에활용되는경우가 31% 이며, 이외에보도, 기관지, 사보등에골고루사용되고있는것을알수있다. 전반적으로살펴보면, 언론사보도사진은주로출판용도로사용됨을알수있는데, 아직까지출판이외의광고등의용도로보도사진콘텐츠의활용용도를넓히지못하고있음을알수있다. < 그림 3-18> 뉴스콘텐츠중사진콘텐츠사용용도현황 자료 : TCN 미디어 (2013) 사진콘텐츠의경우최근의시사보도사진보다는과거의역사적사건이나인물에관한보도사진이선호되는경향을보인다. 따라서흑백사진이컬러사진에비해사용될확률이높고실제고객사들에게인기가많다. 사진콘텐츠의경우고객유형으로따지자면기업고객유형이대부분이며출판사, 사보제작사, 광고사, 일반기업, 정부기관으로고객사는다양하게구성된다. 판매되는유형은사진아카이브를통해뉴스뱅크이미지의검색을통해단건으로판매되거나, 연간계약에의해교과서나출판사등에제공되기도한다. 주로사용되는용도로는기업의홈페이지, 블로그, 웹진등에활용되는것이대부분이며, 오프라인에서는교재나잡지같은단행본의내지에활용되어실리기도한다. 주로 빅데이터로서뉴스콘텐츠활용방안연구 55

고객사들은자사의건물, 임직원과같은회사의이미지를선호하며회사대표의 인터뷰이미지를별도로구매하기도한다. < 그림 3-19> 뉴스뱅크이미지에서실제로온라인판매된과거사진의예 자료 : 티씨엔미디어 (2014) 56

IV. 뉴스콘텐츠기반빅데이터베이스 (BD) 구축및활용방안 그러면과연가장경쟁력있고현실적인빅데이터베이스 (BD : Big Database) 를구축하기위해서는어떤노력이필요할까? 현재국내상황에서당면한과제와해결을위한방향은무엇인가? 구축이된다면어떻게활용하는게최상일까? 과연새로운미디어환경에서지속적인수익모델을가져다줄수있는가? 본연구는이러한물음에대한탐색적해답을찾고자한다. 이를위해 BD 구축을위한통합적접근의필요성과최적화된 BD 접근모델제안, 뉴스콘텐츠의저작, 편집권이슈, 뉴스콘텐츠유료서비스, BD 기반뉴스아카이빙시스템활용방안및운영주체에대해논의해보고자한다. 1. 통합적접근의 BD 구축필요성 전술한바와같이뉴스콘텐츠기반빅데이터가다양한영역에서활발하게사용되기위해서는먼저몇가지산재한문제에대한해결이선행되어야한다. 우선적으로는현재의데이터베이스체계에대한문제점을들수있다. 최근전세계추세는데이터의공개다. 즉, 데이터의성격이공적이든혹은사적이든 ( 물론, 개인정보보호의문제와첨예하게대립하고있지만 ) 데이터공개를통해창출되는부가서비스의가치를높게판단하는추세다. 이른바개방형데이터베이스를구축하는것은단순히필요한데이터만을제공하는 1차원적인기능을넘어서며, 그속에내재된가치또한제공할수있는가능성을높이는것이다. 특히, 빅데이터로서뉴스콘텐츠활용방안연구 57

오늘날빅데이터서비스모델이논의되고있는데이터시장에서개방형데이터를통해다양한서비스아이디어를모으고실행화하는작업은산업전영역에서필수화되고있는비즈니스요소에해당한다. 뉴스콘텐츠영역에서도다르지않다. 뉴스콘텐츠는기사내용, 언론사, 기자, 날짜, 시간, 연관검색내용등다양한데이터를지니고있음에도불구하고이를여타서비스영역과결합하기위한포맷이부족한게현실이다. 뉴스콘텐츠의데이터베이스를누군가차용하여서비스를만들고자한다면인터페이스규격등을담은소스가오픈되어야하는데현재그러한서비스는부재하다. 이러한측면에서한국언론재단에서서비스하고있는카인즈역시대용량의뉴스데이터를기반으로이용자의인터페이스가새로운가치를창출하는 BD의성격과는다소차이가있다고볼수있다. 다시말해공공영역에서운영되고있는카인즈는대표적인뉴스콘텐츠제공서비스에해당하지만, 현포맷으로여타서비스와연계된가치를창출하기힘든측면이있는것이다. 오픈 API를제공하지않고있기때문에 < 카인즈 > 의경우는대부분 1차적인자료제공의역할만을담당하고있다고볼수있다. 즉, < 카인즈 > 는뉴스검색서비스로는일정부분의미가있을지몰라도, 뉴스콘텐츠 DB의다양한응용과확장서비스를위한 본격적인빅데이터뉴스아카이브 라고하기에는다소미흡한측면이있다. 역사적자료로서의뉴스콘텐츠를영구히보관하고, 검색을통해손쉽게확인할수있도록하는데에만부합하도록설계된뉴스DB이기때문이다. 이와관련하여한국언론진흥재단을중심으로 < 카인즈 > 서비스를국가적차원의뉴스아카이브로확대개편하고이를토대로뉴스빅데이터분석서비스를제공하기위한인프라구축을추진중이다. 1차년도인 2015 년 22억원의관련예산이편성되었으며언론계, 학계, 빅데이터전문가등의자문단을구성하여폭넓게의견을수렴하고있다. 네이버의 뉴스라이브러리 와뉴스스크랩서비스의두기업이구축한기사 PDF DB는해당기업의영리사업목적으로조성된 DB여서사회적공유의정보인프라로개방을요구하거나타기업이이를활용하여제2, 제3의서비스모델을만드는것은불가능하다. 따라서이러한 DB시스템도 빅데이터로서의뉴스아카이브 로확장하여사회적으로활용하고부가가치를높이는데에는한계가있다고 58

볼수있다. 대부분의신문사들은집배신및컴퓨터조판시스템에의해뉴스콘텐츠를생산하고저장하고있다. 즉, CTS(Computerized Typesetting System) 라고통칭하는전산시스템을갖추고있으면서이시스템을통해취재현장의기사콘텐츠를집적한뒤, 디지털조판의방식으로신문지면을제작한다. 그리고기사콘텐츠 DB는 CTS에의한신문제작결과물로서자동형성되는시스템으로움직이고있다. 문제는이러한전산시스템이 신문제작용 으로설계되고구축된것이어서신문제작에는유용할지언정, 온라인과모바일서비스등으로기사콘텐츠 DB의활용범위를넓히는데에는한계가있는것으로지적되고있다. 이를테면, CTS 의 DB에수록된기사콘텐츠를모바일로서비스하기위해서는다시수작업을해야하는수고를한번더해야하는게거의모든언론사의현실이다. 또한조간신문의경우낮시간에인터넷서비스용으로작성한기사콘텐츠는지면에실린기사의 DB에저장하지않는게일반적이다. 이에따라오로지신문에난기사콘텐츠만모아놓은 DB는 신문지면의기사DB 여서보관과검색을통해사내재활용이상으로활용하는데에제약이많다. 신문제작의디지털화에주안점을두어구축된대부분의 CTS로는인터넷과모바일로미디어환경이급격히변하는현실에대응하기가어렵다는지적인데, 이로인해신문사들의자체뉴스DB는본질적으로다양한응용과확장이가능한개방형의 BD로발전할수없다는비판도나온다. 각언론사의자체 DB는그체계와관리방법등에있어서도제각각인것으로파악된다. 언론사마다, 신문사마다기사콘텐츠를분류하는체계가다르고, 이로인해 DB의테이블체계가상이하다. 자체생산한기사콘텐츠와뉴스통신사에서받은기사콘텐츠, 외부기고문의저작권자는엄연히다른데도이를구분하지않고한데뒤섞어 DB화함으로써향후다른서비스에활용하기가어려운사례도부지기수다. 사진기자가여러장의사진을촬영해제출했다면이중신문에게재된사진만 DB화함으로써다른사진들을사실상버리는사례도있고, 원본사진은폐기하고사진의필요한장면만자른후선명도 (sharpness) 를높여가공사본 ( 寫本 ) 만저장하는경우도적지않은것으로파악된다. 언론사별 DB의구축과관리체계가다르다는점은언론사통합뉴스DB로서의 BD를조성하기도쉽지않을것임을 빅데이터로서뉴스콘텐츠활용방안연구 59

의미한다. 대용량의뉴스데이터를기반으로하는 뉴스콘텐츠빅데이터 조성의기본방향이역사적기사콘텐츠의통합화를통한편리한뉴스검색의구현 ( 카인즈 ), 특정기업의영리사업을위한특화된뉴스 DB의확보 ( 네이버뉴스라이브러리와신문스크랩서비스 ), 연속적인신문지면의재생산을위한사내자료DB의구축과활용 ( 언론사자체DB) 등의개별범주를모두아우르면서제3의서비스모델을다양하게확장할수있어야한다고전제할때, 무엇보다선행적으로검토해야할일은개방형데이터베이스에대한기술적시스템확보라고할수있다. 우리나라데이터베이스시장에서정보제공서비스가 2013년에전년대비 9.4% 의증가율을보이고있지만, 이에못지않게정보분석서비스도 4.3% 의증가율을보이는것으로나타났다 ( 한국데이터베이스진흥원, 2014). 따라서대량정보를활용한연계서비스확충을위해서는기술적으로호환이가능한개방형포맷의기술구현이시급하다. 그러면가장바람직한 BD 구축을위해서는어떤노력이필요할까? 기술적인노력에앞서무엇보다도 BD의구축은다양한학문적융합과통합적관점에서진행되어야할것이다. 기존의빅데이터논의가천문학이나 DNA 게놈연구와같은자연과학영역에서의활용가치에집중된게사실이다. 그런점에서본연구진은우리사회의다양한영역에서의적용과가치창출을위해서는사회과학적맥락에서의이해와접근의필요성을제안하고자한다. 아래 < 그림 4-1> 은인문사회과학적개념을빅데이터분석방식에적용하였을때보다구체화할수있는특성을정리한것이다. 인간감각의확장개념과공론장이론을제대로적용하여매체영향력지수를개발하였을경우매체신뢰성을담보할수있다고할수있다. 이러한방식으로도출된매체신뢰성, 데이터타당성, 정보원신뢰성, 데이터상관성, 데이터경로인과성, 분석타당성의개념은뉴스콘텐츠의 BD 구축에있어서도고려해야할사안이다. 일반적으로오늘날빅데이터분석방식이매우수학적이자공학적으로이루어져있지만분석결과에대한해석까지수학이나공학적인알고리즘이해결해주기에는무리가따른다. 그런점에서인문사회과학적패러다임의활용과통합적접근이 BD 구축이나다양한서비스개발에도움이될것으로생각한다. 60

< 그림 4-1> 인문사회과학적개념의방법론적용에따른플랫폼특성도출 자료 : 김성태외 (2013) 뿐만아니라, 경쟁력있는 BD 를구축하기위해서는접근방법으로서학문분야간의융합적노력뿐만아니라, 문제해결을위해서도다양한영역에서의데이터를통합적으로수집, 분석하는게매우중요하다. 예를들면, 어떤산업이슈에대한시장동향과미래예측을 BD를활용해진행한다면, BD에포함되어있는다양한영역에서의데이터들, 즉학술적인자료뿐만아니라산업이나이용자차원에서의실용적인자료도같이포함되어야할것이다. 이는 BD에는개방적, 통합적으로다양한영역의자료들이포함되어야하며, 이의활용에서도학문분야나산업도메인간의통합적접근이선행되어야한다는얘기다. 본연구진이최근수행한미래 IT 트렌드예측에대한연구사례는이러한 빅데이터로서뉴스콘텐츠활용방안연구 61

다양한데이터를통합적으로활용한좋은예이다. 미래의 IT 트렌드의지형을그리는데, 어떤데이터를활용할수있을까? 아래 < 그림 4-2> 와같이학술적이거나실용적인차원에서보면크게학술, 산업, 소셜텍스트로크게세부분으로논의가가능하다 ( 김성태외, 2013). < 그림 4-2> 빅데이터분석범위및개선에대한도식화 자료 : 김성태외 (2013) 이경우학술적인텍스트로는논문이나서적이위치한다. 다음단계인산업적인차원에서는특허원, 가트너, CES 등에서생산되는대량의문건이이에해당한다고볼수있다. 또한, 마지막단계에해당하는소셜텍스트단계에서는뉴스콘텐츠와소셜미디어상다양한콘텐츠들로분류할수있다. 다양한영역의데이터가통합적으로수집, 분석되어졌을때, 빅데이터를활용한가치는더욱커진다고기대할수있을것이다 ( 위사례에대한구체적인과정과결과는 V장서비스부분에서구체적으로제시됨 ). 62

2. 뉴스콘텐츠표준화와저작 - 편집권 1) 뉴스콘텐츠거래규격의표준화 1998 년 < 로이터 > 에의해개발된 NewsML(News Markup Language) 은 HTML 과비슷한모습이며일반적인 XML 문서와마찬가지로데이터형식과구조등의 내용을포함한다. < 그림 4-3> NewsML 의계층구조요약 교환계층 (NewsEnvelope) 관리계층 (NewsItem) 구조계층 (NewsComponent) 내용계층 (Content Item) 출처 : 한국언론진흥재단 (2007) 빅데이터로서뉴스콘텐츠활용방안연구 63

따라서유통뿐만아니라아카이브구축, 뉴스의작성, 편집, 관리등출판의전영역의지원이가능하다 ( 한국언론재단, 2007). 뉴스콘텐츠전송에있어서합의한언론사의모든콘텐츠는단일시스템을통해 NewsML 형태로전송된다. 포맷의형태로따지자면 NewsML은텍스트기사, 사진, 동영상등모든포맷을수용할수있으며, 이와함께다양한부가정보도포함할수있다. 위의 < 그림 4-4> 와같이이러한정보들을체계적으로기록하기위해 NewsML은교환, 관리, 구조, 내용등네가지계층으로구성되어있는것이특징이다. < 그림 4-4> NewsML 기반의광고사례 : 뉴스뱅크시스템 자료 : 박창신 (2008) 64

NewsML 의구조화된뉴스정보포맷은빅데이터시대정보의유통과서비스창출에효과적인기반및가능성을제공한다. 예를들어, < 연합뉴스 > 에서는다양한뉴스와정보를 3D 그래픽으로제공하고, 기사의실시간인기도를면적으로표현한다. 그런가하면주요이슈와사진을해당위치정보와함께표시하는데새로운형태의데이터가공을시도하고있다. 국내 < 뉴스젤리 > 와국외의 < 뉴욕타임스 > 에서주력하고있는인포그래픽분야도마찬가지도데이터의호환을통해보다다채로운정보를제공하는데있어통일된형태의정보체계는필수적이다. 뉴스의주요수익원인광고의경우에도 NewsML을통해여러가지모델링이가능한특징이있다. 위 < 그림 4-4> 의뉴스뱅크사례는 10여개언론사들이포털과의관계개선을위해제안했던모델이다. 즉저작권자로서의언론사는포털을통해개인들이언론사재산인기사를블로그등에임의대로복제하는행위를막아달라고포털에요청하였으나, 포털은이를기술적으로막기가어렵다는입장을고수하였다. 실제로일반개인들이언론사기사를옮겨배포하는것을원천적으로봉쇄하는것은불가능한일이다. 이에따라언론사들이공동으로제안했던모델은개인들이합법적으로블로그에기사콘텐츠를복제할수있도록허용하되, 이런경우광고를삽입함으로써부가가치를창출하고, 이렇게창출된가치를저작권자인언론사에귀속시키자는것이었다. 이는기술적으로살펴볼때, 광고를호출하는스크립트가포함된 NewsML 기반의콘텐츠를우선포털사이트에전송함으로써시작된다. 다음단계에서포털은해당콘텐츠를뉴스채널에게시한다. 그리고다른사이트공간으로퍼가기한블로그나카페와같은영역에도광고가노출된다. 여기서뉴스콘텐츠내에포함된광고호출스크립트는콘텐츠가노출되는즉시애드플랫폼으로광고를호출하게되며이과정에서콘텐츠의 ID인 UCI를이용하게된다. 최근으로올수록텍스트위주의빅데이터를분석할수있는기술이발전함에따라뉴스콘텐츠광고도변화할것으로판단된다. 가령, 기존에는광고의위치가순차적으로노출되는방식이었다면, 빅데이터분석환경에서는 NewsML 이포함된기사콘텐츠에대한텍스트단위의내용분석이가능하기때문에뉴스이용자의시각에맞춘광고위치나내용의설정이가능하게된다. 즉, AD1, AD2, AD3과같은공간에뉴스의내용과적절히매칭되는광고가노출될수있다. 다음으로 빅데이터로서뉴스콘텐츠활용방안연구 65

예측분석기법 (predictive anlalytics) 을통한광고에대한응답률및반응에대한예측, 최종적으로는광고소비자의피로도를낮춘뉴스콘텐츠광고가구현될수있다. 물론이같은기사콘텐츠광고모델은공공데이터와의결합이나유통플랫폼으로서의포털서비스결합을통해극대화된다. 포털사업자의경우, 기사전재료이외에자사의광고수익을언론사에배분해줘야하는부담이생김으로써이를마땅치않게여길가능성이농후하다. 실제로지난 2008년언론사들이 뉴스뱅크 라는이름으로연대하여포털내기사콘텐츠의노출과클릭횟수에따른광고수익의배분을요구한바있었으나, 포털의반대등으로인해관철되지못한사례가있다. 그럼에도불구하고언론사공동의뉴스콘텐츠빅데이터, 즉통합뉴스아카이브를통해제안될수있는대표적인수익모델은콘텐츠판매와광고다. 특정언론사가생산한기사콘텐츠가빅데이터시스템에다른언론사콘텐츠와함께체계적으로 DB화되면콘텐츠가치와활용도가높아져유료화에유리하다. 또, 이데이터가포털등에전송된다고가정하면, 언론사들이저작권자로서주도권을가진빅데이터시스템은외부의광고서버시스템과연계하여온라인과모바일의광고플랫폼으로기능할수있을것이다. 이와함께, 기사콘텐츠의주제와내용에따른문맥형광고 (Contextual AD) 를통해광고효과를높이면서보다높은부가가치를창출할수있다. 포털이외의서드파티 (3rd Parties) 들에도오픈 API를통해기사콘텐츠의사용을허락한다면보다다양한광고수익모델의창출도가능할것이다. 따라서빅데이터기반의뉴스콘텐츠유료화및광고등의수익모델이가능하게하기위해서는뉴스콘텐츠의전송과수신을비롯한이른바 거래규격 을표준화하고, 이를기반으로빅데이터시스템과각언론사의콘텐츠 DB 및송수신체계등을표준화하는작업이선행되어야하는것이다. 뉴스콘텐츠거래규격표준의문제는공공데이터의활용가능성을높이기위해서도반드시필요한사안이다. 현재각정부및공공기관의수많은데이터가해당법률에의해공공데이터로체계화되어가고있으며이를적절히활용하여공공ㆍ지자체, IT 벤처ㆍ스타트업등의분야에서사업을추진하고있는사례가속속나타나고있다. 66

앞서국내외뉴스콘텐츠기반 DB활용사례를설명하며전술한바와같이뉴스콘텐츠의경우에도기사의생산단계나활용단계에서공공데이터와의결합을통해뉴스기사의품질을향상시키거나제2차데이터생산을유도할수있다. 그런데이를위해서는거래규격이라할수있는유통단계에서의규격이일원화되어야다양한데이터간의조합과사업발굴이가능하다. 이처럼뉴스콘텐츠의규격이통일성을갖출경우에공공부문과의결합서비스는더욱활발히개발이이루어질수있다. 공공부문결합서비스는크게 3가지부분으로기획이가능하다. 우선, 지역별지자체가공유하고있는인구분포, 위치정보, 시장현황등의정보를통해 뉴스기사데이터링크서비스 를생각해볼수있다. 이용자가뉴스콘텐츠내의해당데이터를클릭하였을때구체적인공공데이터를노출시켜주는서비스이다. 다음으로는이용자가알고자하는 메타데이터수집서비스 를생각해볼수있다. 가령, 이용자가특정사안에대해관심을가질경우키워드별로뉴스콘텐츠데이터를수집해주며이와관련있는데이터를제시해줌으로써이용자들이개인적인조사나연구에활용할수있게하는서비스이다. 마지막으로뉴스기사의내용에이용자가분석하고자하는변인명이포함되어있을경우분석옵션을설정하여 공공데이터간통계분석및시각화 솔루션을고안해볼수있다. 이용자는이러한서비스를통해뉴스콘텐츠내에서발견되는스토리내의사건이나현상간의현재추세를직접변인화하여분석해볼수있을것이다. 지금까지제시한뉴스콘텐츠 -공공부문간의결합은무엇보다데이터의표준화가없이는추진되기어려운부분이다. 따라서, 우선뉴스콘텐츠간의표준이합의되고나면그에대한서비스포맷을개발하는것도중요하겠지만공공부문간의결합표준안을마련하는것도시급한문제라고볼수있다. 2) BD 구축을위한저작ㆍ편집권이슈 1957 년제정된저작권법은인터넷보급이후에디지털화된정보들로인해저작권 법의관리영역을확장시키는계기가마련된다. 저작권법제정당시에는출판물, 빅데이터로서뉴스콘텐츠활용방안연구 67

예술작품과같은디지털화되지않았던오프라인창작물이법적영역에속해있었다. 그러나온라인공간에서주고받는문서, 음악, 동영상등의정보가급증하게되면서급기야 2009 년 7월 23일저작권법개정안이시행되기에이른다. 그러나신문영역의뉴스콘텐츠와관련해서는저작권문제가빈번히발생하는것이사실이다. 특히, 신문사의뉴스콘텐츠를정부나기업이이용할때저작권문제가발생한다. 하지만자주발생하지않고거래금액도크지않아개별신문사가이를관리판매과금할경우채산성이없는것도사실이다. 이와같은문제를공동해결하자는취지에서시작된것이언론진흥재단의 뉴스코리아 사업이다. 한국언론진흥재단은뉴스코리아사업 ( 뉴스저작권팀 ) 을통해 B2B 방식의뉴스판매에대한신탁이나대리중개의형식으로저작권을보유하고있다. 그러나신문사는 저작권의원천권리자 입장에서뉴스코리아와협상하고사업을감시할필요가있는것도사실이다. 한국디지털뉴스협회는언론진흥재단이주도한뉴스저작권위탁사업 ( 뉴스코리아 ) 을공동수행하기위한목적으로지난 2006년 4월 21일 37개신문사가창립하였다. 현재는 뉴스저작권자의권리보호및뉴스저작물을통한부가가치의창출을위해저작권에기반을둔디지털뉴스공동유통사업을추진 하는것을사업목표로하고있다. < 표 4-1> 뉴스콘텐츠저작권관련사업구조 구분 주요사업내용 언론사 - 뉴스저작권위탁 - 신규수익원확보 언론재단 - 저작권수탁관리 - 뉴스콘텐츠판매및뉴스서비스신상품개발 - 신규시장개척 - 시스템운영 ( 아카이브 DB 및검색프로그램개발등 ) 판매대행및기술지원 - 텍스트판매 : 나이스평가정보 - PDF 판매 : 비플라이소프트 / 다하미 - 보도사진 : ( 주 ) 이미지클릭 68

저작권법상저작권위탁관리행위는신탁관리업무, 대리ㆍ중개관리업무로구분하고있다. 뉴스코리아사업에참여하는신문사들은거의대부분 신탁 형태 ( 저작권의행사를전면위임하는것 ) 로참여하고있으며, 동아ㆍ조선ㆍ중앙ㆍ매경ㆍ문화등 5개사는 단순대리ㆍ중개 형태 ( 권리의위임없이업무만대행시키는형태 ) 이다. 판매처는정부부처및산하기관ㆍ지자체ㆍ공공기관, 입법부, 사법부및일반기업체등이다. 역사적인맥락에서간략하게살펴보면, 당시규모가작은신문들은뉴스코리아를통한공동보조만이기회라고판단하고적극참여하는실정이었다. 반면불참신문사들은신문사의재산인저작권을타기관에신탁하는것은사실상콘텐츠주권상실을의미하며, 신문사의독자적인온라인수익사업을제약하게돼장기적으로신문사의위협요소로작용할수있다고인식하였다. 특히뉴스유통의지배자인포털 ( 네이버 ) 이유통주체로참여한다는얘기가떠돌면서포털의영향력이가중되고이에따라수익도미미할것으로판단하였다. 비슷한시기조선일보가다른신문사와공동으로추진한 뉴스뱅크 사업도이들의불참에영향을미쳤다. 뉴스뱅크는콘텐츠및보도사진판매외 기사내광고 판매를시도함으로써뉴스코리아와유사한사업을벌이고있었던것이다. 이와같은상황에따라회원사들의입장을대변해야했던신문협회도뉴스코리아사업에대해적극적인자세를취할수없었던것이사실이다. 하지만신문협회가 2008 년부터 < 협회공동뉴스포털설립 > 을추진하면서 뉴스코리아사업을흡수해야한다 는주장이제기되기도했다. 이런시대적상황에서뉴스콘텐츠기반 BD의활용을위해서가장우선풀어야할문제중의하나가저작권관련이슈임은분명하다. 한편, 뉴스영역에서편집권에대한이슈는 2009년 11월네이버의뉴스캐스트옴부즈맨위원회의발족이후더욱본격화되었다. 2009년새해를시작하면서뉴스캐스트서비스를선보인네이버는언론사사이트의트래픽을증가시키기위한어뷰징이감소하지않았다는판단으로뉴스캐스트옴부즈맨위원회를창설하게된다. 이어 2010년 2월어뷰징기준을넘기는 6개언론사에시정권고조치를내리기도한다. 그러나당시온라인신문협회등신문관련기관들은편집권침해나사후검열등의이유로네이버의옴부즈맨위원회의활동을비판하였으며이에대해아직까지 빅데이터로서뉴스콘텐츠활용방안연구 69

도뚜렷한해결의실마리가보이지않는것이사실이다. 이처럼뉴스로인한데이터의대용량화현상이가져올저작권, 편집권등의법적분쟁의이슈는어떠한방향으로전개될지예측이불가하다. 그러나현재로서는빅데이터로인해저작권이나편집권분쟁이해소될가능성또한있다. 먼저, 분석기술의발달이다. 오늘날텍스트데이터에대한마이닝과자연어처리기술은날로발전하고있으며그만큼오류가감소하고있다. 이러한상황이지속될경우에뉴스기사간일치율을다각적으로살펴볼수있기때문에기술적인측면에서의표절이나수정의문제를정확히분석할수있게된다. 따라서저작권이나편집권으로인한위반행위에대한모니터링시스템이갖추어질수있다. 기술적으로인덱싱 (indexing) 을통한전처리과정과형태소분석이기존내용분석기법 (content analysis) 에적용되어알고리즘이구성되면신문기사의표절가능성여부의판정이용이해질수있다는얘기다 ( 강남준외, 2008). 물론, 이과정에서텍스트데이터의웹크롤링과필터링, 자연어처리단계가보다정확히이루어져야할것이다. 다음으로, NewsML 과같은유통포맷구조화의지속성때문이다. NewsML과같이뉴스의정보가구조화되어관리될경우텍스트에대한스팸ㆍ키워드필터링작업이정교하게이루어져텍스트내용에대한문제발생시대응속도가빨라진다. 또한, 세부적인내용에대해서도실시간검색이가능해지기때문에저작ㆍ편집권침해위반사안의분석도가속화될수있다. 뿐만아니라, 비즈니스모델이형성될경우규약에대한정립가능성이증가하기때문이다. 현재데이터를활용한뉴스콘텐츠비즈니스는데이터를수집ㆍ가공ㆍ활용ㆍ유통의주체가불분명하다. 포털사, 언론사, 공공기관, 협단체등의입장이다르고향후정책방향도뚜렷한합의점을찾은바없다. 이러한상황은결국데이터의생산과함께이동경로상에서수많은법적분쟁의소지를낳게된다. 3. 대용량뉴스콘텐츠활용과유료서비스를통한수익성확보 뉴스콘텐츠는이미아날로그시대부터축적된텍스트데이터를기반으로대용량 이유통될수있는요건을갖추었다고볼수있다. 여기에새로운미디어가보급되고 70

하드디스크저장에관한비용이감소하며고성능의분석솔루션들이개발되면서정보의처리가보다원활해지고있는상황이다. 특히하드디스크가격이지속적으로하락하는점은클라우드와연동된데이터활용서비스의개발을더욱용이하게한다. < 그림 4-5> 하드디스크가격추이 (USD/GB) 자료 : SAS, KB 경영연구소 (2013) 최근이러한경향을반영하듯언론사들은뉴스콘텐츠생산자에서보다확장된개념의뉴스콘텐츠활용서비스를제공하고있다. 단순히내용을전달하는차원을넘어내외부로생산되는대용량데이터가결합된뉴스콘텐츠생산모델에대한관심이높아지고있는실정이다. < 매일경제 > 가 2005년실시한 100억건이넘는대중교통이용데이터분석사례는서울시민의생활상과연결되어도시유동인구와생활상에대한새로운시각을제공한것으로평가받고있다. 이러한사례는해외에서도발견된다. < 프로퍼블리카 > 에서작성한기사에서는공립학교의 AP 수업이수율과각지역소득데이터에대한관련성을찾아소개했는데, 각주가심화수업에동등한접근권을제공하는지를실증적으로분석하였다. 최근논란이일어나고있는소득재분배의문제를보다쉬운계량화데이터로보여줘, 독자가복잡한사회문제를이해하는데유익한분석기사사례로평가받고있다. 빅데이터로서뉴스콘텐츠활용방안연구 71

< 그림 4-6> 오바마와롬니의연설문단어활용빈도그래픽 출처 : New York Times < 뉴욕타임스 > 의경우 2011년에이미 뉴욕타임스 R&D 가설립시켜, UCLA 대학통계학교수마크핸슨 (Mark Hansen) 연구진과대용량의데이터분석작업을시작하였다. 2012 년대선에서오바마와롬니의연설문에서나타난단어활용빈도를그래픽으로나타내 < 뉴욕타임스 > 에서기사화한사례가있는데이는텍스트마이닝과데이터시각화기술을결합한결과였다. 이는향후수많은인터뷰및연설을통해생산되는텍스트데이터가내용분석뿐만이아닌계량화된방식으로분석되어기사로표현될수있음을보여주는좋은사례라고볼수있다. 빅데이터시대는대용량의데이터에접근할수있게해준다. 특히개방, 통합형 BD가구축되기위해서는새로운부가가치를만들어낼수있는다양하면서경쟁력있는서비스모델을개발하기위한노력이선행되어야할것이다. 본연구보고서의 3장에서살펴본국내외의빅데이터를활용한뉴스콘텐츠생산과유통사례는그런 72

측면에서매우중요한시도라고할수있겠다. 한편대용량뉴스콘텐츠를기반으로가능해진새로운형태의뉴스포맷은추가적인서비스에대한유료화와맥을같이한다. 지난 1996 년 6월마이크로소프트사가콘텐츠시장에진출하면서슬레이트 (Slate) 라는웹진을만들었고, 연 19.95달러로구독료를산정한사례가있다 ( 이정기, 2013). 뉴스기업중에서는 < 월스트리트저널 >(The Wall Street Journal) 의 WSJ.com 출범이후 1년이지난시점에연구독료 50달러의서비스를개시하기도하였다 ( 정준희, 2011). 최근의흐름을보면 2011 년 3월에 < 뉴욕타임스 > 는유료화를실시하였으며이는기존의유료화를위한시도보다훨씬전사적인형태로진행된측면이있다. 뒤이어 < 마이애미헤럴드 >(Miami Herald) 등을포함한 30개신문사의오너인맥클래치는 2012 년내에웹사이트유료화를할것이라고발표하기도했다 (Owen, 2012; 이정기, 2013). 이러한흐름과최근소셜미디어의보급이확산되는현상과맞물려뉴스콘텐츠유료화가더욱가속화되고있는실정이다. 특히, 웹사이트와모바일앱을통해소비할수있는대표적인뉴스콘텐츠포맷인 PDF 형태는가장보편화된유료화서비스로꼽히고있다. 그러나국내의현상황은매출액이현저히낮은수준에있고이로인한시장형성이매우어려운형국이다. 한국신문협회에서조사한 2014년자료에따르면현재회원사들이지면보기서비스포맷으로제공되고있는 PDF 서비스중웹사이트내에서파일로제공되는 PDF 상품의경우주요일간지회원사대부분의월매출이 100 만원미만으로미미한수준을보이고있는것으로나타났다. 모바일뉴스앱서비스의경우에는모든언론사가무료로콘텐츠를제공하고있는실정이어서수익이거의발생하지않고있는상황이다. PDF 포맷뉴스콘텐츠제공서비스중가장매출액이높은서비스는한국언론진흥재단의뉴스코리아서비스이다. 뉴스코리아서비스는다양한회원사들의참여하에지속적으로콘텐츠수익을내고있지만디지털환경에서안정적인수익은속단하기어려운실정이다. PDF 이외웹사이트에서직접제공하고있는서비스로는경제전문지와주요일간지들이제공하고있는유료경제정보서비스가상대적으로매우높은매출을보이고있다. 신문산업의위기에대한논의는어제오늘의이야기가아니다. 문제는산업의 빅데이터로서뉴스콘텐츠활용방안연구 73

위기에대응하는새로운수익모델의창출도그만큼이루어지지않은것이다. 대부분의국내언론사유료콘텐츠모델은 PDF 포맷에국한되어있으며그마저도언론사간구별될만한특징적서비스가엿보이지않는다. 이러한국내뉴스콘텐츠유료화현상은상대적으로먼저뉴스콘텐츠유료화모형을정착시킨해외언론사들의사례를통해해답을얻을수있을것이라판단된다. < 표 4-2> 국내적용가능한해외뉴스콘텐츠유료화모형의내용 B2B & B2G 모형 B2B 적용모형 파이낸셜타임즈형수정모형 뉴욕타임스형 월스트리트저널형 뉴욕타임스형 뉴욕타임스형수정 ( 융합 ) 모형 파이낸셜타임즈형수정모형 내용 o 전문화된기사 o 특화된정보에대한기업의수요가존재 o 언론사의노력에의해차별적인온ㆍ오프라인콘텐츠개발가능성이있음 o 오프라인신문구독자에게혜택을부여 o 기존신문기관의독자이탈을방지 o 오프라인신문구독자에게혜택을부여 o 기존신문기관의독자이탈을방지 o 다양한온라인플랫폼을활용 o 종이신문의판매를유지한상태에서종이신문의구독을촉진시키는데콘텐츠를활용 o 별도의재정적지원이나투자가불필요 o 종이신문구독자에게온라인무료뉴스제공 o 가격전략을통한실효성가능성있음 o 별도의재정적지원없이신문사의노력에의해이끌어낼수있는유료화모형 출처 : 이정기 (2013) 을요약 그런가하면신문에비해타콘텐츠산업의경우빅데이터를활용하거나관련사업에대한고객피드백을비즈니스에활용하여새로운시장을창출한획기적사례가발견된다. 미국의 < 넷플릭스 > 의경우에온라인 DVD 배달서비스로시작하여고객이어떠한장르의영화를좋아하는지데이터를통한장르세분화분석을시도하기에이른다. 그들은이러한대용량의고객반응을통해자체제작드라마 하우스오브카드 를제작하여소비자와평론가들의호평을받고흥행에성공하였다. 74

< 그림 4-7> 사띠아메브자야테 의시청자피드백분석결과 출처 : GigaOM(2012) 인도의 TV 다큐멘터리프로그램인 사띠아메브자야테 (Satyamev Jayate) 의경우에는제작진이빅데이터분석기법을통해 800 만명의시청자가남긴페이스북, 홈페이지, 문자메시지, 전화등의데이터 1,400만건을분석하여차기회제작에반영한다. 제작진은 IT 컨설팅업체인 < 퍼시스턴시스템즈 >(Persistent Systems, 이하 PS) 와협력하는데이들은에피소드방영 36시간전에다루게될이슈를미리 PS에알린다. 그리고 PS는설계된빅데이터분석시스템을통해수준, 정서등을기준으로점수를매겨피드백을분류하고, 높은점수를받은피드백을다시전문가검증을거쳐웹사이트에게재하여제작진에제공하기에이른다. 이러한과정을통해매회콘텐츠의질적향상을이룬다. 이미주류음반시장으로자리잡고있는 < 멜론 > 이나 < 벅스 > 도고객데이터를 빅데이터로서뉴스콘텐츠활용방안연구 75

비즈니스에활용하기시작한것은이미오래되었다. < 멜론 > 의경우 2천400만명고객이지난 10년동안소비한이력과이용행태를빅데이터로분석하여개인의취향에맞는곡을추천한다. 또한, 좋아할만한아티스트와연계하여특정시점에즐겨들었던곡알아보기와같은다양한서비스를제공하고있다. < 벅스 > 뮤직의경우모바일앱 ' 벅스4.0' 의 ' 개인화추천 ' 기능등을통해벅스가입자들의청취기록및이용패턴에관한빅데이터를분석하여이용자들이좋아할만한음악을선곡하는시스템을갖췄다. 이처럼유료화된콘텐츠시장에서데이터를통해고객을세분화하고이를통해새로운서비스를창출하려는노력을보면, 뉴스콘텐츠가타시장에비해결코앞선다고볼수없다. 따라서기존에제공되던무료서비스를유료화하려는노력을펼침과동시에기존에구축되어있는데이터베이스를활용하여시장을분석하고, 신속한서비스제공체계를갖추어야할필요가있다고본다. 4. 경쟁력있는공익형뉴스플랫폼제안 1) 뉴스콘텐츠유통시장개선의필요성 현재뉴스콘텐츠유통시장은매우복잡하다. BD를기반으로하는이상적인뉴스플랫폼을제안하기에앞서현재당면하고있는문제점을꼽자면크게세가지로요약가능하다. 우선법제도적으로저작권과편집권침해의우려가크다는점이있다. 저작권법 16~22 조조항에따라뉴스가복제되고공중에송신되는과정에서직접침해현상이발생할수있는것이다. 오늘날과같이웹과앱을기반으로하는다양한정보제공서비스가발달하는환경에서는카페, 블로그, 등이불법복제를조장하는서비스환경이될가능성이높은실정이다. 법리적으로편집권이침해되는현상도간단하지않다. 우선포털에대한언론사의콘텐츠유통상지위는단순한뉴스공급업체에불과한것이현실이다. 포털은 언론을포함한언론 의개념으로메타데이터공간적기능을담당하지만언론사는뉴스를제공하는콘텐츠제공자에불과하 76

다는것이다. 각언론사마다뉴스가치를산정하는기준이존재해왔고언론사전체를대상으로는열독률과구독률과같은계량적판단기준이있어왔다. 그러나현재의포털을중심으로한뉴스제공환경에서는콘텐츠유통단계에서이러한기준들이무용하게되어, 언론사의뉴스를올바르게판단하고그것에가치를부여하여데이터화되는데부정적인환경이만들어질수있다. 결과적으로는뉴스가제대로된데이터로남기위해서고려되어야할편집의권한이제대로쓰이기힘든실정인것이다. 다음으로는수익불균형의문제를예로들수있다. 언론사의경우콘텐츠제공료수입이전부인데이마저도제공에대한적절한대가를받고있다고보기힘들다. 반면, 포털의경우뉴스를통해이용자들을유치하고이를통해얻어지는부가적인이익을창출할수있다. 이처럼실제원소스에해당하는콘텐츠의생산대가는이를유통하고포맷화하는비용에비해그가치가낮게책정되는경향을보여유통에참여하는기업간에수익불균형현상이일어날수있다는얘기다. 마지막으로저널리즘이라는보도윤리의위협적상황이야기되는측면이있다. 1990년대말부터불어닥친닷컴열풍은오프라인의모든정보를디지털화하여유통가능하게만들면서뉴스기사역시트래픽수치에의존하여평가되는상황에이르렀다. 따라서지나친트래픽경쟁으로말미암아언론사간에는경쟁적으로서로베끼기식보도를행하고있고진위여부가밝혀지지않는기사들이난무하고있는실정이다. 또한, 뉴스콘텐츠이용자들은이제개인형미디어인블로그나소셜미디어에서생산된콘텐츠를언론사뉴스콘텐츠와비슷한수준에서판단하기도한다. 포털사이트인네이버뉴스캐스트의경우에도그안에서서비스되는모든언론기사가이용자들에게는그저하나의네이버공간의기사로취급될뿐이며트래픽의수준이그기사의수준과동일시된다는주장이가능하다. 그럼이렇게어려운상황에서문제점을최소화하고최적화된유통시스템을마련하기위해어떤노력이필요한가? 이에대한해답으로먼저콘텐츠유통단계에있는각주체별역할설정이명확히이루어져야할것이다. 거두고자하는효과는명확하다. 유통거래규격의표준화, 수익성확보, 그리고이를통한뉴스유통질서를재확립시키는것이그것이다. 빅데이터로서뉴스콘텐츠활용방안연구 77

< 그림 4-8> 뉴스콘텐츠유통 C(Content)-P(Platform)-N(Network)-D(Device) 오늘날뉴스콘텐츠유통을 C-P-N-D로표시하면위의그림처럼뉴스콘텐츠제공사인신문사에서뉴스가포털사에제공되고이를웹이나앱의네트워크를통해이용자들에게전달되는구조이다. 앞서논의한공공화된뉴스플랫폼은바로플랫폼콘텐츠에서플랫폼에제공되는유통구주를개선함과동시에웹과앱으로제공되는정확한서비스대가를산정하기위함이라고볼수있다. 본연구보고서에서는뉴스콘텐츠유통구조개선을위한제안과함께뉴스콘텐츠가갖는공익적성격을고려해서 BD 를활용한공익형뉴스콘텐츠플랫폼에대한바람직한방향을제안하고자한다. 2) 뉴스콘텐츠 BD 를적용한공익형뉴스플랫폼 아래 < 그림 4-9> 는뉴스콘텐츠 BD를통한공익형뉴스플랫폼도식을나타낸것이다. 기존과차별적인부분은뉴스콘텐츠가플랫폼의공간으로전달될때구축되는뉴스콘텐츠 BD에따른유통구조다. 기존의뉴스콘텐츠제공사가플랫폼영역에있는포털사에콘텐츠를제공할때에는 DB화가진행되는부분이시각화되기어려웠다. 그러나대용량의데이터가저장되고유통되는현상황을표현하기위해서는물리적구조가시각화되어드러나야한다. 이를통해실질적인데이터베이스운용주체를논의할수있기때문이다. 78

기존뉴스콘텐츠는공공영역에서활용될수있다는명목하에콘텐츠로써제대로된가치를부여받지못했던측면이있다. 그러나 DB화하는과정에서부터우선적으로데이터유통대상이되는공동뉴스플랫폼사이트가지정될수있다면콘텐츠가치도높아질수있다고판단된다. 공동뉴스플랫폼사이트에서해당데이터가유통될것이명확할때, 이는기존에포털사에제공되었던콘텐츠와는다른방식으로이용자들에게인식될수있기때문이다. 아래 < 그림 4-9> 에서처럼화살표를동반한점선이실질적인뉴스콘텐츠이동범위이고, 실선들은조건에따른콘텐츠이동범위이다. 뉴스콘텐츠이용자들은뉴스콘텐츠 BD의콘텐츠우선제공대상사이트가공동뉴스플랫폼사이트라는것을알게되어해당사이트에서제공하는뉴스의양적, 질적가치를높게판단할수있다. 또한, 기존에포털사에서무료로제공되었던뉴스콘텐츠의인식을전환시킬수있어유통체계에있어서의계약, 거래, 판매등의방식을전환하는계기를마련할수있을것이다. < 그림 4-9> 뉴스콘텐츠 BD 를통한공익형뉴스플랫폼도식화 이렇게공익화된뉴스플랫폼을구축하고이를통해뉴스비즈니스가전환점을 맞게될수있다는예측은이러한사업모델이지니고있는핵심적가치들로설명할 수있다. 빅데이터로서뉴스콘텐츠활용방안연구 79

첫번째핵심적가치로신문사브랜드선호도차별성이확보된다는점을들수있다. 기존뉴스콘텐츠제공사가포털사에종속적인차원에머물러콘텐츠배급사의역할만을했을때, 뉴스콘텐츠제공사인언론사가지니는브랜드가치는이용자의평가대상이되기힘들었다. 이렇게 원오브뎀 으로전락할수있는뉴스콘텐츠의기사들에언론사브랜드의가치를부여함으로써저작권자를명확히하고언론사의인지도를향상시키는효과를거둘수있게된다. 두번째로는정확한트래픽의산출이가능하게된다. 현재뉴스콘텐츠의정확한트래픽은포털사와뉴스콘텐츠제공사의트래픽을토대로여타요인들을고려해야한다. 그러나특정한뉴스플랫폼사이트가구축되어있는상황이라면해당사이트에서산출되는 UV와 PV를토대로독자적인트래픽산출이가능하며, 이를통해뉴스의양과질을함께분석해볼수있는환경도구축이가능하다. 마지막으로기사내외적으로발생하는광고에대해정확한기준의수익을얻을수있다. 이경우기사내에서발생하는광고수익뿐만이아니라, 블로그나카페등의 2차적유통공간에서창출되는광고수익역시산출이가능하다는이점이있다. 3) 공익형뉴스플랫폼의운영주체논의 앞서살펴본공익형뉴스플랫폼의운영은크게정부주도형, 민간주도형, 혼합형등몇가지로나뉠수있다. 하지만기존콘텐츠와달리 C-P-N-D 로뉴스콘텐츠는유통이진행되는동안매우다양한이해관계자들사이에복합적인거래가성사된다는점에서운영주체를단순화시켜논의하기에는무리가따른다. 아래는뉴스콘텐츠 BD를통해뉴스콘텐츠가거래될때각단계별로거래가발생할수있는단계를총 4단계로단순화시켜표현한것이다. 이러한단계별로운영주체가어떻게개입되느냐에따라운영방식은크게달라질수있다. 가령콘텐츠를뉴스콘텐츠 BD 에제공하는단계에서이를정부나민간이개입하는경우에거래의방식은확연한차이를보일수있다. 80

< 그림 4-10> 공익형뉴스플랫폼을통한콘텐츠거래단계 이와같이뉴스콘텐츠유통과정상에서운영주체가어떠한방식으로개입하느냐에따라아래와같이그특징과내용들을요약해볼수있다. 단, 이경우뉴스콘텐츠이용자가직접뉴스콘텐츠 BD를활용하는단계는제외되었으므로철저히 B2B의거래단계만포함하고있다고볼수있다. < 표 4-3> 거래단계조합 - 운영주체에따른운영방식의특징 운영주체거래단계특징및주요내용 정부주도 민간주도 1+2+3+4 1+2+3 1+2 1 1+2+3+4 1+2+3 1+2 1 ㆍ시장변화에둔감한모델에속함ㆍ현실적으로시장의동의를얻기힘듦ㆍ절충적형태의민 - 관공동운영은가능 ㆍ플랫폼 - 디바이스간마켓주도힘듦ㆍ절충적형태로가능할수있음 ㆍ정부의역할은기술개발, 언론사의견조정등의명확한기능을지님ㆍ데이터의공공적활용이활성화될수있음ㆍ언론사간조정기능으로정부기능한정 ㆍ시장경쟁을유도할수있음ㆍ데이터제공과정상불평등현상존재 ㆍ데이터축적, 분석포맷이이해관계에따라달라질수있음ㆍ공동뉴스플랫폼사이트에데이터제공시거래가원활히이루어지지않을소지가있음ㆍ콘텐츠가격경쟁이치열해질수있음ㆍ데이터포맷의일원화가힘듦 빅데이터로서뉴스콘텐츠활용방안연구 81

5. BD 기반뉴스아카이빙시스템활용방안제안 1) 뉴스기사분석시스템을활용한수익모델 4) 최근뉴스콘텐츠중심의빅데이터를활용한비즈니스모델개발이활발히이루어지고있다. 이러한사례들을통해언론기사의특징을추적하는방식의비즈니스모델이서비스시장을주도하고있다는점을알수있다. 서울대학교차세대융합기술연구원은 2013년 12월18일 ( 수 ) 코엑스에서열리는 2013 년빅데이터페어 에서뉴스큐레이션서비스 ( 가칭 ) 뉴스소스 를공개했다 (SNUNOW, 2013). 뉴스큐레이션서비스란사용자에따라뉴스를자유자재로선택하고재배치할수있는서비스이다. 특히스마트미디어환경에서맞춤형의 GUI를제공하여콘텐츠가독성을높였다는평가를받고있다. < 그림 4-11> 뉴스큐레이션서비스화면 : 뉴스소스 ( 가칭 ) < 그림 4-11> 과같이 < 뉴스소스 > 는기사에빅데이터분석을적용해정보원 중심의뉴스로가공하여사용자가원하고있는방식으로가장최적화된검색콘텐츠 를제공한다. 구체적으로는검색어에대해각분야에서어떤논의가이뤄졌는지 4) 뉴스아카이빙을통한분석서비스사례는본보고서의서비스사례 1 을참고하기바란다. 82

정보원의발언들을중심으로뉴스가구성된다. 그리고사용자는뉴스소스를통해기사에소개된주요정보원이어디소속의누구인지, 그동안무슨말을해왔는지쉽게파악할수있다. 카인즈에서제공하는신문방송온라인등 60개주요매체에실린 2900만건의기사를뉴스소스를통해서도모두검색해볼수있다. < 그림 4-12> 카카오토픽서비스 2014년 9월 24일오픈베타서비스를시작으로이용자의관심을받고있는 < 카카오토픽 > 의경우에도뉴스, 패션, 뷰티, 유머등다양한콘텐츠를사용자의관심에맞춰추천해주는뉴스큐레이션애플리케이션서비스이다 ( 김창남, 2014). 카카오는서비스를위해 110 여곳의언론사, 잡지사커뮤니티등과콘텐츠계약을맺은바있으며거래대상은점차적으로더욱확대한다는방침을세우고있다. < 카카오토픽 > 에는빅데이터분석을통한서비스기술이적용되었는데특히개인화및소셜필터링이반영된자동알고리즘을기반으로한다. 이러한알고리즘은현재화제가되고있는이슈들을자동분석해개인별로제공한다 ( 김명수, 2014). 뉴스콘텐츠의가장큰장점이라고하면무엇보다신뢰성, 대중성, 흥미성등을확보한콘텐츠라는데있다. 또한, 일간지, 전문지, 경제지, 지역지등다양한성격의언론사에따라특화된콘텐츠가수집되기때문에해당텍스트가코드화되어 빅데이터로서뉴스콘텐츠활용방안연구 83

저장된다면무엇보다정보로써큰가치를지닌다는점도이점이라고할수있다. 이러한언론보도기사의특징을고려해서본연구진이제안해볼수있는비즈니스모델의방향은다음과같다. 우선, 스마트폰에서수집가능한위치정보와연계한정보연계서비스를생각해볼수있다. 최근증강현실, 3D지도, 네비게이션등다양한위치정보활용애플리케이션이선보이고있다. 언론사뉴스들을수집한 DB를활용하여이들위치정보와연계한다면매우여행, 취업, 학습등다양한분야에서비즈니스모델의개발이이루어질수있다. 특히, 텍스트마이닝분야에역량을투입하여뉴스콘텐츠에특화된텍스트분석알고리즘을개발한다면이를통해많은정보들을연결한서비스를선보일수있다. 현재포털사에서제공하고있는뉴스서비스검색기능의경우해당검색어를기반으로연관된뉴스들을정확도나날짜순으로보여주는데불과하다. 그러나여기에텍스트분석에활용될수있는알고리즘을도입한다면실질적으로어느정도분량의기사에특정문구가언급되고분석되었는지를계량화해서시각화할수있기때문에정확한정보를원하는이용자들의수요가있을것으로판단된다. 5) 다음으로는광고영역과관련된연계사업을생각해볼수있다. 기존의광고는언론사별로광고가따로게시되고대가가지불되었다면, 통합형아카이브가구축된다면기사단위혹은기자단위로광고포맷을다변화할수있게된다. 이때이용자가지니고있는기사나기사단어등에대한이미지를계량화해서광고에적용할수도있을것으로본다. 2) BD 를활용한 ( 빅 ) 데이터저널리즘경쟁력확보 데이터를가공하여이를취재, 보도하는저널리즘의형태는오래전부터나타났 다. 데이터를체계적으로분석하여유의미한결과를뽑아낸기사의시초는 1821 년 5 월영국의가디언사에서발생하였다. 가디언사는맨체스터에서학교를다니는 5) 본연구보고서의 5 장은언론보도와소셜텍스트에대한분석서비스알고리즘을적용한사례이기에참고하기바란다. 84

학생의수와각학교수업료에관한자료를분석한기사를선보였다. 이것은공식적으로발표된숫자보다훨씬많은학생들이자유교육을받고있음을보여주었다. 현재논의되고있는데이터저널리즘의가공방식처럼 CAR 을활용해데이터수집과분석을한첫사례는 CBS 에서시작되었다. CBS 는 1952 년에대통령선거의결과를예측하기위해컴퓨터를사용하여보다체계적인정보수집과분석을시도하였다. 1960년대이후미국을중심으로공공기록데이터베이스를과학적으로분석하여독립적으로모니터링하고자하는저널리스트들이생겨났다. public service journalism 으로알려진이들은컴퓨터-활용기술을활용하여일반적혹은공식적으로알려진지식들이틀렸음을증명하고, 공공단체들과법인들에의해저질러진불법적인행태들을고발하고자했다. 예를들어, 필립메여 (Philip Meyer) 는디트로이트에서일어난 1967 폭동이덜교육받은남부인들에의해발발했다는당시의보도가틀렸음을증명했다. 그런가하면빌데드먼 (Bill Deadman) 은 1980년대에발행된 The Color of Money 라는책에서주요금융연구소들이자행하는제도적인종차별을폭로하기도했다. < 그림 4-13> 가디언기사 a list of schools in Manchester and Salford(1821) 빅데이터로서뉴스콘텐츠활용방안연구 85

국내에서데이터저널리즘의움직임이일어나기시작한것은 1990년대초반이다. 제민일보의 4ㆍ3은말한다 기사보도는국내데이터저널리즘의시초로꼽힌다. 제민일보는제주 4ㆍ3 사건에대한객관적인사실을밝혀내기위해대량의문헌자료와증언자료를데이터베이스로만들어관리했다. 수많은자료를분석한보도는지역사회와학계를놀라게했으며, 결국 4ㆍ3 특별법 을제정하는데큰역할을했다. 본격적으로빅데이터저널리즘의서막을연사건은위키리스크 (wikileaks) 의미국외교전문및아프간무전기록폭로사건으로기억되고있다. 위키리크스는인터넷을통해 2004년 1월부터 2009년 12월까지 6년동안의아프가니스탄전투와관련된 15,000건에달하는방대한양의기밀문서를공개했다. 언론사들은이제까지접하지못한막대한분량의데이터를기사로가공하기위해, 당시새롭게떠오르던빅데이터기법을사용하였다. 영국가디언지는빅데이터가활용된기사를생산하는데도뚜렷한일조를했다고평가된다. 가디언은기사생산을위해 급조폭발물 등몇개의키워드검색을통해데이터베이스를구축하고, 이를바탕으로유의미한결과를도출하는작업을수행했다. < 그림 4-14> 가디언의기사 : Afghanistan: the war logs 86

대용량의데이터를분석하여 IED공격이어떤지역에서발생했는지, 희생자수는어느정도인지등을집계하였고, 이를지도위에그래픽으로효과적으로전달한것이다. BD를통한뉴스아카이빙의또다른연계서비스형태로로봇저널리즘 (robot journalism) 이라고할수있다. 로봇저널리즘은자동기사작성알고리즘을갖춘소프트웨어를일컫는다. 이소프트웨어를통해데이터를수집, 분석하고이를기사형문장으로표현해실제언론사홈페이지에기사형태로업로드가가능하다. 아직국내에서는시도되지않고있지만해외에관련기술들이속속등장하고있다. 로봇의기사작성기술은총 5단계로구성되어있다. 우선로봇은데이터를수집하고분석한다. 그리고이렇게모은데이터에서뉴스거리가탐색된다. 다음으로뉴스내용에기자나언론사가지녀야할관점이입혀진다. 네번째와다섯번째단계에서세부적으로기사를배열하는작업을마친다음에자연어로기사작성이시작된다. 대표적인해외의로봇저널리즘으로는 포브스 에적용되어기사가생산되고있는 < 내러티브사이언스 >(Narrative Science) 를예로들수있다. 이는알고리즘을활용한빅데이터분석체계를총칭하는용어다. 금융분야나주로스포츠기사를주로작성하는데경영정보나주식시장의동향을분석하여주요기업의실적발표기사를작성하기도한다. 이외에도 EQBOT 이라는지진보도소프트웨어, 리코디드퓨처라는미래예측서비스등이등장하고있는사례이다. < 그림 4-15> 내러티브사이언스로봇저널리즘기사작성과정 : QUILL 빅데이터로서뉴스콘텐츠활용방안연구 87

아래는 < 내러티브사이언스 > 를통해문장이만들어지고기사화되는과정을보여준다. 이과정에서단조로운문장이나반복되는비슷한패턴, 어색한표현은지양되며, 종류별로미리만들어진어휘구조에데이터를채워넣는방식으로기사가생산된다. < 그림 4-16> 내러티브사이언스문장만들기예시 : QUILL 마지막으로뉴스콘텐츠가지속적으로활용되기위해서는무엇보다선행되어야하는기술이텍스트분석에대한알고리즘기술이라고판단된다. 왜냐하면오늘날뉴스콘텐츠의저장소로인식되고있는검색서비스의경우에도뉴스콘텐츠를정밀하고다양하게분석해주는기술이부족하기때문이다. 이러한텍스트데이터분석시스템이구축되기위해서는이용자의참여가이루어져뉴스콘텐츠 BD를자유자재로활용하고이에대한개선점이실제분석과정에서도출될수있도록해야한다. 아래 < 그림 4-17> 은뉴스콘텐츠 DB를통해이뤄질수있는데이터분석의내용들을나타낸것이다. 88

< 그림 4-17> 뉴스콘텐츠 DB 를통해이뤄질수있는분석내용 < 그림 4-17> 과같이뉴스데이터가수집되고분석되는과정에서빅데이터영역에서는대부분뉴스콘텐츠데이터가크롤링되고필터링되어데이터베이스에담기는 1차데이터화과정에초점을맞춰왔다. 그러나각언론사-뉴스콘텐츠 BD 간에데이터전달이원활하게수행되어실시간으로수정되고삭제되는데이터를명확하게수치화할수있다면, 자연어처리단계와텍스트마이닝단계에서개발될수있는서비스가늘어난다. 특히, 각데이터처리과정에서플랫폼을이용하는이용자로하여금자유자재로개발된알고리즘을적용할수있도록시스템을구축해놓는다면매우다양한방식의정보가쌓이게되고이를다시데이터수집단계에서활용할수있게된다. 빅데이터저널리즘의기술적개념에대해논의하기위해서는빅데이터분석의핵심적기능으로일컬어지는연관성규칙 (Association Rule) 을먼저이해할필요가있다. 빅데이터로서뉴스콘텐츠활용방안연구 89

연관성규칙이란수많은데이터중특정성격을가진데이터군을찾아내는방식을말하며친화성분석 (Affinity analysis) 이라고도한다 ( 송민정, 2012). 이는전자상거래사이트에서흔히적용되는데특정상품을구입하는소비계층에게해당상품을구매한다른소비자의구매상품을추천해주어판매를유도하는방식이다. 따라서뉴스기사의내용들을텍스트데이터단위로분석하여기사내용중위치정보, 인적정보, 그래프등정보간연관성을찾아내고이를기사화할수있게된다. 다음으로데이터시각화 (data visualization) 의개념이있다. 빅데이터환경에서시각화는그래픽이나이미지를만드는과정으로오해해서는안되며, 이미지를통해인지과정을도와주는과정자체로이해되어야한다 ( 이긍희외, 2014). 뉴스기사에서시각화는독자의이해를증진시켜준다는차원에서매우중요한기능에해당한다. 이처럼빅데이터저널리즘은대용량데이터의분석상에서발견되는연관성규칙이나데이터시각화의과정을포함하고있는개념이라고할수있다. 즉, 데이터저널리즘 (data journalism) 은특정주제에관한방대한데이터를수집하고분석하는저널리즘취재나보도형태를지칭하는말이다. 데이터베이스저널리즘 (database journalism, 데이터기반저널리즘 (data-based journalism), 빅데이터저널리즘 (big data journalism), 컴퓨터활용취재 (CAR : Computer Assisted Reporting) 등으로도불린다. 미디어기술의발달로인해생겨난용어이기때문에데이터저널리즘은하나의결과물혹은그결과물을만들어내기위한기술로여겨지기쉽다. 그러나그보다는결과물을생산해내는과정에더가깝다고할수있다. 최근빅데이터분석기법의발전과전세계적인공공데이터개방의흐름으로데이터저널리즘은새로운국면을맞이했다. 유럽에서는이를 Data-Driven Journalism이라명명하고 EJC(European Journalism Centre) 와 OKFN의후원으로연구가진행되고있다. 미국에서는 NYT 와 Propublica 를중심으로인포그래픽스와공공데이터활용사례들이꾸준히나오고있으며, 미국의탐사보도전문기관인 NICAR에서도데이터저널리즘에대한연구를진행하고있다. 저널리즘의근본적인목적이공익성을지향해야한다는것은이미학계와산업계에서합의되고있다. 그래서저널리즘은환경감시기능이나민주적사회의발달등과같은기능적차원에서논의되기도한다. 데이터저널리즘도이러한본질적 90

차원의저널리즘적기능향상에커다란발전을가져올것으로예상된다. 그러나대용량의데이터전송이이루어지고있는디지털환경에서데이터저널리즘이나빅데이터저널리즘을보다구조적으로이해하려면미디어환경이개편되면서급속히변화하고있는시장과플레이어들에대한이해가선행되어야할것이다. 6. 빅데이터베이스 (BD) 구축과운영방향에대한가능모델 ( 안 ) 1) 기존 < 카인즈 > 확장형빅데이터베이스 (BD) 구축 본연구진은빅데이터베이스 (BD) 구축과운영방향에대한가능한모델제안에앞서현재언론재단에서운영되고있는뉴스검색체계인카인즈의역할과확장가능성에대해먼저심도있게살펴볼필요가있다고생각한다. 이는기존에구축된데이터베이스의활용차원에서매우경제적인관점에서중요하며, 현시점에서가장빨리접근해볼수있는현실적인방안이기때문이다. 구체적으로카인즈확장형의새로운 BD( 예, 코리아뉴스아카이브 ) 가구축되었을때누가어떻게운영을해야한다는다소정치적일수있는운영주체를정하기에앞서현실적으로가장실효성이있는가능방안을논의하고자한다. 뉴스콘텐츠에대한이종사업자간협력모델은유통구조의변화를유도하기위해필요한사업적전략에해당한다. 그러나유통구조의변화를근본적으로혁신하기위해서는유통플랫폼의시스템적차원에서의변화가필요하다고본다. 현재한국언론진흥재단에서구축하고있는뉴스아카이브시스템인카인즈기능을확장하고이를기반으로통합데이터베이스를구축하는것은현시점에서매우경제적인하나의대안이될수있다고본다. 현행뉴스콘텐츠 DB 보유현황을따져볼때카인즈가지니고있는데이터규모는 2,952 만건이며, 이는 1990 년부터축적된데이터로모든데이터는텍스트파일형태로이루어져있다 ( 한국언론진흥재단, 2014). 언론사의뉴스를통합한단일서비스로는최대규모다. 고신문이나뉴스저작권사업등일부동일형태서비스가존재하지만데이터규모측면에서카인즈의규모에미치지못한다. 현재 빅데이터로서뉴스콘텐츠활용방안연구 91

개별신문사를포함한이들통합형서비스가카인즈로일원화될경우에약 70여개매체의데이터를수집ㆍ운용할수있으며 1억여건의콘텐츠통합관리가용이해진다. 따라서, 카인즈를뉴스콘텐츠의통합형데이터베이스로확장하는개념은현재의대내외적상황에서고려해볼만한선택이라고볼수있다. 카인즈확장형뉴스콘텐츠제공서비스는이처럼개별뉴스 DB를통합하여이를토대로다양한사회현상의상관관계나패턴을분석할수있다는차원에서도가치를지닌다고볼수있다. 또한, 이과정에서텍스트마이닝, 기계학습, 언어처리등과같은빅데이터분석기술을접목할수있어협소한뉴스콘텐츠활용시장을확장해나가는시너지도얻을수있는것이사실이다. 그러나이는뉴스콘텐츠빅데이터서비스가현재보다기술적으로진보될경우에언제라도예측가능한사업시나리오에해당한다. 이보다카인즈의사업적가치는공공서비스의확장이라는점에서찾을수있다. 한국언론진흥재단에따르면, 지난 2014 년 8월까지뉴스빅데이터분석과관련한협조요청은총 7개공공영역 ( 국민대통합위원회, 환경정책평가연구원, 과학기술연구원, 산업통상자원부, 한국전력, LH공사, 대한지적공사 ) 에서이루어졌는데분석주제는기후변화, 자연재해, 과학기술, 산업및경제, 전력, 부동산등사회전영역을아우르고있다. 그만큼공적영역에서뉴스콘텐츠의가치나관심이극대화되고있는양상을엿볼수있다. 또한, 블로그, 커뮤니티, SNS 등여론의향방이나사회적이슈를탐색할수있는다양한매체가존재하지만사회적관심의발단단계에서아직까지는뉴스를배제하고국가적차원의연구결과를도출해내기어렵다는관점도내포하고있는것이다. 이처럼, 카인즈확장형의데이터베이스가지니는영향력은공적가치를실현하고민관협업체계를활성화하며이를통해정부 3.0 정책을실현하는데있다. 카인즈의경우공공영역에서운용하는통합형뉴스콘텐츠데이터베이스로운용방식, 계약주체, 예산확보등이비교적체계화된측면이있다. 따라서, 연구기관및대학등과협업을통해개방형프로그램 (Open API) 을제공하여이를통해알고리즘을업그레이드하고서비스개선을이루는것이용이하다. 즉, 한국언론진흥재단은카인즈를통해뉴스 DB 및데이터처리를위한인프라제공을하고분석툴을활용한대외서비스를관리할수있게된다. 또한, 학계에서는통계적방법적용을통한예측모델, 92

연관성분석과같은툴개발을활성화할수있다. 이를통해, 정부및공공부문역시정책개발에활용할수있으며, 언론계는분석툴을활용한심층적기사보도를할수있는효과를거둘수있게된다. 마지막으로관련업계에서도뉴스콘텐츠빅데이터분석툴을개선하고응용프로그램을개발하여사업기회를창출하는효과를얻게된다. 정리하자면, 기존공적영역에서운용되는제한적서비스로여겨졌던카인즈의기술적개선이이루어질경우, 활용범위는자연스레사회전반으로확장될수있고공공데이터와접목된형태의다양한서비스의창출이가능하다. 이어서이러한다양한서비스는소비자수요의창출을유도할수있어이를통해각분야사업주체들은산업경제적효과를얻을수있게된다고볼수있다. 그런점에서현재로서는몇가지개선점이엿보인다. 카인즈의경우뉴스콘텐츠만대상으로하는검색엔진이기때문에뉴스생산자나이용자가해당서비스를비즈니스, 연구, 혹은정보수집에활용할경우에포털검색엔진과차별화된기술이나운영체계가먼저구축되어야한다. 우선, 기술적구현방식에있어개선이필요하다. 현재포털검색엔진서비스의경우에도검색을위한다양한옵션이존재하고그옵션들에는언론사, 기사게재기간, 기사포맷등의내용이포함되어있는실정이다. 따라서, 현카인즈뉴스기사검색엔진이활성화되기위해서는보다다양한검색옵션을갖추어야한다. 예를들어, 기사를생산한언론사별기사특성이나관점혹은이미지파일의내용등의정보를검색가능하게하여이를통한이용자활용도를높여야할것이다. 이용자인터페이스도카인즈의기술적개선사항에포함될수있다. 오늘날데이터검색엔진은단순히정보의양을제공받는것이아닌정보의품질을제공받는데에서평가가갈린다. 그리고이러한정보의품질은인포그래픽을제공해주는인터페이스도가치판단의기준으로작용한다. 따라서, 현재텍스트위주로구성된검색화면을개편하여보다인포그래픽기반의인터페이스를구성할필요가있다. 다음으로카인즈의운영체계에대해논의해볼수있다. 카인즈의운영체계가언급되어야하는이유는무엇보다참여하는언론사기업의수와관련이있다. 뉴스검색엔진의경우이용자가해당서비스페이지에접속하였을때모든언론사의뉴스검색을할수있을것으로기대한다. 그러나카인즈의화면첫페이지를살펴보아 빅데이터로서뉴스콘텐츠활용방안연구 93

도언론사의모든뉴스가제공되지않고있다는점을쉽게알수있다. 그이유는뉴스의중요도에따라첫화면이구성되거나검색결과가반영되지않는데큰이유가있다. 현재카인즈의첫화면은단순히전국종합일간신문, 지역종합일간신문, 미디어로등 3파트로구성된초기화면으로접속된다. 이미국내외포털사이트에서활용되고있는검색인기우선순위배열방식을따르지않고있기때문에화면의몰입도를떨어뜨리는효과를보게된다. 따라서, 첫화면에서는최소한최근에부각되고있거나많이읽히고있거나댓글이많이언급된뉴스기사들로배열하여독자들의흥미를유발시킬필요가있다. 단순히카인즈가검색및뉴스아카이브의기능만을목적으로한다고독자들이흥미성이감안되지않아야하는것은아니다. 흥미성이나가독성이떨어질경우, 인터넷이용자들은 2차적인검색활동에돌입하지않을가능성이있기때문이다. 그리고무엇보다언론사전체의참여를유도할필요가있다. 이것이어렵다고한다면참여하고있는언론사의범위나기준을명확히밝혀줘야할필요가있다. 카인즈를모든뉴스콘텐츠가있는아카이브로판단하는이용자의경우뉴스검색결과에서양적으로타검색엔진에비해적게나타날경우이탈할수있는확률은더욱늘어날수밖에없다. 기사검색시눈여겨보는첫번째정보는무엇보다해당정보의수와용량이다. 이용자는이러한기초정보들을통해해당검색엔진을신뢰하기도하며재방문을시도한다. 따라서, 언론사의참여가어렵다면제공되는뉴스의범위를정확한메타데이터수치로제시하여야한다. 본연구진은위에서기존카인즈의개선을통한 BD 구축의효율성을기술하였는데, 이와함께 BD를누가, 어떠한방식으로운영하는것이가장경제적이고효율적인지에대한고민을했다. 이에, 상생협력형뉴스콘텐츠 BD 제공위원회, 공동협력형뉴스콘텐츠 BD 제공포털, 독자형뉴스콘텐츠 BD 제공포털을제안하고자한다. 2) 콘텐츠제공사와포털의 상생협력형 BD 제공위원회 설립 상생협력형뉴스콘텐츠 BD 제공위원회 의창설을통한비즈니스모델은뉴스콘 텐츠제공사와포털사의협력적관계가핵심적인사안이다. 전술한바와같이 94

포털에대한언론사의콘텐츠유통상지위를회복시키고동반자적관계를형성시킴으로써뉴스제공에대한합리적거래관계를구축시키고자하는것이다. 그간뉴스콘텐츠의 DB에대해서는유통단계에서수익불균형의문제가가장큰문제들중하나였다. 언론사는콘텐츠제공사로써해당콘텐츠에대한판매수익이보장되어야하는데투명한거래절차및유통단계에대한논의가구체적으로이루어지지않은측면이있다. 따라서언론사와포털사간에뉴스콘텐츠 BD 제공에대한개념을합의하고관련데이터의수집규격, 제공, 판매, 재판매, 분석등에대한계약조건을명확히할필요가있다. 또한, 기존콘텐츠제공계약의변경을통해콘텐츠제공대가이외의광고수익의배분및공동광고수익사업에대한공동합의도이끌어낼필요가있다. 상생협력형뉴스콘텐츠 BD 제공위원회의모델을도식화하면아래 < 그림 4-18> 과같다. 상생협력시장 (Market of WinWin Partnership) 에서언론사와포털사는콘텐츠제공과대가에대한명확한거래기준을통해협력적관계를유지할수있다. 이과정에서 NewsML, UCI 등뉴스의유통포맷에대한합의가이루어지고이를통해시장규모의증대를유도한다. 보다많은서드파티의서비스개발을유도하면서콘텐츠생산-유통의시장이정착할수있다. 콘텐츠대가산정기준에대해서도정기적인가격공시및협의갱신을통해투명한유통환경을조성하는기반을마련한다. 이에덧붙여콘텐츠유통과정에서기록되는흔적, 용량, 특징등에대한내용을공유하여콘텐츠유통을활성화시키는데필요한공동연구를수행한다. 빅데이터환경에서상생협력형 BD 모델이중요한이유는 2, 3차콘텐츠유통서비스영역에서도다양한분석을통해협력이가능할수있기때문이다. 위원회모델내의전문가양성을통해블로그, 커뮤니티, 모바일등에뉴스콘텐츠가유통될때텍스트의미분석, 이슈파급경로분석등의실시간분석을실시할수있다. 그리고이에대한궁극적인목표로광고판매모델을협력하에수립이가능하다. 그간언론사와포털사는당연히상생협력이이루어져야하는시장의상황을등지고이렇다할협력적관계를구축해오지못한실정이다. 그러나빅데이터저장과축적기술이발달할수록이러한관계의변화는필연적이며, 협력적마켓의 빅데이터로서뉴스콘텐츠활용방안연구 95

구축을통해다양한데이터수요가있는소비자에게어필할수있을것이라기대된다. < 그림 4-18> 상생협력형뉴스콘텐츠 BD 제공위원회 설립모델 3) 공동협력형뉴스콘텐츠 BD 포털 구축 : 한국신문협회와한국언론진흥재단의역할을강조하며 최근한국신문협회가추진하는 포털과의공동협상 의로드맵이발표되었다. 이에따르면, 공동협상의실질적주체와형식적주체는각각한국신문협회와한국언론진흥재단이다. 이들주체를통해뉴스회원사와포털간의실질적인협상이이루어진다는것이다. 특히이번로드맵은포털과의뉴스저작권료실질협상, 회원사와의공동협상동의서등구체화된사업모델이제시되어있다는점에서의미를지니고있다고본다. 공동협력형뉴스콘텐츠 BD 제공포털 안은이러한공동협상로드맵등의단계를통해보다구체화될수있고실현가능한사업모델이라고볼수있다. 포털사업자, 한국신문협회등신문관련단체, 유관기관등이비교적구체적으로 96

논의했던비즈니스모델이바로공동협력형뉴스콘텐츠제공모델이다. 실제로일부포털사업자는신문협회에뉴스포털사업을제안한바있고이러한아이디어가 공동협력형뉴스콘텐츠 BD 제포털 의골공자를이루고있다고볼수있다. 뉴스포털사업을요약하면첫째, 언론사중심의뉴스포털로완전재편하고, 뉴스서비스운영은대부분신문협회의결정에따르는형태이다. 둘째, 뉴스콘텐츠제공의대가로 기사내영역 의광고수익은전액해당언론사에돌려주며, 그외의광고수익도일부 언론사공동수익 으로배분한다. 마지막으로, 뉴스포털에각지역회원사가투자부담없이지역포털을형성해운영할수있도록적극지원한다는내용도포함된다. 이러한시도는무엇보다저작권자인신문사들이왜곡된뉴스유통시장의질서를바로잡기위해직접추진하는뉴스포털구축사업에해당한다. < 그림 4-19> 공동뉴스포털사업의주요목표 그러나공동포털체계에는정보소스와엔드유저등에대한혁신적서비스에대한체계가배재되어있다. 이경우위의 < 그림 4-19> 와같은선순환적효과가나타날것이라고예측하기에는데이터사이언스를통한변인을고려하지않은측면이있다. 물론한국신문협회가공식적으로이를운영할경우에신문사의이익을대변하고뉴스에대한사용자친화성을높여새로운공격적인마케팅이가능할것으로본다. 빅데이터로서뉴스콘텐츠활용방안연구 97

또한뉴스포털을대한민국대표뉴스콘텐츠도메인으로부각시킬수있다면뉴스콘텐츠관련 1,000만기존가입자, 이메일등경쟁력있는기반서비스, 지역신문사와연계한지역포털사업등의이점을등에업고성장동력을이끌어나갈수있다. 공동사업모델에서고려되어야하는물리적구분은아카이브센터, 배포센터, 서비스센터, 그리고이들을떠받치고공동플랫폼으로구분될수있다. 공동플랫폼은공동사업을위한인프라를의미한다. 또한, 아카이브센터는한국언론진흥재단이보유한디지털뉴스콘텐츠를영구적으로보관하고연구나학술적이용을주목적으로하는물리적저장공간이다. 배포센터란국제표준규격으로콘텐츠를변환하여제3자에게전송시켜모니터링할수있는표준전송시스템이다. 마지막으로서비스센터는공동뉴스플랫폼에서다양한뉴스서비스가제공되는부분이다. 빅데이터를다루는공동형포털의경우에이러한물리적구성을떠받치고있는핵심적기술이존재한다. 이는뉴스콘텐츠의텍스트데이터를추출하여분석하는기술로웹크롤링 (Crawling), 필터링 (Filtering), 자연어처리 (Natural Language Processing), 텍스트마이닝 (Text Mining) 등이그것이다. < 그림 4-20> 공동협력형뉴스콘텐츠 BD 제공포털의물리적구성 98

그러나여기서간과되고있는문제는오픈 API, 모바일디바이스, 애플리케이션에대한기술결합모델에대한사안이다. 앞서살펴본로봇저널리즘의가능성에서살펴볼수있듯이오늘날의시장은영역의선점이나플레이어들의연합으로인해거래가촉진되는 1차원적인시장의형태가아니다. 그보다는이용자편의 (user friendly) 에더욱초점을맞춰기존에선보이지않았던서비스들이무차별적으로개발되는형태로흐르고있다. 그러므로기존포털과차별화된데이터분석적접근이이루어지지않는경우 1:1 개별계약을통해사업을영위해왔던기존방식과차별화된전략을도출해낼수없다. 결국관건은수많은회원사들이지니고뉴스의특징을도출해내고해당뉴스들의집합적통계량들을얼마나효과적으로노출시키느냐가될수있다. 따라서본연구에서는 공동협력형뉴스콘텐츠 BD 제공포털 구축모델을제안한다. 기존에논의된공동포털전략이제3의기업을통해단순히뉴스콘텐츠검색의관문을통일시키고자하였다면공동협력형뉴스콘텐츠 BD 제공포털에서는 B2B 형태로거래하는회원사들도일종의뉴스콘텐츠를제공함과동시에당사의뉴스콘텐츠의사회적위치나효과를직접확인할수있게된다. 즉, 이모델에서회원사는콘텐츠제공자이자서비스이용자로역할을하게된다. 또한, 포털플랫폼을책임지게될제3의기업은잡다한정보들을늘어놓는백화점식운영에서탈피하고중산층의지적수준을겨냥한계량적분석정보를제공할수있게된다. 물론아래모델에서회원사가지니고있는특징적뉴스콘텐츠를발굴하는것이중요하며이러한내용들이공동형뉴스콘텐츠 BD에저장되면기존포털사에서지니고있는블로그, 커뮤니티등일반이용자들의의견과매칭되어새로운뉴스로생산될가능성이높은정보들이다시회원사에게제공된다. 이과정에서제3의기업이될수있는포털사이트의주된역할은검색엔진을관리하는것이아닌뉴스콘텐츠 BD에대한분석이다. 예를들어, 회원사 DB간상호연관성을분석하여제공한다거나, 기존포털사의 API 를활용한서비스모델을제시한다거나하는방식의시장분석과개척이주된역할이되는것이다. 또한, 뉴스콘텐츠관련협단체를씽크탱크삼아뉴스콘텐츠의순환된유통단계를감시하여분쟁의소지를막는역할을할수도있다. 빅데이터로서뉴스콘텐츠활용방안연구 99

< 그림 4-21> 공동협력형뉴스콘텐츠 BD 제공포털 구축모델 < 그림 4-22> 지역신문사와거점지역포털구축 : 지역별도메인할당 출처 : 한국신문협회 (2009) 100

공동협력형뉴스콘텐츠 BD 제공포털에서 BD의언어적분석기술이고성능화되면해외시장으로의진출도고려해볼수있다. 회원사중국내에지사를두고있는해외언론사들에시장을개방하여해외관련뉴스콘텐츠를클라우드화할경우우리나라의지역도메인별뉴스들과매칭을통해전세계에서발생하는뉴스에대한의미분석과예측분석도시도해볼수있을것이다. 따라서공동협력형뉴스콘텐츠 BD 제공포털에데이터를제공하는지역언론사의경우에지역별로포털을군집화시켜데이터를보다체계적인포맷으로관리하려는시도가이루어져야한다. 공동협력형뉴스콘텐츠 BD는그것이구축됨과동시에다양한수익 / 배분모델을만들수있는장점이있다. 가령기사콘텐츠가직접창출한광고수익은해당언론사에전액귀속시키며, 간접적으로수익이창출하는부분에대해서는기여도에따라수익을바로계산하는알고리즘도구축할수있다. 공동협력형뉴스콘텐츠 BD에남겨진기록들을통해기여도를세분화하고 ROI 를분석하여공동으로투자된자금과서비스에대비하여불균형한수익구조를개선할수있다. 아래 < 그림 4-23> 과같이공동협력형뉴스콘텐츠 BD 제공포털에서가능한사업은크게모바일과광고영역으로구분이가능하다. 우선모바일영역에서는공동뉴스플랫폼을확장하여모바일서비스를제공하는방안을생각해볼수있다. 이과정에서다수의사업자와제휴를맺어뉴스채널을다양화할수있다. 또한, 모바일광고나유료뉴스를제공하는방식은신문사가자율적으로선택할수있도록조정이가능하다. 이경우웹아웃링크방식을배제한모바일전용사용자인터페이스는필수적이며스마트폰별로제공되는 UI에특성을반영시켜야한다. 다음으로신문과온라인광고의결합상품을서비스할수있다. 방식은광고주에따라상호보완적광고상품이며결합상품으로도가능하다. 향후본격화될수있는민영미디어랩출현에대비해신문광고의경쟁력을보완하는차원에서필요하며, 온-오프라인매체를동시에보유한신문사가새롭게발굴할수있는서비스라는점에서서비스이점이있다. 빅데이터로서뉴스콘텐츠활용방안연구 101

< 그림 4-23> 공동협력형뉴스콘텐츠 BD 포털에서가능한서비스사례 모바일뉴스서비스 지면광고와연계가강화된온라인광고 102

4) 독자형 ( 독립운영 ) 뉴스콘텐츠 BD 제공포털 구축 : 언론사들의독자적합작법인포털운영을중심으로 독자형뉴스콘텐츠 BD 제공포털의개념은언론사들의합작법인형태로운영되며, 기존의포털의개념과는차이가있다. 우선기존포털과전혀다른공간에서해당사업주체를달리하는비즈니스모델의경우단계별세분화전략이필요하다. 아래 < 그림 4-24> 와같이사업의초기-성장기-확장기가존재한다면무엇보다기존시장의플레이어들과경쟁할수있는조직력이필수적이다. 따라서온오프라인뉴스콘텐츠의데이터확보를용이하게할수있고관련산업을대표하는신문협회와온라인신문협회의협의체구성을통해법인을발족시키고사업기반을구축하는방식이유효할수있다. < 그림 4-24> 독자형뉴스콘텐츠 BD 제공포털 구축모델 또한, 합작법인의설립을가속화하기위해언론사와미디어랩사에참여를개방하 빅데이터로서뉴스콘텐츠활용방안연구 103

여비용부담을줄여나가는과정도필요하다. 그러나확장기에는기존검색, 커뮤니 티, 블로그등서비스공간이나광고영역의확대만을고려하는기존전략이외의 다른접근이필요하다. < 그림 4-25> 독자적언론사포털사이트구축을위한단계별전략 출처 : 한국신문협회 (2009) 우선독자적인형태의포털서비스가개시될경우적용가능한기존서비스들에대한분석이필요하다. 일단, 아웃링크뉴스스크랩서비스, SNS 서비스, 토론방서비스, 댓글커뮤니티등의서비스는기존에포털서비스를통해트래픽을발생시켰던서비스들로어느정도의수익성을보장한다고볼수있다. 그러나현시점에서독자적포털서비스는시장상황을고려해볼때몇가지전제가필요하다. 우선, 연합뉴스의협조및참여가필수적이라고볼수있다. 또한, 정책당국의물적, 제도적지원도절실한상황이다. 다음으로공동뉴스포털사업초반에최대한많은회원사및언론사가 선택적 으로참여할수있는환경조성도필요하다. 무엇보다독자적인포털을구축하는방안은여타모델에비해시장의변화를이끌어내고기존사업자들에게위기상황을가져올수있는전향적인방안임에 104

틀림이없다. 따라서, 포털에콘텐츠공급을중단하거나시장을변화시키는 이슈는시장성숙도및사업활성화추이에따라논의해야한다. < 그림 4-26> 독자형뉴스콘텐츠 BD 제공포털 에서제공가능한서비스사례 빅데이터로서뉴스콘텐츠활용방안연구 105

Ⅴ. 통합형 BD 를활용한프리미엄뉴스분석서비스모델제안 : 분석사례를중심으로 1. 뉴스콘텐츠분석알고리즘개발 : 한국은행 사례 뉴스관련텍스트데이터를분석한사례로본연구진이참여한한국은행분석사례를들수있다. 6) 본사례를통해뉴스기사내용을세부적인텍스트데이터로분류해보고해당데이터를통해나타나는계량적지표들을살펴보기위해서특정알고리즘을만들고분석프로그램을구축하였다. < 그림 5-1> 한국은행관련뉴스기사현황 데이터는 2014 년 4 월부터 2014 년 7 월까지총 4 개월의기간동안주요인터넷 포털의언론사뉴스를대상으로텍스트데이터를분석하였다. 이렇게수집된데이터 6) 한국은행분석사례는본연구의책임연구자가참여한연구로지난 2 년여간개발한빅데이터소셜텍스트분석기법을적용한사례이다. 106

는위 < 그림 5-1> 과같이 4개월간한국은행관련뉴스건수는 4월에 2,337건, 5월에 2,172건, 6월에 2,241건, 7월에 3,461건으로조사되었다. 또한, 이러한뉴스기사를다시언론사카테고리별, 인터넷 / 지면, 보도자료 / 그외자료등으로분류해보면아래그래프와같이나타났다. 또한, 이러한뉴스기사를다시언론사카테고리별, 인터넷 / 지면, 보도자료 / 그외자료등으로분류해보면아래그래프와같이나타났다. < 그림 5-2> 한국은행관련기사게재공간별현황 기사별특정언론사에서어느정도보도하였는지를알아보기위해기사건수와기사분량을기준으로통계를도출하기도했다. 기사의건수를기준으로언론사의순위를산정하면아래 < 표 5-1> 과같이나타나는데, 이러한순위를통해어떠한언론사가한국은행뉴스를많이게재하는지알수있다. 여기서보다세부적으로언론사의기존인식과성향정도를파악해보면해당언론사의기사방향에따른기사생산현황을다차원적으로고찰이가능하다. 빅데이터로서뉴스콘텐츠활용방안연구 107

< 표 5-1> 기사건수기준한국은행관련뉴스기사현황 기사분량을기준으로하는통계량의경우에도마찬가지다. 기사의분량이의미하는바는해당사안에대해보다심층적이고다양한내용들을다뤘다는점을의미하기때문에언론사의순위가이슈에대한관심도를의미한다고해석해볼수있다. 그러나이분석과정까지는어디까지나기사건수에대한기초적인수치를제시하는부분이기때문에신중한해석이필요하며, 기사에대한명확한파악을위해서는정성적내용분석이필수적으로필요하다. 108

< 표 5-2> 기사분량기준한국은행관련뉴스기사현황 다음으로월별언론보도현황이분석되었다. 아래 < 그림 5-3> 과같이한국은행관련보도는 4월에는총재의기자회견당시뉴스생산이대량으로이루어졌음을알수있다. 또한, 5월에는금융통화위원회본회의, 국제수지설명회, 6월에는한은기준금이동결, 7월에는금융통화위원회본회의, 세월호사태등에대한뉴스콘텐츠가많았음을알수있다. 이처럼각월별주요텍스트키워드를도출해내고연관된뉴스들의생산규모를살펴보고기사의빈도가높은주요키워드및언론사를순서로분석해낼수있었다. 빅데이터로서뉴스콘텐츠활용방안연구 109

110 < 그림 5-3> 한국은행관련월별언론보도현황

빅데이터로서뉴스콘텐츠활용방안연구 111

아래 < 그림 5-4> 는빅데이터를활용한알고리즘분석의절차를보여주는것으로원문을검색하고해당원문데이터내에서다양한키워드를추출해내는과정을설명한다. 주제어는경제및민생과관련된뉴스들을크롤링한사례이며, 해당내용들은모두원문데이터를기반으로뉴스콘텐츠를수집한사례이다. 경제및민생과관련된이슈는뉴스콘텐츠중에서도매우중요한사안에해당하지만막상정부부처및공공기관등관련부서에대한기사는한국은행, 금융감독원등몇몇기관에한정된다. 그나마한국은행과관련된기사도경제관련기사보다는통화정책, 기관장, 기준금리등매우세부적인내용의뉴스콘텐츠를보여주고있는것으로나타났다. < 그림 5-4> 한국은행관련소셜텍스트빅데이터분석절차 112

< 그림 5-5> 뉴스콘텐츠관련뉴스내용섹션별수집내용 위의 < 그림 5-5> 는지면뉴스중디지털아카이브에저장된뉴스기사를수집하는방식을설명하는것이다. 우선, 뉴스는타이틀, 서브타이틀, 리드기사, 기사등다양한형태로쪼개서크롤링할수있으며, 해당내용별로색인할수있다. 이러한색인작업을통하여뉴스아카이빙을구축할수있으며, 앞서언급한중요도나연관도의개념을함께대입시켜별도의뉴스콘텐츠공간에저장이가능하다. 이렇게저장된뉴스콘텐츠중특정키워드에대한중요도나연관도가높은 빅데이터로서뉴스콘텐츠활용방안연구 113

뉴스를선별할수있고, 현재발행된뉴스들중에서어떠한내용이중요하고연관성있게다루어지고있는지트렌드를수치화하여측정하는것이가능하다. 아래 < 그림 5-6> 은경제및민생과관련한키워드들중에서한국은행과관련된키워드를중심으로수식을만들고해당알고리즘을적용하여이슈를파악하는과정을설명하고있다. 예를들어연관도라고하면, 한국은행 이라는키워드를토대로보았을때, 총재 나 신임 과같은연관어를토대로다시수식이이루어지며같은방식으로중요도역시구성할수있다. < 그림 5-6> 한국은행관련소셜텍스트측정을위한알고리즘사례 앞서소개한연관도나중요도같은알고리즘이뉴스기사분석시적용되면아래와같이기사작성시에활용이많이이루어진어휘들을분석할수있다. 어휘분석시보다의미있는어휘들만선별해내기위해서는알고리즘적용을통한텍스트수집시보다수차례테스트를거쳐야하며이를통해오류에대한확인이 114

이루어져야한다. 아래 < 표 5-3> 에서확인할수있듯이한국은행관련어휘중에서눈에띄는단어는금리, 세월호참사, 환율, 금리인하, 기준금리, 기준금리인하등이다. 해당단어들은월별로다른수치를보이는데이들단어를포함하여기사들의전체내용을조망해볼수있고, 단어간의연결상황을살펴볼수있다. < 표 5-3> 한국은행관련기사활용어휘분석 아래 < 그림 5-7> 은 4~7 월까지한국은행관련기사주제별현황과기사에서 도출된단어들이어떠한방식으로관계를맺고있는지를보여준다. 빅데이터로서뉴스콘텐츠활용방안연구 115

116 < 그림 5-7> 4 월한국은행관련기사주제별현황및어휘클러스터차트

< 그림 5-8> 5 월한국은행관련기사주제별현황및어휘클러스터차트 빅데이터로서뉴스콘텐츠활용방안연구 117

118 < 그림 5-9> 6 월한국은행관련기사주제별현황및어휘클러스터차트

< 그림 5-10> 7 월한국은행관련기사주제별현황및어휘클러스터차트 빅데이터로서뉴스콘텐츠활용방안연구 119

아래 < 그림 5-11> 은한국은행관련기사들이파급되면서반응을살펴보는분석방식인감성분석의결과들이다. 분석툴을통해블로그, 커뮤니티, 카페등의공간에서나타난의견들을긍정 / 부정으로나누어정량분석을하였으며, 최종적으로는정성적방식으로모니터링한결과를보여준다. 이러한결과들은뉴스기사에따른의제파급과반응을살펴보는데매우유용한인사이트를제공해주며향후비슷한내용의뉴스기사가게재될경우어떠한반응이야기될수있을지에대한예측지표로활용될수있다. 아직까지감성분석은알고리즘을통한분석결과를전적으로신뢰할수없는한계가있으므로 1차적인정량분석이후에는필수적으로정성적모니터링이필요한것이현실이다. 뉴스콘텐츠제공포털이갖추어질경우에이에대한결괏값이공신력을갖기위해서는무의미한정보나분석대상에서제외되어야할데이터에대한샘플분석이필요할수있다. 그리고이에대한계량적수치를따로표기하여신뢰도를확보하는방안도생각해볼수있다. < 그림 5-11> 월별 SNS( 블로그, 커뮤니티, 카페 ) 댓글상세분석을통한감성분석결과 120

빅데이터로서뉴스콘텐츠활용방안연구 121

분석하고자하는이슈나키워드가명확할경우에는관련기사를생산하는 여타기관간수평적비교도가능하다. 아래 < 그림 5-12> 는경제관련전체 이슈에대해한국은행과유관기관간뉴스생산수치를비교한그래프이다. < 그림 5-12> 유관기관간뉴스기사내용분석결과 : 경제이슈 122

< 그림 5-12> 에서알수있듯이경제관련이슈들에대해한국은행보다기획재정부나금융감독원관련뉴스가더많이생산되고있는것으로나타났다. < 그림 5-13> 이나 < 그림 5-14> 에서살펴볼수있듯이, 세부적인이슈로구분해봐도가계부채및금융안정, 고용ㆍ성장ㆍ투자등의이슈에서최근기획재정부관련뉴스생산이증가하고있는것으로나타나고있다. < 그림 5-13> 유관기관간뉴스기사내용분석결과 : 세부경제이슈 - 가계부채, 금융안정 < 그림 5-14> 유관기관간뉴스기사내용분석결과 : 세부경제이슈 - 고용, 성장, 투자 빅데이터로서뉴스콘텐츠활용방안연구 123

2. 뉴스파급과정과범위측정 : 방송통신이슈분석사례 7) 뉴스콘텐츠에대한분석은언론매체종류및수, 이슈의내용, 분석기간등에따라다양해질수있다. 하지만, 학술적인목적으로데이터를활용할경우보다수치화되고계량적인방식으로조작적정의가이루어져야해석도다각화될수있다. 이번장에서는뉴스콘텐츠가생산되어뉴스섹션, 블로그, 커뮤니티등소셜미디어에서파급되는과정에서측정가능한변인들에대해살펴보고자한다. 본연구자는범위 (Scope), 지속성 (Duration), 상호작용성 (Interactivity) 의조작적정의를통해방송통신관련이슈들이어떠한수치를보이며파급되는지살펴보았다. 방송통신관련이슈분석사례를살펴보기위해 2010년 11월 1일부터 2013년 10월 31일까지총 3년간의기간동안생산된소셜미디어상이슈들을분석하였다. 소셜텍스트수집을위한크롤러는 2013년 11월 1일부터 11월 30일까지총 30일간지속적으로작동시켰으며키워드단위로이슈들을재분류하여방송통신과관련된이슈들만선별해내는 2차작업을거쳤다. 이렇게선별된방송통신이슈는 IPTV, RFID, 디지털콘텐츠, 위성, 정보통신응용기반기기등총 5개관련이슈이다. 이러한이슈들의이슈파급의범위, 지속성, 상호작용성에대한분석결과는다음과같다. 1) 범위 (Scope) 우선방송통신관련이슈들의파급범위 (Scope) 를측정하기위해서이슈확산공간과채널의개념을토대로확산공간내에서의소셜텍스트의언급빈도 (Frequency), 채널수 (Channel), 채널점유율 (Share) 등을측정하였다. 이슈가파급되고확산되는공간내에서의소셜텍스트언급빈도는뉴스섹션, 블로그, 커뮤니티공간에서언급되는빈도로측정하였다. 채널수는특정파급공간내에서키워드가파급된매체수로개념화하였다. 이를통해, 전체공간에서채널이차지하는비율을계산하여채널점유율의수치를계산하였다. 즉, 이슈파급범위의측정을위해사용된채널점유율 (Channel Share) 의공식은다음과같다. 7) 이번장은연구참여자 ( 최홍규 ) 의박사학위논문 (2014. 7) 중일부내용을발췌하여인용하였음을밝힌다. 124

: 확산공간내소셜텍스트언급채널수 : 확산공간내소셜텍스트언급빈도 채널점유율을통해살펴본방송통신이슈의범위는아래 < 표 5-4> 와같은결과로도출된다. 이슈가언급된빈도의합계는위성이가장높게나타났지만, 뉴스섹션의채널점유율은 IPTV 가가장높은수치를보였다. 또한 IPTV 는전체채널점유율도가장높은수치를보였다. 즉, IPTV 의경우언급된채널수가빈도에비해월등히높았으며다양한뉴스채널을통해보도된경향을보인다. < 표 5-4> 방송통신이슈관련소셜텍스트의파급범위별언급빈도 (2010 년 11 월 ~2013 년 10 월, 총 36 개월 ) 1 IPTV 2 RFID 3 디지털콘텐츠 4 위성 5 정보통신응용기반기기 : 최대값표시 키워드구분뉴스섹션블로그커뮤니티합계 빈도 3,789 9,490 10,459 23,738 비율 (%) 16 40 44 100 채널수 202 5,109 3,753 9,064 채널점유율 (%) 5.33 53.84 35.88 38.18 빈도 9,016 20,940 117,398 147,354 비율 (%) 6.1 14.2 79.7 100 채널수 243 10,711 35,182 46,136 채널점유율 (%) 2.70 51.15 29.97 31.31 빈도 11,384 2,523 10,805 24,712 비율 (%) 46.1 10.2 43.7 100 채널수 267 1,914 4,800 6,981 채널점유율 (%) 2.35 75.86 44.42 28.25 빈도 15,878 82,130 86,140 184,148 비율 (%) 8.6 44.6 46.8 100 채널수 244 26,209 30,718 57,171 채널점유율 (%) 1.54 31.91 35.66 31.05 빈도 14,254 9,004 7,433 30,691 비율 (%) 46.4 29.4 24.2 100 채널수 278 6,072 4,124 10,474 채널점유율 (%) 1.95 67.44 55.48 34.13 빅데이터로서뉴스콘텐츠활용방안연구 125

방송통신이슈들중키워드파급범위만따로살펴보면아래와같은 < 표 5-5> 로요약된다. 파급범위를계산하여수치로서열을매겨산출한결과이다. 가장많은채널에서언급된키워드는 계획, 확인, 관계자 등으로나타났다. 이러한키워드들에대한기초자료를토대로향후네트워크나감성분석이가능하다. < 표 5-5> 범위에서특성을보이는정보화정책관련공통키워드수치 ( 키워드빈도총합계기준상위 100 개키워드 ) 서열빈도표준편차 빈도평균 키워드 위성 이슈별언급빈도 RFID 정보통신응용기반 1 30 계획 1356 1505 1710 2 51 확인 1320 987 1330 3 63 관계자 885 1047 1349 4 72 추진 1205 756 1141 5 45 예정 1062 1282 1594 6 91 분석 595 935 1152 7 93 통신 529 949 1158 8 53 문제 880 1190 1535 9 62 확대 1099 767 1430 10 96 상황 483 1053 1077 11 90 결과 624 782 1294 12 89 운영 1192 508 1020 13 50 지역 887 1599 1273 14 92 실시 1297 597 762 15 88 대상 991 496 1239 16 37 발생 999 1813 1545 17 58 설명 713 1068 1596 18 84 포함 604 752 1458 19 69 진행 769 808 1582 20 87 발표 417 966 1350 21 44 서울 829 1360 1792 22 55 한국 631 1376 1539 23 82 이후 400 1140 1347 24 95 지난해 449 739 1434 25 61 적용 1347 477 1476 26 67 시간 725 771 1692 126

27 22 제공 2048 1140 2147 28 49 시작 729 1210 1841 29 97 모습 319 814 1437 30 64 기존 1075 498 1652 31 56 올해 851 782 1826 32 46 사업 1301 723 1910 33 52 사진 657 1129 1844 34 43 지원 1038 923 2026 35 85 이날 241 1410 1126 36 71 관리 1644 422 1066 37 80 도입 1688 515 763 38 94 공개 211 965 1451 39 59 구축 1812 547 1015 40 65 정도 474 970 1773 41 76 기반 1210 286 1554 42 36 이상 982 1148 2236 43 35 설치 1822 677 1923 44 86 인식 1070 163 1540 45 77 생각 732 478 1806 46 20 정보 2317 1035 2216 47 41 정부 672 2112 1215 48 28 필요 1146 1107 2454 49 24 경우 1460 1197 2642 50 39 최근 690 1253 2225 51 79 인터넷 565 523 1890 52 70 모바일 982 254 1906 53 81 TV 295 718 1914 54 57 분야 838 479 2106 55 14 이번 1365 2387 3063 56 19 관련 1233 1563 2859 57 99 에너지 412 263 1824 58 78 방송 122 1939 952 59 73 출시 598 354 2107 60 40 세계 616 1052 2496 61 8 서비스 3458 1455 2633 62 16 활용 2971 938 2193 63 31 국내 926 924 2712 빅데이터로서뉴스콘텐츠활용방안연구 127

64 33 일본 282 2095 2133 65 34 기능 1219 553 2716 66 26 사람 972 917 2930 67 74 시행 2352 264 441 68 10 기자 1311 2554 3636 69 6 이용 2685 1492 3837 70 12 가능 2397 1123 3475 71 27 방식 2916 568 1234 72 15 때문 1132 1758 3521 73 75 게임 477 122 2454 74 42 스마트 998 249 2740 75 98 음식물 2360 5 184 76 66 컴퓨터 408 198 2605 77 25 중국 350 3042 1820 78 100 의료기기 47 42 2405 79 48 증가 453 496 2854 80 3 기술 2878 1645 4509 81 83 쓰레기 2620 59 197 82 29 시장 786 615 3193 83 18 다양 1756 626 3522 84 11 시스템 3822 815 2495 85 21 스마트폰 1053 858 3605 86 13 미국 529 3510 2875 87 5 개발 1772 1738 4525 88 68 수출 109 158 2910 89 60 위성방송 3 3338 19 90 23 장비 695 493 4132 91 54 한국통신V 9 3563 7 92 47 위성 52 3693 97 93 38 발사 30 3858 282 94 32 전기 218 155 4164 95 7 제품 1721 474 5810 96 17 북한 79 5566 372 97 1 사용 2845 1383 7659 98 9 로봇 274 53 7204 99 4 기기 605 436 7715 100 2 가정용 44 7 10693 128

2) 지속성 (Duration) 지속성 (Duration) 은소셜텍스트가얼마나꾸준히파급되었는지를보여주는수치다. 지속성을살펴보기위해확산공간내에서매년어느정도빈도를보였는지트렌드를살펴보았다. 하지만, 지속성이의미하는바는키워드가시간적흐름을기준으로어느정도노출빈도의일관성을지니는지가핵심적개념이므로소셜텍스트노출빈도의일관성을측정하기위한수치화작업이필요했다. : 소셜텍스트의해당월 ( 시차 ) ㅤ확산빈도 (F) ㅤ : ㅤ이전월 ( 이전시차 ) 소셜텍스트확산빈도 (F), : 각각, 의평균 (M), : 각각, 의표준편차 (SD) 이렇게각키워드별소셜텍스트노출빈도를월별데이터로재구성하여총 36차수의자기상관계수 (Auto Correlation coefficient) 를도출하였다. 아래 < 그림 5-15> 와같이자기상관계수의도출을위한자기상관성분석결과, 신뢰구간 (95%) 내에서발견되는자기상관계수의빈도를지니는이슈는총 3개로 RFID, 위성, 정보통신응용기반기기등으로나타난다. 빅데이터로서뉴스콘텐츠활용방안연구 129

< 그림 5-15> 방송통신이슈의자기상관 (AC) 시계열그래프 ( 신뢰구간내 ) ( 총 36차수, 계수, - 신뢰한계 ( 신뢰구간하한 ), 신뢰구간 95%) RFID 위성 정보통신응용기반기기 아래 < 그림 5-6> 은방송통신이슈들중에서지속성이가장높게나타나는이슈들의키워드를살펴본것이다. 지속성이높게나타나는방송통신이슈는정보통신모듈및부품, 광대역통신망, 정보통신제조로초기에설정한이슈 5개는포함되지않았다. 130

서열빈도표준편차 < 표 5-6> 지속성에서특성을보이는정보화정책관련공통키워드수치 ( 키워드빈도총합계기준상위 100 개키워드 ) 빈도평균 키워드 정보통신모듈및부품 이슈별언급빈도 광대역통신망 정보통신제조 1 59 확대 1,562.00 1,889 1,917 2 78 최대 1,159.00 1,556 1,651 3 85 예정 1,065.00 1,500 1,553 4 97 분석 874 1,378 1,573 5 89 관계자 867.00 1,612 1,582 6 79 예상 1,445.00 1,016 1,894 7 99 매출 1,334.00 765 1,656 8 95 발생 769.00 1,792 1,350 9 71 올해 1,083.00 1,473 2,113 10 92 기기 899.00 1,182 1,915 11 69 휴대폰 2,069.00 1,033 1,765 12 33 통신 2,431.00 2,896 1,833 13 52 전망 1,906.00 1,389 2,466 14 50 모바일 1,462.00 2,547 1,894 15 94 단말기 1,681.00 1,597 694 16 65 공급 1,946.00 1,077 2,111 17 84 설명 861.00 1,994 1,406 18 21 국내 2,634.00 3,156 3,799 19 67 주요 1,352.00 1,246 2,372 20 24 출시 3,284.00 3,191 2,160 21 96 방식 808.00 2,035 1,037 22 81 활용 827 2,126 1,351 23 93 발표 738 1,207 2,034 24 53 이번 1,186.00 1,973 2,581 25 38 다양 1,682.00 3,037 2,041 26 88 TV 740.00 1,183 2,140 27 61 최근 1,044.00 1,733 2,494 28 49 이상 1,130.00 2,465 2,310 29 57 계획 1,137.00 2,596 1,688 30 45 사업 1,331.00 2,074 2,852 31 64 적용 1,171.00 2,646 1,371 빅데이터로서뉴스콘텐츠활용방안연구 131

32 25 때문 1,995.00 3,615 2,721 33 86 한국 772.00 1,032 2,295 34 77 문제 699 2,331 1,354 35 54 필요 1,046.00 2,716 1,906 36 44 기존 1,554.00 3,070 1,693 37 37 기자 1,687.00 1,917 3,247 38 62 컴퓨터 837.00 1,853 2,581 39 80 스마트 800.00 2,462 1,068 40 82 기반 661 2,433 1,187 41 39 지원 1,706.00 3,326 1,703 42 75 회사 776 1,156 2,557 43 60 시작 963.00 2,825 1,538 44 70 삼성 1,466.00 568 2,664 45 87 규모 751.00 762 2,584 46 41 증가 1,479.00 1,729 3,423 47 83 일본 832.00 774 2,669 48 47 판매 1,694.00 1,102 3,288 49 90 전자 788.00 558 2,685 50 35 애플 3,107.00 966 3,005 51 58 분야 1,043.00 1,156 3,196 52 6 스마트폰 4,664.00 6,515 4,154 53 91 상승 1,029.00 263 2,732 54 11 개발 2,726.00 3,310 5,149 55 76 설치 697 2,949 825 56 36 경우 1,255.00 3,724 2,010 57 100 주파수 800.00 2,715 238 58 51 중국 1,323.00 1,065 3,484 59 13 시장 2,661.00 3,058 5,231 60 27 정보 1,131.00 3,931 2,713 61 66 이동통신 3,116.00 1,622 302 62 74 고객 736.00 3,139 660 63 32 인터넷 1,446.00 4,079 1,689 64 42 장비 997.00 1,699 3,920 65 68 산업 650.00 849 3,404 66 29 자동차 2,242.00 1,031 4,224 132

67 73 요금제 1,212.00 3,277 53 68 14 관련 2,543.00 2,696 5,650 69 10 제품 3,353.00 2,463 5,844 70 26 미국 1,507.00 1,592 4,698 71 98 안테나 3,381.00 226 199 72 31 업체 1,732.00 1,143 4,567 73 18 가능 2,474.00 5,448 2,085 74 55 사용자 678.00 4,084 842 75 56 관리 393 4,269 818 76 46 구축 581 4,599 933 77 63 LG유플러스 596 4,408 246 78 23 기능 1,746.00 5,809 1,639 79 12 이용 2,066.00 6,437 2,531 80 72 제조업 197.00 84 4,328 81 43 네트워크 696 4,955 819 82 5 기술 2,845.00 5,942 7,626 83 30 생산 1,548.00 623 5,295 84 15 삼성전자 3,170.00 1,072 6,319 85 4 사용 3,218.00 8,662 4,817 86 19 세계 1,337.00 2,109 6,526 87 28 SK텔레콤 1,274.00 5,792 652 88 48 멀티미디어 5,341.00 484 210 89 16 시스템 1,633.00 6,934 1,983 90 40 모듈 5,742.00 448 541 91 22 데이터 1,466.00 7,252 721 92 34 제조업체 416 130 6,546 93 17 한국통신 1,651.00 8,144 753 94 9 제공 1,649.00 8,810 1,759 95 7 부품 8,654.00 414 5,013 96 20 가입자 917.00 8,817 140 97 8 제어 401.00 11,443 500 98 3 제조 625.00 528 16,374 99 2 반도체 1,103.00 302 19,815 100 1 서비스 3,048.00 27,279 1,958 빅데이터로서뉴스콘텐츠활용방안연구 133

3) 상호작용성 (Interactivity) 상호작용성은소셜미디어내에서논의되는소셜텍스트언급의정도 ( 빈도 ) 가파급공간 ( 뉴스섹션-블로그-커뮤니티 ) 간에나타나는상관관계를나타낸다. 상호작용성을살펴보기위해아래와같이파급공간간상관계수를구하는것으로상호작용성을수치화하였다. 아래는상호작용성의계산을위해설정된상관관계계수 (Correlation) 공식이다. : 월별공간 ( 뉴스섹션, 블로그, 커뮤니티 ) 에서나타나는소셜텍스트빈도 : 월별공간 ( 뉴스섹션, 블로그, 커뮤니티 ) 에서나타나는소셜텍스트빈도 8), : 각각, 의평균 (M), : 각각, 의표준편차 (SD) 상호작용성분석결과는아래 < 표 5-7> 과같이나타난다. 즉, RFID, 위성관련 이슈는뉴스섹션, 블로그, 커뮤니티간에양적상관관계를보이고있으며통계적으 로유의미하다. 134

< 표 5-7> 소셜텍스트의채널간언급빈도상관관계 (2010 년 11 월 ~2013 년 10 월까지, 총 36 개월의키워드빈도간상관관계 ) 뉴스섹션블로그커뮤니티 1 IPTV 뉴스섹션 1.0 블로그 -.234** 1.0 커뮤니티.282**.224** 1.0 뉴스섹션블로그커뮤니티 2 RFID 뉴스섹션 1.0 블로그.299** 1.0 커뮤니티.394**.380** 1.0 뉴스섹션블로그커뮤니티 3 디지털콘텐츠 뉴스섹션 1.0 블로그.046 1.0 커뮤니티.480**.079** 1.0 뉴스섹션블로그커뮤니티 4 위성 뉴스섹션 1.0 블로그.115** 1.0 5 정보통신응용기반기기 커뮤니티.182**.173** 1.0 뉴스섹션 블로그 커뮤니티 뉴스섹션 1.0 블로그 -.126** 1.0 커뮤니티.371** -.140** 1.0 : ** p<0.01, * p<0.05 아래는상호작용성이나타나는방송통신이슈의키워드를나타낸다. RFID 의 경우이에속해있으며가장빈번히발견되는키워드는기반, 제공등으로나타난다. 빅데이터로서뉴스콘텐츠활용방안연구 135

< 표 5-8> 상호작용성에서특성을보이는정보화정책관련공통키워드수치 ( 키워드빈도총합계기준상위 100 개키워드 ) 서열빈도표준편차 빈도평균 키워드 이슈별언급빈도 RFID 정보통신제조텔레매틱스 1 64 기반 1,210.00 1,187 914 2 20 제공 2,048.00 1,759 2,146 3 26 다양 1,756.00 2,041 1,573 4 36 기능 1,219.00 1,639 1,751 5 75 사람 972 1,344 636 6 85 디자인 526.00 998 1,233 7 14 정보 2,317.00 2,713 1,989 8 95 최초 468.00 836 1,248 9 63 예정 1,062.00 1,553 760 10 87 확인 1,320.00 956 472 11 73 시작 729.00 1,538 752 12 91 설명 713.00 1,406 525 13 93 문제 880.00 1,354 399 14 46 모바일 982.00 1,894 1,192 15 96 추진 1,205.00 1,035 302 16 58 지원 1,038.00 1,703 698 17 47 스마트 998.00 1,068 1,919 18 99 기대 676.00 1,410 383 19 61 기존 1,075.00 1,693 630 20 21 가능 2,397.00 2,085 1,348 21 92 발생 999 1,350 292 22 72 관리 1,644.00 818 598 23 53 계획 1,356.00 1,688 584 24 77 관계자 885 1,582 421 25 16 이용 2,685.00 2,531 1,583 26 59 구축 1,812.00 933 673 27 76 인터넷 565 1,689 647 28 51 필요 1,146.00 1,906 652 29 97 분석 595.00 1,573 364 30 45 경우 1,460.00 2,010 655 136

31 54 확대 1,099.00 1,917 558 32 70 통신 529.00 1,833 781 33 71 설치 1,822.00 825 488 34 98 도입 1,688.00 574 257 35 40 출시 598 2,160 1,620 36 55 올해 851 2,113 587 37 33 이번 1,365.00 2,581 992 38 24 적용 1,347.00 1,371 2,801 39 90 예상 386.00 1,894 367 40 48 이상 982.00 2,310 596 41 79 발표 417.00 2,034 434 42 94 지난해 449.00 1,952 199 43 100 감소 386.00 1,957 109 44 80 공급 432.00 2,111 321 45 65 한국 631.00 2,295 382 46 81 TV 295 2,140 357 47 49 최근 690.00 2,494 636 48 31 사업 1,301.00 2,852 826 49 28 기기 605.00 1,915 2,720 50 38 때문 1,132.00 2,721 684 51 62 주요 370.00 2,372 646 52 29 활용 2,971.00 1,351 806 53 82 기록 345.00 2,232 215 54 60 전망 438.00 2,466 496 55 84 디스플레이 200.00 2,272 287 56 52 컴퓨터 408.00 2,581 663 57 83 현대차 14.00 464 2,297 58 5 시스템 3,822.00 1,983 4,270 59 57 회사 434.00 2,557 470 60 86 시행 2,352.00 313 84 61 68 규모 389.00 2,584 236 62 43 방식 2,916.00 1,037 364 63 56 전자 371.00 2,685 405 64 88 공장 150.00 2,438 99 65 66 일본 282.00 2,669 335 빅데이터로서뉴스콘텐츠활용방안연구 137

66 34 분야 838 3,196 787 67 67 삼성 115.00 2,664 474 68 30 기자 1,311.00 3,247 519 69 69 LCD 164.00 2,684 297 70 74 제조사 130.00 2,682 149 71 89 쓰레기 2,620.00 42 5 72 78 상승 47.00 2,732 107 73 37 판매 574.00 3,288 679 74 50 애플 96.00 3,005 652 75 13 스마트폰 1,053.00 4,154 2,336 76 6 사용 2,845.00 4,817 1,650 77 22 국내 926 3,799 1,093 78 35 중국 350.00 3,484 862 79 42 차량 438 523 3,394 80 41 산업 439.00 3,404 520 81 44 증가 453.00 3,423 319 82 7 개발 1,772.00 5,149 2,176 83 4 서비스 3,458 1,958 5,652 84 32 장비 695.00 3,920 352 85 10 자동차 264.00 4,224 3,543 86 19 미국 529.00 4,698 992 87 23 업체 424 4,567 671 88 12 시장 786.00 5,231 1,576 89 39 제조업 36.00 4,328 34 90 11 관련 1,233.00 5,650 910 91 8 제품 1,721.00 5,844 890 92 25 부품 171.00 5,013 300 93 3 기술 2,878.00 7,626 2,775 94 18 생산 586.00 5,295 377 95 27 음식물쓰레기 5,331.00 15 9 96 9 세계 616.00 6,526 900 97 15 삼성전자 142.00 6,319 378 98 17 제조업체 96.00 6,546 113 99 2 제조 362.00 16,374 168 100 1 반도체 180.00 19,815 250 138

3. 미래 IT 트렌드예측 : 통합형빅데이터활용사례 전술하였던바와같이인터넷과소셜미디어상에서파급되는텍스트데이터에대해각영역별로분석이이루어지려면학술, 산업, 소셜텍스트에대한소스원에대한분석이실시되어야한다. 이를통해어떠한계층이텍스트를생산하고파급하고있는지분석이가능하고이슈가새롭게부각될이슈에대해서도내용을예측할수있다. 1) 소셜미디어상에서발견되는 IT 트렌드 우선소셜텍스트를분석하기위해연구팀은 2010년 10월부터 2013년 10월까지총 2년 10개월의기간동안 IT 키워드를분석하였다. 분석대상이되는소셜미디어공간은블로그, 커뮤니티카페였으며총국내 620 여개언론사의뉴스기사데이터를수집하였다. < 그림 5-16> 소셜미디어에서발견되는주요 IT 이슈 빅데이터로서뉴스콘텐츠활용방안연구 139

< 표 5-9> 소셜미디어에서발견되는주요 IT 이슈의파급공간별빈도 위의 < 그림 5-16> 과 < 표 5-9> 에서살펴볼수있듯이각파급공간별로이슈가언급되는수치에차이를보이고있다. 총 373,291건의언급빈도중에서가장많은언급빈도를보이는이슈는방송통신기술관련제조키워드였으며총 43,793건을기록했다. 아래 < 그림 5-17> 는 IT 이슈중텔레매틱스관련언급되는이슈들에대한네트워크를보여준다. 가장의미있는키워드로스마트폰이언급되었으며이외에모바일, 내비게이션, 운전자, 블루링크등과같은키워드가눈에띈다. 140

< 그림 5-17> 소셜미디어에서발견되는주요 IT 이슈별키워드네트워크 : 텔레매틱스 2) 특허정보원에서발견되는 IT 트렌드 아래 < 그림 5-18> 은특허정보원에서언급되는 IT 관련주요이슈를나타낸다. 앞서언급한바와같이특허청이나가트너, CES 등과같이 IT 관련새로운키워드가등장하는산업영역의키워드분포는실용적차원에서중요하며산업예측을위해서도중요한의미를지닌다. < 그림 5-18> 특허정보원에서발견되는주요 IT 이슈 빅데이터로서뉴스콘텐츠활용방안연구 141

< 표 5-10> 특허정보원에서발견되는주요 IT 이슈의파급공간별빈도 < 그림 5-19> 특허정보원에서발견되는주요 IT 이슈별키워드네트워크 : ITS 142

3) 국내관련기관에서발견되는 IT 트렌드 아래국내 IT 유관기관에서발견되는 IT 이슈키워드를분석한결과를보여준다. 기관의특성이반영되어있는측면이있지만, 여러가지차원에서향후정부계획에 포함된 IT 관련키워들예측해볼수있다. < 표 5-11> 국내관련기관에서발견되는주요 IT 이슈의파급공간별빈도 빅데이터로서뉴스콘텐츠활용방안연구 143

< 그림 5-20> 국내유관기관에서발견되는주요 IT 이슈별키워드네트워크 : RFID 4) 소셜미디어 - 특허정보원 - 국내기관에서발견되는 IT 트렌드 지금까지살펴본소셜미디어, 특허정보원, 국내기관등의 IT 트렌드는아래와같이나타낼수있다. 특기할만한점은소셜미디어에서발생한이슈의빈도는특허정보원이나국내기관에서발생한 IT 관련이슈와상관관계를보이는경향이있는것이다. 또한, 특정이슈가소셜미디어에서발견될경우동일한이슈가특허를위해서혹은국내기관의정책사례로등장한다. 이를통해학술적이거나실용적인차원에서텍스트데이터논의를확대할수있다. 144

< 그림 5-21> 주요 IT 트렌드분석결과 빅데이터로서뉴스콘텐츠활용방안연구 145

Ⅵ. 결론및제언 본보고서는결론적으로앞의각활용방안에서구체적으로밝혔듯이뉴스콘텐츠데이터베이스가경쟁력을갖춘빅데이터베이스 (BD : Big Database) 로구축되고, 뉴스콘텐츠가보다활발하게유통되고 B2B 나 B2G 뿐만이아닌 B2C 로도지속적인발전모델을가져가려면다음과같은실천적노력과체계적인사업전략지속되어야한다고믿는다. 첫째, 앞에서도지적한바와같이뉴스콘텐츠아카이빙에있어오픈 API 제공의의무적도입을검토할필요가있다. 흔히오픈형데이터서비스라고하면데이터자체가개방형이라고여겨지는편견이있다. 그러나오픈 API의기본적인취지는서드파티 (3rd party) 인하드웨어나소프트웨어관련업체에게부가적인서비스를창출시켜산업활성화나기업상생의목표를이루는데있다. 따라서오픈 API를뉴스콘텐츠데이터베이스에적용할경우에 API 제공에만초점이맞춰져야하며, 이는뉴스콘텐츠데이터의전면적인무료화를의미하지는않는것이다. 즉, 데이터와 API의연동체계에따라유ㆍ무료화에대한논의는별개의사안에해당한다는말이다. 그러므로서드파티에서서비스개발이활성화될수있는방향으로소스를먼저오픈으로제공하고이를서비스단계별로세분화하는전략이우선적으로필요한시점이다. 둘째, 기존에논의된한국형뉴스표준전송방식 (Korea NewsML(News Mark-up Language)), 콘텐츠관리및식별체계 (UCI : Universal Content Identifier) 를활용한저장ㆍ관리체계기반이필요하다. News ML의경우디지털뉴스콘텐츠로변환가능한텍스트, 기사, 사진, 동영상등포맷을수용할수있고 146

이들콘텐츠에포함된다양한부가정보도포맷화할수있는체계이다. 따라서이를빅데이터화된뉴스콘텐츠유통체계에활용할경우보다효율성높은데이터저장및유통체계가확립될수있다. 콘텐츠관리체계인 UCI의경우에도포털사이트에전송된뉴스콘텐츠를개별적으로인식할수있는식별체계이므로이를적용할경우대용량의데이터에포함된뉴스콘텐츠식별을보다용이하게할수있는이점이있다. 빅데이터를분석하고자할때에는정보의식별문제가데이터크롤링및필터링과정에서빈번히발생하고있으며알고리즘만으로이에대한해결이힘들다는점이공공연히밝혀지고있다. 따라서 UCI의적용으로뉴스콘텐츠를보다체계화된데이터로변환시키는작업이용이할것으로판단한다. 셋째, 뉴스산업은그특성상다양한사업자가존재하면서신구사업자간소통과커뮤니케이션이잘되지않는특성을보여왔다. 따라서, 통합형 BD를구축하는시기에맞춰공식화된조직을통한합의체계가완성되어야한다고본다. 이러한합의체를통해향후미디어환경이다변화된다고하더라도다각적인대응이가능할수있도록준비해야한다. 구체적으로는 DB와관련된수집, 구매, 판매, 활용등에대한가이드라인및기관간합의체계의구성이필요하다고본다. 뉴스콘텐츠제공플랫폼을구축하기위해서는현재아카이브, 배포, 서비스등과관련된비즈니스모델이필요하고이들비즈니스모델에적합한규약이선행되어야하는데현재이를뒷받침할기반이부족한상황이다. 통계로살펴봐도현재데이터베이스서비스기업들은불공정한거래로인한문제가발생할경우에 소송등의법적대응의절차를밟는경우 는 15.3% 에불과하며 어떠한대응도하지않거나, 적절한대응방법을몰라법률자문이필요한경우 가총 33.1% 에이른다 ( 한국데이터베이스진흥원, 2013). 따라서구체적인사업을위해행정, 법률, 유통, 포맷등의사안들이명시된계획및관련문건, 그리고이에대한각주체간합의체계가마련되어야한다. 문화체육관광부의경우 UCI를통한콘텐츠관리분야에서음원부분이매우잘관리되고있다는평가를받는다. 음원저작물에대한가치와합법성을인정하고유통에참여하는주체간합의가원활히이루어졌기때문에가능했던결과라고본다. 넷째, 사업에대한지속적투자가필요하다. 빅데이터트렌드는불과 3년남짓한 빅데이터로서뉴스콘텐츠활용방안연구 147

기간동안에이슈가되어사회의전영역에서빅데이터를활용한분석기법을도입하기에열을올리고있다. 또한, 정부 / 공공 / 산업계전영역에서자금이확보되기에상대적으로용이할만큼부각되고있는실정이다. 이시점에단기적인사업발전을꾀하려한다면뉴스콘텐츠 BD 사업은장기화되기힘들다. 뉴스콘텐츠는이제까지데이터가지니는잠재적인가치에비해저평가되어관련기술들의개발이전방위적으로이루어지지않았다. 따라서, 기초적인기술개발에서부터인문사회과학전영역에이르기까지해당데이터의활용영역에대해숙고할만한충분한기간이필요하다고본다. 즉, 단기적인자금투입만으로는그잠재적인가치에상응하는시장을창출하기힘들다는얘기다. 다섯째, 해외시장을타깃으로삼아야한다. 오늘날전세계적으로한류열풍은점점이슈화되고있다. 이러한시점에한글이라는정보데이터로구성된뉴스콘텐츠는그자체가해외시장에서매력적인상품가치를지닌다. 엔터테인먼트시장에서우리나라의후발주자를자처하는국가에서는우리나라의산업적지형이나이슈의흐름등에대해촉각을곤두세우고있는형국이다. 따라서, 국내서비스에국한되지않는형태의포맷으로 BD 구축을이루고이로써발생하는유관서비스에대해서도적극적인해외공략을시도해야한다고본다. 여섯째, 서드파티의기술개발및서비스구축등을독려하기위해서라도대해다양한국가적이벤트가필요하다고본다. 오늘날스타트업기업의대부분은정보서비스를필두로사업을영위하고있다. 따라서, 뉴스콘텐츠에제대로된분석기법을선보이며오픈 API가정착되면서드파티에게무한한영역의시장을제공할수있다. 기존뉴스콘텐츠정보의유통영역은일반대중에게매우보수적인느낌이들며진입장벽이높은것으로판단될수있다. 이러한이미지를불식시키고서드파티로인한산업팽창을선도하려면국가적인지원정책이나이벤트를많이기획하여실행해야한다고본다. 일곱째, 뉴스콘텐츠데이터분석및유통에대한전담기술인력에대한양성을서둘러야한다고본다. 오늘날데이터사이언티스트라고일컬어지는데이터전문가들은지난해부터산업의전영역에서필요로하고있다. 현재추세는더욱데이터전문분야가세분화되어각학문적테마나산업영역에따라데이터전문가를따로고용하는현상이발생하고있다. 따라서, 뉴스영역에서도계량적데이터를다루면 148

서동시에뉴스콘텐츠에대한이해도가높은인력을양성해야향후산업에서활용도 를높일수있다. < 그림 6-1> 경쟁력있는 BD 운영모델구성체계 이상으로언급한뉴스콘텐츠 BD 의구축을위한실천적제안들을정리해서도식화하면위의 < 그림 > 과같이나타낼수있다. 물리적기반인뉴스콘텐츠 BD를구성하는기술적포맷은기본적으로오픈소스를제공하는 API로구성되어있으며콘텐츠유통포맷은 Korea NewsML과 UCI 를활용하여체계를정립하는방식이다. 또한, 이들 BD가시장에서바람직한유통구조를이루기위해서는행정체계, 법률내용, 유통주체, 포맷구성에대한논의가지속적으로이루어져야한다는얘기다. 이처럼뉴스콘텐츠를개방적이고통합적으로유통하기위한체계는이와같이기술과사회적시스템에의한방안이고려되어야할것이다. 하지만, 이를통해뉴스콘텐츠의선순환적유통체계를기대하기에는무리가따른다. 뉴스의경우 빅데이터로서뉴스콘텐츠활용방안연구 149

특히그것을생산하는주체의영향력이상대적으로컸었던특징이있어유통과재생산과정상의주체들을고려해야한다는점, 이를통해빅데이터시대에적합한통합적인서비스를재구축해야한다는점들이문제시될수있어이들에대한해결방안도함께고려해야한다. 지금까지논의한뉴스콘텐츠기반 BD 구축및활용방안을종합하여도식화해보면아래 < 그림 6-2> 와같이정리할수있겠다. 우선뉴스콘텐츠가온 / 오프라인에서배포되기시작하면서뉴스콘텐츠기반의 DB의활용이다양해졌으며이로인한현 DB체계의문제점도함께부각된것이사실이다. 따라서현재구축되어있는뉴스포털은미디어기술발전속도에비해활용도가떨어지고데이터가치가수직상승하는동안그에걸맞는서비스를개발하지못했다. 웹 2.0시대이후강조되던개방ㆍ공유ㆍ참여의철학이뉴스콘텐츠유통영역에서발현되지못한점도혁신적인뉴스콘텐츠 DB를정착시키지못한원인이되었다. 이로인해기존뉴스영역에국한된서비스의무용론이대두되기에이르렀다. 이후데이터저장및유통에대한기술이발전하고하드디스크의가격이하락하면서이른바빅데이터시대에접어들게되었다. 새로운데이터환경에서뉴스콘텐츠영역에서는비즈니스모델개발이시급하게되었으며이를위해거래규격표준화, 유료서비스, 저작ㆍ편집권등유통질서등에있어서대대적인개편이필요한시점으로돌입하게된것이다. 따라서, 오늘날뉴스콘텐츠기반의 BD가제대로구축되기위해서는공익형뉴스플랫폼, 다양한비즈니스모델, 저널리즘경쟁력등이확보되는기반위에서통합형 BD가필요하다. 이는빅데이터분석기술이더욱발전하고실시간으로모바일접속이가능해지는스마트시대를맞이해필연적인선택지가될것이라고판단된다. 뉴스콘텐츠기반통합형 BD의방식은앞서논의한바와같이다시세가지방식의모델로가능하다. 상생협력형뉴스콘텐츠제공위원회, 공동협력형뉴스콘텐츠 BD 제공포털, 독자형 BD 제공포털등이그것이다. 결론적으로는뉴스콘텐츠기반통합형 BD가구축되어야하며이를운영하기위한사업모델은운영주체에따라달라진다는얘기다. 150

< 그림 6-2> 뉴스콘텐츠기반 BD 구축및활용방안요약 마지막으로, 이런노력속에서뉴스콘텐츠기반의통합, 개방형 BD 가구축되어 다양한서비스를통해뉴스콘텐츠생산자뿐만아니라사회구성원에게도그이익이 돌아가는상생의선순환구조가만들어지기바란다. 빅데이터로서뉴스콘텐츠활용방안연구 151