02본문

Similar documents
Cloud Friendly System Architecture

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

PowerPoint 프레젠테이션

160322_ADOP 상품 소개서_1.0

슬라이드 1

[Brochure] KOR_TunA

PowerPoint 프레젠테이션

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

View Licenses and Services (customer)

초보자를 위한 분산 캐시 활용 전략

Microsoft Word - src.doc

hwp

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š


들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

문서의 제목 나눔고딕B, 54pt

04 특집

용자들_MKT_Proposal_201504_V6.pptx

항목

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

슬라이드 1


Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

슬라이드 1

Windows 8에서 BioStar 1 설치하기

PowerPoint 프레젠테이션

1701_ADOP-소개서_3.3.key

서현수

슬라이드 1

09한성희.hwp

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

게시판 스팸 실시간 차단 시스템

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

wtu05_ÃÖÁ¾

i4uNETWORKS_CompanyBrief_ key

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

RUCK2015_Gruter_public

PowerPoint 프레젠테이션

3월2일자.hwp

<30302DB8F1C2F7BFDC2E687770>

(연합뉴스) 마이더스

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

PowerPoint 프레젠테이션

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8C1A4C1D8>

슬라이드 1

SIGIL 완벽입문

표준프레임워크 Nexus 및 CI 환경구축가이드 Version 3.8 Page 1

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Microsoft Word - How to make a ZigBee Network_kr

PowerPoint Template

맘톡광고소개서

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T 박미관 김의명 제출일자

vRealize Automation용 VMware Remote Console - VMware

Microsoft SQL Server 그림 1, 2, 3은 Microsoft SQL Server 데이터베이스소프트웨어의대표적인멀티플렉싱시나리오와라이선싱요구사항을나타냅니다. ( 참고 : Windows Server와 Exchange Server CAL 요구사항은해당서버에대

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

13-01.hwp

<4D F736F F F696E74202D20B5A5C0CCC5CDBAA3C0CCBDBA5F3130C1D6C2F75F32C2F7BDC32E >

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

November Vol.90 39



비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

슬라이드 제목 없음

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조


Microsoft PowerPoint - chap01-C언어개요.pptx

[로플랫]표준상품소개서_(1.042)

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

졸업작품중간보고서 - 구글 MapReduce 를이용한클라우드컴퓨팅 조중연 서종덕 지도교수님진현욱교수님 ( 인 )

consulting

Spring Boot/JDBC JdbcTemplate/CRUD 예제

등록특허 (19) 대한민국특허청 (KR) (12) 등록특허공보 (B1) (51) 국제특허분류 (Int. Cl.) G06Q 30/06A0 ( ) (21) 출원번호 (22) 출원일자 2009 년 08 월 19 일

Microsoft PowerPoint 자동설치시스템검증-V05-Baul.pptx

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

2

PowerPoint 프레젠테이션


BMP 파일 처리

빅데이터분산컴퓨팅-5-수정

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

2009방송통신산업동향.hwp

Contributors: Myung Su Seok and SeokJae Yoo Last Update: 09/25/ Introduction 2015년 8월현재전자기학분야에서가장많이쓰이고있는 simulation software는다음과같은알고리즘을사용하고있다.

저작권관련최신특허기술 어도비, VR/AR 디지털저작권관리기술 기술분야 : 저작권침해예방기술 적용시장 : VR/AR 콘텐츠소비시장 기술개발의배경 디지털저작권관리기술은디지털콘텐츠의사용을관리함과동시에제어하기위해사용된다. 예를들면, 디지털콘텐츠의변경, 사용또는배포행위를관리하는

쉽게 풀어쓴 C 프로그래밊

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

untitled

SBR-100S User Manual

hwp

표준프레임워크로 구성된 컨텐츠를 솔루션에 적용하는 것에 문제가 없는지 확인

PowerPoint 프레젠테이션


진정한토종벤처를꿈꾸는기업 저희시큐레이어는최근사회적화두로부각되고있는빅데이터를기반으로한통합로그수집 / 분석및통합보안관제분야에순수국산기술적자립으로외산과당당히겨루는소프트웨어를만들자는이념의전문소프트웨어기업입니다. 이러한이념을달성하기위한치열한열정과노력으로주요시장에서긍정적으로 평가

무제-1

Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집

7월2일자.hwp

Transcription:

50 특집 : 빅데이터와미래방송 특집 빅데이터와미래방송 협업필터링기반의콘텐츠추천시스템과빅데이터처리솔루션을이용한상용화개발방향 Content recommendation system based on the collaborative filtering and big-data solutions for its commercialization 최성우, 한성희, 정병희 / KBS 요약사용자들이미디어를접하는디바이스환경이다양화되고그속에서접할수있는콘텐츠의양은많아졌다. 특히급속도로발전한모바일환경에서사용자들은개인화된기기를사용하여콘텐츠를소비하고주변사용자들과경험을공유한다. 콘텐츠제공서비스에서는이러한개인의콘텐츠소비이력및 SNS 관계에서발생한데이터를분석하여활용함으로써콘텐츠소비를활성화하고자한다. KBS 에서도이러한동향에맞추어방송콘텐츠추천검색연구와실시간 TV캡처및소셜공유연구를진행하였으며, 그과정에서많은양의데이터를효율적으로처리하기위한방법의필요성을절감하게되었다. 데이터분석이필요한두과제에서진행한내용을기술하고대용량데이터처리기법을활용하여상용화서비스를구축할계획을소개한다. Ⅰ. 서론 웹페이지를통해원하는영상콘텐츠를언제어디 서든쉽게소비할수있는환경이조성되면서콘텐츠의양또한급속도로증가하고있다. 통계에따르면유튜브에는매분 100 시간분량의동영상이업로드되며매월 60억시간이상분량의동영상이시청된다. 방송사역시여러개의채널에서하루에수십시간의영상콘텐츠를생성하며, 이는다시보기, 미리보기, VOD 다운로드, 하이라이트영상, 인기영상클립등다양한형태의길고짧은영상클립단위로다시서비스된다. 게다가일반사용자들에의해캡처되거나재구성된영상클립까지더해지면통계로내기힘들정도의수많은콘텐츠가생성되는셈이다. 이렇듯넘쳐나는영상콘텐츠중에서사용자에게적합한콘텐츠를선별해주는추천알고리듬은어떤콘텐츠제공플랫폼에서나필수적인요소가되었다. 콘텐츠추천알고리듬은시청자의소비이력이나콘텐츠의메타데이터등을분석하여사용자가가장필요로할것이라유추되는콘텐츠를도출해낸다. 또 50 방송공학회지 19 권 4 호

협업필터링기반의콘텐츠추천시스템과빅데이터처리솔루션을이용한상용화개발방향 397 한 SNS 가널리보급되면서단순한조회수나시청시간뿐만아니라댓글이나, 좋아요, 공유등의소셜활동및 SNS 상의친구관계가분석에필요한중요한정보를제공하게되었다. 현재 KBS 에서제공하는인터넷콘텐츠서비스인 플레이어 K( 이하 K) 에는 KBS 의콘텐츠추천서비스가포함되어있으며, 내부적으로는제작자들을위한방송콘텐츠추천검색서비스가구축되어있다. 또한실시간으로방송화면을캡처하여공유할수있는서비스인 TVzzik 서비스개발에도 KBS 콘텐츠추천시스템을적용하여사용자들의취향에맞는콘텐츠를추천한다. 그러나모든콘텐츠에대한데이터가기존에비해너무방대하기때문에종래의데이터처리기법으로는본추천알고리듬을구현하기힘들기때문에최근에대두되고있는 빅데이터 처리기법이필수적이다. 빅데이터처리솔루션들은대용량의데이터웨어하우스와고속의데이터분산처리기법을이용하여기존데이터분석시스템이처리할수없는작업을할수있다. 대표적인빅데이터처리프레임워크는하둡 (Hadoop) 인데, 이는페이스북의빅데이터솔루션으로사용되고도있다. 하지만물리적으로대용량의서버를갖추기어렵고빅데이터솔루션의사용법도아직은널리보급되지않았기때문에 AWS(Amazon Web Service) 등에서클라우드서버와쉽고편리한빅데이터처리솔루션까지함께제공하고있다. 사용편의성과탄력성및안정성등의여러가지장점으로 KBS에서개발하고있는서비스들도장기적으로는클라우드솔루션을이용하여개발할계획에있다. 1. 검색엔진을활용한방송콘텐츠추천검색 2010 년에시작된방송콘텐츠추천검색연구에 서는콘텐츠특성 ( 출연자, 제작자, 장르, 키워드, 대본, 자막, 제작정보등 ), 사용자특성 ( 나이, 성별, 사용자소비이력, 사용자설정등 ), 웹 소셜관심도를분석하여사용자에게최적화된콘텐츠를추천해주는것을목표로하였다. 특히개인화된콘텐츠추천을위하여아이템기반의협업필터링 (collaborative filtering) 알고리듬을사용하여아이템간의유사도를도출하고이를기반으로특정사용자에게가장선호도가높을것으로추정되는콘텐츠를추천하였다. 오라클 DB에사용자소비이력을비롯한데이터들을저장하고추천연산을마친사용자별추천콘텐츠리스트를저장하였다. 사용자- 콘텐츠소비이력을저장하고이를기반으로협업필터링을수행할때행렬의대부분이 0인값을가지는희소행렬인것을고려하여희소행렬을배열구조로변환한자료구조를사용하여데이터저장공간을줄이고배열연산수행시메모리확보를통해빠른연산을수행할수있었다 [1]. 이러한방법은크게 3가지의개선점이요구되었다. 첫번째가추천정확도개선이고두번째가실시간로그를반영한추천리스트연산기능이었다. 사용자가데이터를계속생성해내는과정에서추천리스트가변화하지않으면사용자들의흥미가떨어지기때문이다. 셋째가많은사용자들에게동시에서비스를제공할수있는서비스가용성보장이다. 추천정확도개선을위하여협업필터링을변형하여추천정확도를개선하는한편데이터처리속도도향상시킬수있었다 [2]. 그결과로추천정확도는 10% 향상되고연산처리속도는원래의 4.4% 만소요되도록성능이향상되었다. 또한 DB를오라클에서 MongoDB 로이전하면서 DB 조회속도가향상되었다. 이를실제서비스에적용하기위해서는서비스피크에서의로드를감 2014 년 10 월 51

398 특집 : 빅데이터와미래방송 < 그림 1> K 사용자이용로그분석 당해야하기때문에서비스적용대상의로드예측이선행되었다. KBS는외부서비스허브인뉴미디어통합CMS 를기반으로 K 에서콘텐츠다시보기서비스를제공하는데, K 에추천서비스를적용하기위하여해당서비스에로그인한사용자들의시청로그를분석해보니 < 그림 1> 과같았다. 즉한달평균로그수가 70~75만건이고피크타임의로그수는분당 1144건이었다. 시청로그에서만초당 20건이발생했으므로추천메뉴가홈페이지상단에배치되는경우에페이지가갱신될때마다추천요청수는그보다더많을것으로예상되어목표추천요청수는초당 100건으로정해졌다. 빠른서비스응답에가장장애가되는부분은실시간연산부이다. 협업필터링을수행하기위해서는오프라인으로수행할수있는부분과온라인으로수행해야하는부분이존재하는데, 아이템기반의협력필터링을사용할때하루에한번정도수행하는아이템유사도는오프라인으로처리하고그결과인아이템유사도는서비스를위한색인으로관리되어왔다. 그러나오프라인색인이후에 추가된신규로그를서비스에반영하기위한실시간 DB 조회가온라인연산을느려지게만들었다. 따라서데이터입출력시간을줄이기위하여실시간로그의증분색인과검색엔진이활용되었으며, 로그의색인은실시간연산을줄일수있는구조로변경되었다. 시스템은로드밸런싱을위하여 L4스위치하위에여러대의서버로분산환경을구축하게되는데, 각각의서버는실시간연산과서비스응답을하는것뿐만아니라실시간증분색인을동시진행하게된다. 증분색인방식은마스터서버에서색인진행시색인된데이터를슬레이브그룹의서버들에게전송하여각서버들에서증분색인을따로진행하는방식으로, 색인전체파일을전송하지않고증분되는문서나데이터만전송하므로 < 그림 2> 와같이색인소요시간이일정하게된다. 서비스모듈에서는색인데이터도메모리캐쉬를이용하였다. 또한뉴미디어통합CMS도 2단계에서 3단계로변화시에서비스로그저장소를 MongoDB 에서 Hadoop 을이용한빅데이터시스템으로변경하여추천검색엔진과뉴미디어통합CMS사이에서발생하는데이터조회 52 방송공학회지 19 권 4 호

협업필터링기반의콘텐츠추천시스템과빅데이터처리솔루션을이용한상용화개발방향 399 색인데이터 건당색인 Master Sever 색인파일 File Size 데이터전송 Network I/O Time Slave Server 1 Slave Server N Network I/O 색인파일 색인파일 증분색인 Time < 그림 2> K 사용자이용로그분석 속도를개선하였다. 또한서비스에필요한방송콘텐츠메타데이터를가상화서버팜 (Smart API Farm) 에서제공하게함으로써서비스속도를개선시켰다. 전체시스템구성도는 < 그림 3> 과같다. 실제마스터서버 1대, 슬레이브서버 1대두대로추천검색시스템이구성되었다. 서비스피크의로드를충족시키기위하여시스템을구성함으로써서비스자원이탄력적으로구성되 지못했기때문에실제서비스의형태는제한적으로구현되고평상시시간에는자원이낭비되는면이존재하게되었다. K 의추천메뉴는페이지뷰가별도로이루어지는곳에배치되었고연산을최소화하도록구현되었다. 따라서다음시스템개편시에는자원의탄력적인할당이가능하도록클라우드컴퓨팅을이용한분산환경을도입해야할것으로예상되었다. 추천검색시스템 메타허브 Slave Server Master Server Service Enabler 추천엔진 추천엔진 ICafe 2.0 J DK 1.7 MySql 5.5X Tomcat 7.X Apache 2.2X Tomcat 7.X J DK 1.7 Apache 2.2X 방송콘텐츠메타데이터수집 J DK 1.7 Apache 2.2X 방송콘텐츠메타데이터조회 Cent OS 6.X(64 Bit) Tomcat 7.X Cent OS 6.X(64 Bit) NAS Storage FAS2020A HDD 7T 사용자소비이력데이터수집 사용자소비이력데이터적재 Cent OS 6.X(64 Bit) 가상화서버팜 Big Data/ 개인화서비스 API Server Cluster Sharded Service Cluster Sharded Mysql Server Big Data 개인화서비스 < 그림 3> K 적용을위하여뉴미디어통합CMS와연계된추천검색엔진구성도 2014 년 10 월 53

400 특집 : 빅데이터와미래방송 2. 실시간 TV 캡처및공유서비스 TVzzik 에서의콘텐츠추천알고리듬연구 TVzzik 은시청자들이방송콘텐츠를소유하고공유하고자하는욕구를반영하여, 실시간으로 TV 를보면서방송프로그램을캡처하고공유할수있게하는현재개발중인서비스이다. TVzzik 을이용하면 < 그림 4> 와같이시청자는 TV를보면서도사용중인스마트폰과 TV와의시간동기화를맞춘후에현재방송중인프로그램을영상혹은이미지로캡처하여저장하고, 이것을 SNS상으로포스팅할수있다. TVzzik 을이용하면사용자들에의해수많은영상클립이생성된다. 이는사용자의수가증가할수록인기있는프로그램일수록더욱많이발생한다. 사용자가영상클립을감상하고난다음에는다른연관된영상클립을찾게되는데유튜브는물론이고페이스북에서도연관추천콘텐츠가자동으로표시된다. TVzzik 에서도추천콘텐츠메뉴를만들고사용자들의공통된콘텐츠소비이력을기반으로한협업필터링기법에개별사용자들의취향을 반영한필터링을추가하여추천알고리듬을구성하였으며, 자세한방법은다음과같다 [3][4]. 먼저콘텐츠를추천해주고자하는유저의최근콘텐츠소비이력을통해 seed content set을만든다. 최근콘텐츠소비이력에는조회, 좋아요, 댓글달기, 공유하기등의 4가지활동이있으며, 이러한이력을이용하여만들어진최초콘텐츠셋이다른콘텐츠를추천하기위한 seed 가된다. 두번째는선정된 seed content set과유사도가높은콘텐츠를 candidate content set으로선정하는작업이다. 각 seed content 와가장유사도가높은몇개의콘텐츠를선별하고이것을 candidate content set에포함시킨다. Candidate content 는 seed content 와직접적으로연관된콘텐츠가아니라도최대몇단계까지더확장해서선정한다. Seed content 와 1단계로연관된콘텐츠만을선별하면너무좁은범위의추천이될수있기때문이다. 하지만단계값이너무커질경우전혀엉뚱한콘텐츠가추천될수도있으므로적정한값으로조절하여사용한다. 콘텐츠간의유사도는 contentcontent 유사도테이블을참조하여얻는다. 이테 < 그림 4> TVzzik 서비스의사용단계 54 방송공학회지 19 권 4 호

협업 필터링 기반의 콘텐츠 추천 시스템과 빅데이터 처리 솔루션을 이용한 상용화 개발 방향 401 <그림 5> TVzzik 추천 알고리듬 Step 1 <그림 6> TVzzik 추천 알고리듬 Step 2 이블을 구하는 방법은 알고리듬 소개의 마지막 부 츠가 존재할 수 있는데, 이들을 다음과 같은 기준으 분에서 설명한다. 로 점수를 부여하여 순위를 매긴다[3]. 첫 번째는 세 번째는 candidate content set에 속한 콘텐츠 콘텐츠의 품질(Quality)인데 이것이 얼마나 깔끔하 에 순위를 매겨 가장 높은 순서부터 몇 개를 선별하 게 캡처되었는지 등의 객관적인 품질은 자동적으로 고 이것을 최종적으로 추천하는 단계이다. Candi- 알기 어려우므로 총 조회수와 댓글 수가 높은 콘텐 date content set에는 수십 개에서 수백 개의 콘텐 츠를 품질이 높다고 판단한다. 사람들이 많이 보고 2014년 10월 55

402 특집 : 빅데이터와 미래방송 <그림 7> TVzzik 추천 알고리듬 Step 3 <그림 8> content-content 유사도 연산법 댓글을 단 콘텐츠는 일반적으로 양질이라고 볼 수 하거나 조회한 콘텐츠의 해쉬 태그 등을 비교해봄 있다는 가설을 세울 수 있기 때문이다. 두 번째는 으로써 좀 더 세부적인 개인의 취향을 반영할 수 있 개인의 취향(Personality)인데 양질의 콘텐츠라고 다. 세 번째는 콘텐츠의 다양성(Diversity)이다. 항 하더라도 개인 성향에 맞지 않으면 좋은 추천이라 상 직접적인 유사도가 높은 콘텐츠만을 추천하면 고 볼 수 없기 때문이다. 물론 seed content set으 너무 좁은 범위의 추천이 될 수 있다. 예를 들어 드 로부터 파생된 콘텐츠이기 때문에 개인의 취향이 라마에서 어떤 장면이 마음에 든다면 좁은 범위의 반영되었다고 볼 수 있지만 사용자가 그동안 작성 추천의 경우 같은 드라마의 비슷한 장면만을 나열 56 방송공학회지 19권 4호

협업필터링기반의콘텐츠추천시스템과빅데이터처리솔루션을이용한상용화개발방향 403 할수있다. 하지만다른드라마나영화라도비슷한장면이있을경우사용자에게추천해준다면좋은추천이될수도있다. 이렇게너무추천의범위가좁지않도록가중치를조절하는기준이필요하다. Candidate content 를선별하는데사용되는콘텐츠간의유사도는각각유저의조회, 좋아요, 댓글달기, 공유하기등 4가지활동을특정값으로환산하고이것을각콘텐츠의특징벡터로삼아일반적인협업필터링기법으로연산할수있다. 각활동은가중치를곱해서더한후하나의값으로환산되어테이블에저장된다. 한콘텐츠에대한모든유저의활동값은그콘텐츠의특징벡터가되며, 각특징벡터들간의코사인유사도를구하면모든콘텐츠간의유사도를계산할수있다. 최종적으로선별된추천콘텐츠들은현재인기도가높은콘텐츠등과서비스운영자가보여주고자하는콘텐츠몇가지와혼합되어사용자추천콘텐츠메뉴에노출되게된다. 3. 빅데이터처리솔루션의도입과앞으로의개발방향콘텐츠추천알고리듬은위와같이설계되었지만실제시스템에서운용을하기는굉장히까다롭다. 협업필터링기법의특성상콘텐츠수와유저의수가늘어날수록연산량이급격하게늘어나는데일반적인데이터처리솔루션으로는이것을감당할수없기때문이다. 따라서최근중요성이커지고있는빅데이터처리기법이도입되어야본시스템을상용화수준으로구동할수있다. 기존의데이터베이스관리도구로수집, 저장, 관리할수있는역량을넘어서는데이터를일반적으로빅데이터로칭하는데실제 K 에서운용되고있 는콘텐츠추천시스템에서도엄청난양의데이터연산이필요하다. 시스템에서관리하는유저의수는 KBS 통합아이디가입자추산 1000 만명을넘어서며 KBS에서는월 1000 개이상의신규콘텐츠가생성된다. 또한 TVzzik 의경우사용자가어떤장면을캡처하여업로드할때마다콘텐츠가하나씩생성되므로유저가많은경우콘텐츠의수가급격히늘어날수있다. 이방대한데이터를기존의데이터베이스와분석도구로추천알고리듬을연산하면시스템의과부하로작업을완료할수없는상황에부딪히게된다. 이러한빅데이터를저장하고분석할수있는여러가지솔루션이등장하고있는데, 그중에서가장주목받는것은하둡 (Hadoop) 이다. 하둡은오픈소스빅데이터분산처리기술프로젝트이며실제페이스북, 트위터, 이베이, 야후등많은업체들이채택하여사용하고있다. 하둡의주요구성요소는대용량파일을안전하게저장하고처리하기위한하둡분산파일시스템 (HDFS, Hadoop Distributed File System) 과하둡기반의데이터베이스인 HBase, 그리고많은양의데이터를병렬로처리하는어플리케이션을쉽게작성할수있도록해주는 Java 기반의소프트웨어프레임워크인하둡맵리듀스 (Map Reduce) 가있다 [5]. HDFS 에서모든파일은블록단위로저장되며하나의파일은여러개의블록으로나뉘어진다. 또한각블록은안정성을위해장애를대비하여여러개의복제본을가지고있다. 파일과블록의매핑이나네임스페이스등의정보는모두네임노드 (Namenode) 에서관리된다. 데이터의병렬처리뿐만아니라안정성도높아야하기때문에장비의고장이일반적인상황으로여겨져서고가의장비대신여러대의저가장비로시스템이이루어진다. HBase 는 2014 년 10 월 57

404 특집 : 빅데이터와미래방송 데이터의물리적저장소로 HDFS 를사용하여데이터베이스 (DB) 의역할을수행한다. Map Reduce 는본래구글에서개발한병렬데이터처리기법으로연결된여러노드 PC들로대용량데이터를병렬처리할수있는방법을제공하는데이것을 Java 오픈소스로구현한것이 Hadoop Map Reduce 이다 [7]. 하둡과같은프레임워크를사용자가많고데이터의양도방대한 KBS의추천시스템에적용할수있지만최근에야빅데이터의중요성이대두되기시작하여관련기술개발자나자료가부족한실정이다. 그래서최근에는아마존과같은클라우드서비스제공업체들이대용량서버뿐만아니라훨씬사용하기편리한빅데이터처리및분석솔루션을제공하기시작했다. 아마존웹서비스 (AWS, Amazon Web Service) 에서제공하는 Amazon Elastic MapReduce (EMR) 은현재상용으로서비스되고있는빅데이터분석도구로 Hadoop 구성, 노드구성및클러스터설정등의모든기반설정을대신해주기때문에분석에만집중할수있도록해준다. 또한클라우드서비스의특성상저렴한서버비용과데이터의보안및안정성이보장되기때문에이를이용하여시스템을개발하는것이여러방면으로장점이많다 [6]. 본추천시스템도다음단계로는클라우드서비스에서제공하는빅데이터관리및분석솔루션을이용하여개발을진행할계획에있다. 최근에는 KT 클라우드서비스등국내클라우드관련업체들도빅데이터관리및분석툴을도입하기시작하여점점개발을위해선택할수있는폭이넓어지고있는추세이다. Ⅱ. 결론 본고에서는방대한콘텐츠를사용자의취향에맞게추천하기위한콘텐츠추천시스템을소개하였다. 사용자들이이용가능한콘텐츠의수는현저하게증가하고있고이를이용하는사용자의시간은한정되어있으므로사용자에게필요한맞춤형콘텐츠를추천하는알고리듬은어떤콘텐츠서비스에서나필수적이게되었다. 최근에는페이스북이나인스타그램등의콘텐츠서비스와밀접한관련이있는 SNS 서비스에서도친구들이많이본콘텐츠나연관있는콘텐츠및나와관련있는친구의추천까지도입되는추세이다. 이러한 SNS 서비스와콘텐츠서비스가접목되면서사용자들이이용하는활동이많아져추천알고리듬에서이용할수있는정보가풍부해지기때문에점점더정교한알고리듬을개발할수있을것이다. 동시에기존의시스템으로는처리할수없을정도로증가한많은양의데이터를분석하기위한빅데이터처리솔루션의중요성도커지고있다. 아직은시작단계인빅데이터솔루션의편리한이용을위한클라우드서비스업체들의자체솔루션은콘텐츠서비스개발자에게유용하게쓰일수있다. 앞으로콘텐츠추천시스템과같이빅데이터를처리하여유의미한분석결과를도출하는연구가클라우드서비스를이용하여편리하게개발될수있을것이라기대된다. 58 방송공학회지 19 권 4 호

협업필터링기반의콘텐츠추천시스템과빅데이터처리솔루션을이용한상용화개발방향 405 참고문헌 참고문헌 [1] 오수영, 오연희, 한성희, 김희정, 사용자소비이력기반방송콘텐츠추천시스템, 방송공학회논문지, 제 17권 1호, 2012.1 [2] 한성희, 오연희, 김희정, VOD 서비스플랫폼에서협력필터링을이용한 TV 프로그램개인화추천, 방송공학회논문지, 제18권제 1호, 2013.1 [3] Davidson, James, et al. The YouTube video recommendation system. Proceedings of the fourth ACM conference on Recommender systems. ACM, 2010. [4] Zhao, Xiaojian, et al. Personalized video recommendation based on viewing history with the study on YouTube. Proceedings of the 4th International Conference on Internet Multimedia Computing and Service. ACM, 2012. [5] 조성우. Big Data 시대의기술. KT 종합기술원,?(2011): 5-7. [6] http://aws.amazon.com/ [7] http://hadoop.apache.org/ 필자소개 최성우 - 2010 년 3 월 : POSTECH 산업경영공학과학사 - 2012 년 2 월 : KAIST 문화기술대학원석사 - 2012 년 3 월 ~ 현재 : KBS 기술연구소주임연구원 - 주관심분야 : 콘텐츠오류복원, 세컨드스크린서비스, 콘텐츠추천시스템 한성희 - 2001 년 2 월 : 고려대학교전기전자전파공학부학사 - 2003 년 2 월 : 고려대학교전기공학과석사 - 2003 년 ~ 2006 년 : 삼성전자무선사업부선임연구원 - 2007 년 3 월 ~ 현재 : KBS 기술연구소선임연구원 - 주관심분야 : 콘텐츠추천시스템, 방송자막활용, 하이브리드방송플랫폼 정병희 - 1994 년 2 월 : 이화여자대학교전자계산학과 - 1996 년 2 월 : KAIST 전산학과석사 - 2006 년 2 월 : KAIST 전자전산학과박사, ABU 논문대상수상 - 1996 년 ~ 현재 : KBS 기술연구소스마트콘텐츠플랫폼팀장 - 방송공학회논문지편집위원, HCI 학술대회학술위원, 빅데이터포럼운영위원 - 주관심분야 : 멀티미디어검색, IT 기반방송제작환경, 미디어전송 / 서비스기술 2014 년 10 월 59