488 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 일반논문 -09-14-4-10 디지털방송자막데이터를이용한멀티미디어응용서비스연구 김정연 a), 남제호 b) A Study on Multimedia Application Service using DTV Closed Caption Data Jung-Youn Kim a) and Jeho Nam b) 요 약 본논문에서는 DTV 자막방송데이터의응용을통한부가가치서비스활용방안을연구한다. DTV 자막방송 (Closed-Captioning) 이란방송프로그램의대사를문자화된자막으로보여주는서비스로서장애인, 노약자, 외국인등정보소외계층의방송접근권확대를통한정보격차 (digital divide) 해소를목적으로한다. 국내에서는 2007 년 6 월에디지털 TV 자막방송표준규격이완료되었으며, 2008 년 4 월부터 장애인차별금지및권리구제등에관한법률 에의한모든방송서비스의자막방송의무화로인하여현재대부분의지상파방송에서는자막방송서비스를제공하고있다. 본논문에서는 DTV 자막방송데이터의응용을위하여지상파방송의 MPEG-2 Transport Stream 으로부터자막데이터를추출하는방법을설명하고, 추출된자막과시간정보를이용하여 PC 환경의멀티미디어재생기에서사용가능한자막파일의생성방법을제안한다. 그리고생성된자막파일을이용한방송콘텐츠의시간적구간분할방법을제안한다. 실험에서는자막파일생성및구간분할 S/W 의구현을통하여제안된방법의유용성을확인하였으며, 다양한자막데이터응용기능의제시를통하여자막데이터의응용가능성을검증하였다. Abstract In this paper, we study on making a use of value-added services using DTV closed caption data. Note that Closed-Captioning service helps to bridge digital divide through extending broadcasting accessibility of a neglected class such as hearing-impaired person and foreigner. In Korea, DTV Closed Captioning standard was developed in June 2007, and Closed Captioning service should be provided by an enforcing law in all broadcasting services in April 2008. Here, we describe the method of extracting a caption data from MPEG-2 Transport Stream of ATSC-based digital TV signal and generating a caption file using the extracted caption data and time information. In addition, we present the segmentation method of broadcasting content using caption file. Experimental results show that implemented S/W tool provides the feasibility of the proposed methods and the usability of closed caption for a variety of data application service. Keyword : DTVCC, DTV 자막, 자막파일, 구간분할, ATSC, Segmentation a) ( 주 ) 휴맥스부설연구소개발본부 R&D Department, HUMAX Co., Ltd. b) 한국전자통신연구원 (ETRI) 방통미디어연구부 Broadcasting & Telecommunications Media Research Department, ETRI 교신저자 : 남제호 (namjeho@etri.re.kr) 본연구는문화체육관광부및한국콘텐츠진흥원의문화콘텐츠산업기술지원사업의일환으로수행하였음. [2-09-1205-001-10987-11-001, 국가표준콘텐츠식별체계를이용한방송콘텐츠유통서비스프레임워크기술개발 ] 지상파디지털 TV 자막방송국내외표준기술에대해도움을주신 KBS 이동준, MBC 이상규, SBS 김성환, EBS 송주호연구원외방송 4 사기술연구소관계자여러분께감사의뜻을전합니다. 접수일 (2008 년 12 월 4 일 ), 수정일 (1 차 :2009 년 5 월 20 일,2 차 :6 월 29 일 ), 게재확정일 (2009 년 7 월 21 일 )
방송공학회논문지 2009 년제 14 권제 4 호 489 I. 서론디지털방송의보편화에힘입어일반사용자의방송콘텐츠접근과소유가용이해지고있다. MPEG-2 TS(Transport Stream) [1] 로전송되는디지털방송스트림에는오디오 비디오신호외에 PSI(Program Specific Information [1] ), PSIP (Program and System Information Protocol [2] ) 등의다양한데이터가함께다중화되어있다. 그리고또다른방송데이터로서 DTV 자막서비스를위해제공되는자막데이터가있다. DTV 자막방송 (Closed-Captioning) 이란방송프로그램의대사를문자화된자막으로보여주는서비스로서장애인, 노약자, 외국인등정보소외계층의방송접근권확대를통한정보격차 (digital divide) 해소를목적으로한다. 국내에서는 2007년 6월에디지털TV 자막방송표준규격이완료되었으며 [3], 2008년 4월부터 장애인차별금지및권리구제등에관한법률 에의해모든방송서비스의자막방송의무화로인하여현재대부분의국내지상파방송에서는자막방송서비스를제공하고있다. 자막데이터는디지털방송의전송규격인 MPEG-2 TS에다중화되어있으며 [4], 수신기에서자막을재생하기위해서는별도의자막추출및재생기능이필요하다. 한편, 이러한 PSI, PSIP, 자막등의디지털방송데이터는다양한형태의부가가치서비스에활용될수있으며, 특히 DTV 자막데이터는본래의기능외에방송콘텐츠의내용검색및색인등에이용될수있다. 본논문에서는 DTV 자막데이터의응용을통한부가가치서비스활용방안을제안한다. 우선 MPEG-2 TS로부터자막데이터를추출하고, 추출된자막과시간정보를이용하 여 PC 환경의멀티미디어재생기에서사용가능한자막파일의생성방법을제안한다. 그리고생성된자막파일을이용한방송콘텐츠의시간적구간분할 (temporal segmentation) 방법을제안한다. 구간분할은방송콘텐츠의장르에따른자막데이터의분석을통하여수행되며, 본논문에서구간분할을수행하는대상방송콘텐츠의장르는뉴스, 시사토론, 그리고드라마이다. 실험에서는자막파일생성및구간분할기능을갖춘 S/W의구현을통하여제안된방법의유용성을확인하며, 다양한자막데이터응용기능의제시를통하여자막데이터의응용가능성을검증한다. 본논문의구성은다음과같다. Ⅱ장에서는 DTV 방송콘텐츠로부터자막데이터의추출및자막파일의생성방법을설명한다. 그리고 Ⅲ장에서자막파일을이용한방송콘텐츠의구간분할방법을설명하며, Ⅳ장에서제안된자막파일생성및구간분할기능과자막데이터응용기술의구현을통하여제안된방법의유용성을확인한다. 끝으로 Ⅴ장에서결론을맺음으로써본논문을마친다. Ⅱ. 자막데이터추출및자막파일생성방법본장에서는자막데이터를추출하고, 추출된자막을규격화된자막파일로변환하는방법을설명한다. 자막파일규격은국내외에서자막파일규격으로가장널리이용되고있는 SAMI (Synchronized Accessible Media Interchange) 표준을사용한다 [5]. 그림 1은제안된 DTV 자막추출및 SAMI 자막파일생성기의블록도를나타낸다. MPEG-2 Transport Stream MPEG-2 역다중화 PMT EIT 비디오스트림 PMT 버퍼 EIT 버퍼 Video 디코더 PTS 사용자데이터 Caption Service Descriptor CSD 정보분석 자막추출 ST 변환 자막데이터 ST 자막파일생성 자막파일 (SAMI) 그림 1. 자막데이터추출및자막파일생성블록도 Fig. 1. Block diagram of extracting closed caption data and creating caption file
490 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 표 1. Caption Service Descriptor 의비트스트림구문 [3] Table 1. Syntax of the Caption Service Descriptor [3] Syntax No. of Bits Format 표 2. user_data 영역의구문 [4] Table 2. Syntax of the user_data [4] Syntax No. of Bits Format caption_service_descriptor() { number_of_services for (i=0; i<number_of_services; i++) { language korean_code } } 5 8*3 1 uimsbf uimsbf bslbf user_data() { user_data_start_code ATSC_identifier user_data_type_code if (user_data_type_code == 0 03 ) cc_data() next_start_code() } 32 32 8 bslbf bslbf uimsbf 1. 디지털방송자막의추출본절에서는 DTV 자막데이터의추출과정을설명한다. 자막추출대상은지상파 DTV 방송스트림의전송단위인 MPEG-2 TS이며, MPEG-2 Systems [1], PSIP 표준 규격 [2] 및국내외 DTV 자막방송표준규격 [3,6], 그리고 ATSC (Ad- vanced Television Systems Committee) A/53 표준규격 [4] 을참고하여본연구의자막추출과해석과정을수행한다. 1.1 Caption Service Descriptor 해석자막의추출에앞서서자막서비스서술자 (Caption Service Descriptor; CSD) 에대한해석이필요하다. CSD 는 PSI의 PMT(Program Map Table) 또는 PSIP의 EIT (Event Information Table) 에존재하는서술자로서자막의유형과속성을기술하며, 표 1은 CSD의비트스트림구문을나타낸다. 표 1의 language는자막의언어를나타내는 3 byte 코드이다. 각언어의코드는 ISO 639.2/B에정의되어있으며 [7], 한국어의경우 'kor' 로표현된다. korean_code는국내의자막방송규격에만정의되어있는필드로서, 자막언어가한글인경우완성형 (0) 인지혹은유니코드 (1) 인지를나타낸다. 그밖의모든필드에대한분석이완료되면, 이후에전송되는자막은 CSD의정보에따라서해석된다. 1.2 비디오스트림추출디지털방송스트림의표준규격인 MPEG-2 Systems 에정의된 TS(Transport Stream) 의패킷식별자 (Packet Identifier; PID) 를통하여해당 TS의페이로드 (payload) 가어떤데이터 ( 예, 비디오, 오디오등 ) 인지를알수있다. 비디오스트림의추출은 PAT(Program Association Table) 와 PMT의해석에의해비디오스트림의 PID를얻어냄으로써수행된다. 우선 188 byte 패킷단위의 MPEG-2 TS에서 PID가 0 0000인 PAT를찾아낸후, program_map_pid 필드의분석을통해 PMT의 PID를알아낸다. PMT의 PID를이용해 PMT를찾아낸후 stream_type 필드가 0 02인 elementary_pid 필드의분석을통해서비디오스트림의 PID를찾아낼수있다. 1.3 자막데이터추출추출된비디오스트림은 PES(Packetized Elementary Stream) 으로구성되어있으며, 비디오 PES 내의사용자데이터 (Picture user data) 의구조는표 2와같다. 사용자데이터에는자막데이터를넣도록규정된자막데이터 (cc_data) 필드가정의되어있으며그구조는표 3과같다. 자막데이터필드중 cc_data_1 과 cc_data_2는자막데이터의첫번째 byte와두번째 byte를나타내며, cc_count의개수만큼의자막데이터를구성할수있다. 위의과정을통하여구성된자막데이터는패킷계층에해당한다. 이후에뒤따르는서비스계층, 코딩계층, 그리고해석계층의분석을통하여최종적인자막데이터와자막의
방송공학회논문지 2009 년제 14 권제 4 호 491 표 3. 자막데이터의구문 [3] Table 3. Syntax of Captioning Data [3] cc_data() { for(i=0 ; i<cc_count ; i++) { cc_data_1 cc_data_2 } } Syntax No. of Bits Format 8 8 bslbf bslbf 2.1 동기화시간계산 SAMI 파일구조에는기본적으로자막이재생되는 millisecond(ms) 단위의동기화시간정보가포함된다. DTV 방송자막데이터는비디오스트림에포함되어있기때문에비디오스트림 PES의헤더에포함되어있는 PTS(Presentation Time Stamp) 를 SAMI 파일의자막재생시간정보로활용가능하다. PTS는 PES 헤더에위치한 33 bit의필드로서 PES의재생시간을나타낸다. 단위는시스템클록주파수단위이며, 본논문에서는 SAMI 파일의동기화시간단위로환산하기위한방법을식 (1) 과같이제안한다. 구성에대한정보를얻을수있다 [3,6]. 그림 2(a) 는자막이포함된뉴스실험영상, 그림 2(b) 는실험영상으로부터추출된자막의일부분을나타낸다. 2. 자막파일생성앞선절의과정을통하여추출된자막데이터는규격화된자막파일로변환된다. 본논문에서사용하는자막파일규격인 SAMI 파일은 HTML 기반의자막파일이다 [5]. SAMI 파일생성을위해서는재생되는영상과의동기화시간 (Sync Time; ST) 과각 ST에재생되는자막의적절한배치가필요하다. 아래의과정을통하여결정된 ST와연결된자막은자막파일 (*.smi) 생성을위하여 SAMI 파일규격이적용된다. (1) PTS를초단위로환산하기위해서는 90kHz로나누는연산이필요하다 [1]. 그러나 90kHz로나누면소수점이상의값이초단위로얻어지기때문에소수점이상의값을 SAMI의 ms 단위로얻기위하여 PTS를 90Hz로나눈다. 는첫번째 PES 헤더의 PTS를의미한다. 그림 2(b) 의점선으로표시된부분에서보여지듯이, PES 의전송순서대로추출하면자막의순서가다르게추출될수있다. 따라서 PES는비디오프레임의디코딩 (decoding) 순서대로전송및저장되기때문에자막추출시에는그림 3과같이 PTS의순서, 즉프레임재생시간순서대로정렬하여자막을추출해야한다. (a) (b) 그림 2. 자막추출결과 : (a) 자막이포함된뉴스영상, (b) 추출된자막의일부분 Fig. 2. The result of extracting closed caption: (a) News program containing closed caption and (b) A part of extracted closed caption
492 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 I P B B B P B B B I 시작 자막추출 : CC_unit 임시누적저장 : CC I B B B P B B B P I 그림 3. 비디오프레임의 PTS 순서에따른정렬. Fig. 3. Arrangement of video frames in order of PTS 2.2 자막연결및배치추출된자막을완전한단어나문장의형태로배열하기위해서는상황에따라서다수의 PES에서추출된자막을문장단위혹은일정길이로연결하는작업이필요하다. TV 화면에나타나는자막의행이나열의수를결정하기위한기준의하나로서, DTV 자막방송표준의해석계층에정의되어있는 Command Descriptions 중하나인 DefineWindow 를이용할수있다 [6]. DefineWindow의 row count와 column count( 이하 row/ column count) 는각각화면에나타내는행과열의수를나타내며, row lock과 column lock( 이하 row/column lock) 은 row/column count에서명시된값을화면출력시에고정된값으로사용하는지여부를나타낸다. 즉 row/column lock 의값이 Yes(1) 로설정되었을때에는명시된 row/column count에맞춰서화면에자막이재생되어야하지만, No(0) 로설정되었을때에는 row/column count의값이화면재생시에절대적이지않다는의미이다. 제안된방법에서는자막의유연한배치를위하여 row/ column lock이 No(0) 로설정된경우만을고려하며, 이때 row/column count는각 ST에자막이배치되는최대길이의기준으로사용한다. 그림 4는각 ST에대응되는자막의연결과정순서도이다. 특수문자는자막에따라서 CSD의 korean_code 필드에명시된한글자막의종류 ( 완성형또는유니코드 ) 와다르게 1 byte의 ASCII 코드일수도있으므로시스템설계시에이를반영해야한다. Yes CC_unit = 특수문자? (.,?,!, - ) CC 의길이 < row count column count? CC: 파일출력 끝 No No 그림 4. 자막연결순서도 Fig. 4. Flow-chart of linking closed-caption Yes 자막의연결과정을거치면서서로분리되어있던자막을하나로합침에따라서각각자막데이터에대응하는다수의 ST 중에서연결된자막을대표하는하나의 ST를결정해야한다. 제안된방법에서는연결된자막에서중간 (median) 자막의 ST를최종 ST로결정한다. 그림 5(a) 는각 PES에서추출, 변환된 ST와자막데이터를나타내며, 그림 5(b) 는위의과정을거쳐서최종선택된 ST와연결된자막의예를나타낸다. Ⅲ. 자막기반방송콘텐츠구간분할 앞선과정에서생성된자막파일은멀티미디어재생기에서자막을보여주는기본적인기능외에비디오검색및색인등다양한응용데이터로서활용될수있다. 본절에서
방송공학회논문지 2009 년제 14 권제 4 호 493 <458581> 앵커 : <458584> <458594> 강풍을 <459429> 동반한 <461164> 토네이도가 (a) <458594> 앵커 : 강풍을동반한토네이도가 (b) 그림 5. 최종 ST 의결정및연결된자막 : (a) 추출된 ST 와이에대응하는자막데이터, (b) 선택된최종 ST 와연결된자막 Fig. 5. Decision of final ST and linked closed caption: (a) Extracted ST and closed caption data corresponding to each ST and (b) Selected final ST and linked closed caption 는자막데이터를이용한방송콘텐츠의시간적구간분할 (temporal segmentation) 방법을설명한다. 본절에서시간적구간분할을수행하는대상방송콘텐츠의장르는뉴스, 시사토론, 그리고드라마이다. 기존연구에서는국내자막방송의특성을기술하고, 자막데이터를이용한뉴스의검색및구간분할방법을제안하였다 [8]. 그러나구간분할의대상장르가뉴스에한정되어있기때문에제안된방법을다른장르의구간분할에적용하는것은불가능하다. 국내방송의경우, 자막데이터는장르마다상이한특징정보를가지고있기때문에방송콘텐츠의장르에따라서서로다른구간분할방법을적용해야한다. 본절에서는각방송콘텐츠장르에따른자막데이터의특성과함께비디오구간분할방법에대해서설명한다. 시간적구간분할을통하여구간의시작시간, 재생시간, 그리고해당구간의자막데이터를얻을수있다. 제안된구간분할방법은미리추출된자막데이터를이용해서이루어지기때문에기존의비디오프레임기반의장면분할방법과비교해서분할처리속도가매우빠르다. 1. 뉴스일반적으로뉴스의구간분할단위는하나의기사이다. 국내방송뉴스의자막은실제대사에는없는 앵커 :, 기자 :, 그리고 인터뷰 : 등화자를구분할수있는일종의태그 (tag) 를포함하며, 뉴스는일반적으로기사를마무리하는일정한대사가존재한다. 그림 6(a) 는뉴스자막데이터의예이며, 뉴스기사는다음과같은기준을통해서구분될수있다. ᄀ 앵커 : 가나오고다음에 앵커 : 가나오면이는하나의독립된뉴스기사이다. ᄂ 앵커 : 가나오고다음에 앵커 : 가나오기전에 기자 : 가나오면기자의이름을저장하고, 이후에 [ 방송사이름 ] 뉴스 [ 기자이름 ] 입니다. 라는문장이나오면여기까지는하나의뉴스기사로구분한다. ᄀ은하나의뉴스기사내에앵커의대사만포함된형태에, ᄂ은앵커가뉴스기사의개요설명을하고나서기자의세부적인보도내용이따르는경우또는앵커와기자가해당뉴스기사에관하여대화식으로설명을주고받는뉴스형식에적용된다. 이와같은뉴스자막데이터의특징정보분석을통하여방송사이름과기자이름을비교적쉽게얻을수있다. 2. 시사토론국내방송의경우화자전환 (speaker change) 시에자막데이터에하이픈 ( - ) 기호를삽입하여청각장애인이나외국인이화자전환을인식할수있도록돕는다. 그림 6(b) 는하이픈이포함된시사토론자막데이터의예이다. 시사토론프로그램의경우, 토론자각자의의견을일정시간동안제시하기때문에다른방송장르에비해서비교적화자전환의시간간격이길며, 화자의전환에기반한구간분할이효과적이다. 따라서제안된방법은화자전환표시인하이픈과최소구간간격의설정을통하여시사토론방송콘텐츠의시간적구간분할을수행한다. 최소구간간격이란일종의구간분할기준으로, 최소구간간격이정해지면그안에발생
494 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 앵커 : 귀경차량으로극심한정체가예상됐던고속도로는 서울요금소에나가있는취재기자연결하겠습니다. 윤지연기자! 기자 : 네윤지연입니다. 지금상황이어떻습니까? 인터뷰 : 지금은 기자 : 이상으로서울요금소에서 KBS 뉴스윤지연입니다. 앵커 : 동해안과서해안에이어경기남부지방에도간간이 (a) - 국민에게신뢰를줘야한다. - 그렇습니다. 그부분이아주중요하다고생각합니다. - 박경철원장은어떻게생각하세요? - 두분말씀이사실다맞는말씀이시죠. 우리가금융시장의현장플레이어들이고민하고있던설이라는것은하나의프로세스를가지고있습니다. 예를들면글로벌경제의신용경색이 - 그럼다음주제로넘어가겠습니다. (b) 그림 6. 자막데이터의예 : (a) 뉴스자막데이터, (b) 시사토론자막데이터 Fig. 6. Examples of closed caption data: (a) News and (b) Debate 하는화자전환은하나의구간으로인식한다. 예를들어, 최소구간간격을 20초로설정하였을경우, 20초내로발생하는화자전환은무시하고하나의연속된구간으로인식하며, 해당구간의시작시간기준으로 20초가지난이후나타나는화자전환표시부터는새로운구간으로인식한다. 최소구간간격의설정은사용자의선호에따라서임의로설정가능한변수로서, 사용자가원하는최소한의구간길이를설정하는기능으로활용될수있다. 3. 드라마드라마의경우에도하이픈기호를이용한시간적구간분할이가능하다. 그러나앞서서제시한시사토론에서의장면분할방법은화자전환이빈번한드라마의특성상효율적이지못하다. 따라서본논문에서는자막기반의드라마구간분할방법을다음과같이제안한다. 우선하이픈기호로시작되는화자전환된자막데이터를받았을경우다음식 (2) 의계산을통하여화자전환된자막의예상되는동기화시간 (Expected_ST) 을얻는다. Expected_ST PreST. (2) 와 는각각 1분당말하는단어수와화자전환대기시간을의미한다. 와 는사용자선호에따라서임의로설정이가능한변수이다. 가클수록 1분당말하는단어수를크게적용하기때문에계산되는 Expected_ST의값이작아진다. 는 로인하여얻어지는시간에더하여다음자막이발생하기까지대기하는시간을설정하는변수이다. 이두값과얻어지는자막의단어수를통하여해당자막의재생시간 (duration) 과다음자막이발생하기까지대기하는시간의합을예상한다. 여기에바로이전자막의 ST을의미하는 PreST를더함으로써현재화자전환된자막의 ST를예측하는것이다. 계산된 Expected_ST와현재화자전환된자막의 ST를비교하여 ST가 Expected_ST보다클경우에현재의화자전환된자막을새로운구간으로인식한다. 와 의조절은분할된구간의개수에영향을미치는변수로서, 가크거나 가작을수록더많은구간으로분할될수있다. 그림 7은 =80, =6으로설정했을때의드라마구간분할의예를나타낸다. 그림 7의계산 1에서는 ST (289756ms) 가 Expected_ST(296321ms) 보다작기때문에앞선자막과같은구간으로인식하며, 계산 2에서는화자전환된자막데이터의 ST가더크기때문에새로운구간의시작으로판단한다. 은바로이전 ST 에해당하는자막의단어개수이며,
방송공학회논문지 2009 년제 14 권제 4 호 495 구간 1 <284717> 어머님. <287321> 제가어떻게하면되겠습니까? <289756> -조용히떠나줘, 애다곁에서. 화자전환발생 : 계산 1 <291325> 그게네가할수있는전부야. <296997> 얼마면돼? 필요한액수얘기해봐. α β PreST NW = 4 (4 x 60000ms)/80 + 6000ms + 287321ms = 296321ms(Expected_ST) NW 계산 1 289756ms(ST) < 296321ms(Expected_ST) 같은구간 계산 2 NW = 6 (6 x 60000ms)/80 + 6000ms + 296997ms = 307497ms(Expected_ST) 구간 2 <328862> -잘가거라, 불쌍한놈. 화자전환발생 : 계산 2 <332032> 아이고. 328862ms(ST) > 307497ms(Expected_ST) 새로운구간의시작 그림 7. 자막데이터를이용한드라마구간분할의예 ( =80, =6) Fig. 7. An example of drama segmentation using closed caption data ( =80, =6) Ⅳ. 성능평가실험본장에서는자막추출및자막파일생성 S/W와구간분할및다양한자막데이터응용기능을갖춘 S/W의구현을통하여제안된방법의유용성을검증한다. 각각의구현은 Microsoft Visual C++ MFC를이용하였으며, 실험대상은 HDTV 수신카드를통하여녹화한지상파 DTV 방송콘텐츠이다. HDTV 수신카드는디비코 Fusion HDTV7 RT Gold 모델을사용하였으며, 각각의입력은앞서언급했듯이디지털방송스트림인 MPEG-2 TS이다. 1. 자막추출및자막파일생성기구현앞서설명한과정에따라서 DTV 방송자막데이터의추 출및 SAMI 자막파일생성 S/W을구현하였다. 그림 8 은구현된 S/W의실행화면이다. 그림 8의우측하단에위치한 자막싱크설정 을통하여녹화방송과생방송을구분하여자막을추출할수있다. 뉴스와같은생방송에서실시간자막을제공할경우국내자막방송은약 2~4초의지연 (delay) 이발생하므로 [9] 이를고려하여지연을통한동기화시간의보정이필요하다. 생성된 SAMI 파일은그림 8의 생성된 SAMI 파일 에서보는바와같이규격에맞춰서 SAMI 파일이생성되었음을알수있다. 그림 9는생성된 SAMI 자막파일을적용하여일반 PC 환경의범용멀티미디어재생기에서실행한실험영상의일부분이다. 사용한멀티미디어재생기는곰플레이어이며 [10], 자막이영상의동기에맞춰서재생됨을확인할수있다.
496 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 그림 8. 자막추출및 SAMI 파일생성기의 GUI Fig. 8. GUI of extracting closed caption and SAMI file generator 그림 9. 생성된자막파일을일반멀티미디어재생기에적용한실험영상 Fig. 9. Test video applying generated caption file to general multimedia player 2. 자막데이터기반구간분할 S/W 구현 제안된구간분할기법과자막데이터의유용성을확인하기 위하여구간분할기능및자막데이터응용기능을갖춘 S/W를구현하였다. 그림 10은구현된 S/W의실행화면이다. 구현된재생기는구간분할기능외에도자막데이터를
방송공학회논문지 2009 년제 14 권제 4 호 497 그림 10. 구간분할 S/W 의 GUI Fig. 10. GUI of temporal segmentation S/W 이용한자막보여주기, 키워드기반방송콘텐츠장면검색기능등을제공하며, 다이렉트쇼 (DirectShow) 기술 [11] 을이용하여 PC용멀티미디어재생기가갖춘일반적인동영상재생기능을제공한다. 2.1 시간적구간분할기능시간적구간분할기능을수행하기위하여구현된 S/W에서는우선방송콘텐츠의장르를지정할수있다. 본연구에서구간분할대상으로정한장르는뉴스, 시사토론, 그리고드라마이며, 각각의장르에따른구간분할에사용되는파라미터를정할수있도록사용자인터페이스를구현하였다. 시사토론의경우에는최소구간간격, 드라마의경우에는분당말하는단어수 ( ) 와화자전환대기시간 ( ) 을정할수있다. 그림 11은드라마구간분할의예를나타낸다. 실험에서는드라마의 와 를각각 80개와 6초로정하였으며, 하단에구간분할의결과로서해당구간의키프레임썸네일 (thumbnail), 시작시간, 재생시간, 그리고자막데이터를제공한다. 또한구현된 S/W는다이렉트쇼기술을이용한랜덤액세스 (random access) 기능을제공하여해당구간의시작위치로비디오의이동이가능하며, 사용자의주관적판단에따른파라미터의조절을통하여인터랙티브 (interac- 그림 11. 드라마구간분할의예 Fig. 11. An example of segmentation of drama/soap tive) 한방식으로분할된구간의개수를설정할수있다. 본절에서수행하는구간분할의성능평가는엄밀한객관적측정이불가능하기때문에아래와같이개념적으로의미를갖는시간적구간을검증목적의비교대상으로정한후, 구간분할결과의적절성을평가한다.
498 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 뉴스 : 기사단위 시사토론 : 개별토론자의발언및토론주제의변화 드라마 : 장면의변화 ( 자막정보를기준으로일정시간이상의대사가존재하지않으면서로다른장면으로구분함 ) 실험결과를통하여, 제안된자막기반의구간분할과정이매우빠르게 (on-the-fly) 수행되었으며, 상기의주관적비교기준에따라구간분할이적절하게이루어졌음을확인할수있었다. 또한적절한구간분할을수행하고자파라미터설정을달리하여반복수행할때, 시간적지연없이빠른반복처리가가능함을확인하였다. 구현된 S/W에서구간분할의결과는그림 12와같이파일형태로기록, 제공될수있다. 그림 12의 <StartTime> 은 시 : 분 : 초 단위로표시한구간의시작시간정보이며, <Caption> 은해당구간의자막데이터를나타낸다. 이러한텍스트기반의파일은 MPEG-7 [12], TV-Anytime [13] 과같은표준규격기반의메타데이터형태로변환이용이하며, 이러한메타데이터를지원하는기기에서유용하게활용될수있다. <StartTime>00:00:00 <Caption> - 전화가정말로고장이났어요. 네, 새로사라고할게요. 이사장님안계시는데. 오늘도아무도안계세요. 여보세요? 여보세요! 강회장아드님이화많이나셨나봐요, 이사장님.. ( 노크소리 ). - 사부인. - 안여사님! - 어떻게.. <StartTime>00:01:05 <Caption> - 네. - 뭘그렇게싸왔어, 입맛도없는데. - 그래도잡수셔야죠. 애다는병원에있다죠? - 네, NS 그룹이요? <StartTime>00:04:47 <Caption> - 제가어떻게하면되겠습니까? - 조용히떠나줘, 애다곁에서. 그게네가할수있는전부야. 얼마면돼? 필요한액수얘기해봐. 그림 12. 구간분할정보파일의예 Fig. 12. An example of segmentation information file 2.2 자막재생기능그림 13은구현된 S/W의자막재생기능을나타내고있다. 실험결과를통하여영상의음성과동기화를이루며자막이출력됨을확인하였다. 이기능은그림 9의일반멀티 그림 13. 자막재생기능 Fig. 13. A function of displaying closed caption
방송공학회논문지 2009 년제 14 권제 4 호 499 Ⅴ. 결론 그림 14. 키워드기반장면검색기능의예 Fig. 14. An example of keyword-based scene search function 미디어재생기에서자막의재생과달리별도의자막보기창을통해이전에재생된자막까지모두볼수있는기능을제공한다. 이러한기능은현재자막과이전영상의지나간자막을동시에제공함으로써보다효과적인정보의전달이가능하다. 2.3 키워드기반방송콘텐츠장면검색기능키워드기반의장면검색기능역시자막데이터를검색함으로써수행될수있다. 그림 14는장면검색기능의사용예를나타내고있다. 좌측상단에키워드를입력하고 검색 버튼을누르면, 구현된 S/W에서는입력된키워드를자막데이터에서검색하고, 키워드가발견되면해당자막의키프레임썸네일 (thumbnail) 과시작시간정보를제공한다. 또한구간분할에서와같은랜덤액세스기능을제공하여키워드가발견된위치로비디오의이동이가능하다. 이검색기능은방송콘텐츠에서화자가말하는내용을검색할때유용하며, 특히상대적으로정보성이높은뉴스나시사토론프로그램의콘텐츠브라우징 (browsing) 및탐색에유용하게사용될수있다. 본논문에서는디지털방송자막데이터의응용서비스방안을연구하였다. 우선 DTV 자막방송의자막데이터추출방법과추출된자막데이터를이용하여자막파일을생성하는방법을설명하였으며, 자막파일의자막데이터와시간정보를이용하여방송콘텐츠의시간적구간분할방법을제안하였다. 실험에서는자막추출및자막파일생성기의구현을통하여생성된자막파일이일반 PC 멀티미디어재생기에서영상과동기화하여자막재생이가능함을확인하였으며, 구간분할 S/W의구현을통하여제안된구간분할방법의유용성을검증하였다. 또한자막재생, 키워드기반비디오장면검색, 구간분할정보파일저장기능의구현을통하여 DTV 자막방송데이터의다양한응용가능성을확인하였다. 생성된 SAMI 표준을따르는자막파일은별도의기기가필요없이일반 PC의멀티미디어재생기에서재생이가능하기때문에청각장애인의방송접근권확대에기여할수있을것이며, 다른언어로의번역을통하여외국인에게제공될수있을것으로기대된다. 제안된디지털방송자막데이터를이용한멀티미디어응용서비스는자막정보를이용하기때문에검색등에서비교적정확하고풍부한정보를제공한다. 또한완전히텍스트기반이므로고속처리가가능하며, 이는구간분할시더욱유용하게이용될수있다. 예를들어사용자는적절한구간분할을수행하고자파라미터설정을달리하여반복수행할때, 시간적지연없이빠른반복처리가가능하다. 또한자막파일, 구간분할정보, 장면검색결과등의정보는 HTML 및 XML과같은다양한정보문서형태로의변환이용이하다. 특히시간적구간분할정보는 MPEG-7 [12] 또는 TV-Anytime [13] 표준규격메타데이터로변환하여이를지원하는기기에서활용될것으로기대된다. 향후제안된방법을응용하여 DTV 자막데이터를통한다양한부가가치정보생성및메타데이터서비스에대해서연구하고자한다.
500 김정연외 : 디지털방송자막데이터를이용한멀티미디어응용서비스연구 참고문헌 [1] Information technology - Generic coding of moving pictures and associated audio information: Systems, ISO/IEC International Standard 13818-1, Dec. 2000. [2] Program and system information protocol for terrestrial broadcast and cable (Revision C) with amendment No. 1, Doc. A/65C, Advanced Television Systems Committee, Jan. 2006. [3] 지상파디지털 TV 자막방송, TTA, TTAS. KO-07.0050, Jun. 2007. [4] Digital television standard, Part 2 - MPEG-2 video system characteristics, Doc. A/53, Part 4:2007, Advanced Television Systems Committee, Jan. 2007. [5] Understanding SAMI 1.0, Microsoft Developer Network (MSDN), http:// msdn2.microsoft.com/en-us/library/ms971327.aspx, Feb. 2003. [6] Digital television (DTV) closed captioning, EIA-708-B, Dec. 1999. [7] Code for the representation of names of languages Part 2: alpha-3 code, ISO 639.2, as maintained by the ISO 639/Joint Advisory Committee (ISO 639/JAC), http://www.loc.gov/standards/iso639-2/iso639jac.html, Dec. 2008. [8] J. Cho, S. Jeong, and B. Choi, News video retrieval using automatic indexing of Korean closed-caption, LNCS 3683, pp. 694 703, Aug. 2005. [9] 한국 CAS 속기협회, http://www.casi.co.kr/, Dec. 2008. [10] 곰플레이어, http://gomtv.gretech.co.kr/, Dec. 2008. [11] DirectShow, Microsoft Developer Network (MSDN) http://msdn. microsoft.com /en-us/libraryms78332 VS.85).aspx, Nov. 2008. [12] Multimedia content description interface-part 5: multimedia content description schemes, ISO/IEC International Standard 15938-5, May 2002. [13] The TV-Anytime Forum, http://www.tv-anytime.org, Dec. 2008. 저자소개 김정연 - 2007 년 2 월 : 광운대학교컴퓨터공학과학사 - 2009 년 2 월 : 과학기술연합대학원대학교 (UST) 이동통신및디지털방송공학과석사 - 2009 년 2 월 ~ 현재 : ( 주 ) 휴맥스부설연구소연구원 - 주관심분야 : 워터마킹, 디지털방송기술, 파일포맷, 비디오암호화, DTV SW 개발, 셋탑박스시스템 남제호 - 1992 년 2 월 : 홍익대학교전기제어공학과학사 - 1996 년 12 월 : University of Minnesota, Electrical Engineering 석사 - 2000 년 12 월 : University of Minnesota, Electrical Engineering 박사 - 2001 년 2 월 ~ 현재 : 한국전자통신연구원 (ETRI) 방통융합미디어연구부선임연구원 - 2007 년 1 월 ~ 현재 : 과학기술연합대학원대학교 (UST) 이동통신및디지털방송공학과부교수 - 주관심분야 : 신호처리, 디지털방송기술, 멀티미디어보호관리, MPEG