2016 한국전자통신연구원 81
Ⅰ. 머리말실감음향기술은오랜역사를통하여조금씩발전했으나, 최근까지는채널을늘리는방법외에는실감음향성능을획기적으로개선할방법이마땅하지않았다. 5.1 채널, 7.1 채널오디오이후에 9.1, 10.2, 15.1, 22.2, 31.1 채널등다양한채널방식들이제안되어보다몰입감있는실감음향을재생하기위해노력하였지만, 문제는콘텐츠를제작하는일이복잡해짐에따라콘텐츠확보및서비스에한계가드러나면서어느방식하나주도권을잡지못하는실감음향의춘추전국시대를맞이하게되었다 [1]. 이러한국면에하나의커다란파문을일으키는실감음향방식이객체기반오디오를포함하는하이브리드포맷의오디오 ( 이하하이브리드오디오 ) 방식이다. 헐리웃을중심으로미국기업인 Dolby 의 Atmos, DTS의 DTS:X 에이어 IOSONO 를인수한유럽계 Barco 의 AuroMax 까지가세하면서또다른오디오방식전쟁을예고하고있다. 이에본고에서는하이브리드오디오서비스의가장중요한축인콘텐츠제작을위한편집도구와서비스를위한재현기술을중심으로현재까지의동향을살펴보고자한다. Ⅱ. 하이브리드오디오란? 하이브리드오디오는채널기반오디오와객체기반오디오를동시에포함하는오디오로서, 국제적으로통용되는표현은하이브리드포맷오디오라는표현으로많이사용되며, 의미가좀다르지만몰입형사운드 (Immersive Sound) 로불리는경우도있다. 오디오콘텐츠의교환을위한포맷형식은전통적으로채널기반의오디오포맷이주로사용되고있으며, 아직까지도대세를이루고있다. 채널기반의오디오포맷은 스피커의개수와스피커의배치방법이가장중요하며, 스피커의개수및배치방법에따른콘텐츠제작이이루어지고, 동일한스피커의개수및배치방법에따른청취환경에서청취되기를기대하게된다. 하지만, 일반적인가정의청취환경에서는스피커의개수나배치를정해진규정에맞추어설치하는것이어렵다. 그러다보면제작자의의도대로오디오콘텐츠의 3차원이미지를재현하는것이어려워지며, 결국 3차원오디오의청취를포기하게되는사례가많다. 이러한문제를해결하기위해등장한것이객체기반의오디오포맷이라할수있으며, 현장의음원신호와음원의위치정보를함께패키징함으로써, 청취환경의스피커배치에따라객체음원들을제작자의의도대로재현할수있게된다. 하이브리드포맷의오디오란채널기반의오디오포맷과객체기반의오디오포맷이혼합되어있는다는의미이며, 국내에서는이를하이브리드오디오라고부르고있다. 객체기반의음원은명확한위치가감지되어야하는중요한객체음원을선별하여객체기반오디오포맷으로제작하며, 그밖의위치정보가중요하지않은사운드들을채널기반의오디오포맷으로제작하여함께패키징하는것이다. 단말에서는하이브리드오디오콘텐츠를해석하여객체기반음원신호와공간정보를포함하는메타데이터를추출하여렌더링하게되고, 이를채널기반오디오신호와믹싱하여재생한다. 객체기반오디오기술은 20세기말 MPEG-4 로부터본격적으로출발되었다. Moving Picture Experts Group(MPEG) 오디오기술을주도하고있는독일 FhG 에서 Euro Project Creating, Assessing and Rendering in Real-time Of high-quality audio-visual envir- Onments(CAROUSO)[2] 의객체기반 3차원음향결과물을활용하여창업한 IOSONO 는객체기반오디오방식과 Wave Field Synthesis(WFS) 기술을적용하여수 82 전자통신동향분석제 31 권제 3 호 2016 년 6 월
평면을커버하는스피커어레이를통하여실감음향을재생하는기술을상용화하였다. IOSONO 시스템은초기에극장및테마파크에적용되어호평을받았지만, 상대적으로막대한설치비용을부담스럽게생각하는극장주들에게효과적으로어필하지못하였고, 더는확산시키지못하였다. 한국전자통신연구원에서는 2002년부터객체기반오디오기술을연구하고있으며 [3], 2007 년 오디즌을통하여객체기반오디오기술을음악에적용한대화형음악서비스, Music2.0 기술을상용화하였고, 이를기반으로 MPEG-A Interactive Music Application Format(IMAF) 표준화를주도하는한편, MPEG-H 3D Audio 표준화에도객체 + 채널오디오기술을제안하며국제표준화에적극적으로참여하고있다. Music2.0 서비스는일부매니아층을확보하는성과를거두기도했지만, 저작권협상이쉽지않아콘텐츠를확보하는데어려움을겪으며, 서비스가활성화되지는못하였다. 영국 BBC 에서는윔블던테니스실황을해설음성과배경음이구분된객체기반오디오방식의방송을인터넷을통해중계하면서, NetMix 라는툴을이용하여사용자가음성과배경음을적절히조정할수있도록하는객체기반방송시험을수행하였다. 본시험을통하여해설음성과벼경음의음량조정에대한개인의선호도를조사한결과, 각자의임의대로조정한소리를더선호하는경향을발표한바있다. 한편, SRS를인수한 DTS는객체기반오디오포맷인 Multi-Dimensional Audio(MDA) 를확산시키기위한연합체를구성하여 2012 년 1월 Consumer Electronics Show(CES) 에서공개하였으며, 이후곧바로 Dolby 는 2012 년 4월 CnemaCon 에서유사한포맷인 Atmos 를전용콘텐츠제작도구, 극장용오디오프로세서와함께발표하였고, Atmos 콘텐츠를제작하여공급하면서한발앞선상용화에성공하였다. Atmos 는특히 Objects 로표현된객체기반오디오방 식만을사용하지않고, 배경음에대하여 Beds 로표현된채널기반오디오방식을함께사용함으로써, 객체기반오디오방식의콘텐츠제작및렌더링의어려움을다소해결할수있는절충안을명시적으로제시하였는데 [4], 이전의기술들도완전한객체기반오디오기술의구현상어려움을채널과객체를함께사용하는방식을통해해결하고있는것으로밝혀져있다. Dolby Atmos 는 ( 그림 1) 과같이 2015 년말까지 1,200 개의극장, 300개의영화타이틀, 100 개의후반제작스튜디오를확보하였으며, 계속확대하며주도권을잡아가고있다. 2015 년 4월 Convention of Cinema Industry(CinemaCon) 전시회에서는채널기반오디오포맷인 Barco 의 Auro- 3D 사운드에 IOSONO 의 3차원음향렌더링기술을적용한 Barco 의객체기반오디오방식인 AuroMax 가공개되어 ( 그림 2) 와같이인프라를확보하고있으며, DTS도 2015 년도에 MDA 기술을보완하여 DTS:X 로상 장대영외 / 고현장감오디오서비스를위한하이브리드오디오기술동향 83
용화하여본격적으로서비스를시작함으로써, 객체기반오디오방식의주도권을차지하기위한일대격전이예고되고있다 [5]. 이러한가운데, 오디오콘텐츠포맷의주도권을확보하기위해서는콘텐츠및상영관의확보가무엇보다도중요하다는것을알수있으며, 보다편리한콘텐츠제작기술및우수한렌더링기술을통하여새로운오디오방식의시대에새로운기술경쟁력을확보할수있을것으로전망된다. 이에 Ⅲ장에서 Ⅴ장을통하여하이브리드오디오콘텐츠편집기술및콘텐츠재생을위한재현기술과하이브리드오디오표준화의최근동향을살펴보고자한다. Ⅲ. 하이브리드오디오편집기술동향기존의대표적인오디오편집툴로는 Pro tools, Nuendo, Pyramix 등이있는데, 이들을통해편집한오디오의출력은채널오디오신호만을포함하고있으므로, 채널기반의편집기능을수행한다고볼수있다. 앞서기술한것과같이객체오디오는객체오디오신호와객체오디오의렌더링정보를포함하는메타데이 터로구성되는데, 기존의저작도구에서는이러한객체오디오신호와메타데이터를함께출력하는기능을지원하지않는다. 하지만, 기존의오디오편집도구의저작방식을보면객체기반오디오처리방식이이전부터활용이되고있음을알수있다. 채널기반의편집툴에서도객체오디오신호의렌더링정보와유사한오토메이션 (automation) 정보를편집툴내에서저장하고편집할수있으며, 이에따라렌더링된오디오신호를재생할수있다. 그러나, 이러한정보는편집툴내부에만저장되며, 이를파일형태로저장하는방법은제공하고있지않으므로, 객체기반오디오저작에활용되지는못하고있다. 객체오디오를지원하는하이브리드오디오서비스를제공하기위하여위와같인편집툴에플러그인 (Plugin) 형태로메타데이터를생성하여활용할수있도록하는툴들이개발되고있다. 객체오디오의편집에대한개념을포함하는편집툴로는 IOSONO 콘텐츠의제작을위하여개발된 Spatial AudioWorkstaion 을들수있다. ( 그림 3) 은 Spatial Audio Workstation 의 Graphic 84 전자통신동향분석제 31 권제 3 호 2016 년 6 월
User Interface(GUI) 를나타낸것이다. 이편집툴은하나의화면에서여러개의객체를제어할수있고, 이러한제어정보를저장할수있으며, 생성된제어정보는다양한출력채널환경에서활용될수있도록개발되었다 [6]. 하지만, 제어정보가별도의파일로생성하는것이아니라프로젝트내에저장되며, 출력될오디오신호를렌더링할때에사용된다는측면에서는기존의편집도구와유사하다고할수있다. 이러한이유로독립적인객체오디오편집툴이라고설명하는것은어렵다고할수있다. Dolby 에서는 Atmos 콘텐츠의편집을위한편집시스템을개발하였다. Atmos 편집시스템에는 2가지주요한툴이있는데, Dolby Atmos Monitor application 과 Dolby Atmos Panner Plug-in 이다. 이와함께 Dolby Rendering and Mastering Unit (RMU) 이있는데, RMU에서 Monitor application 이실행되며, 이외의다양한편집관련설정및기능을수행한다. Dolby Atmos Panner Plug-in 은프로툴즈에서동 작하는플러그인으로서, RMU와객체오디오의렌더링정보를포함하는메타데이터를주고받는기능을수행한다. ( 그림 4) 는 Dolby 의 Atmos Panner Plug-in 의 GUI 를나타낸것이다. Dolby RMU, Dolby Panner plug-in 과상용장치인 mixing console 을활용하여 Atmos 콘텐츠의제작이가능하다. DTS에서도 ( 그림 5) 와같이객체오디오를지원하는편집도구인 MDA Creater 를개발하여콘텐츠편집에활용하고있다. MDA Creator 는 Pro tools 의플러그인형태로제공되는데, 다양한재생채널환경을지원하며, 객체오디오를편집하고저장할수있다. 객체오디오를위한메타데이터는 DTS 자체포맷인 MDA 포맷에따라저장된다. Barco 에서도채널오디오와객체오디오가포함된 Auro-3D 콘텐츠의제작을위한저작도구를개발하였다. Auro-3D Authoring Tools(AAT) 과 AuroMatic Pro 2D/3D 가이에해당하는데, Pro tools 에서플러그인형태로동작한다 [( 그림 6) 참조 ]. 장대영외 / 고현장감오디오서비스를위한하이브리드오디오기술동향 85
되는하이브리드오디오가표준으로채택되고있어, 객 체오디오를지원하는편집도구는지속해서개발될것 으로예상된다. Ⅳ. 하이브리드오디오재현기술동향 국내에서도객체오디오를편집할수있는편집도구의개발이진행되고있는데, Dolby 와 DTS사가개발한방식과같은플러그인형태로개발되고있다. 국내에서개발중인객체오디오편집도구의경우다양한재생채널환경을지원하며, 객체오디오신호를위한메타데이터는자체포맷에따라오디오신호와는독립된파일로저장된다. ( 그림 7) 은국내에서개발중인객체오디오편집도구를나타낸것이다 [7]. 지금까지는극장오디오관련대규모업체에서하이브리드오디오관련편집도구가개발되고있으나, 최근에는극장뿐만아니라방송에서도객체오디오가포함 하이브리드오디오는여러기관들에서관련연구가이루어지고있는데, 재현기술에관한동향을살펴보면다음과같다. Dolby 는 CinemaCon 2012 행사에서기존 5.1/7.1 채널시네마사운드의시장지배력을 D-Cinema 시장에서도유지하기위해 객체 + 채널 의새로운극장용오디오시스템으로서객체사운드에대해서는최대 64채널을지원하는 Atmos[8] 를소개하였다. ( 그림 8) 과같이채널기반신호인 Beds 를기반으로객체신호를더해콘텐츠가제작되는데, 다양한극장재생환경에맞추어최적의사운드를재생할수있고특별한음향효과를줄수있다는점이큰특징으로헐리웃영화를중심으로많은영화를 Atmos 사운드포맷으로제작하였다. 국내에서도영화나방송등의환경에서채널신호와객체신호를함께사용하여, 실감을제공하기위한하이브리드오디오기술에대한관심을증폭시켰고해당시스템이설치된상영관이점차늘어나고있다. 86 전자통신동향분석제 31 권제 3 호 2016 년 6 월
DTS 또한 Atmos 와유사하지만오픈포맷으로 MDA (Multi Dimensional Audio)[9] 를개발하여, 하이브리드오디오의극장, 블루레이등에서의재현기술에대해 Dolby 와대응하고있다. 시네마서버제작사, 콘텐츠제공자등을중심으로한얼라이언스를구성한 MDA 는채널기반의 Beds 를재생하기귀한채널포맷을특정하지않는기술개념 [( 그림 9) 참조 ] 을제공함으로써, 기존의극장에서도활용할수있다고홍보하고있다. Barco 는유럽에서 International Telecommunication Union(ITU) 5.1채널에 4개의높이 (height) 채널을추가한포맷인 Auro 9.1[( 그림 10) 참조 ] 을기본으로 Auro 3D 사운드포맷을통해홈씨어터 (9.1, 10.1 채널 ) 및시네마 (11.1, 13.1 채널 ) 시장진출을도모하고있는상황이다. Auro3D 는 MDA 와그행보를같이하고있다가 2015 년에는독립을선언하면서 AuroMax 라는하이브리드오디오방식을공개하였다. IOSONO 를인수하면서음장합성기술의응용을통한 3차원오디오렌더링기술을접목하여객체기반음원을충실히재현하고있다. 한편 ETRI 에서는음원객체오디오신호를활용하여 이용자가음원객체의위치와방향, 볼륨등을자유로이배치할수있는실감오디오기술을개발한경험을가지고있으며, 이를기반으로하이브리드오디오재현기술의시초라할수있는 MUSIC2.0 음반을출시하여국내음반시장에큰반향을일으켰다. 이음반은 ( 그림 11) 과같은형태로사용자에게제공되는서비스로 PC상에서전용플레이어를통해음악을들으면서해당곡내에포함되어있는악기나가수의목소리들을조정하면서청취가가능한음반이다. 독일프라운호퍼연구소는오래전부터 WFS 기술을연구하여객체기반오디오신호를사용하는개념을일찍이소개한바있으며이를 IOSONO 로상품화하여독 장대영외 / 고현장감오디오서비스를위한하이브리드오디오기술동향 87
일과미국을비롯한여러국가의영화상영관이나콘서트홀, 클럽등에해당시스템을설치하여서비스한바있다. Ⅴ. 하이브리드오디오표준화현황하이브리드오디오와관련된표준화가주로논의되는곳은 ITU-R Study Group(SG) 6이다. 이 SG6 의 BS파트는 Broadcasting Service 를메인표준화이슈로하고있으며세부적으로오디오메타데이터에관한표준화가논의되는곳은 WP 6B와 6C이다. WP6B 에서는 Broadcast service assembly and access 에대해서, 그리고 WP6C 에서는 Programme production and quality assessment 에대한표준화를다루고있다. 다시말해현재 ITU-R 에서오디오표준화가이루어지는부분은방송애플리케이션에집중하고있다고말할수있다. 특히두 Working Party 모두 Audio Metadata 및 Multichannel Sound Technology 를연구하는라포쳐그룹이형성되어있고여기에서해당논의가활발하게이루어지고있다. 그리고 ITU-R 에서제정되는표준은 Standard 가아닌 Recommend 라는표현으로배포되고있다는점이다른표준화단체와는차이가있는부분이다. 2014 년 Recommendation ITU-R BS.2051[10] 을통하여제정된 Advanced Sound System 은객체기반포맷신호에대해서도다루고있지만오디오메타데이터에대해서는요구사항만을언급하고있어이를충족시키기위한다양한논의가이루어지고있는데, 그중에서대표적인것이 Audio Definition Model(ADM) 모델이다. 이는 European Broadcasting Union(EBU) 에서먼저 2014 년표준화가이루어진포맷으로 (EBU TECH 3364[11]) 2015 년 6월 ITU-R 권고로도제정이되었다 [12]. 이메타데이터모델은오디오파일을포맷파트와콘텐츠파트로구분하여해당정보를안정적으로서술 하는것이목적이다. 포맷파트에서는채널기반포맷신호인지객체기반포맷신호인지에대한구분, 객체기반신호라면공간상의렌더링정보, 재생타이밍정보등이기록되며, 콘텐츠파트에서는이렇게모인신호들이영화콘텐츠인지, 음악콘텐츠인지등에대한정보를제공한다. 특히, ADM element 로서다양한정보를제공할수있는데, 가령, Type Definition 이라는속성에는하위항목으로서 DirectSpeakers Matrix, Objects, High Order Ambisonic(HOA), Binaural 을제공하고있다. 각각, 채널기반포맷신호를사용하여오디오신호와스피커재생신호를 1:1 매핑시키는경우, 다운믹스혹은업믹스를위하여채널신호가특정계수값을가지고더해지거나빼지는경우, 객체기반포맷신호를사용하는경우, Higher Order Ambisonic 신호를재생하는경우, 헤드폰입체음향신호를재생하는경우에해당한다. 또, audiobolckformat 속성에는 rtime 과 duration 항목을제공하여특정객체의재생시작시각과지속시간정보를제공한다. 그리고 position element 를통해직교좌표계나극좌표계로객체의공간상위치정보를제공할수있다. 다시말해, 사용자혹은재생단말은객체기반포맷신호를전송받거나혹은미디어로부터읽어들이면, ADM 에정의되어있는정보를이용해서주어진재생시스템하에서어떻게해당객체를렌더링할것인지결정하여재생할수있게된다. 이뿐만아니라 Broadcast Wave Format(BWF)[13] 에기초하여다채널, 대용량의 Advanced Sound System 까지포함할수있도록새로운 chunk 를포함하여만든웨이브파일포맷을변경하고자하는 BW64(Broadcast Wave 64)[14], 실시간방송등에서의활용을위한오디오신호패키징정보이자비트스트림포맷을다루는 MDA 가주로논의되고있다. 하이브리드오디오관련기타표준으로는 MPEG 에서 MPEG-H 3D Audio 라는차세대오디오를위한부호화 88 전자통신동향분석제 31 권제 3 호 2016 년 6 월
및렌더링기술에대해표준화하였으며, 이를기반으로북미차세대방송표준인 Advanced Television Systems Committee(ATSC) 3.0 표준에 Dolby 의 Atmos 를기반으로한 AC-4 기술의대체표준으로반영시킨바있다. AC-4 기술은기존방송용 AC3 기술의구조를따르면서확장하여하이브리드오디오서비스를제공할수있도록하고있다. 한편, 극장및블루레이용하이브리드오디오방식이 Dolby 의 Atmos, DTS의 DTS:X, Barco 의 AuroMax 로분화되어있어, 극장시스템설치및콘텐츠제작에있어번거러움이많다. 이러한상황을조금이나마완화시키기위해 Society of Motion Picture & Television Engineers(SMPTE) 에서는극장및블루레이용하이브리드오디오시스템의통합을위해 Interoperable Immersive Audio 라는표준을제정하고, 콘텐츠제작절차및극장시스템의구성에대한논의가계속진행되고있다 [5]. 아니라이례적으로오디오채널포맷변환및바이노럴렌더링기술을표준화아이템에포함시켜대부분의표준화가완료되었다 [15]. 하이브리드오디오기술은기존의실감음향효과를개선할수있는가능성이크며, 그동안채널기반의오디오콘텐츠제작기술과재생기술이서로종속적관계를통해함께발전해왔지만, 산업과시장의융통성측면에서많은제한사항을가질수밖에없었던오디오시장이객체기반실감음향기술을통해제작기술과재생기술이종속성을탈피함으로써각각독립적으로발전할수있는계기가마련되었다는측면에서향후오디오시장의획기적인변화가오리라는추측도해볼수있다. 하이브리드오디오기술은향후음향뿐만아니라영상및오감기술의객체기반서비스의시발점이될것이라조심스럽게예측해본다. Ⅵ. 맺음말 지금까지하이브리드오디오서비스를위한하이브리드오디오콘텐츠편집기술과하이브리드오디오콘텐츠재현술의최근동향과서비스현황에대하여살펴보았다. 영화산업에서는차세대오디오기술로서 Dolby 의 Atmos, DTS의 DTS:X, Barco 의 AuroMax 가치열한주도권경쟁을벌이고있으며, 향후영화용오디오포맷으로자리잡을것이확실시되고있다. 방송산업에서도미국의 ATSC 3.0 표준화에객체기반실감음향기술이포함되어있으며, 유럽의 DVB 에서도차세대 Ultra- High Definition TV(UHDTV) 를위한오디오기술에객체기반실감음향기술을도입하여야한다는공감대가형성되고있으며, 이를반영하여 MPEG-H 3D Audio 표준은객체를포함하는실감음향의압축부호화뿐만 약어정리 ADM Audio Definition Model ATSC Advanced Television Systems Committee BWF Broadcast Wave Format CAROUSO Creating, Assessing and Rendering in Real-time Of high-quality audio-visual environments CES Consumer Electronics Show CinemaCon Convention of Cinema Industry EBU European Broadcasting Union GUI Graphic User Interface 장대영외 / 고현장감오디오서비스를위한하이브리드오디오기술동향 89
HOA IMAF ITU MDA MPEG RMU SG SMPTE UHDTV WFS WP 참고문헌 High Order Ambisonic Interactive Music Application Format International Telecommunication Union Multi-Dimensional Audio Moving Picture Experts Group Rendering and Mastering Unit Study Group Society of Motion Picture & Television Engineers Ultra-High Definition TV Wave Field Synthesis Working Party [1] 장대영외, 초고해상도 (UHD) 사운드기술의현재와미래, 방송공학회지, 제 17 권제 4 호, 2012. 10, pp. 47-59. [2] European project CARROUSO Deliverables, http://www2. idmt.fraunhofer.de/projects/carrouso/index.html [3] D.Y. Jang et al., Object-based 3D Audio Scene Representation, 115th AES Convention Paper, no. 5956, Oct. 2003. [4] Dolby Atmos White Paper, Next-Generation Audio for Cinema, Dolby Laboratories Inc., 2012. [5] Toward an Open-standard Surround-sound Format, https://www.editorsguild.com/fromtheguild.cfm?fromthe Guildid=454 [6] IOSONO, Spatial Audio Workstation 2 - Operation Manual, IOSONO GmbH, Germany [7] 장대영, 이태진, 객체기반실감음향기술개발, 한국방송공학회하계학술대회논문집 T3.2-4, 2015. 7. [8] Dolby Atmos Audio Technology, http://www.dolby.com/ us/en/brands/dolby-atmos.html [9] DTS: X Technology with Multi Dimensional Audio, http://listen.dts.com/pages/dts-x [10] Recommendation ITU-R BS.2051, Advanced sound system for programme production, http://www.itu.int/rec/ R-REC-BS.2051/en [11] EBU TECH 3364 Audio Definition Model Metadata Specificationm, Jan. 2014, https://tech.ebu.ch/docs/tech/ tech3364.pdf [12] Recommendation ITU-R BS.2076, Audio Definition Model, http://www.itu.int/rec/r-rec-bs.2076/en [13] Recommendation ITU-R BS.2051, File format for the exchange of audio programme materials with metadata on information technology media, http://www.itu.int/rec/r- REC-BS.1352/en [14] SMPTE, Immersive Sound for Cinema, SMPTE Standards Update Webcast, 2014. [15] J. Herre et al., MPEG-H 3D Audio The New Standard for Coding of Immersive Spatial Audio, IEEE J. Selected Topics in Signal Processing, vol. 9, no. 5, Aug. 2015, pp. 770-779. 90 전자통신동향분석제 31 권제 3 호 2016 년 6 월