특집 MPEG-I 표준과 360 도비디오콘텐츠생성 MPEG-I 표준과 360 도 비디오콘텐츠생성 Ⅰ. 서론 호요성 GIST 전기전자컴퓨터공학부 2010년대초반에는 3차원기술을앞세워여러연구기관과기업들이 3차원영상을디스플레이할수있는장치를개발하기위해많은시간과노력을들였다. 3차원영상처리하드웨어의발전에따라영화, 게임, 광고등다양한분야에서 3차원영상기술을이용한콘텐츠들이제작되었다. 대표적인 3차원기술기반콘텐츠성공사례로영화 아바타 를들수있다. 이러한성공에힘입어각국의기업들은고화질, 고해상도의 3차원영상을시청할수있는디스플레이장치를개발했다. 하지만 3차원영상을시청하기위해서는시청자가특수안경을착용해야한다는큰불편함을감수해야했다. 또한, 입체영상을시청할때발생하는어지럼증과두통현상이 3차원영상기술의큰한계로지적되었다. 이러한문제를해결하지못함에따라 3차원디스플레이시장은점차위축되었고, 기존의문제를해결하기위해다른방법으로기술접근을해야한다는인식을갖게되었다. 2010년도중반에접어들었을때에도여전히소비자들은 3차원영상콘텐츠시청을원했기때문에기존의 3차원영상디스플레이의문제를해결하기위한방법들이개발되었다. 미국의 Oculus사는 2014년후반기에 Oculus Rift 버전 1을출시하며사용자의머리에장착하여시청할수있는디스플레이 (Head Mount Display, HMD) 시장을개척했다 [1]. 당시 HMD는고가의제품이었기때문에일반소비자들이쉽게접근하기어려웠지만, 미국의 Google에서종이상자와휴대전화로만들수있는 Cardboard를시장에판매하여일반소비자들도손쉽게 HMD 기술을접할수있게되었다. 잇따라삼성전자에서는 Oculus사와협업하여 GearVR을제작하여판매했으며, GearVR은삼성에서제작한고급휴대폰을디스플레이장치로사용하기때문에 QHD(Quad High Definition) 2560 1440 해상도의 634 _ The Magazine of the IEIE 52
MPEG-I 표준과 360 도비디오콘텐츠생성 표준화로드맵을제시하고논의를진행하고있다 [3]. 2017 년부터표준화작업을시작하여 2021년까지표준화작업을완료하는것을목표로하고있으며, 내부적으로 5개의서브파트가존재하며, 각파트별표준화작업은 < 그림 1> 에나타나있듯이연도별로세분화된 MPEG 로드맵을따르고있다 [4]. Ⅱ. MPEG-I Phase 의분류 < 그림 1> MPEG 표준화로드맵 VR(Virtual Reality) 영상시청이가능하게되었다. 하지만이러한 VR 장치들은대부분모바일환경에서구동되기때문에일반 PC나대형디스플레이장치에내장되어있는그래픽처리장치를통해제공되는영상에비해화질이떨어지게된다. 또한, 360 전방향영상콘텐츠를제작하기위해 CG(Computer Graphics) 영상이아닌실제촬영된영상사용할경우모바일장치에서영상을처리하기는더욱어렵다. 실제촬영된영상을 VR 장치를통해고품질의전방향파노라마영상을제작하기위해서는 4K UHD 해상도정도되어야하는데, 이경우처리해야할데이터량이급격히증가하게된다. 또한, 막대한양의영상콘텐츠는대역폭과전송속도의한계로인해네트워크를통해전송하기쉽지않다 [2]. VR장치를통해전방향영상을시청할경우일반적으로사용자머리의움직임을 3방향으로정의하는데, 이를 3DoF(Degree of Freedom) 이라한다. 3DoF는 Yaw, Pitch, 그리고 Roll을의미하며, 사용자머리의움직임을트래킹하는방향축이기준이된다. 하지만 VR 영상을시청할경우객체사이의가려짐현상이나촬영카메라의시야각문제로인해 3DoF만을통해현실감있는 VR 영상을시청하기는어렵다 MPEG 표준화그룹에서는 116차모임에서 MPEG-I 그룹을만들어몰입형, 전방향비디오를위한포맷과포인트클라우드등기존의기술적문제를해결하기위한 MPEG-I 표준에서는시청자에게현재의 3차원영상콘텐츠보다더자유롭고현실감있는전방향영상을제공하기위한표준화작업을진행하고있다. 이러한목적을위해 MPEG-I는서브파트그룹을만들어각기술개발작업을세분화하여진행하고있으며, 부호화및복호화되는데이터의종류와양에따라 Phase 1.a, Phase 1.b, 그리고 Phase 2와같이 3단계로나누어기술개발을진행할예정이다. 1. Phase 1 표준화단계 (Phase) 는크게 Phase 1과 Phase 2로구분되는데, Phase 1은 2개의서브파트로구성되어있으며, Phase 2는 3개의서브파트로구성된다. Phase 1의서브파트 1은 Technical Report on Immersive Media 로몰입형미디어기술에대한구조와기술을다룬다. Phase 1의서브파트 2인 Omnidirectional MediA Format (OMAF) 는 360 카메라로촬영한영상콘텐츠를네트워크를통해전송하기위한부호화및복호화를위한기술개발을주로진행, 최종수신단에서 6DoF로복원된영상을제공하는것을목표로하고있다. Phase 1.a의전체적인목표는전방향 VR 영상을네트워크를통해저장및전송하도록하는것이다. 단, Phase 1.a는시야각이 3DoF로한정되어있는데, 3DoF는 < 그림 2> 와같이시청자가고정된위치에서영상을감상할때시청자머리의 Yaw, Pitch, 그리고 Roll에대한움직임이전방시야각 X, Y, Z축에대해한정되어있는상황을의미한다 [5]. Phase 1.a에서는최대 360 구형영상에대한영상및비디오콘텐츠를제공하는것을목표로하고있으 53 전자공학회지 2017. 8 _ 635
호요성 < 그림 2> 3DoF의시야각및자유도며, 네트워크환경이지원가능한경우 4K 60fps의영상을부호화, 복호화가가능하도록 2017년후반기까지표준화작업을진행할예정이다. < 그림 3> 과같이, Phase 1.a는단일영상의스티칭, 프로젝션, 그리고매핑정보들을기반으로영상및비디오부호화를수행하며, 동시에오디오부호화도진행한다. 복호화부분에서도마찬가지로동일한데이터에대해복호화를진행하며추가적으로전방향영상을지원하기위해사용자가바라보는시점에대한트래킹정보가전송데이터에포함된다. Phase 1.b의경우 Phase 1.a의시청가능시야각의자유도가일부증가한 3DoF+ 콘텐츠제공을목표로하고있다. < 그림 4> 에보인것처럼, 3DoF+ 는 3DoF에서후 < 그림 3> MPEG-I Phase 1.a < 그림 4> 3DoF+ 의시야각및자유도 방으로의 Yaw, Pitch, 그리고 Roll에대한움직임이일부제한적으로추가된다 [6]. 즉, 3DoF에서제한적으로시점의자유도가증가한것이다. 고품질의 3DoF+ 환경을구성하기위해서는사람이바라보는시점을트래킹하여영상을자연스럽게생성할수있도록데이터전송지연문제가없어야한다. 그리고 HMD 장치를이용하여사용자간실시간영상을주고받기위해서는데이터전송에대한최적화기술도 Phase 1.b에서고려해야할점이다. Phase 1.b는깊이정보가포함된여러영상들과비디오데이터들이부호화입력정보로사용된다. 복호화단에서는전송된영상의비디오데이터와깊이정보를함께사용하여렌더링을수행함으로써최종데이터를생성한다. Phase 1.b에서는최종데이터에깊이정보가포함되어전송되기때문에 Phase 1.a보다높은시점의자유도를갖게된다. Phase 1.b의시스템구성도는 < 그림 5> 에나타나있다. 2. Phase 2 Phase 2는 Phase 1의서브파트 2에이어서브파트 3 부터시작하게되는데, 이는 Immersive Video 라고부르며, 전방향비디오콘텐츠를제작하고개발하는작업을중점적으로진행한다. 서브파트 4는 Immersive Audio 이며, 전방향비디오콘텐츠에사용되는오디오데이터를제작하는작업을수행한다. 마지막서브파트 5인 Point Cloud Compression 는라이트필드영상과함께전방향비디오콘텐츠제작을위해사용될기술이다. < 그림 6> 에보인것처럼, Phase 2의목표는시청자가자유롭게움직일수있는환경에서시점의제한이없는 6D0F 영상을제공하는것이다. Phase 2의가장중요한개발요소는 6DoF 영상전송이가능한비디오코덱의개발이다. Phase 2에사용되는데이터의종류는비디오, 정지영상, 오디오, 라이트필드및포인트클라우드등다양한데이터가처리되고전송되어야하기때문에이를안정적으로지원하기위한차세대비디오코덱의개발은 Phase 2 에서매우중요한요소이다. Phase 2 시스템의경우입력으로사용되는영상정보 636 _ The Magazine of the IEIE 54
MPEG-I 표준과 360 도비디오콘텐츠생성 < 그림 7> 다시점카메라구조와마이크로렌즈배열 < 그림 5> MPEG-I Phase 1.b < 그림 6> 6DoF의시야각및자유도증가로인해부호화해야하는데이터의종류가 Phase 1.b와비교하여많이증가하게된다. 원활한데이터전송을위해지금보다빠르고넓은대역폭을갖는네트워크환경이필요하기때문에 5G의개발이완료되는시점에서 MPEG-I의전체적인시스템구성이완료되도록로드맵이설계되어있다. III. MPEG-I Visual 기술동향 MPEG-I는자연스러운전방향영상콘텐츠를오디오와함께제공하는것에초점을두고표준화작업을진행하고있다. 그중서브파트 3인 Immersive Video 는현재 3DoF+ 와 6DoF를위한실험영상제작에많은노력을기울이고있다 [7]. 최근라이트필드카메라가상용화되어여러분야에사용되고있으며, 라이트필드영상을이용한깊이지도생성및중간시점영상합성등다양한알고리즘이개발되고있다. MPEG-I도 Phase 2에서라이트필드영상을사용하여전방향영상콘텐츠를제작하는것을목표로하고있으며, 현재 MPEG 미팅에서라이트필드카메라를이용한다시점영상제작방법에대한논의가활발하게이루어지고있다. 특히, 라이트필드카메라 영상을이용하여정확한깊이지도를생성하는방법에대한연구의필요성이증대되고있다. < 그림 7> 에나타나있듯이, 라이트필드카메라는일반카메라에서는사용되지않는마이크로렌즈배열을사용하기때문에다시점카메라로촬영한영상과동일한결과를얻을수있다. 하지만라이트필드영상은다시점카메라로획득한영상보다시점간거리가매우좁다는특징을가지고있다. MPEG-I에서는획득한깊이정보를기반으로중간시점영상을생성하거나 3차원모델링을수행해야하기때문에정확한깊이정보를획득하는것이중요한문제이다. 일반적으로라이트필드영상으로부터깊이영상을획득하기위해스테레오정합방법을사용한다. 최근 MPEG 미팅에서라이트필영상의원본깊이정보가없을경우생성된깊이지도의정확성을평가하기위해포인트클라우드로생성된깊이지도를시각화하여평가하는방법들이논의되었다 [7-8]. 라이트필드영상을사용하여스테레오정합을수행할때, 일반적으로비용함수는식 (1) 과같이 Zero Mean Normalized Cross-Correlation (ZNCC) 또는식 (2) 처럼 Sum of Absolute Differences (SAD) 와영상의기울기항을동시에사용하는등다양한비용함수를모델링하여사용한다. 라이트필드영상의스테레오정합역시일반적인양안영상의정합방법에사용되는후처리과정이적용된다. 가이드영상필터링 [9] 또는계층적해상도최적화 [10] 방법을적용하여고품질의깊이지도를생성할수있게된다. (1) 55 전자공학회지 2017. 8 _ 637
호요성 (2) 라이트필드영상은마이크로렌즈배열을통해촬영된영상만을통칭하지않는다. < 그림 8> 과같이일반카메라를사용하여상하시차가존재하며좁은베이스라인을갖도록촬영된영상도라이트필드영상이라고말할수있다. 이렇게얻은실험영상을기반으로식 (1) 을사용하여획득한깊이지도와 DERS (Depth Estimation Reference Software) 를통해획득한깊이지도결과를 < 그림 9> 에나타내었다 [7]. DERS는스테레오영상을이용하여깊이지도를생성할수있도록 MPEG 그룹에서제작하여공개한소프트웨어이다. < 그림 9> 의좌측은식 (1) 을이용하여획득한깊이지도를, 우측은 DERS를이용하여획득한깊이지도를나타낸다. 이실험영상의경우원본깊이지도가존재하지않기때문에객관적으로평가할수있는방법이없다. 깊이지도의정확성을평가하기위해생성된깊이지도를기반으로 3차원공간상에포인트클라우드를생성하여정확성을주관적으로평가한다. 라이트필드실험영상에대한원본깊이지도가존재하지않을경우에는생성된깊이지도를사용하여중간시점영상을생성하거나 3차원객체 모델링을수행함으로써생성된깊이지도의정확성을평가할수있다. 이실험영상은포인트클라우드를생성하여깊이지도를평가하는방법을채택했기때문에라이트필드카메라시스템에대한파라미터를알아야하기때문에미리카메라캘리브레이션이수행되어야한다. < 그림 10> 은 < 그림 9> 와같이획득한깊이지도를기반으로포인트클라우드를생성하고, 원본라이트필드영상의텍스쳐정보를사용하여 Meshlab tool [11] 을기반으로시각화한결과를나타내고있다. < 그림 10> 의결과에서알수있듯이, 식 (1) 을이용한깊이지도기반포인트클라우드시각화결과가 DERS 깊이지도기반시각화결과에비해정확하게표현된것을확인할수있다. 하지만 DERS는현재라이트필드영상에대한깊이지도를생성하는알고리즘이아니기때문에두결과중어느것이우수하다고객관적으로평가할수는없다. 이러한문제를해결하기위해라이트필드영상에대해원본깊이지도를포함하고있는실험영상을제작하여제공하는연구를지속적으로진행해야한다. 또한라이트필드영상으로생성된포인트클라우드결과를객관적으로평가할수있는평가방법에대한연구도같이진행되어야한다. Ⅳ. 전망및전망 < 그림 8> 라이트필드영상 최근 3차원영상을시청할때발생하는문제점에착안하여다양한연구들이진행되고있는데, 대표적으로 HMD를이용한 VR 전방향콘텐츠시청을들수있다. 초기 VR 영상은사용자에게다양한시점의영상을제공함으로써기존 3차원디스플레이를통해느낄수있는영상에비해보다많은시점의자유도를제공했다. 하지만 < 그림 9> 스테레오정합을이용한깊이지도비교 < 그림 10> Meshlab 기반깊이지도시각화 638 _ The Magazine of the IEIE 56
MPEG-I 표준과 360 도비디오콘텐츠생성 사용자들은시점의자유도뿐만아니라 VR을통해고화질의풍부한영상콘텐츠를감상하기를바랐고, 기존의 VR보다덜제한적인시점의자유도를원하게되었다. 이에따라 MPEG 표준화그룹에서는 MPEG-I를조직하여표준화작업을진행하고있다. 특히, OMAF 개념과 3DoF로부터시작하여이상적인 6DoF VR영상을제작하기위한장기적인로드맵을작성하고, 5개의서브파트로나누어표준화연구를진행하고있다. 특히, 이번 118 차 MPEG 미팅에서 MPEG-I VIsual 그룹은 3DoF+, Omnidirectional 6DoF, Windowed 6DoF 그리고 6DoF 와같이시청자가경험할수있는시각적자유도에대한개념을세분화했다. 119차 MPEG 미팅에서는시각적자유도에대한세부예시들을정의하고다양한실험영상들을제공하는것을목표로하고있다. 앞으로몰입형비디오의표준화작업을성공적으로수행하기위해서는 MPEG-I의주제에많은관심을가져야하며, 각세부파트별로관련있는연구성과를기고서로제출하여표준화작업에많은기여를해야할것으로보인다. 2017. [5] M.L. Champel and R. Dore, Quality Requirements for VR, ISO/IEC JTC1/SC29/WG11, M39979, Jan. 2017. [6] MPEG-I Use Cases for omnidirectional 6DoF, windowed 6DoF, and 6DoF, N16767, April 2017. [7] D. Doyen, G. Boisson, N. Sabater, and V. Dreyfus, Estimation and Visualization of Depth from Light Field Content, M40597, April 2017. [8] J.H. Mun, and Y.S. Ho Light-Field Depth Map Generation and Visualization, M40289, April 2017. [9] K. He, J. Sun, and X. Tang, Guided Image Filtering, IEEE Trans. on PAMI, Vol. 35, No. 6, June 2013. [10] B.D. Lucas and T. Kanade, An Iterative Image Registration Technique with and Application to Stereo Vision, IJCAI, vol. 2, pp. 674-679, Aug. 1981. [11] www.meshlab.net/#download 감사의글 본연구는미래창조과학부 범부처 Giga KOREA 사업 의일환으로수행하였음. [GK16C0100, 기가급대용량양방향실감콘텐츠기술개발 ] 참고문헌 [1] M. A. Conn, and S. Sharma, Immersive Telerobotics using the Oculus Rift and the 5DT Ultra Data Glove, CTS, pp. 387-391, Nov. 2016. [2] R. Kijima, and K. Yamaguchi, VR device time-hi-precision Time Management by Synchronizing Times Between Devices and Host PC Through USB, IEEE Virtual Reality(VR), DOI, 10.1109/VR.2016.7504723, March 2016. [3] New Work Item Proposal on Coded Representation of Immersive Media, ISO/IEC JTC1/SC29/WG11, N16541, Jan. 2017. [4] MP20 Roadmap, ISO/IEC JTC1/SC29/WG11, N16719, Jan. 호요성 1981 년서울대학교공과대학전자공학과학사 1983 년서울대학교공과대학전자공학과석사 1989 년 Univ. of Califonia, SB 전기컴퓨터공학과박사 1983 년 ~1995 년한국전자통신연구원선임연구원 1990 년 ~1993 년미국 Philips 연구소선임연구원 1995 년 ~ 현재광주과학기술원교수 1995 년 ~ 현재실감방송연구센터센터장 2016 년 ~ 한국방송미디어공학회회장 2017 년 ~ 현재 IEEE Fellow < 관심분야 > Digital Signal and Image Processing, Image and VIdeo Data Compression, Digital Television and High Definition Television System, 3DTV and Freeviewpoint Video System 57 전자공학회지 2017. 8 _ 639