600 방송공학회논문지제 22 권제 5 호, 2017 년 9 월 (JBE Vol. 22, No. 5, September 2017) 특집논문 (Special Paper) 방송공학회논문지제 22 권제 5 호, 2017 년 9 월 (JBE Vol. 22, No. 5, September 2017) https://doi.org/10.5909/jbe.2017.22.5.600 ISSN 2287-9137 (Online) ISSN 1226-7953 (Print) 360 미디어를위한 MPEG Omnidirectional Media Format (OMAF) 표준기술 오세진 a) MPEG Omnidirectional Media Format (OMAF) for 360 Media Sejin Oh a) 요 약 VR (Virtual Reality) 은최근스마트폰기반 HMD (Head Mounted Displays) 에대한개발및관심이급증함에따라 360 비디오에대한표준화에대한요구가급증하고있다. 본논문에서는 MPEG 산하에서진행되는 360 미디어를지원하기위한미디어포맷인 Omnidirectional Media Format 에서다루는핵심표준기술에대하여자세히소개한다. 360 미디어를위한 OMAF 아키텍처를소개하고 OMAF 에서다루는 360 비디오처리및메타데이터에대해자세히설명한다. 그리고 360 미디어를파일혹은세그먼트내에저장하기위한미디어포멧및 MPEG DASH(Dynamic Adaptive Streaming over HTTP) 기반 360 미디어에대한스트리밍기법에대해자세히언급한다. Abstract Virtual Reality (VR) has lately gained significant attention primarily driven by the recent market availability of consumer devices, such as mobile phone-based Head Mounted Displays (HMDs). Apart from classic gaming use cases, the delivery of 360 video is considered as another major application and is expected to be ubiquitous in the near future. However, the delivery and decoding of high-resolution 360 videos in desirable quality is a challenging task due to network limitations and constraints on available end device decoding and processing. In this paper, we focus on aspects of 360 video streaming and provide an overview and discussion of possible solutions as well as considerations for future VR video streaming applications. This paper mainly focuses on the status of the standardization activities, Omnidirectional MediA Format (OMAF), to support interoperable 360 video streaming services. More concretely, MPEG's ongoing work for OMA aims at harmonization of VR video platforms and applications. The paper also discusses the integration in MPEG Dynamic Adaptive Streaming over HTTP (MPEG-DASH), which is considered as 360 video streaming services with OMAF content. In context of the general OMAF service architecture. Keyword : VR, Omnidirectional Media Format, 360 Video, Streaming a) LG 전자차세대표준연구소 (Advanced Standard R&D Laboratory, LG Electronics) Corresponding Author : 오세진 (Sejin Oh) E-mail: sjin.oh@lge.com ORCID: http://orcid.org/0000-0002-5922-9227 Manuscript received July 31, 2017; Revised September 19, 2017; Accepted September 19, 2017. Copyright C 2017 Korean Institute of Broadcast and Media Engineers. All rights reserved. This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.
오세진 : 360 미디어를위한 MPEG Omnidirectional Media Format (OMAF) 표준기술 601 (Sejin Oh: MPEG Omnidirectional Media Format (OMAF) for 360 Media) Ⅰ. 서론최근몇년동안가상현실 (Virtual Reality, VR) 에대한개발이급증하고있으며 VR을지원하고디바이스들 (Oculus Rift, HTC Vive, Samsung GearVR, Sony PlayStation VR 및 Google Daydream 과같은 HMD (Head Mounted Displays) 를등장하고있다. 이와더불어스마트폰기반 VR HMD의인기가높아짐에따라 VR 콘텐츠에대한수요가증가됨에따라다양한회사들이 360 비디오콘텐츠를캡처할수있도록하는 360 카메라, 예를들어, Ricoh Theta, Samsung Gear 360 및 LG 360 Cam과같은저렴한솔루션과 Nokia OZO, GoPro Omni 및 Fraunhofer OmniCam360 과같은고가의전문 360 카메라가이미시장에나와있다. 이와동시에 YouTube 및 Facebook 과같은주요멀티미디어스트리밍플랫폼은이미 VR 장치용 360 비디오스트리밍에대한지원을시작했으며전문미국스포츠또는라이브이벤트스트리밍등이제공되고있다. VR에대한 360 비디오전달에대한업계의관심에힘입어 360 비디오에대한다양한표준화가진행되고있다. 2016 년 2 월에 MPEG 는시장단편화를방지하기위해 2017 년말까지 360 콘텐츠의저장및전달형식을표준화하는것을목표로하는전방향미디어포맷 (OMAF) [1] 에대한활동을시작되었다. 이와더불어 3GPP [2] 는 VR 스트리밍관련표준업무가진행중에있으며 W3C WebVR Community Group [3] 에서웹기반으로 VR 장치에액세스를지원하기위한업무가진행중에있다. 본논문에서는 MPEG 산하에서진행되는 360 미디어를지원하기위한미디어포맷인 Omnidirectional Media Format ( 이하 OMAF) 에서다루는핵심표준기술에대하여자세히소개한다. 2절에서는 360 미디어를위한 OMAF 아키텍처를소개하고 3절에서는 OMAF 에서다루는 360 비디오처리및메타데이터에대해자세히설명한다. 그리고 4절에서는 360 비디오및 / 또는오디오를파일에저장하기위한인캡슐레이션방안을살펴보고 5절에서는 360 미디어에대한스트리밍기법에대해자세히언급한다. Ⅱ. 360 미디어를위한 OMAF 아키텍처 360 미디어생성 / 처리및스트리밍을지원하기위한 그림 1. 360 미디어를위한 OMAF 아키텍쳐 Fig. 1. OMAF Architecture for 360 media [1]
602 방송공학회논문지제 22 권제 5 호, 2017 년 9 월 (JBE Vol. 22, No. 5, September 2017) OMAF 아키텍처는그림 1에서보는바와같을수있다. 360 비디오의경우하나이상의카메라등을통해캡처된영상 ((Bi) 은스티칭, 프로젝션, 그리고영역기반패킹등을거쳐 2D 이미지상에투영된다 (D). 투영된이미지는이미지 (Ei) 또는비디오비트스트림 (Ev) 으로인코딩될수있다. 360 오디오의경우캡쳐된오디오데이터 (Ba) 는오디오비트스트림 (Ea) 으로인코딩될수있다. 코딩된이미지, 비디오, 또는오디오는특정미디어파일포맷에따라미디어파일 (F) 또는스트리밍을위한세그먼트 (Fs) 로구성될수있으며해당파일혹은세그먼트는 360 비디오혹은오디오를효과적으로처리및랜더링하기위한메타데이터를포함할수있다. 그리고세그먼트 (Fs) 는 DASH 등전송메커니즘에따라클라이언트에전달될수있다. 클라이언트는파일 (F') 또는수신한세그먼트 (F's) 내코딩된이미지, 비디오혹은오디오비트스트림 (E'a, E'v 및 / 또는 E'i) 을추출하고포함된메타데이터를분석한다. 그리고이는비디오, 이미지, 혹은오디오비트스트림을디코딩하고. 사용자의현재시청방향및뷰포트에적합한 360 비디오 (A i) 혹은오디오 (A a) 가 HMD 스크린상에디스플레이하거나 headphone 상에랜더링함으로써, 사용자로하여금사용자의뷰포트에적합한 360 미디어를경험할수있도록한다. 이와더불어하나의 2D 이미지상에하나이상의어안 (fisheye) 카메라로캡처된원형이미지들이투영될수있다. 이러한경우투영된이미지 (D) 는앞서언급한바와같이이미지혹은비디오비트스트림으로인코딩되고, 파일혹은세크먼트내에포함되어클라이언트에전달될수있다. 이러한경우클라이언트는파일혹은수신한세그먼트로부터비디오및 / 또는이미지를디코딩하고디코딩된이미지에포함되어있는원형이미지를스티칭등을수행하고사 용자의시청방향및뷰포트에적합한 360 비디오 (A i) 를 HMD 스크린상에디스플레이한다. Ⅲ. OMAF 비디오및메타데이터그림 2는카메라로부터획득한영상을기반으로 360 비디오을제공하기위한 OMAF 비디오처리를위한세부단계를나타낸다. 360 비디오를생성하기위하여하나이상의카메라에서획득된이미지 (Bi) 는스티칭후 3차원투영구조체 ( 예를들어단위구등 ) 에투영된다. 투영구조체상에투영된이미지데이터는 2D 이미지상에배치하여투영이미지 (C) 를생성한다. 선택적으로, 투영이미지상에영역기반패킹기법이적용 (D) 될수있으며이는이미지 / 비디오비트스트림으로인코딩된다. 스테레오스코픽 360 비디오의경우, 상기비디오처리단계를기반으로좌측혹은우측뷰에해당하는투영이미지가생성될수있으며이는동일한 2D 이미지프레임상에포함될수있다. 그리고선택적으로영역기반패킹이적용될수있으며기존의 2D 비디오인코더의입력으로사용될수있다. 1. 프로젝션 (Projection) 360 비디오를생성하기위하여하나이상의카메라로획득된영상은프로젝션단계를통하여구또는정육면체등과같은 3차원투영구조체에투영되고투영된데이터를 2D 이미지프레임상에배치된다. 일반적으로사용되는프로젝션기법으로 Equirectangular Projection (ERP) 및 Cube Map Projection (CMP) 을들수있다. ERP는 360 비디오생성에사용되는가장일반적으로사용되는프로젝션기법으로서, 그림 3에서보는바와같이, 그림 2. 360 비디오를위한 OMAF 비디오처리단계 Fig. 2. OMAF video processing (stitching, projection, and region-wise packing) of input images
오세진 : 360 미디어를위한 MPEG Omnidirectional Media Format (OMAF) 표준기술 603 (Sejin Oh: MPEG Omnidirectional Media Format (OMAF) for 360 Media) 그림 3. 360 비디오데이터의 Equirectangular projection (ERP) Fig. 3. Equirectangular projection of 360 video 구에투영된데이터를 2D 이미지에펼친것과같이 360 비디오데이터가 2D 이미지상에배치된다. 하지만 ERP의경우구의극영역에해당하는데이터가 2D 이미지상에중복되어서매핑된다는단점을가진다. 이와더불어널리사용되는프로젝션기법으로서, 그림 4에서보는바와같이, 360 비디오데이터가정육면체의 6 면에투영되고각면이 2D 이미지상에정렬되는 Cube Map Projection (CMP) 을들수있다. CMP 의경우 ERP에서발생하는구의극영역에해당하는데이터가 2D 이미지상에중복되어매핑되지않기때문에평균적으로 ERP보다 효율적일수있으며 OpenGL 과같은렌더링프레임워크상에서지원이용이하다. 또한 CMP의직사각형특성은 360 비디오스트림에서브픽쳐비트스트림혹은 HEVC (High Efficiency Video Coding) 타일기반인코딩을적용하는데용이하다는장점을가진다. 2. 영역기반패킹 (Region-wise packing) 프로젝션단계를통해투영된이미지는영역기반패킹을통하여특정영역의위치, 크기등이변경될수있다. 그림 4. 360 비디오데이터의 cube map projection Fig. 4 Cube map projection of 360 video 그림 5. ERP 투영이미지의영역기반패킹의실시예 Fig. 5. A working example when region-wise packing is applied into an ERP projected image
604 방송공학회논문지제 22 권제 5 호, 2017 년 9 월 (JBE Vol. 22, No. 5, September 2017) 이러한영역기반패킹은투영이미지의추가압축을향상 시키거나사용자뷰포트에족송적인비트스트림생성지 원등을위하여적용될수있다. 예를들어, 그림 5 에서보 는바와같이, ERP 가적용된투영이미지에영역기반패 킹, 즉, 투영이미지의영역에따라서로다른샘플링을적 용하여기존투영이미지의영역의위치및크기등이변경 될수있다. 영역기반패킹이적용된경우클라이언트에서적용된 영역기반패킹의역프로세스가적용될수있어야한다. 이를위해해당이미지에어떻게영역기반패킹이적용되 었는지에대한메타데이터가클라이언트에전달될수있어 야한다. 영역기반패킹관련메타데이터는투영이미지 상에서의영역정보및해당영역에대한패킹영역및해당 영역의회전및 / 또는미러링등을포함할수있다. 현재 OMAF 에서는시각형의영역기반패킹만을적용하는것 으로한정한다. 3. 추천뷰포트 (Recommended Viewport) 및초기시점 (Initial Viewpoint) 표시 360 미디어는 360 장면내에서사용자가자유롭게이동 하며사용자가원하는방향에서콘텐츠를경험할수있다. 하지만이는 360 장면내어느시점에서든지사용자에게 흥미로운장면을제공하지않을수있으며경우에따라 360 장면중중요한부분을사용자가놓칠위험이존재한다. 그 러므로이를보완하기위해서 OMAF 에서는 360 장면의 초기시점및 360 장면내권장뷰포트에대한메타데이터 를정의하고이를전달할수있도록한다. 초기시점은 360 장면중사용자에게랜더링되어제공되어야하는뷰포트 의중심점을나타낸다. 이를통해사용자가 360 장면의중 요한부분을경험할수있도록한다. 권장뷰포트는콘텐츠 제작자가 360 장면중디스플레이하는것을권장하는영역 정보를나타내면이는응용프로그램에따라전체 360 장면의흥미로운부분등을중심으로사용자가해당콘텐 츠를경험할수있도록한다. 예를들어 HMD 를기반으로 360 미디어를소비하는경우권장뷰포트메타데이터를기 반으로 360 장면내해당영역에대한힌트 ( 시각적또는 음성 ) 를제공하여사용자로하여금해당부분을경험할수 있도록유도할수있다. 더나아가권장뷰포트의한가지용도는기존 TV 세트와같이비 VR 가능장치에서해당메타데이터를사용하여 TV 화면에 360 장면중권장뷰포트영역의콘텐츠를표시할수있으므로 360 콘텐츠를사용할수있는장치의범위를확장할수있다. Ⅳ. 360 미디어를위한미디어포멧 360 미디어는하나이상의 360 비디오혹은오디오를포함할수있다. 이를위해 360 미디어를포함하는파일혹은세그먼트는하나이상의 360 비디오트랙과오디오혹은 360 미디어메타데이터트랙을포함할수있다. 360 비디오트랙내에는비디오의비트스트림과함께 360 비디오관련, 예를들어프로젝션및영역기반패킹메타데이터등이함께포함될수있다. 그리고오디오트랙내에는오디오비트스트림등이포함될수있으며 360 미디어메타데이터트랙내에는 360 미디어의추천영역혹은초기시점등에대한 360 미디어관련메타데이터가저장될수있다. 그러므로 360 미디어파일혹은세그먼트는하나이상의비디오트랙과오디오트랙혹은 360 미디어관련메타데이터를포함하는메타데이터트랙을포함할수있다. 360 비디오는파일내에다양한형태로저장될수있다. 가장일반적으로하나의트랙내에 360 비디오의전체비트스트림이포함될수있다. 하지만 360 비디오전체가한번에소비되지는않기때문에하나의트랙내에전체 360 비디오스트림을포함하기보다는하나이상의트랙내에 360 비디오의서브픽쳐비트스트림들로나누어포함될수있다. 또한모노스코픽 360 비디오의경우왼쪽혹은오른쪽뷰에따라별도의트랙에포함되거나하나의트랙내에양쪽뷰에대한비트스트림이전부포함될수있다. 그리고해당비디오트랙내에포함된 360 비디오의비트스트림을소비하는경우해당비트스트림에적용된 OMAF 비디오처리기술, 예를들어프로젝션, 영역기반패킹, 어안렌즈관련파라미터등에대한정보가제공되어야해당비디오비트스트림을올바르게역프로젝션및랜더링할수있기때문에동일한트랙의헤더부분에 360 비디오의프로젝션, 영역기반패킹, 어안렌즈관련파라미터등 360 비디
오세진 : 360 미디어를위한 MPEG Omnidirectional Media Format (OMAF) 표준기술 605 (Sejin Oh: MPEG Omnidirectional Media Format (OMAF) for 360 Media) 오메타데이터가포함될수있다. 360 비디오와함께소비될수있는스테레오혹은 3D 오디오는 360 비디오와동일한파일 / 세그먼트혹은별도의파일 / 세그먼트내에포함될수있다. 하나의파일내에 360 비디오와는별도의트랙혹은별도의파일내에오디오의전체비트스트림이포함될수있다. 그리고파일혹은세그먼트내에포함된트랙의각샘플의디코딩혹은컴포지션시간정보를기반으로비디오와오디오스트림간의시간적동기화를지원할수있도록한다. 360 비디오 / 오디오와함께소비될수있는 360 미디어의추천영역및초기시점관련메타데이터들은동일한파일내의비디오혹은오디오트랙과는별도의트랙혹은별도의파일혹은세그먼트내에포함될수있다. 메타데이터트랙내에는 360 미디어의추천영역및초기시점관련메타데이터비트스트림등이포함될수있다. 그리고메타데이터트랙의각샘플의디코딩혹은컴포지션시간정보를기반으로미디어즉, 비디오와오디오스트림간의시간적동기화를지원할수있도록한다. Ⅴ. 360 미디어의스트리밍 360 미디어는 DASH 등다양한전송프로토콜을통하여클라이언트에전송될수있으며이를위하여여러가지스트리밍기법이존재한다. 가장기본적으로사용자의시청방향에관계없이전체 360 비디오를스트리밍할수있다. 하지만사용자가한번에소비되는영역은 360 장면의일부분이기때문에사용자가보는방향에따라서로다른 360 비디오스트림을스트리밍할수도있다. 더나아가전체 360 비디오를서브픽쳐비트스트림으로나누어전송할수있다. 본절에서는이러한세가지스트리밍방안에대해자세히살펴본다. 1. 뷰포트독립적인스트리밍뷰포트에의존하지않는스트리밍기법은 360 비디오전체스트림을스트리밍하는가장간단한방법이다. 이는콘텐츠캡쳐및준비 ( 즉, 스티칭, 프로젝션및영역별패킹 ) 및플레이어의렌더링프로세스이외에는기존스트리밍시스템에서어떠한수정도필요하지않다는장점을가진다. 이방식을사용하면전체 360 비디오가마치기존비디오인것처럼인코딩되어 DASH 클라이언트에제공될수있으며 DASH 클라이언트는기존의비디오와동일하게디코딩하여 360 비디오를렌더링한다. 이기법은 360 비디오에뷰포트에구속되지않는투영형식 ( 예 : ERP 또는 CMP) 으로투영되며 DASH 클라이언트는사용된투영 / 패킹방식을지원하는지여부를확인하고지원하는투영 / 패킹방식으로생성된 DASH 세그먼트중하나를요청할수있다. 클라이언트는원하는투영 / 패킹방식을선택한후에, 종래의적응형스트리밍방식과같이, DASH 클라이언트는처리량특성에기초한비트레이트또는해상도에대응하는동일한투영 / 패킹방식의다른 DASH 세그먼트를요청할수있다. 따라서, DASH 에대한확장은, 360 비디오콘텐츠선택을위하여, DASH 세그먼트의투영 / 패킹메타데이터를 MPD (Media Presentation Description) 상에명시하는부분만추가되면되기때문에최소일것으로예상된다. 하지만기존 DASH 기반스트리밍의최소의확장만으로동작할수있는반면, 이러한접근방식의주된문제는전송대역폭과디코더리소스의상당부분이전혀표시되지않는콘텐츠에사용된다는것입니다. 그결과, 사용자에게제공되는콘텐츠부분에더잘활용될수있는대역폭및디코더자원이낭비하게된다는단점이존재할수있다. 2. 뷰포트기반스트리밍앞절에서언급한뷰포트독립적스트리밍기법의단점을보완하기위해뷰포트종속적스트리밍을지원하기위한방안이고려되고있다. 이는서버측에서동일한 360 비디오에대해서로다른뷰포트에해당하는여러 DASH 세그먼트, 즉, 클라이언트상에원하는뷰포트비디오를제공할수있도록하기위해서로다른뷰포트비디오영역에더많은비트를사용하여인코딩한비디오세그먼트를생성한다. 이는영역별로다양한양자화단계크기를사용하거나뷰포트에서원하는뷰포트를나타내는영역에대해더높은해상도로영역별패킹을적용하여생성할수있다.
606 방송공학회논문지제 22 권제 5 호, 2017 년 9 월 (JBE Vol. 22, No. 5, September 2017) 그러므로서버측에는동일한전제 360 비디오에대해서로다른뷰포트에해당하는다수의세그먼트가생성될수있으며 FoV (Field of View) 가다른장치를지원해야하는경우해당 DASH 세그먼트의수는더커질수있다. 즉, 처리량특성을기반으로하는기존적응형스트리밍외에도클라이언트는지원되는투영 / 패킹방식에해당하는 DASH 세그먼트및현재사용자의뷰포트에따라 DASH 세그먼트를스위칭해야한다. 또한 DASH MPD에는 DASH 세그먼트가나타내는뷰포트영역및영역별품질순위정보등이추가적으로포함되어야한다. 이접근방식을사용하면뷰포트에무관하게소비되어야하는스트리밍및디코더리소스가실제로사용자에게표시되는콘텐츠에효율적으로사용되므로대역폭요구사항이줄어들수있다. 그러나이접근법의가장큰단점은서버측에서더많은스토리지가필요하다는것이며콘텐츠생성측면에서더많은인코딩을수행해야한다는단점을가진다. 특히라이브스트리밍서비스의경우낮은종단간 (E2E) 대기시간이필요하며클라이언트가현재보기방향에따라적절한적응세트로전환할수있도록자주랜덤액세스포인트 (Random Access Point, RAP) 를사용할수있어야한다. 3. 타일기반스트리밍뷰포트기반적응에사용할수있는또다른솔루션은타일기반스트리밍일수있다. 해당타일기반스트리밍는전체 360 비디오를하나이상의타일로인코딩하여사용자의뷰포트에해당하는타일만스트리밍할수있도록한다. 이러한경우서버측에는하나의비디오에대한다수의타일로인코딩하여포함하는 DASH 세그먼트만생성하면된다. 클라이언트는현재뷰포트에해당하는타일을포함하는 DASH 세그먼트를다운로드후사용할수있다. 현재 DASH는이미 SRD (Spatial Relationship Description) 를통해공간적으로세분화된내용의신호전송을지원하고있기때문에이를기반으로타일기반스트리밍관련정보 를추가할필요가없다 [4]. 해당기법은앞절에서언급한뷰포트종속적인스트리 밍기법에비하여서버측에서준비하여야하는서로다른 DASH 세그먼트가장치의 FoV 에의존하지않을수있다. 그리고이전솔루션의경우낮은종단간 (E2E) 대기시간 이필요하며클라이언트가사용자뷰포트에따라적절한 타일표시로전환할수있도록빈번한 RAP (Random Access Points) 를사용할수있어야하나해당타일기반 스트리밍기법은클라이언트의지역별포장과타일의조합 에의해, 단일 HEVC 디코더가유익한성능을위해사용될 수있다는장점을가진다. Ⅵ. 맺음말 본논문에서는 MPEG 산하에서진행되는 360 미디어를 지원하기위한미디어포맷인 Omnidirectional Media Format 표준기술에대해자세히소개하였다이를위해 OMAF 의 360 미디어스트리밍아키텍처에대해설명하고 미디어포멧에포함되는 OMAF 비디오및메타데이터에 대해자세히소개하였다. 그리고 MPEG DASH 상에서 360 비디오스트리밍방식에대해자세히언급하였다. 추후 OMAF 를기반으로콘텐츠와플레이어간의완벽한상호 운용성을제공하기위한미디어프로파일에대한정의가 이루어질것으로예상된다. 참고문헌 (References) [1] w16824, Text of ISO/IEC DIS 23090-2 Omnidirectional MediA Format (OMAF) [2] The 3rd Generation Partnership Project, http://www.3gpp.org (08.05.2017) [3] WebVR Community Group, https://www.w3.org/community/webvr (08.05.2017) [4] L. D'Acunto, J. van den Berg, E. Thomas, and O. Niamut, "Using MPEG DASH SRD for zoomable and navigable video", ACM MMSys 2016, New York, USA
오세진 : 360 미디어를위한 MPEG Omnidirectional Media Format (OMAF) 표준기술 607 (Sejin Oh: MPEG Omnidirectional Media Format (OMAF) for 360 Media) 저자소개 오세진 - 2011 년 : 광주과학기술원박사졸업 - 2011 년 ~ 2016 년 : LG 전자선임연구원 - 2016 년 ~ 현재 : LG 전자책임연구원 - ORCID : http://orcid.org/0000-0002-5922-9227 - 주관심분야 : 실감미디어, 가상현실, 증강현실, 미디어표준