가상현실의완성, 가상현실오디오 서정훈 가우디오랩 ( 주 ) 최고책임과학자 p@gaudiolab.com 서울대학교전기컴퓨터공학부박사독일 RWTH-Aachen Institut für Technische Akustik 박사후연구원서울대학교초실감음향기술센터연구원가우디오랩 ( 주 ) 최고책임과학자관심분야 : Binaural Hearing, Psychoacoustics, VR Audio 오현오 가우디오랩 ( 주 ) 대표이사 o@gaudiolab.com LG 전자 Digital TV 연구소오디오팀장연세대학교전자공학과연구교수 ( 주 ) 굿데이투인벤트대표이사가우디오랩 ( 주 ) 대표이사관심분야 : 3D Audio, Psychoacoustics, VR Audio 성장하는가상현실, 그리고오디오구글, 페이스북, 삼성전자등국내외유수의기업들이가상현실 (Virtual Reality, VR) 과관련된사업영역을넓혀가고있다. 언제쯤상용화가될까싶은생각이들기도했지만, 이미 You Tube에서는 360 영상을감상할수있고오큘러스 (Oculus Rift) 나바이브 (Vive) 와기기를이용해가상현실게임을즐길만큼 VR은우리들가까이에와있다. 가상현실이남다른대중의관심을모으는이유는 HMD 기반의가상현실컨텐츠가혁신적인사용자경험을부여하기때문이다. 이사용자경험은크게두종류로나뉘는데현장감과몰입감이다. 기존 2D 및 3D 영상출력방식은고정된디스플레이가한정하는고정범위의시각을통하여제3자의입장에서미디어를접하게된다. 그러나 HMD의경우헤드트래킹기술과눈위에직접투사하는양안 (Stereoscopic) 3D가사용자의움직임에따른전방향의시선에대응하는영상을제공하기때문에사용자는마치그장소에있는것같은 (Being There) 1 인칭시점의경험이가능하다. 이와같이사용자가존재하는현실과가상공간의경계를허무는것을이머전 (Immersion) 이라고부르고, 이를가능하게하는기술을 이머시브테크놀로지 (Immersive Technology) 라고부른다. 결국가상현실은대중에게낮은비용으로거리, 시간, 혹은장애를초월하여현장감과몰입감이충분한경험을제공할수있는것이다. 그러나최근가상현실기술의발전을보면대부분영상에대한기술개발에집중되고있다. 소리가우리경험의절반이라는말을되새긴다면, 가상현실이진정한이머시브를제공하기위해서는가상현실에적합한 VR 오디오기술이필수적으로요구된다. 특히가상현실을위한대표적기기인 HMD를착용하는형태의환경에서는헤드폰 / 이어폰만을이용한 VR 오디오가필수적으로요구된다. HMD 및헤드폰을이용한 VR 오디오시나리오에서는사용자가고개를돌리거나걷는등의 6축 (6 DOF; Degree of Freedom) 의움직임에따른반응이이뤄져야한다. 그림 1은이와같은반응형렌러딩이제대로구현되지않은채기존의방법으로입체음향만을제공할때의문제를예시한다. 따라서, VR 오디오에서는몰입감있는소리를제공하기위한 3D 입체음향기술과함께이에대한 interaction 을실시간으로재현할수있는기술이함께요구된다. 12 공학교육
가상현실의완성, 가상현실오디오 그림 1. 반응형렌더링이되지않아몰입감이저하된예 Gaming VR vs. Cinematic VR 현재의 VR 시장은크게둘로나눠볼수있다. 하나는게임이가상현실로들어온가상현실게임이고, 다른하나는실사영상을기반으로한 VR ( 이하 Cinematic VR) 이다. 게임플랫폼에서는기존과마찬가지로게임상에서진행되는모든구성요소와배경등의환경이합성된가상세계이므로, 오디오관점에서도모든음원은개별음원객체 (Sound object) 에해당한다. 기존의평면적인게임공간이 360도공간으로확장됨으로써 3차원공간을정확히묘사하는이머시브오디오기술은 VR 게임에서도매우중요해졌다. 캐릭터의음성, 캐릭터의움직임에의해발생하는소리, 배경음등사운드에관련된모든요소들은게임상의시나리오에따라제작자의의도대로합성하고배치되어야한다. Cinematic VR 은사용자가직접촬영한 360 영상부터기존의영화, 스포츠중계, 라이브공연등과같은미디어가대체되는영역을의미한다. 이때, 기존의이와같은미디어와는다르게 VR화된실사영상컨텐츠인 Cinematic VR에서는고개움직임은물론사용자의이동등의행동에따라다른영상과소리가제공되고시나리오가달라짐으로인해완전히새로운형태의엔터테인먼트미디어로해석되고있다. 헐리우드에서는스티븐스필버그등유명감독들이이미 VR 을기반으로한새로운형태의영화를제작하기시작했고, 이과정에서 VR 오디오의중요성은다시한번주목되고있다. 예를들어, VR 영화와같은경우, 제작자의의도와다르게사용자의시선과관심이현재장면에서원하지않는방향을향하고있을수있는데, 이때, 사용자를다시제작자가의도한방향으로유도하는행동유도에있어서 3차원공간에서정확한위치에서재생되는소리는가장효과적인연출기법이된다. 또한가상현실상에펼쳐지는환경에적합한공간감을제공하기위해서는현장의동시녹음한개별음원, 후시녹음, Foley 등에추가되어, 현장감을담고있는앰비언스사운드의역할이더욱중요해졌다. 그리고, 이와같은음원들을효과적으로 VR에맞게믹싱하고마스터링하는후반작업에사용할수있는새로운 VR 오디오저작툴이시급하게요구되고있는상황이다. Binaural Hearing 사람은양쪽귀에들어온신호에담겨있는단서 (cue) 들을추출하여소리의방향을인지한다. 양쪽귀에들어온신호를바이노럴 (Binaural) 신호라고하는데, 바이노럴은 양이 ( 兩耳 ) 즉, 귀가두개인, 혹은 두개의귀를가진 이라는의미이다. 바이노럴신호가가진단서는크게두가지로나누어설명할수있다. 첫째는양쪽귀에들어오는신호의차이를인지하는바이노럴큐 (Binaural cue) 이다. 바이노럴큐는주 제 23 권제 3 호 13
로두신호의각주파수별로나타나는레벨차이와시간차이등에기인한것으로써수평면상에서소리의방향 (Azimuth) 을인식하는데이용된다. 바이노럴큐는따라서양이레벨차 (Interaural level difference, ILD) 와양이시간차 (Interaural time difference, ITD) 라고정의된값을가지게된다. 만일오른쪽에종소리음원이있었다고하면오른쪽귀에는바로소리가전달되는반면왼쪽귀에는양쪽귀사이의거리에따른시간지연을두고전달된다. 또한왼쪽귀에는머리, 몸통, 귀바퀴등의회전과반사를통해신호가전파되기때문에상대적으로더큰감쇄 (Head shadowing) 가발생한다. 따라서사람은주로이러한시간차 (ITD) 와레벨차 (ILD) 를이용하여수평면상의방향을인지한다. 그림 3. 모노럴큐 ( 출처 : http://interface.cipic.ucdavis.edu/sound/ tutorial/psych.html) 에의존하여고도를인지해야한다. 예를들면귀높이에서발생한소리와그보다높은위치에서발생한소리는귓바퀴 ( 외이 ) 에서의반사에의한공명주파수 (resonance frequency) 가달라지게되고그에따른스펙트럼상의 peak나 notch가달라지는특징이나타나는데, 사람의뇌는이를이용하여고도를인지하는것이다 ( 그림 2). 그림 2. 두개의귀를가진 ; 바이노럴 ( 출처 : 가우디오랩 ) 둘째는양쪽귀에공통으로존재하는모노럴큐 (monaural cue) 로신호자체의특성을이용하여지각하는단서이다. 모노럴큐의경우특히소리의고도 (elevation) 를인지하는데사용되는데음원위치의고도각에따라입력된신호의주파수특성이달라지기때문이다. 한편, 우리귀가수평면과평행하게위치하기때문에앞서설명한바이노럴큐에는높이에대한단서가없다. 따라서모노럴큐 Binaural Rendering vs. Binaural Recording 바이노럴렌더링은앞서설명한 binaural hearing 의원리에따라바이노럴신호를합성하는과정이다. 개별음원의위치로부터양쪽귀까지도달할때까지의경로에대한전달함수를머리전달함수 (Head-Related Transfer Function, HRTF) 라고하는데, 이를이용해바이노럴렌더링을수행할수있다. 머리전달함수는인공적으로잔향이발생하지않도록설계된무향실 (anechoic room) 에서측정하는데, 사람은무향공간에익숙하지않기때문에, 바이노럴렌더링구현시무향실에서측정된머리전달함수만을이용하여렌더링된결과는매우어색하게들린다. 이를보상하기위해합성된렌 14 공학교육
가상현실의완성, 가상현실오디오 그림 4. Binaural Hearing 과 Binaural Rendering ( 출처 : 가우디오랩 ) 그림 5. 앰비소닉을위한구형마이크로폰어레이 ( 출처 : http://mhacoustics.com) 더링결과에가상공간에적합한인공잔향을더하거나, 무향실이아닌청음공간에서측정한양이공간전달함수 (Binaural Room Transfer Function, BRTF) 를이용하기도한다. 단, 양이공간전달함수는특정공간에서측정된잔향이포함된전달함수이기때문에, 재현하고자하는공간이측정공간과다를경우사용하기어렵다. 한편바이노럴기술이풀어야할또다른숙제는머리전달함수가사람마다각각다른개인별고유의데이터라는것이다. 사람마다양귀사이의거리, 머리의크기, 귓바퀴의모양등이다르기때문에다른사람의머리전달함수를사용하여합성한신호를들었을경우음원이의도한위치에정위되지않을수도있다. 측정된머리전달함수에이러한개인별차이를반영하는과정을머리전달함수의개인화 (Personalization) 라고한다. 바이노럴신호를생성하는또다른방법은인체모형의귀위치에마이크를부착하거나실제사람귀입구에 마이크를삽입하여직접현장음을녹음하는바이노럴레코딩이다. 바이노럴레코딩은실제공간에서의소리전달과정을거의모두담고있어서현장의공간과머리전달함수가모두반영된음원을바로획득하여사용할수있는장점이있다. 하지만, 사용자의신체구조적특징을반영하는개인화작업이나사용자의움직임을반영하는데제한이있는단점또한존재한다. 표 1은바이노럴렌더링과바이노럴레코딩의장단점을비교한것이다. 바이노럴레코딩방법은이와같은환경에대응하기적합하지않다. 또한라이브레코딩이나스포츠중계처럼실제존재하는공간이아닌, 공상과학영화속현실과같이실제존재하지않는공간에대응하는소리를재현하는것역시바이노럴레코딩으로는구현하기어렵다. 이와같은이유로 VR 오디오에서는바이노럴렌더링을통한이머시브오디오재현이적합하다. 바이노럴렌더링과바이노럴레코딩의중간지점에위 표 1. 바이노럴렌더링과바이노럴레코딩비교 Binaural Rendering Vs. Binaural Recording O Computing Efficiency OOOOO OOO Immersive OOOO OOOOO Interaction OO OOOOO Personalization O 제 23 권제 3 호 15
치한방식이마이크로폰어레이를이용한레코딩방식이다. 주로구형마이크로폰을이용해앰비소닉신호로변환하여최종바이노럴렌더링을하는방법인데, 현장의잔향, 공간의느낌등을정확히담을수있고동시에사용자의움직임역시반영할수있는반응형렌더링도가능하다. 다만, 공간해상도의부족, 렌더링을위해필요한높은연산량의문제는여전히단점으로남아있다. 맺음말 Sound is half the experience. 스타워즈의영화감독 George Lucas의말이다. 그의말처럼우리경험의절반은, 때로는절반이상이, 소리에의해결정된다. 특히, 그경험의플랫폼이가상현실로넘어온경우라면그 중요성은더욱중요해진다. 가상현실 이라는단어가이제는더이상공상과학영화나책에서만보는말이아니라시나브로현실과공존을시작하였지만, 여전히해결해야할과제들은많이남아있다. 흐려져야할현실과가상의경계는여전히존재하고있고, 많은엔지니어와미디어제작자들은끊임없이이경계를무너뜨려지금의경험이현실세계로부터의것인지, 가상세계로부터의것인지구분하지못할만큼높은몰입감을제공하기위해고민하고조금씩앞으로나아가고있다. 언제쯤상용화가될까를생각하는동안이미현실로들어와버린 VR이라면저경계가없어질순간도그리멀지는않다고생각하는것이그저장밋빛미래에대한상상에그치는건아닐것이다. 16 공학교육