논문번호 1-37C-04-01 한국통신학회논문지 '1-04 Vol.37C No.04 Kinect 깊이카메라를이용한실감원격영상회의의시선맞춤시스템 정회원이상범 *, 종신회원호요성 * Real-time Eye Contact System Using a Kinect Depth Camera for Realistic Telepresence Sang-Beom Lee * Regular Member, Yo-Sung Ho * Lifelong Member 요 약 본논문에서는실감원격영상회의를위한시선맞춤시스템을제안한다. 제안하는방법은적외선구조광을사용하는 Kinect 깊이카메라를이용해서색상영상과깊이영상을획득하고, 깊이영상을이용해서사용자를배경으로부터분리한다. 깊이카메라로부터획득한가공되지않은깊이영상은다양한형태의잡음을가지고있기때문에, 첫번째전처리과정으로결합형양방향필터를사용해서잡음을제거한다. 그다음, 깊이값의불연속성에적응적인저역필터를적용한다. 색상영상과전처리과정을거친깊이영상을이용해서우리는가상시점에서의화자를 3차원모델로복원한다. 전체시스템은 GPU 기반의병렬프로그래밍을통해실시간처리가가능하도록했다. 최종적으로, 우리는시선이조정된원격의화자영상을얻을수있게된다. 실험결과를통해제안하는시스템이자연스러운화자간시선맞춤을실시간으로가능하게하는것을확인했다. Key Words:Eye contact system, gaze correction, depth camera, realistic telepresence, depth image-based rendering ABSTRACT In this paper, we present a real-time eye contact system for realistic telepresence using a Kinect depth camera. In order to generate the eye contact image, we capture a pair of color and depth video. Then, the foreground single user is separated from the background. Since the raw depth data includes several types of noises, we perform a joint bilateral filtering method. We apply the discontinuity-adaptive depth filter to the filtered depth map to reduce the disocclusion area. From the color image and the preprocessed depth map, we construct a user mesh model at the virtual viewpoint. The entire system is implemented through GPU-based parallel programming for real-time processing. Experimental results have shown that the proposed eye contact system is efficient in realizing eye contact, providing the realistic telepresence. Ⅰ. 서론차세대멀티미디어컨텐츠인 3차원비디오는현실세계를재구성한컨텐츠로부터현실감있는느낌을사용자에게제공할수있기때문에많은관심 을받고있으며, 현재사용하고있는 차원비디오를대체할것으로기대를받고있다. 색상영상과이에상응하는깊이영상으로구성된 3차원비디오를획득하는방법은수동센서기반방법, 능동센서기반방법으로나눌수있다. 수동센서기반 * 광주과학기술원정보통신공학과 ({sblee, hoyo}@gist.ac.kr), ( : 교신저자 ) 논문번호 :KICS01-0-059, 접수일자 :01 년 월 11 일, 최종논문접수일자 :01 년 4 월 10 일 77
한국통신학회논문지 '1-04 Vol.37C No.04 방법은두대혹은그이상의카메라로부터획득한 차원영상의상관관계를유추함으로써깊이정보를계산하는방법이다. 대표적인방법으로는스테레오정합기술이있다 [1,]. 능동센서기반방법은레이저, 적외선, 구조광등과같은다양한종류의센서를이용해서 3차원장면으로부터깊이정보를직접적으로획득하는방법이다. 깊이카메라, 3차원스캐너등이이방법에포함된다 [3-5]. 예전부터능동센서기반방법은높은정확도의깊이영상을획득할수있는대신장비가워낙고가이다보니접할수있는기회가많지않았다. 하지만, 최근 Kinect 깊이카메라와같이저가임에도불구하고높은성능을보이는카메라가시중에출시되면서다양한형태의응용분야에많이사용되기시작했다 [6]. 그로인해, 능동센서기반방법은 3차원컨텐츠저작환경에서가장강력한기술로재평가받기시작됐다. 최근에는몰입형디스플레이를위한차세대방송의핵심기술로서깊이영상기반렌더링 (depth image-based rendering, DIBR) 기법이각광을받고있다 [7]. DIBR 기법은색상영상과텍스쳐영상의각화소에대응하는거리정보로이루어진깊이영상 (depth image) 을사용하여, 임의의시점에서의영상을렌더링하는기법이다. DIBR 기법은다양한멀티미디어산업에서사용되고있는데, 그가운데주된응용분야는원격영상회의가있다. 원격영상회의란원격의화자와사용자가마치옆에서대화하는듯한느낌을제공해주는기술을말한다. 원격영상회의의주된쟁점가운데하나인시선맞춤기술은오랜기간동안많은연구기관사이에서뜨거운이슈로자리잡았다. 시선맞춤을해결하기위해많은알고리즘들이제안됐지만, 여전히이문제점은쉽게해결이되지않았다. 하지만, DIBR 기법을사용하는최근의연구들을통해실감원격영상회의구현이가능해졌다. 최근의연구들은다수의카메라를디스플레이주변에배치시킨다음, 깊이정보를탐색하는방법을사용했다 [8,9]. 기존의방법들은깊이정보를예측한다음, 시점합성을통해시선을조정했지만, 복잡한하드웨어를구성해야하며시간이상당히오래걸리는단점이있다. 특히나, 깊이탐색기술의성능이장면의환경에민감하기때문에, 안정적인합성결과를기대하기어렵다. 본논문에서는실감원격영상회의를위해깊이카메라를이용함으로써시선조정을가능하게하는시스템을제안한다. 제안하는시스템은적외선구조광패턴을사용하는 Kinect 깊이카메라를통해, 실용적 이고안정적인시선맞춤을가능하게하는것이주목표이다. 이시스템은디스플레이의상단에깊이카메라한대만설치하는상당히간단한구조를가지는장점을가지고있다. 본논문은다음과같이구성된다. 장에서는제안하는시선맞춤시스템의개요를소개하고, 3장에서는깊이영상의화질을향상시키기위한전처리기술들을설명한다. 4장에서는화자간시선맞춤을위한정면시점영상합성기술에대해기술하고 5장에서실험결과를통해제안하는시스템의성능을분석한다음 6 장에서결론을맺는다. 색상영상 3 차원워핑 메쉬기반사용자복원 시점변환 시선이조정된영상 깊이영상 깊이영상전처리 전 / 배경분리 결합형양방향필터 불연속성적응적깊이필터 그림 1. 제안하는시스템의블록다이어그램 Fig. 1. Block diagram of the proposed system Ⅱ. 시스템개요 그림 1은시선맞춤영상을생성하기위한제안하는시스템의구조를나타낸다. 우선적으로, 깊이카메라는색상영상과깊이영상을동시에획득한다. 깊이영상의전처리과정에서는첫번째로단일화자를배경과분리해낸다. 깊이카메라는카메라자체의센서잡음과구조광패턴의투사부와수신부가달라서발생하는폐색영역으로인해전체장면에대해서깊이값을획득하지못한다. 그렇기때문에결합형양방향필터를이용해서깊이카메라가획득하지못한영역에서의깊이값을채운다. 가상시점합성과정에서발생하는비폐색영역을줄이 78
논문 / Kinect 깊이카메라를이용한실감원격영상회의의시선맞춤시스템 기위해서우리는깊이값의불연속성에적응적인저역필터를적용한다. 전처리과정이끝난깊이영상과색상영상을이용해서, 화자를표현하는모든화소들은세계좌표계로투영된다. 그다음, 세계좌표계에투영된 3차원화소들은삼각형메쉬형태로구성된화자의 3차원모델을복원하는데사용된다. 원래의시점에서가상시점으로시점을변경한다음남아있는빈영역을채우면우리는마침내시선이조정된합성영상을얻을수있게된다. Ⅲ. 깊이영상전처리방법 3.1. 전경 / 배경분리방법깊이카메라앞의단일화자를인식하기위해서제안하는시스템은첫번째로깊이영상을이용한전경 / 배경분리방법을사용한다. Kinect 깊이카메라의주된특징가운데하나는획득되는깊이의범위를사용자가임의로설정할수있다는것이다. 이렇게가변적인깊이범위를적절히활용하면특정위치의객체를제거할수있다. 제안하는시스템의시나리오에서는원격영상회의를위해카메라에서가장가까운데위치한단일화자만을고려한다. 가장가까운화자이외의영역은배경으로간주하기위해서영상내의최소깊이값을찾은다음, 깊이범위를 1미터로제한한다. 그림 는전경 / 배경분리결과를보여준다. 그림 (a) 는가공되지않은색상영상과깊이영상을나타내며, 그림 (b) 에서알수있듯이, 제안하는방법은 3차원장면에서깊이범위를제한함으로써전경만을검출해낼수있다. 본논문에서깊이영상은 0부터 55의값을가지도록정규화되어있다. 3.. 결합형양방향필터깊이카메라는센서잡음, 반짝이거나어두운색을갖는표면에서깊이검출실패, 센서송출부와수신부의시점차이로인한폐색영역등의카메라자체의문제점들로인해장면의깊이값을완벽하게획득하지못한다. 그림 (a) 의깊이영상에서검정색으로보이는영역은앞서언급한카메라자체의문제로인한것이다. 깊이값을획득하지못한영역을채우기위해, 우리는결합형양방향필터 (Joint Bilateral Filter, JBF) 를사용한다 [10]. 제안하는시스템에서 JBF는비어있는깊이값을채우기위해두개의 Gaussian 분포, 즉, 색상영상의화소값차이를이용한분포, 화소의거리차이를이용한분포를사용한다. 깊이값 JBF는다음과같이정의된다. u u pv vp W ( D( D( = (1) W ( u u pv vp 0 if D( = 0 W ( = () g I ( f ( otherwise g ( I I( I( exp σ R = (3) ( x u) + ( y f ( = exp (4) r 여기서 u p ={x-r,,x+r}, v p ={y-r,,y+r}, r은필터반경을나타낸다. 제안하는방법에서필터표준편차와반경은 σ R =55, r=3으로설정했다. JBF는검정색으로나타나는영역에대해서만적용되며, 몇번의필터링 (a) 원본영상 (b) 검출된전경화자 그림. 전경 / 배경분리결과 Fig.. Result of foreground/background separation (a) 전경색상영상 그림 3. 결합형양방향필터링결과 Fig. 3. Result of joint bilateral filtering (b) 필터링된깊이영상 반복과정을거치면비어있는깊이값을모두채울수 79
한국통신학회논문지 '1-04 Vol.37C No.04 있게된다. 그림 3은결합형양방향필터를적용한결과를보여준다. 그림 3(b) 에서알수있듯이, 비어있던깊이값이모두채워진것을확인할수있다. 3.3. 불연속성에적응적인깊이필터그림 4는가상시점으로 3차원워핑한결과를나타낸다. 그림 4에서화자의목주변의빈영역은가상시점에서새롭게드러난영역이다. 이러한영역을비폐색 (disocclusion) 영역이라고하며, 비폐색영역에대한색상정보를가지고있지않기때문에이부분을채워주어야한다. 의세기를분석한다. 그다음, 객체경계주변에서의필터링범위를깊이값의불연속성에적응적으로변화시킨다. 그림 5(b) 는필터링이끝난깊이영상을보여준다. 제안하는시스템은마침내전처리가끝난깊이영상을얻을수있게된다. (a) 불연속성영상 (b) 전처리된깊이영상그림 5. 불연속성에적응적인깊이필터링결과 Fig. 5. Result of discontinuity-adaptive filtering Ⅳ. 정면시점영상합성방법 그림 4. 화자의 3 차원워핑결과 Fig. 4. 3D warping result of conferee 따라서, 제안하는시스템에서는 3차원워핑이전에깊이값에적응적인깊이필터를사용한다 [11]. 객체경계에서의깊이값의불연속성의세기를분석하고필터링을적용할범위를정하면, 깊이영상의변형을최소화할뿐만아니라합성영상의화질또한향상시킬수있다. 불연속성에적응적인깊이필터는다음과같이정의된다. 제안하는시스템에서우리는영상합성을위해화자를삼각형메쉬모델의형태로표현하는것에중점을둔다. 영상의모든화소들은이러한화자모델구성에사용되며, 네개의이웃하는화소들을가지고두개의삼각형을생성한다. 네개의화소들은 3 차원워핑과정을통해세계좌표계로투영이되며이들은각각 y,z 좌표값을가진다. 또한, 각각의화소들은각자의색상정보를가지고있으며, 삼각형내부의색은각꼭지점의색상들로부터선형보간된값으로채워진다. D filtered ( = α ( D( + {1 α( } DGaussian( (5) x u + y v ( x + y + = δ ( 1 if x u + y v < δ ( α (6) otherwise (x 1,y 1,z 1 ) (x 4,y 4,z 4 ) D Gaussian( = Doriginal ( x y g( (7) v u 1 u v g( = exp πσ (8) σ 여기서 D Gaussian 은필터링된깊이영상을의미한다. u 와 v의범위는 -D( u D(, -D( v D( 이다. 또한, 윈도우크기는필터의표준편차의 3배로설정한다. 그림 5는불연속성에적응적인깊이필터링결과를나타낸다. 그림 5(a) 에서처럼, 우리는첫번째로깊이영상의경계정보를추출하고깊이불연속성 (x,y,z ) (x 3,y 3,z 3 ) (a) 메쉬구성방법 그림 6. 삼각형메쉬모델구성결과 Fig. 6. Result of mesh triangulation (b) 3 차원화자모델 그림 6(a) 는이웃하는네화소를이용해서삼각형메쉬를구성하는과정을나타내고있다. 이과정을영상전체화소에적용하게되면우리는화자의 3차원모델을얻을수있다. 그림 6(b) 는 3차원모델의확대된부분을보여준다. 3차원모델구성이끝난다음, 제안하는시스템 80
논문 / Kinect 깊이카메라를이용한실감원격영상회의의시선맞춤시스템 은시선이조정된영상을합성하기위해가상카메라의위치를변경한다. 다시말해, 깊이카메라의광축과원격의화자의시선을맞춤으로써원격의화자에게시선이일치된 3차원화자모델을보여줄수있게된다. 최종적으로, 시선이조정된화자를상대방에게보여주게되여자연스러운원격영상회의를가능하게한다. (a) 원본영상 Ⅴ. 실험결과및분석 제안하는시스템을위해, 우리는적외선구조광패턴을통해깊이값을획득하는 Kinect 깊이카메라를사용했다. 깊이카메라는해상도 640 480에서초당 30 프레임을획득할수있으며깊이범위는유동적으로변한다. 하지만사용자와카메라사이의거리가멀어질수록깊이센서의정확도가급격히떨어지기때문에최대깊이범위를 1.5미터로제한해서실험을진행했다. (a) 색상영상 (b) 시선이조정된영상그림 8. 화자의얼굴을확대한영상 Fig. 8. Zoom-in images of conferees' face 본논문에서는실시간처리를위해그래픽처리장치인 GPU 기반의병렬프로그래밍을이용해서시스템을구현했다. GPU는 CPU와는구조적인차이로수치계산에관련된코어의수가월등히많기때문에병렬처리에유리하다. 실제로 GPU 병렬처리의경우단일명령복수데이터구조 (single instruction multiple threads) 를지원하는데, 이것은여러화소에대하여동일한명령을줄수있어영상처리에적용이용이한장점이있다. 병렬프로그래밍을이용해서제안한시스템을구현한결과, 제안한시스템의종합수행시간은약.73 frame/s였다. (b) 전처리된깊이영상 Ⅵ. 결론 (c) 시선이조정된화자모델 그림 7. 시선맞춤결과 Fig. 7. Results of gaze correction 그림 7은시선맞춤결과를보여준다. 그림 7(a) 와그림 7(b) 는원본색상영상과전처리가완료된깊이영상을나타낸다. 그림 7(c) 에서화자의머리주변에경계잡음이발생했지만화자가정면을바라보는영상을생성할수있었다. 또한, 깊이영상을이용해서복잡한배경을쉽게분리해낸것을확인했다. 그림 8은화자의얼굴을확대한영상이다. 그림 8(b) 에서알수있듯이, 그림 8(a) 와비교했을때보다자연스러운시선으로조정된것을볼수있었다. 본논문에서는깊이카메라를이용해서시선맞춤영상을생성하는새로운방법을제안했다. 제안하는시스템은다양한영상처리기법들, 전경 / 배경분리, 결합형양방향필터링, 불연속성적응적깊이필터링등을사용했다. 깊이카메라로부터획득한색상영상과전처리된깊이영상을이용해서화자는삼각형메쉬기반의 3차원모델로복원됐고, 카메라의광축과원격화자의시선을일치시킴으로써, 우리는시선이조정된영상을합성할수있었다. 실험결과를통해, 자연스러운시선맞춤영상이합성되는것을확인했으며, 깊이카메라와디스플레이만을필요로하는제안하는시스템의특성상, 다양한응용분야에사용될수있을것으로기대한다. 81
한국통신학회논문지 '1-04 Vol.37C No.04 참고문헌 [1] D. Sharstein and R. Szeliski, "A taxonomy and evaluation of dense two-frame stereo correspondence algorithms," IEEE Workshop on Stereo and Multi-Baseline Vision, pp. 131-140, Dec. 001. [] C. L. Zitnick, S. B. Kang, M. Uyttendaele, S. Winder, and R. Szeliski, "High-quality video view interpolation using a layered representation," SIGGRAPH'04, pp. 600-608, Aug. 004. [3] D. Scharstein, and R. Szeliski, "High-accuracy stereo depth maps using structured light," Computer Vision and Pattern Recognition Workshops, vol. 1, pp. 195-0, June 003. [4] S. Kim, S. Lee, and Y. Ho, "Three-dimensional natural video system based on layered representation of depth maps," IEEE Transactions on Consumer Electronics, vol. 5, no. 3, pp. 1035-104, Aug. 006. [5] E. Lee and Y. Ho, "Generation of multi-view video using a fusion camera system for 3D displays," IEEE Transactions on Consumer Electronics, vol. 56, no. 4, pp. 797-805, Nov. 010. [6] L. Xia, C. Chen, and J. K. Aggarwal, "Human detection using depth information by Kinect," Computer Vision and Pattern Recognition Workshops, pp. 15-, June 011. [7] Redert, M. O. Beeck, C. Fehn, W. IJsselsteijn, M. Pollefeys, L. Van Gool, E. Ofek, I. Sexton, P. Surman, "ATTEST: Advanced Three-dimensional Television System Techniques," International Symposium on 3D Data Processing, pp. 313-319, June 00. [8] O. Schreer, N. Atzapadin, and I. Feldmann, "Multi-baseline disparity fusion for immersive videoconferencing," International Conference on Immersive Telecomm., pp. 7-9, May 009. [9] S. Lee, I. Shin, and Y. Ho, "Gaze-corrected view generation using stereo camera system for immersive videoconferencing," IEEE Transactions on Consumer Electronics, vol. 57, no. 3, pp. 1033-1040, Aug. 011. [10] J. Kopf, M. F. Cohen, D. Lischinski, and M. Uyttendaele, "Joint bilateral upsampling," SIGGRAPH'07, pp. 96-100, Aug. 007. [11] S. Lee and Y. Ho, "Discontinuity-adaptive depth map filtering for 3D view generation," International Conference on Immersive Telecomm., pp. T8(1-6), 009. 이상범 (Sang-Beom Lee) 정회원 004년경북대학교전자전기공학부졸업 ( 학사 ) 006년광주과학기술원정보통신공학과졸업 ( 석사 ) 006년~현재광주과학기술원정보통신공학과박사과정 < 관심분야 > 3차원 TV, 실감방송, 3차원비디오부호화호요성 (Yo-Sung Ho) 정회원 1981년서울대학교공과대학전자공학과졸업 ( 학사 ) 1983년서울대학교대학원전자공학과졸업 ( 석사 ) 1989년 Univ. of California, Santa Barbara, Dept. of Electrical and Computer Engineering.( 박사 ) 1983년~1995년한국전자통신연구소선임연구원 1990년~1993년미국 Philips 연구소, Senior Research Member 1995년~현재광주과학기술원정보통신공학과교수 < 관심분야 > 디지털신호처리, 영상신호처리및압축, 디지털 TV와고선명 TV, 멀티미디어시스템, MPEG 표준, 3차원 TV, 실감방송 8