5 : (Regular Paper) 18 6, 2013 11 (JBE Vol. 18, No. 6, November 2013) http://dx.doi.org/10.5909/jbe.2013.18.6.859 ISSN 2287-9137 (Online) ISSN 1226-7953 (Print) a), b), b), b), b), a) Multi-view Image Generation using Grid-mesh based Image Domain Warping and Occlusion Region Information Jong-myeong Lim a), Gi-mun Um b), Hong-chang Shin b), Gwangsoon Lee b), Namho Hur b), and Jisang Yoo a) (grid-mesh). (image saliency map), (line segments) (disparity saliency map),.,. (temporal consistency)... Abstract In this paper, we propose an algorithm that generates multi-view images by grid-mesh based image domain warping using occlusion mask and various image features obtained from the stereoscopic images. In the proposed algorithm, we first extract image saliency map, line segments and disparity saliency map from stereo images and then get them through a process that improves the quality of extracted features. This process is accomplished in two steps. In the first step, reliability of disparity saliency map on object boundary regions is enhanced by using occlusion information. And in the second step, we enhance the quality of image features in terms of temporal consistency by using temporal consistency information for stereo images. With these enhanced features, multi-view images are generated by grid-mesh based image domain warping technique. Experimental results show that the proposed algorithm performs better than existing algorithms in terms of visual quality. Keyword : View synthesis, Image Domain Warping, Multi-view generation, Occlusion information a) (Kwangwoon University, Department of Electronic Engineering) b) (Electronics and Telecommunications Research Institute, ETRI) ETRI. [11-921-02-001, 3D UHDTV ] Corresponding Author : (Jisang Yoo) E-mail: jsyoo@kw.ac.kr Tel: +82-02-940-5112 Manuscript received 14, June 2013 Revised 2, September 2013 Accepted 24, October 2013
(JBE Vol. 18, No. 6, November 2013). 2012. Full HD, IPTV TV. 3D. 3DTV, 3D.,,, 3D 3D. 3D,. 3D 3D. 3D. 2017 3D,. 3D.,.., (depth camera) DIBR(depth image based rendering) [1,2,3,4]., (image domain warping, IDW) [5,6]. 3D,. 3D, DIBR IDW [2,3,4,5,6]. (disparity map) (depth map). (occlusion) (boundary noise) (hole)., [7].,, [8]. [5]., (optical flow) [9] SIFT(scaleinvariant feature transform) [10]., (line segment) (intensity gradient saliency) [6,11]. SIFT.,. IDW [5] IDW.. ( ) IDW ( )
5 : [12]. (temporal consistency),.. I, II. III, IV.. IDW(image domain warping). 1 IDW Input Image Image Saliency Optical Flow Occlusion Mask SIFT Line Segment Disparity Saliency Map Temporal Consistency Mesh Initialization Mesh Optimization Occlusion Generation View Synthesis 1. Fig. 1. Flow chart of the proposed multi-view synthesis algorithm,. 1. (disparity saliency map), (optical flow) [9] SIFT (scale-invariant feature transform) [10]. Lucas-Kanade [9]. (brightness constancy) (temporal persistence), (spatial coherence). Lucas-Kanade (gaussian pyramid).,. SIFT(scale-invariant feature transform). SIFT, [10].. 2 SIFT (a) 2. SIFT Fig. 2. Extracted Feature points and estimated disparity information by SIFT (b) (a) left image (b) right image
(JBE Vol. 18, No. 6, November 2013).,,. SIFT., SIFT. SIFT. (occlusion region). (intensity gradient saliency map) [11,12,13] (line segment) [14,15],...,,., (saliency map) [12]. S. Montabone [12] (intensity gradient saliency map: IGSM).,. Canny Hough, LSD (line segment detector) [15]. (a) (b) (c) 3. (a) (b) (c) (d) Fig. 3. Extracted features from stereo images (a) original left image (b) disparity saliency map (c) intensity saliency map (d) line segments (d)
5 : (Grid-mesh warping) [5,6]. 3(b), (c), (d) BeerGarden,,. 2. SIFT... 4. Fig.4. Example of an occlusion mask 4 0( ) 1( ) (mask)., LRC(left/right disparity consistency checking)., ( ) IDW ( ) ( ) [16]. (a) (b) (c) (d) 5. 'BeerGarden' (a) (b) (c) (d) Fig. 5. Overlapped images of color image and its disparity (a) before modification (b) after modification
(JBE Vol. 18, No. 6, November 2013) 5 BeerGarden'. 5(a) (b),.,. 6. 6,.,.,. 6. 6. Fig. 6. Enhance reliability of extracted disparity 3.,.. 7, 'Samgyetang' 1~3. 7. (1~3, ) Fig. 7. Overlapped line segments extracted from successive frame(1~3 frames, 'Samgyetang') 7,,. 8 'Samgyetang', 7 8(a). 8(b),..
5 : (a) (b) (c) 8. (, ) (a) (b) (c) Fig. 8. Difference image of successive frame (1st frame and 2nd frame, 'Samgyetang' sequence) (a) original left image (b) virtual view image without temporal inconsistency refinement (c) virtual view image with temporal inconsistency refinement MAD(mean absolute difference) [17]., RGB MAD, MAD.,. 8(c). 4. (grid-mesh based image domain warping technique). 9 (mesh), [5, 6].,.. 9. ( Story' ) Fig. 9. The example of image expressed by grid-mesh ('Story'sequence),., ( ) ( )., ( )., ( ) ( ) (1) [18,19,20]. Ec, Ei El, λ. Ew
866 방송공학회논문지 제18권 제6호, 2013년 11월 (JBE Vol. 18, No. 6, November 2013) 스테레오 영상으로부터 추출된 특징 성분들이 가상 시점으 로 이동했을 때 얼마나 유지되었는가를 의미하게 된다. 이러한 최적화 과정을 거쳐서 원본 좌(우) 영상에서의 가 상의 우(좌) 시점을 생성할 때, 각 메쉬들의 최적의 형태가 결정된다. 이렇게 결정된 최적의 메쉬를 통하여 가상 시점 영상을 생성한다. 좌, 우 영상 사이에 임의의 가상 시점 영 상을 생성할 때, 생성할 가상 시점과 원본 영상 사이의 거리 와 좌, 우 영상의 거리 비율만큼 최적화된 메쉬의 형태를 조정하여 가상 시점에서의 메쉬의 형태를 결정한다. 또한 가상 시점 영상 생성 시, 차폐영역에 대한 정보를 활용하여 좌 우 영상에서 나타나는 차폐영역을 고려한다. 차폐영역 정보와 변이 정보를 기반으로 식 (2)~(4)을 이용 하여 각 가상 시점에 해당하는 차폐영역 추출 정보를 생성 한 후, 영상기반 워핑(IDW) 기법을 적용하여 가상 시점 영 상을 생성한다. min (2) (3) (4) 여기서 α는 가상 시점과 가까운 원본 시점과의 거리를 나타내는 것으로 D는 각 시점 사이의 거리를 나타낸다. L 와 x는 가상 시점에서의 차폐영역의 길이 및 위치를, L0와 x0는 입력받은 차폐영역의 길이 및 위치를 나타내며 d는 해당 차폐영역 주변 객체의 변이를 나타낸다. 가상 시점에 서 차폐영역을 제외한 영역은 원본 시점 영상 중 가상 시점 으로부터 가까운 시점의 영상으로부터 생성된다. 예를 들 어 생성되는 가상 시점의 위치가 왼쪽에 가깝다면, 해당 영 역은 좌 시점 영상으로부터의 워핑을 통해 생성된다. 반대 로, 가상 시점에서의 차폐영역은 가상 시점으로부터 먼 시 점의 영상으로부터의 워핑을 통해 생성된다.(이 경우 우 시 점에 해당) 다음의 그림 10은 BeerGarden 스테레오 영상을 입력받 아 제안된 기법을 이용하여 생성한 8개의 가상 시점 영상과 입력 좌측 영상 등 총 9개 시점의 영상을 보여준다. Ⅲ. 실험 결과 본 논문에서 제안한 다시점 영상 생성 기법의 성능을 평 가하기 위해 MPEG에서 제공하는 다시점 영상 시퀀스인 BeerGarden (1,920x1080)과 Cafe (1,920x1080)를 테스 트 영상으로 사용하였다. 그림 11(a)와 (b)는 각각 제안된 기법과 DIBR(depth image based rendering) 기법[4]에 의해 생성된 Cafe 영상의 가상 시점 영상으로, 좌 영상과 우 영상을 포함한 총 10개의 시점 중 다섯 번째 시점 영상이다. 그림 11의 결과 영상으로부터 제안하는 기법을 통해 생성 한 가상 시점 영상이 DIBR 기법[4]에 의해 생성된 가상 시 점 영상보다 경계 잡음 및 객체 왜곡의 측면에서 우수함을 알 수 있다. 그림 11(b)의 빨강색과 파랑색으로 표시한 부분 을 보면, 기존 기법의 경우, 가상 시점 영상에서 경계 잡음 이 남아있는 것을 확인할 수 있다. 또한 노란색으로 표시한 부분에서는 왜곡이 발생한 것을 확인할 수 있다. 반면에, 그림 10. 생성된 다시점 영상 ('BeerGarden' 시퀀스의 첫 번째 프레임으로 생성한 0~9 시점) Fig. 10. Generated multi-view images (0~9th view in first frame of 'BeerGarden' sequence)
임종명 외 인 차폐영역 정보와 그리드 메쉬 기반의 영상 워핑을 이용한 다시점 영상 생성 5 : (a) 867 (b) 그림 11. 생성된 가상 시점 영상('Cafe' 시퀀스, 5번 시점) (a) 제안된 알고리즘 (b) DIBR 알고리즘[4] Fig. 11. Generated virtual view image( Cafe sequence, 5th view) (a) proposed algorithm (b) DIBR algorithm 그림 11(a)의 제안한 기법에 의한 결과에서는 경계 잡음과 객체 왜곡이 감소하였음을 확인할 수 있다. 한편, 그림 12는 BeerGarden 시퀀스에 대한 실험 결과 를 부분적으로 확대한 것으로, 왼쪽부터 원본 좌영상, 기존 의 IDW 기법[5]을 통해 생성된 가상 시점 영상 그리고 제 안하는 기법으로 생성한 가상 시점 영상을 나타내며, 가상 시점 영상은 총 10개의 시점 중 네 번째 시점 영상이다. 그 림 12(b)의 빨강색 원으로 표시한 부분을 보면 그림 12(a)에 서와는 달리, 얼굴 영역의 크기가 커지는 객체의 왜곡이 나 타난다. 반면에 그림 12(c)에서는 이러한 왜곡이 많이 감소 된 것을 확인할 수 있다. 그림 13은 'Samgyetang'시퀀스의 가상 시점 영상 생성 결 그림 12. 'BeerGarden' 시퀀스의 부분 확대된 영상 (a) 원본 좌 영상 (b) 기존 IDW 알고리즘으로 생성한 4번 시점 영상[5] (c) 제안된 알고리즘으로 생성한 4 번 시점 영상 (a) (b) (c) Fig. 12. Partially zoomed image of 'BeerGarden' sequence (a) original left image (b) 4th view generated by the existing IDW algorithm[4] (c) 4th view generated by the proposed algorithm
(JBE Vol. 18, No. 6, November 2013) (a) (b) 13. Samgyetang' (b) IDW [5] (b) Fig. 13. Partially zoomed image of 'Samgyetang' sequence (a) generated by the existing IDW algorithm[4] (b) generated by the proposed algorithm. IDW, 10 5.,. ITU-R DSCQS(double stimulus continuous quality scale) [21]. 20, DIBR [4] 'Cafe', 'BeerGarden' DIBR [4], 'Samgyetang' IDW [5].,. 5,, 1. DIBR DSCQS Table 1. Result of DSCQS subjective quality test for multi-view image generated by DIBR and proposed algorithm DIBR [4] 3.61 4.13 3.16 3.67 3.34 3.87 3.37 3.89 2. IDW DSCQS Table 2. Result of DSCQS subjective quality test for multi-view image generated by existing IDW and proposed algorithm IDW [5] 3.93 4.22 3.38 3.51 3.57 3.83 3.62 3.85.,,. 1 DIBR [4], 2 IDW [5]. 1 2,, DIBR IDW. DIBR IDW, 11 12, 13.. 3. 'Cafe', 'BeerGarden', 'Samgyetang' 100
5 : (Visual Studio 2010, Windows 7 64 bit, 8GB Ram, Core i7-2600k 3.4 GHz),. 3,. 3. Table 3. Processing time of proposed algorithm (10 ). 16832 ms 883 ms 1411 ms 751 ms 10345 ms 1871 ms,.,.. DIBR IDW.,. 100 10 1.8, GPU,. (References) [1] B. Bartczak and R. Koch, Dense depth maps from low resolution time-of-flight depth and high resolution color views, Proc. of 5th International Symposium on Visual Computing, pp.1-12, Nov. 2009. [2] ISO/IEC JTC1/SC29/WG11, Draft call for proposals on 3D video coding technology, N11830, Daegu, Korea, Jan. 2011. [3] ISO/IEC JTC1/SC29/WG11, Applications and requirements on 3D video coding, N11829, Daegu, Korea, Jan. 2011. [4] V S RS:http://w g11.s c29.org/svn/repos/m P EG -4/tes t/trunk/ 3D/view_synthesis/VSRS [5] W. R. Lee, M. S. Ko, K. M. Um, W. S. Cheong, N. Hur and J. Yoo, Multi-view image generation from stereoscopic image features and the occlusion region extraction", The Journal of Korean Society of Broadcast Engineers, Vol. 17, No. 5, pp. 838-850, Sep. 2012 [6] M. Lang. A. Hornung, O. Wang. S. Poulakos, A. Smolic, and Gross, Non-linear disparity mapping for stereoscopic 3D, ACM Transactions on Graph(SIGGRAPH 2010), vol. 29, July 2010. [7] ISO/IEC JTC1/SC29/WG11, Boundary noise removal and common hole filling method for VSRS 3.5, M19356, Daegu, Korea, Jan. 2011. [8] ISO/IEC JTC1/SC29/WG11, Image domain warping as alternative to DIBR for advanced 3DV applications, M19995, Geneva, Switzerland, March 2011. [9] B. D. Lucas, and T. Kanade, An iterative image registration technique with an application to stereo vision, Proc. of the 1981 DARPA Imaging Understanding Workshop, pp. 121-130, 1981. [10] David G. Lowe, Distinctive image features from scale-invariant keypoints, International Journal of Computer Vision(IJCV), vol. 60, pp.91-110, Nov. 2004 [11] R. Achanta, F. Estrada, P. Wils, and S. Su sstrunk, Salient region detection and segmentation, International Conference on Computer Vision Systems, vol. 5008, pp.66 75, 2008. [12] Nguyen Cao, Truong Hai, D. Y. Kim and H. R. Park, Obtaining Object by Using Optimal Threshold for Saliency Map Thresholding, The Journal of Korea Contents Association, Vol. 11, No. 6, pp.18-25, Jun. 2011. [13] S. Montabone and A. Soto, Human detection using a mobile platform and novel features derived from a visual saliency mechanism, Image and Vision Computing, vol. 28, no. 3, pp. 391 402, 2010. [14] O. Barinova, V. Lempitsky, E. Tretiak, and P. Kohli, Geometric image parsing in man-made environments, in ECCV, 2010. [15] R.G. von Gioi, J. Jakubowicz, J. M. Morel, and G. Randall, LSD: A fast line segment detector with a false detection control, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. PAMI 32, no.4, pp.
(JBE Vol. 18, No. 6, November 2013) 722-732, Apr. 2010. [16] A. Frick, B. Bartczack and B. Koch, "3D-TV LDV content generation with a hybrid tof-multicamera rig", 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video, pp. 1-4, June 2010 [17] Sang-Beom Lee and Yo-Sung Ho, "Multi-view depth map estimation enhancing temporal consistency", International Technical Conference on Circuits Systems, Computer and Communications, pp. 29-32, July 2008 [18] Che-han Chang, Chia-Kai Liang, and Yung-Yu Chuang, Contentaware display adaptation and interactive editing for stereoscopic images. IEEE Transactions on Multimedia, vol. 13, no. 4, pp.589-601, Aug. 2011. [19] J. H. Park and H. W. Park, A mesh-based disparity representation method for view interpolation and stereo image compression, IEEE Transaction on Image Processing, vol.15, no. 7, pp.1751-1762. July 2006. [20] Ilkwon Park and Hyeran Byun, Efficient data representation of stereo images using edge-based mesh optimization, Journal of Broadcast Engineering, vol. 14, no. 3, pp.322-331, May 2009. [21] Methodology for subjective assessment of the quality of television picture, ITU-R Recommendation BT.500-11 - 2012 : - 2012 ~ : - : super-resolution, 3D, - 1991 : ( ) - 1993 : ( ) - 1998 : ( ) - 2000 ~ : - 2001 ~ 2002 CRC(Communications Research Center) - : I, 3DTV, - 2005 : - 2008 : - 2009 ~ : - : 3, 3DTV,,, GPGPU - 1993 : - 1995 : - 2004 : - 2001 ~ : - : 3DTV, 3D,
임종명 외 인 차폐영역 정보와 그리드 메쉬 기반의 영상 워핑을 이용한 다시점 영상 생성 5 : 저자소개 허남호 - 년 2월 : 포항공과대학교 전자전기공학과 공학사 년 2월 : 포항공과대학교 대학원 전자전기공학과 공학석사 년 2월 : 포항공과대학교 대학원 전자전기공학과 공학박사 년 4월~현재 : 한국전자통신연구원 방송통신미디어연구부문 방송시스템연구부 부장 주관심분야 : 디지털방송시스템 및 차세데방송 기술 1992 1994 2000 2000 유지상 - 년 : 서울대학교 전자공학과 학사 년 : 서울대학교 전자공학과 석사 년 : Purdue University. EE, Ph.D. 년 ~ 현재 : 광운대학교 전자공학과 교수 주관심분야 : 3D 입체 영상처리 / 압축, 웨이블릿 기반 영상처리, 비선형 디지털 신호처리 1985 1987 1993 1997 871