192 휴대전화동영상에서의문자영역검출방법이훈재외 논문 2010-47SP-5-22 휴대전화동영상에서의문자영역검출방법 (Text Region Detection Method in Mobile Phone Video ) 이훈재 *, 설상훈 ** * (Hoonjae Lee and Sanghoon Sull ) 요 약 최근카메라가탑재된휴대전화가널리보급되면서휴대전화로촬영한동영상에서문자영역을검출하고인식하여사용자에게유용한정보를제공하는기능에대한연구가활발히이루어지고있다. 따라서휴대전화로촬영된동영상에서문자영역을검출하기위한방법이필요하다. 이를위해형태학적연산을이용하여전처리를수행한다음, 전처리를수행한영상에대해변형된 k-means 군집화를이용하여이진영상을얻어낸후, 연결요소 (Connected component) 분석및문자특성을이용한방법들을적용하여문자후보영역을검출하고, 일정시간내문자후보영역의검출빈도를조사하여문자영역검출의정확도를높이는방법을제안한다. 휴대전화동영상을대상으로한실험결과를통해제안하는방법은정확도와회수율이모두뛰어난효과적인문자영역검출방법임을확인할수있다. Abstract With the popularization of the mobile phone with a built-in camera, there are a lot of effort to provide useful information to users by detecting and recognizing the text in the video which is captured by the camera in mobile phone, and there is a need to detect the text regions in such mobile phone video. In this paper, we propose a method to detect the text regions in the mobile phone video. We employ morphological operation as a preprocessing and obtain binarized image using modified k-means clustering. After that, candidate text regions are obtained by applying connected component analysis and general text characteristic analysis. In addition, we increase the precision of the text detection by examining the frequency of the candidate regions. Experimental results show that the proposed method detects the text regions in the mobile phone video with high precision and recall. Keywords : Text detection, morphology, k-means clustering, color segmentation Ⅰ. 서론 영상에서의문자영역검출은지속적으로연구되어온주제로서기존의문자영역검출은멀티미디어정보의색인화나인터넷상문서의자동색인화를위해연구되었으며, 주로인터넷브라우저의문서나오버랩된 * 정회원, 고려대학교공과대학전자전기공학과 (Department of Electrical Engineering, Korea University) ** 정회원, 고려대학교공과대학전기전자전파공학부 (Department of Electrical Engineering, Korea University) 접수일자 : 2009년12월10일, 수정완료일 : 2010년6월21일 자막과같은간단하고정형화된영상을대상으로하였다. 그러나최근카메라가탑재된휴대용기기의일반적인보급으로인해휴대용기기를통해영상을촬영하는경우가많아지면서, 이와같은영상에서문자영역을검출하고검출된문자영역을 OCR (Optical Character Recognition: 광학문자인식기 ) 모듈에입력하여문자를인식하여문자의의미나문자와관련된정보를사용자에게알려주는기능에대한연구가활발히이루어지고있다. 예를들어외국을여행하는사람들이휴대전화카메라를이용해외국어문자를촬영하여자국어문자로번역하는일에도유용하게사용될수있다. 그러나휴대용기기로촬영한영상은복잡한배경, 낮은화 (681)
2010 년 9 월전자공학회논문지제 47 권 SP 편제 5 호 193 질및해상도, 다양한문자의위치, 크기및나열방향을가지므로문자영역을검출하는데어려움이있다. 기존의문자영역검출의방법을살펴보면 Park et al. [1] 은문자영역이영상의중앙에위치한다는가정을세 운뒤수평과수직에지히스토그램의분포를분석하여문자영역을검출하는방법을제안하였으며, Li 와 Wang [2] 은 Sobel- 에지를사용하여에지의복잡도를계산하고계산된복잡도로문자영역여부를판별하였다. Park 과 Lee [4], Sobottka et al. [5] 은문자영역은고주파수성분을많이포함한다는가정을이용하여주파수영역에서문자를검출하는방법을제안하였다. Ji et al. [6] 와 W. Kim [7] 은문자영역의질감특성을이용하였다. 기존의방법들은문자영역의위치에제한을받거나, 문자영역의색, 배경의복잡도에따라성능이좌우되어휴대전화에서촬영된영상에적용할경우좋은성능을기대하기어렵다. 이와같은문제점을해결하기위해형태학적연산을이용하여문자후보영역을찾고, 색분할화 (Color segmentation) 를이용해이진화된영상을얻은뒤연결요소분석및문자특성을이용해문자영역을검출하는방법이제안되었다 [9]. 하지만, 이는정지영상에서의문자검출방법으로서, 입력영상이동영상일경우부가적으로얻을수있는시간적정보에대한사용이고려되지않았다는문제점이있다. 따라서본논문에서는휴대전화에서촬영한동영상에서문자검출시문자후보영역의일정시간내검출빈도를조사하여문자영역검출의정확도를높이는방법을제안한다. 제안하는방법은해상도및화질이떨어지고, 문자의위치, 크기, 기울기가다양한휴대전화동영상에대해서효과적으로문자영역을검출한다. 본논문의나머지부분은다음과같이구성되어있다. Ⅱ장에서는문자영역검출방법의개요를기술하고 Ⅲ장에서는본논문이제안하는효과적으로문자영역을검출하는방법에대해기술한다. 그리고 Ⅳ장과 Ⅴ장에서는실험결과와결론을기술한다. Ⅱ. 문자영역검출방법의개요 그림 1. 문자영역검출알고리즘의구조 Fig 1. Structure of the text region detection algorithm. 여유사한색을가지는픽셀을각각의영상으로분리하여묶는다. 그다음분할된각각의색에대한영상으로부터이진영상을생성한다. 생성된이진영상에대해연결요소분석을수행하고문자의공간적특성을이용하여문자영역을검출하고, 인접한문자들을병합하여문자영역을구성한다. 최종적으로시간적정보를이용하여일정시간동안지속적으로문자후보영역으로검출되는영역을최종적인문자영역으로정하여문자검출정확도를높인다. Ⅲ. 문자영역검출방법휴대전화에장착된카메라로촬영한동영상에서문자영역을검출하기위해먼저 [9] 에서제안된방법을통해각프레임에서문자후보영역을검출한후, 동영상에서의시간적정보를이용하여, 문자영역검출의정확도를높인다. 이장에서는입력영상에대해형태학적연산을이용한전처리를수행하고, 변형된 k-means 군집화를이용하여이진영상을얻은후, 연결요소분석및문자특성을이용해문자후보영역을결정하는과정과문자후보영역의검출빈도를조사하여문자영역검출의정확도를높이는방법을설명한다. 그림 1 은문자영역검출알고리즘의전체적인구조 를보여준다. 이알고리즘에서는 Cooksey 와 Withers 가정의한형태학적연산을이용해전처리과정을수행하고, k-means 군집화를이용하는색분할화를적용하 [8] 1. 형태학적연산을이용한전처리형태학적연산인열림연산과닫힘연산을이용하여두결과값의차이가임계값보다큰영역들을문자후보영역으로판단하고이외의영역들을제거한다. 그 (682)
194 휴대전화동영상에서의문자영역검출방법이훈재외 라서위두값의차이가임계값보다큰경우문자후보영역으로판단한다. 그림 3(b) 는그림 3(a) 에대해형태학적연산을수행한결과를나타낸다. 그림 3에서나타나는것처럼문자를포함하지않는많은영역들이제거되었다는것을알수있다. 많은실험결과를통해임계값이 50이고그림 2에서의 Region 의크기가 18x18일때좋은성능을제공한다. 그림 2. 빠른열림과빠른닫힘의정의 Fig. 2. Definition of fast opening and fast closing. (a) 2. 변형된 k-means 군집화를이용한색분할화와이진영상생성이전단계의결과영상에대해유사한색을가지는픽셀을묶어각각의영상으로분리하는색분할화를수행한다. 이는교통표지, 안내문, 간판등대부분의경우에문자는사람들이쉽게알아볼수있도록배경색과구별되는하나의색으로이루어져있다는점을이용한것으로, 각픽셀의 R, G, B 값을가지는벡터공간에대해 k-means 군집화알고리즘을적용하여유사한색을가진픽셀들을군집화한다. 이때, 휴대전화로촬영된영상은빛의영향이나흔들림, 압축되는과정에서사람의눈에는동일하게보이는색이라도실질적으로는다른색을가지는경우가많다. 따라서일반적인 k-means 군집화를적용할경우같은글자내에서의같은색이라도반복수행을하면서다른그룹으로분류될수있다. 이러한문제점을해결하기위해서변형된 k-means 알고리즘을적용한다. 처 (b) 그림 3. 형태학적연산을이용한전처리 (a) 원본영상 (b) 결과영상 Fig. 3. Preprocessing using morphological operation. (a) original image (b) result image 림 2는열림연산과닫힘연산방법을나타낸것이다. 현재픽셀을기준으로 4개의영역으로나누고각영역들에서최소값과최대값을얻는다. 열림연산의경우에는선택된최소값들중에서최대값을선택하고닫힘연산의경우에는반대로최대값들중에서최소값을선택한다. 문자영역과같이검사영역내에특징적인에지나질감 (Texture) 이있을경우, 위에서계산한두값의차이가커지고, 이와반대로영역내변화가크게없는경우에는위의두값이큰차이를보이지않게된다. 따 그림 4. 변형된 k-means 군집화 Fig. 4. Modified k-means clustering. (683)
2010 년 9 월전자공학회논문지제 47 권 SP 편제 5 호 195 그림 5. 색분할화결과 Fig. 5. Result of the color segmentation. 그림 7. 공간적밀집성을검사하기위한검색영역 Fig. 7. Searching area to exam the spatial closeness. 그림 6. 이진영상 Fig. 6. Binarized image. 음에는 8개의색그룹으로군집화를수행하고, 반복적인수행을통해픽셀개수가임계값보다적은그룹들은제거한다. 그림 4는변형된 k-means 알고리즘을순서도로나타낸것이다. 반복수행횟수는총 5번이며, 모든수행을하고나면최종적으로색분할화가이루어진다. 그림 6은그림 3(b) 의두영상에대해제안한방법을이용하여분할화한결과이다. 변형된 k-means 군집화를이용하여여러개의색그룹으로분류한다음각각의색그룹에대해그림 6과같이이진영상을생성한다. 이진영상은분할화된색그룹의수만큼생성된다. 3. 문자후보영역검출이전단계에서기술한변형된 k-means 군집화를이용하여생성된각각의이진영상에대해연결요소분석을통해문자후보영역을검출한다. 각이진영상에연결요소분석을적용하여그림 7과같이연결되어있는픽셀집합들에대해외곽사각형을생성한다. 본논문에서는문자의크기와문자들의밀집성을이용하여문자영역을검출한다. 첫번째로아래에기술된조건에따라문자후보영역을검출한다. 1. 연결요소의넓이가전체영상넓이의 1/10보다작고 1/1000보다커야한다. 2. 연결요소의가로길이와세로길이는각각 3 픽셀보다크고각각전체영상가로길이의 1/3, 세로길이의 1/1.5보다작아야한다. 다음으로문자들은공간적으로서로밀집되어있다는특성을이용하여하나의연결요소의검색영역안에유사한연결요소들이하나이상존재하면문자영역으로판단하는과정을수행한다. 그림 7은특정연결요소의검색영역을나타낸것이고검색영역은특정연결요소의왼쪽과오른쪽각각으로부터의너비의 2 배, 위쪽과아래쪽각각으로부터의높이의 1.5배로결정된다. 4. 문자영역병합이번단계에서는각각의문자영역들을단어와같이의미있는문자영역으로구성하기위해서병합을수행하는데, 각문자영역들의위치가가깝고색의차이가작을때문자영역들이병합된다. 문자영역의병합은세로방향병합후가로방향병합을수행한다. 두문자영역 M, N의중심이각각 (x M, y M ), (x N, y N ) 일때, 먼저 M, N의세로방향병합은다음과같은조건 (1) 을만족하면수행된다. (1) (684)
196 휴대전화동영상에서의문자영역검출방법이훈재외 세로방향으로병합이이루어지면그결과들을다시가로방향으로병합을하게된다. 가로방향으로의병합은다음조건 (2) 를만족할때수행한다. (2) 여기서 R, G, B는 RGB 색공간에서문자영역의 R, G, B 성분각각의총합을그것을구성하는픽셀개수로나눈것이며, T1~6 은임계값이다. 많은실험결과를통해해상도 320 240의동영상에서의임계값을 T1 = 20, T2 = 20, T3 = 50, T4 = 20, T5 = 20, T6 = 50 으로설정한다. 5. 시간적정보를이용하는문자영역검출사용자가일정한곳을촬영한동영상을입력으로받는경우에도, 매프레임마다문자영역검출결과가달라질수있다. 특히, 문자영역이아닌부분에서매프레임마다문자영역으로검출되었다가검출이안되는것이반복되는경우가있다. 이는, 카메라의흔들림, 조명의미묘한변화등으로인해형태학적전처리나색분할화과정의결과가다르게나타나기때문이다. 일반적으로문자영역은문자색과배경색이뚜렷하게구분되는반면, 문자영역이아닌부분은그렇지않기때문에프레임마다변하는작은흔들림이나조명변화에상대적으로더민감하게반응하여검출결과가지속적으로유지되지않는다. 따라서, 이와같이잘못검출되는영역을줄이기위해각문자후보영역의일정시간내검출빈도를조사하여, 지속적으로문자영역으로검출되는영역만을최종문자영역으로정한다. 먼저현재프레임을 f n 이라하고 f n 에대해문자영역병합과정의결과로 M개의문자후보영역이나왔을때각문자후보영역을 R n,1, R n,2,, R n,m 이라정의한다. 일정시간내문자후보영역의검출빈도를조사하여문자영역을검출하는과정은아래와같다. Step 1) R n-4,1, R n-4,2,, R n-4,p 와 R n-3,1, R n-3,2,, R n-3,q 를서로비교하여영상내에서같은위치에존재하는문자후보영역을묶어그룹을생성한다. 같은위치에존재는후보영역이없을경우에는해당문자후보영역을가 지는새로운그룹을생성한다. 각그룹의대표위치는현재프레임과가까운문자후보영역의위치로한다. Step 2) Step 1의수행결과로나온그룹들과 R n-2,1, R n-2,2,, R n-2,r 을비교하여문자후보영역이존재하는위치에그룹이생성되어있을경우그룹에추가하고, 그룹이생성되어있지않는경우해당문자후보영역을가지는새로운그룹을생성한다. Step 3) Step 2를 f n 까지반복한다. Step 4) 각그룹에속한문자후보영역의개수를세어 3 이상일경우최종문자영역으로정한다. 그림 8은동영상특징을이용하는문자영역검출방법을사용하였을때와사용하지않았을때를비교하고있다. 위의문자후보영역의검출빈도조사과정은각프레임에서이미검출된문자후보영역을비교하여새로운문자영역의위치를설정하므로, 적은계산량으로수행할수있으며, 그림 8에서볼수있듯이일정시간내문자후보영역의검출빈도조사를통해더정확한문자영역검출을달성할수있다. (a) (b) 그림 8. 시간적정보를이용하는문자영역검출방법 (a) 입력영상 (b) 시간적정보를이용하지않는문자영역검출 (c) 시간적정보를이용한문자영역검출 Fig. 8. Text region detection method using temporal information (a) Text region detection without temporal information (c) Text region detection using temporal information. (685)
2010 년 9 월전자공학회논문지제 47 권 SP 편제 5 호 197 Ⅳ. 실험실험에사용한영상은휴대전화에장착된카메라로촬영한해상도 320 240 크기의동영상 80개이며각영상은기울기가있는문자를포함한영상, 문자영역의위치가한쪽으로치우친영상, 다양한크기의문자가존재하는영상, 복잡한색을가지는영상및위와같은 표 1. 기존의방법과제안된방법의성능비교 Table 1. Performance comparison between previous works and proposed method. 방법 정확도 (%) 회수율 (%) Park's [1] 54.86 46.03 Li's [2] 53.80 73.81 [9] 42.94 85.76 제안된방법 87.16 82.87 특성이없는일반적인영상등으로이루어져있다. 본논문과의비교대상은 Park et al. [1] 방법과 Li 와 Wang [2] 의방법을선택하였고, 동영상특성을사용하지않은기존문자검출방법 [9] 과도비교하였다. 표 1 은각각의방법에대해정확도와회수율을계산하여비교한것이다. 정확도는실제문자영역수 / 검출한영역수 100이고, 회수율은검출문자영역수 / 전체문자영역수 100이다. 제안한방법은특성에상관없이정확도와회수율모두뛰어난성능을보여주었다. 특히, 문자후보영역에대해시간적정보를이용하여문자영역을최종검출하는방법을적용하였을경우, 그렇지않을때에비해회수율은거의차이가나지않으면서도정확도가크게향상됨을알수있다. 그림 9는휴대전화로촬영한여러동영상에대해제안한방법을적용하여실험한결과이다. Ⅴ. 결론 본논문에서는휴대전화로촬영한일반적인영상에대해형태학적연산을적용하여비문자영역을제거하고, 남은영역에대해변형된 k-means 군집화를이용하여색분할화를적용하였다. 그리고연결요소분석과문자특성을이용하여문자후보영역을정하고, 문자후보영역중일정시간동안지속적으로나타나는문자후보영역을최종문자영역으로판단함으로서문자검출정확도가향상된알고리즘을제안하였다. 본논문은문서나인터넷브라우저, TV의자막과같이정형화된배경과문자를가지는영상과달리휴대전화로촬영하여불규칙적이고복잡한배경과문자가많은영상을대상으로하였기때문에보다범용적으로적용할수있다는장점이있다. 그림 9. 문자영역검출결과 Fig. 9. Result of text region detection. (686)
198 휴대전화동영상에서의문자영역검출방법이훈재외 참고문헌 [1] J. Park, Toan N. Dinh, and G. Lee, Binarization of Text Region based on Fuzzy Clustering and Histogram Distribution in Signboards, Proceedings Of World Academy Of Science, Engineering And Technology, vol. 33, pp. 85-90, 2008. [2] M. Li, and C. Wang, An Adaptive Text Detection Approach in Images and Video Frames, International Joint Conference in Neural Networks, pp. 72-77, 2008 [3] P. Shivakumara, W. Huang, and C. Tan, An Efficient Edge based Technique for Text Detection in Video Frames, IEEE The Eighth International Association of Pattern Recognition (IAPR) International Workshop on Document Analysis Systems (DAS), pp. 307-314, 2008. [4] J. Park, and G. Lee, A Robust Algorithm for Text Region Detection in Natural Scene Images, Canadian Journal Of Electrical And Computer Engineering, vol. 33, pp. 215-222, 2008. [5] K. Sobottka, H. Bunke, and H. Kronenberg, Identification of Text on Colored Book and Journal Covers, International Conference on Document Analysis and Recognition, pp. 57-62, 1999. [6] R. Ji, P. Xu, H. Yao, Z. Zhang, X. Sun, and T. Liu, Directional Correlation Analysis of Local Haar Binary Pattern for Text Detection, IEEE International Joint Conference on Multimedia Expo (ICME), pp. 885-888, 2008. [7] W. Kim, and C. Kim, A New Approach for Overlay Text Detection and Extraction from Complex Video Scene, IEEE Transaction on Image Processing, vol. 18, no. 2, pp. 401-411, 2009. [8] E. Cooksey, and W. Withers, Rapid Image Binarization With Morphological Operators, International Conference on Image Processing (ICIP), pp 1017-1020, 2008. [9] 강범주, 김명훈, 차승욱, 설상훈, 휴대전화영상에 서의효과적인문자영역검출, 신호처리합동학술 대회, vol. 22, no. 1, pp. 635-638, Sep. 2009. [10] 정기철, 복잡한영상내의문자영역추출을위한 텍스춰와연결성분방법의결합, 대한전자공학회, 전자공학회논문지, vol. 41, no. 6, pp. 175-186, Nov. 2004. 저자소개 이훈재 ( 정회원 ) 2006 년고려대학교전기전자전파공학부학사졸업 2006 년 현재고려대학교전자전기공학과석 박사통합과정 < 주관심분야 : 비디오코덱, 영상신호처리, 디지털방송 > 설상훈 ( 정회원 )- 교신저자 1981 년서울대학교전자공학과학사졸업 1983 년한국과학기술원전기및전자공학과석사졸업 1993 년 University of Illinois at Urbana - Champaign, Electrical and Computer Engineering 박사졸업 1983 년 1986 년 KBS 기술연구소 1993 년 1994 년 Beckman Institute, University of Illinois, 연구원 1994 년 1996 년 Flight Deck Branch, NASA, Ames Research Center, 연구원 1996 년 1997 년 IBM Almaden Research Center, 연구원 1997 년 현재고려대학교전기전자전파공학부교수 < 주관심분야 : 디지털방송, 멀티미디어데이터검색및브라우징, 비디오코덱, 영상신호처리 > (687)