논문 11-36-08-03 실시간객체검출을위한개선된 Haar-like Feature 정규화방법 정회원박기영 *, 종신회원황선영 * An Improved Normalization Method for Haar-like Features for Real-time Object Detection Ki-Yeong Park* Regular Member, Sun-Young Hwang* Lifelong Member 요 약 본논문에서는객체검출에사용되는 Haar-like feature의정규화방법에대해다룬다. 기존의 Haar-like feature 의분산정규화는후보윈도우픽셀들에대한표준편차계산에사용되는별도의적분영상생성을위해많은연산을필요로했으며밝기변화가작은영역에서오검출이증가하는문제를가지고있으나, 제안하는정규화방법은별도의적분영상을사용하지않아처리속도가빠르며, 제안하는방법을사용하여학습시킨분류기는밝기변화에대해강건한성능을보인다. 실험결과제안한방법을사용했을때객체검출기의처리속도는 26% 향상되었으며, 제안한방법을사용하여학습시킨분류기들은 5% 이상향상된검출률을보였으며, 밝기변화가심한경우는 45% 향상된검출률을보였다. Key Words : Haar-like feature, Normalization, Classifier, Object detection, Real-time system ABSTRACT This paper describes a normalization method of Haar-like features used for object detection. Previous method which performs variance normalization on Haar-like features requires a lot of calculations, since it uses an additional integral image for calculating the standard deviation of intensities of pixels in a candidate window and increases possibility of false detection in the area where variance of brightness is small. The proposed normalization method can be performed much faster than the previous method by not using additional integral image and classifiers which are trained with the proposed normalization method show robust performance in various lighting conditions. Experimental result shows that the object detector which uses the proposed method is 26% faster than the one which uses the previous method. Detection rate is also improved by 5% without increasing false alarm rate and 45% for the samples whose brightness varies significantly. Ⅰ. 서론객체검출기는영상으로부터얼굴, 보행자, 차량과같은특정한종류의객체를찾아낸다. 이와같은객체는형태, 색상등이다양하여동일분류안에서의변 동성 (in-class variability) 이크며, 크기나개수를미리알수없고, 배경이특정되지않아검출이어렵다 [1]. 초기에는교통표지판이나얼굴과같이형태변화가적은객체의검출을위해사전정보를이용하여객체의템플릿을만들고이템플릿과비교하여객체를찾 본연구는부품소재기술개발사업 (10032575) 지원및한국산업기술평가관리원관리로수행되었습니다. * 서강대학교전자공학과 CAD & ES 연구실 (hwang@sogang.ac.kr) 논문번호 :KICS2011-03-145, 접수일자 :2011 년 3 월 12 일, 최종논문접수일자 : 2011 년 8 월 1 일 505
는방법이사용되었으나 [2,3], 형태변화가큰객체의검출에는적절하지않으므로최근에는객체샘플데이터로객체검출기를학습시키는연구가많이이루어지고있다 [4-10]. 객체검출기는디지털카메라나감시카메라등에응용되며, 최근에는차량에장착된카메라의영상으로부터보행자나차량을검출하는연구가활발히이루어지고있다 [11-15]. 객체검출기가실용적으로활용되기위해서는처리속도가중요하다. Viola와 Jones [9] 는 Haar-like feature 와다단계분류기를이용하는객체검출기를제안하였다. Haar-like feature는적분영상 (Integral image) 을이용하여객체의크기와상관없이일정한연산량으로빠르게계산할수있으며, 단계마다연산이점점복잡해지도록구성된다단계분류기는객체가아닌대부분의영역을초기단계에서제외시키고객체일가능성이높은일부영역들에대해서만여러단계의연산을수행하므로처리속도가빠르다. 이렇게구성된객체검출기는 700MHz PC에서 384 288 픽셀크기의영상에대해윈도우이동 (Sliding window) 기법만으로얼굴을초당 15 프레임의속도로검출하여실시간으로객체를검출할수있는길을열었으며 [16], 스크립트언어를사용하는웹브라우저나휴대폰과같은저사양의환경에적용된사례도있다 [17,18]. 영상의영역별로발생하는밝기변화는객체검출기의성능에영향을미치므로객체검출기의성능을높이기위해서는영역별밝기차이에대한보정이필요하다. 특히 Haar-like feature는사각형영역들의밝기차를이용하므로밝기변화에많은영향을받는다. Viola와 Jones는이영향을줄이기위해학습과검출과정에서 Haar-like feature를분산정규화 (Variation normalization) 하여야한다고제시했다 [9]. 그러나분산정규화는표준편차계산을위한별도의적분영상을필요로하여객체검출기의처리속도에많은영향을미친다. TI사의 600MHz DSP TMS320DM6437에서 720 480 픽셀크기의적분영상생성에 11.2 ms가소요되었다는결과가발표되었으며 [19], 이는초당 30 프레임의동영상에서한프레임의 1/3에해당하는시간이다. 본연구에서는실시간객체검출기에서사용하기위하여기존에비해연산량을줄인 Haar-like feature 정규화방법을제안한다. 제안하는방법은별도의적분영상을필요로하지않고기존보다계산이간단하며영상의밝기변화에대해서강건한성능을보인다. 본논문의구성은다음과같다. 2절에서는객체검출기의기본적인구성과 Viola와 Jones가제안한객 체검출방법및 Haar-like feature 정규화방법에대해설명한다. 3절에서는기존정규화방법이처리속도에미치는영향과밝기변화가적은영역에서오검출이증가하는문제를분석하고새로운정규화방법을제안한다. 4절에서는기존의정규화방법과제안한방법을사용한객체검출기의처리속도를비교한실험결과를제시하고각각의정규화방법으로학습시킨분류기들의성능을비교한실험결과를제시한다. 마지막으로 5절에서는결론과추후과제에대해서기술한다. Ⅱ. Background 및관련연구 본절에서는객체검출기의구조에대해서설명하고, Viola와 Jones의객체검출기를구성하는 Haar-like feature, 적분영상, 그리고다단계분류기에대해설명한다. 또한이들이제안한 Haar-like feature 의정규화방법에대해설명한다. 2.1 연구배경객체검출기는영상에서객체가위치할수있는후보영역을선택하는후보선정 (Hypothesis generation) 단계와분류기를사용하여후보선정단계에서선택한영역이객체인지배경인지를결정하는후보검증 (Hypothesis verification) 단계로구성된다 [13]. Viola 와 Jones의객체검출기는객체의크기에해당하는여러크기의윈도우들을영상전영역에대해이동시키며모든윈도우영역을후보로사용하는윈도우이동기법을사용하여후보를선정하며, Haar-like feature 를사용하는다단계분류기로선정된후보가객체인지를결정한다. 2.1.1 Haar-like feature 사람이쉽게같은종류라고인식하는객체들도각각의크기와모양등이다양하기때문에이들의공통적인특징을기술하는것은어려운과제이다. Papageorgiou et al. [1,5] 은객체의공통적인특징의기술을위해 Haar wavelet의사용을제안하였고, Viola 와 Jones [9] 는이를확장시킨 Haar-like feature를제안하였다. 특히, 이들은 AdaBoost 알고리즘 [20-22] 을사용하여과완전 (over-complete) Haar- like feature 집합 [5] 으로부터분별력이높은일부를선택해다단계분류기를구성하는방법과적분영상을사용하여 Haar-like feature를계산하는방법을제시하였다. Haar-like feature는그림 1-(a) 와같이 2개이상의인 506
논문 / 실시간객체검출을위한개선된 Haar-like Feature 정규화방법 (a) (b) du du du dv du' (c) dv du' dv 그림 2. 적분영상을이용한사각형영역픽셀들의합계산. D 영역의합은. 그림 1. Haar-like feature 의예. (a) Papageorgiou et al. 의 Haar wavelet 과 Viola 와 Jones 의 Haar-like feature, (b) Lienhart et. al 의 45 회전시킨 Haar-like feature, (c) Li et. al 의 disjoint Haar-like feature. 접한사각형영역들로구성되며, 회색과흰색으로표시된영역들간의밝기차로그값이정의된다 [9]. 여러연구에서다양한형태의 Haar-like feature들이제안되었다. Lienhart et al. [23] 은그림 1-(b) 의 45 회전시킨 Haar-like feature를제안하였고, Li et al. [24] 은그림 1-(c) 의인접한지않은사각형들로구성된 disjoint Haar-like feature를제안하였다. Mita et al. [25] 은여러개의 Haar-like feature들을결합한 joint Haar-like feature를제안하였고, Zheng et al. [15] 은 edge나 ridge 형태의패턴을나타내기위하여 Haar-like feature를응용한 Image strip feature의사용을제안하였다. 2.1.2 적분영상 적분영상을사용하면 Haar-like feature를구성하는사각형영역의픽셀들의합을빠르게계산할수있다 [9]. 적분영상은식 (1) 과같이 (x,y) 위치의픽셀 ii(x,y) 가입력영상의원점 i(0,0) 으로부터해당위치의픽셀 i(x,y) 까지의사각형영역에있는모든픽셀들의합을갖는다 [26]. (1) 적분영상을사용하면입력영상의사각형영역의픽셀들의합을적분영상의 4개픽셀만으로계산할수있다. 그림 2는적분영상을사용하여입력영상의사각형영역의픽셀합을계산하는방법을보인다. 적분영상의픽셀 는입력영상 A+B+C+D 영역의합을가지고있고, 픽셀 는 A+B 영역의합을, 픽셀 은 A+C 영역의합을, 픽셀 은 A 영역의합을가지고있으므로, 입력영상의 D 영역은적분영상에서 를계산하여구할수있다 [9]. 다양한크기의객체를검출하기위하여영상을여러크기로축소시킨영상피라미드 [1] 를사용하는경우가많지만, Haar-like feature는크기에따른연산량의차이가없으므로 Viola와 Jones의객체검출기는영상을축소하는대신에 Haar-like feature를확대하여효율적으로다양한크기의객체를검출할수있다. 2.1.3 다단계분류기 Viola와 Jones는객체분류기를그림 3과같이다단계로구성하였다 [9]. 각단계는 AdaBoost 알고리즘을이용하여과완전 Haar-like feature 집합으로부터객체와배경을가장잘구별하는소수의 Haar-like feature들을선택하여객체의대부분을통과시키고배경의절반정도를걸러내도록학습되며, 이런단계들을여러개연결하여다단계분류기를구성한다. 다단계분류기는영상의많은부분을차지하는배경영역을초기단계들에서제외시키고객체일가능성이높은일부영역에대해서만여러단계를거치도록하여효율적으로객체를검출할수있다. 그림 4는다단계분류기의각단계의구성을보인다 [27]. 각단계는 Haar-like feature HF를사용하는여러개의판정트리로구성된다. 각판정트리는 HF 와경계치 t를비교하여좌 L 또는우 R 값을결정하며, 결정된좌, 우값들을합한후, 단계의경계치 T와비교하여후보윈도우가객체인지배경인지를판정한다. 각단계에서후보윈도우가배경으로판정되면판그림 3. 다단계객체분류기의구성. 507
그림 4. 다단계분류기의각단계의구성. 정은그단계에서종료되고, 객체로판정되면객체여부에대한판정이다음단계에서반복된다. 이렇게마지막단계까지모두통과한후보윈도우만이최종적으로객체로결정된다. 2.2 Haar-like feature 정규화조명에의해영상의영역별로밝기의차이가생길수있으므로 Haar-like feature를정규화하여밝기를보정해야한다. Viola와 Jones는분류기학습과객체검출과정에서윈도우의표준편차를구하여 Haar-like feature들을분산정규화해야한다고제시했으며, 표준편차의빠른계산을위해픽셀제곱에대한별도의적분영상을사용하는방법을제시하였다 [9]. Lienhart et al. 도표준편차와평균을사용하여 Haar-like feature의밝기를보정하는방법을제시하였다 [23]. 윈도우의표준편차를이용한 Haar-like feature의정규화는식 (2) 와같이계산된다 [23]. 는윈도우의평균, 는윈도우의표준편차, 는정규화하지않은픽셀, 는표준편차를이용하여정규화한픽셀이다. (2) 표준편차는픽셀 에대한적분영상 외에픽셀제곱 에대한적분영상 을사용하여빠르게계산할수있다 [9]. 윈도우의픽셀수가 N일때윈도우의평균 는식 (3) 과같이계산되며표준편차 는식 (4) 와같이계산된다. (3) (4) 윈도우의평균 의계산에는적분영상 가사용 되며, 픽셀제곱의합 의계산에는적분영상 가사용된다. Haar-like feature의정규화는식 (2) 와같이윈도우의각픽셀들에대해서적용하지않고, 식 (6) 과같이 Haar-like feature 값에대해직접적용해도동일한결과를얻는다. Haar-like feature 는식 (5) 와같이계산되며, 식 (6) 에서표준편차를사용하여정규화한 Haar-like feature 는각픽셀을정규화한것과동일한결과를얻는다. N은윈도우의픽셀수이고, 와 는각각 Haar-like feature 를구성하는사각형영역과그가중치이다. (5) Ⅲ. 제안하는 Haar-like feature 정규화 (6) 본절에서는기존정규화방법에서사용되는적분영상의연산량과메모리사용량에대해분석하고, 기존정규화방법을사용했을때오검출이증가하게되는경우에대해분석한다. 그리고별도의적분영상을사용하지않는개선된정규화방법을제안한다. 3.1 기존의정규화방법기존의분산정규화는표준편차계산을위한별도의적분영상을필요로한다. 적분영상은생성에많은연산이필요하고메모리를많이사용하므로객체검출기의처리속도에적지않은영향을미친다. 또한분산정규화는밝기변화가적은영역에서오검출이증가하게되는문제점을가지고있다. 3.1.1 적분영상의연산량과메모리사용량 표준편차를이용하는분산정규화는표준편차계산을위해적분영상 와적분영상 를사용한다. 적분영상을식 (1) 과같이픽셀별로계산하면너무많은연산이필요하므로, 식 (7) 과식 (8) 의재귀적방법을사용하여 [9] M N 픽셀크기의영상에대해 2MN 번의덧셈연산으로적분영상을생성할수있다 [28]. S(x,y) 는누적된행의합이고 S(x,-1)=0, 508
논문 / 실시간객체검출을위한개선된 Haar-like Feature 정규화방법 ii(-1,y)=0이다. (7) (8) TI사의 600MHz DSP TMS320DM6437에서더블버퍼링을사용하지않을때 720 480 픽셀크기의적분영상 의계산에재귀적방법을사용하여도 11.2ms가소요되었다는결과가발표되었는데 [19], 이는초당 30 프레임의동영상에서한프레임처리시간의 1/3에해당한다. 정규화를위해추가적으로필요한적분영상 의경우는 2MN 번의덧셈연산외에각픽셀을제곱하는 MN 번의곱셈연산이더필요하므로별도의적분영상을만드는것은실시간객체검출기의처리속도에적지않은영향을미치게된다. 적분영상의픽셀은입력영상한프레임의합을저장할수있는크기여야한다. 적분영상 는수메가픽셀크기의 8비트영상에대해서도픽셀당 4바이트의메모리로충분하지만, 기존정규화방법에서사용하는적분영상 는픽셀제곱들의합이므로 320 240 픽셀크기의영상에대해서도픽셀당 4바이트로충분하지않으므로대부분의경우픽셀당 8 바이트를사용해야한다. 적분영상을이용하여사각형영역의합을계산하기위해네개의픽셀을읽을때에메모리에서네픽셀들이너무떨어져있으면메모리를랜덤으로읽는모습이되므로캐시를효율적으로사용할수없다. 적분영상의픽셀크기가커지며이런가능성은더욱늘어난다. 3.1.2 분산정규화의문제점 Haar-like feature는영역들간의밝기차를사용하므로후보윈도우의표준편차가클수록 Haar-like feature의절대값이커지는경향을보인다. 그러나표준편차가작은경우에표준편차로나누어정규화하면밝기차가적어도 Haar-like feature의절대값이커지 게되므로오검출이증가하게된다. 그림 5는기존의정규화방법을사용한분류기로차량을검출한경우를보인다. 하늘이나도로면같이밝기변화가작은영역에서오검출이많이발생하는것을볼수있다. 밝기변화가작은영역에서오검출이증가하는문제는 4절의테스트샘플밝기별분류기성능비교실험에서도확인되었다. 3.2 제안하는정규화방법기존의정규화방법은표준편차계산을위한별도의적분영상을사용하여처리속도에적지않은영향을미칠수있고, 표준편차가작은영역에서오검출이증가하는문제가있으므로, 본연구에서는 Haar-like feature를윈도우의평균으로나누는정규화방법을제안한다. 영역들간의밝기차는어두운영역에서작고밝은영역에서큰경향이있어 Haar-like feature의절대값도어두운영역에서작아지고밝은영역에서커지게되므로 Haar-like feature를윈도우의평균으로나누어밝기변화에대한보정을할수있다. 또한, 표준편차로정규화하는경우는윈도우의표준편차가작으면윈도우영역의밝기와상관없이정규화한 Haar-like feature 값이커지는문제가있었지만, 평균으로정규화하면윈도우의영역이어두운경우만 Haar-like feature 값이커지므로정규화로인해오검출이증가하게될가능성이줄어든다. 윈도우의평균 는적분영상 만을사용하여계산할수있으며정규화한픽셀값 는식 (9) 와같이계산할수있다. 또한, 제안한정규화는기존방법과마찬가지로윈도우의각픽셀에적용하지않고 Haar-like feature에직접적용할수있으며, 식 (3) 과식 (5) 에서 이소거되므로정규화한값 는 를계산하지않고식 (10) 과같이윈도우의합으로부터직접계산할수있다. (9) (10) Ⅳ. 실험결과 그림 5. 표준편차가작은영역에서오검출이발생한예. 본절에서는정규화하지않은경우와기존의방법 509
과제안한방법으로정규화한경우의 Haar-like feature 값의분포를비교하고, 기존의방법과제안한방법을사용할때의객체검출기의처리속도와각각의방법으로학습시킨분류기들의성능을비교한실험결과를제시한다. 또한영상의밝기변화에대한분류기의성능변화를확인하기위하여테스트샘플들의밝기를여러단계로변경한후에분류기의성능을측정한결과를제시한다. 4.1 정규화한 Haar-like feature 값의분포비교밝기가다양한샘플들의 Haar-like feature 값의분포를확인하기위하여차량의전면을학습시킨분류기에서첫번째와두번째의 Haar-like feature를선택하고, 학습에사용된포지티브샘플중 500개에대해서 Haar-like feature의값을계산하였다. 그림 6은정규화하지않은 Haar-like feature 값의분포를보인다. 포지티브샘플들의밝기는평균 36~172이며, Haar-like feature들은샘플들의밝기가밝아질수록절대값이커지는분포를보인다. 그림 7은표준편차로정규화한 Haar-like feature 와평균으로정규화한 를각각의표준편차로나누고평균이 0이되도록변환한후에비교한결과를보인다. 밝기가다양한샘플들에대해 값들이 와마찬가지로일정하게유지되는분포를보여, 제안한방법이 Haar-like feature의정규화에사용될수있음을보인다. 4.2 정규화처리속도비교 TI사의 600MHz DSP TMS320DM6437에서객체검출기를구현하여정규화처리속도를비교하였다. 720x480 픽셀크기의영상에대해객체검출기의프레임당평균처리시간, 적분영상생성소요시간, 표준편차또는픽셀합의계산소요시간, 그리고 Haar-like feature 계산및판정소요시간을각각측정하였다. 프레임당평균처리시간은 60초분량의영상을처리한후평균을계산하였으며, 적분영상생성시간은 300회생성후에, 표준편차또는픽셀합계산은 20만회이상실행후에, Haar-like feature 계산및판정은 2백만회이상실행후에평균시간을계산하였다. 한프레임당평균처리시간은기존방법을사용한경우에 117ms가소요되었고제안한방법을사용한경우에 87ms가소요되어 26% 개선되었다. 표 1은적분영상생성, 정규화값계산, 그리고 Haar-like feature 계산및판정에소요된시간을보인다. 적분영상생성소요시간 는기존방법의경우는세개의적분영상,, 를생성하는데소요된시간이며, 제안한방법의경우는 를제외한, 의생성에소요된시간이다. 은후보윈도우의표준편차또는픽셀합의계산에소요된시간이다. 는 Haar-like feature를계산하여정규화하고경계치와비교하는데소요된시간이다. 제안한방법을 그림 6. 정규화하지않은 Haar-like feature 값의분포. (a) 분류기의첫번째 Haar-like feature 값의분포, (b) 분류기의두번째 Haar-like feature 값의분포. 그림 7. 기존방법과제안한방법으로정규화한 Haar-like feature 값의분포. (a) 첫번째 Haar-like feature 값의분포, (b) 두번째 Haar-like feature 값의분포. 510
논문 / 실시간객체검출을위한개선된 Haar-like Feature 정규화방법 사용했을때 는 17 ms가줄어들어 38% 개선되었고, 은 5.7배빨라졌으며 는 9% 개선되었다. 4.3 정규화방법에따른분류기성능비교다양한환경의영상에서정규화방법에따른분류기의성능차이를비교하기위해서얼굴정면, 차량전면, 차량후면, 야간보행자에대한분류기를학습시켜성능을평가하였다. 4.3.1 샘플준비및분류기학습학습에필요한얼굴정면샘플은 MIT CBCL Face Database #1 [29] 의학습샘플 2,429개전체를사용하였으며, 차량전면및야간보행자샘플은직접촬영한동영상으로부터각각 2,583개와 1,000개를준비하였고, 차량후면샘플은직접촬영한동영상과정지영상으로부터 2,119개를준비하였다. 샘플의크기는얼굴정면의경우는 19 19 픽셀, 차량전면은 24 24 픽셀, 차량후면은 20 20 픽셀, 보행자는 14 28 픽셀을사용하였다. 성능평가용얼굴정면샘플은 Caltech Faces 1999 (Front) [30] 중에서얼굴그림과얼굴의일부가가려진 4 개를제외한 446개와, MIT CBCL Face Recognition Database [31] 의얼굴정면과 12도이내로회전한얼굴샘플 1,440개를사용하였다. Caltech 샘플은일반적인실내외환경에서촬영된사진들로실내에서는주로플래시를사용하여얼굴이밝게촬영된경우가많다. MIT CBCL 샘플들은조명의방향과시점 (view point) 을 3D 합성한것으로조명방향이다양하며, 배경부분이검게처리되어오검출이거의발생하지않는다. 차량전면과야간보행자는학습샘플과동일한카메라로촬영한동영상으로부터 2,620개와 1,071개를준비하였으며, 차량후면은학습샘플과다른카메라로촬영한동영상과인터넷에서수집한영상들로부터 1,565개를준비하였다. 분류기의학습과평가를위해서 OpenCV2.2 [32] 에포함된학습도구인 opencv_haartraining과성능평가도구인 opencv_performance를수정하여사용하였다. 분류기는각단계의검출률과오검출률을각각 99.7% 와 50% 로설정하여 20단계씩학습시켰으며학습알고리즘으로는 Gentle AdaBoost [33] 를사용하였다. 4.3.2 정규화방법에따른분류기성능비교 테스트샘플을사용하여분류기들의검출수와오검출수를측정하고식 (11), 식 (12) 와같이검출률과오검출률을계산하였다. 검출회수검출률 테스트샘플개수 오검출회수오검출률 테스트샘플개수 (11) (12) 그림 8은테스트샘플들을사용하여평가한분류기들의 ROC (Receiver Operating Characteristic) 커브로제안한정규화를사용한분류기들이 5% 이상높은검출률을보인다. (a) 와 (b) 는동일한얼굴정면분류기를다른테스트샘플들을사용하여평가한것으로, 기존정규화를사용한분류기는조명의방향이다양하게합성된 MIT CBCL 샘플에서큰성능저하를보이지만, 제안한정규화를사용한분류기는큰차이를보이지않고조명변화에대해강건한성능을보인다. 동일한카메라를사용하여촬영한동영상으로부터학습샘플과테스트샘플을제작한 (c) 와 (e) 의경우는분류기의성능차이가근소하나, 서로다른카메라를사용한 (d) 의경우는동일한오검출률에서검출률이 12% 정도차이를보여, (a) 와 (b) 의경우와함께학습 표 1. 정규화처리속도비교. 기존정규화 제안한정규화 45 28 13.0 2.3 5.8 5.3 그림 8. 기존방법과제안한방법을사용하여학습시킨분류기들의 ROC 커브. (a) Caltech Faces 1999 (Front) 샘플을사용한얼굴정면분류기평가결과, (b) MIT CBCL Face Recognition Database 샘플을사용한얼굴정면분류기평가결과, (c) 차량전면분류기평가결과, (d) 차량후면분류기평가결과, (e) 야간보행자분류기평가결과. 511
샘플과테스트샘플이전혀상관없는경우에제안한정규화방법이좀더우수한성능을보인다. 4.4 영상의밝기변화에대한분류기성능변화비교영상밝기변화에따른분류기의성능변화를확인하기위하여테스트샘플들의밝기를그림 9와같이 +3EV, +2EV, +1EV, -1EV, -2EV, -3EV씩변경한후에분류기의성능을평가하여원본테스트샘플에대한평가결과와비교하였다. 그림 10은여러단계로밝기를변경한테스트샘플들에대한분류기들의성능변화를보인다. (a) 의경우기존방법과제안한방법을사용한분류기모두 -2EV 또는 -3EV에서최고의검출률을보이며밝은샘플에서는급격한성능저하를보인다. 이는 Caltech Faces 1999 (Front) 가플래시를사용하여밝게촬영한샘플그림 9. 여러단계로밝기를변경한테스트샘플의예. 들을많이포함하고있기때문인것으로보인다. (a) 를제외하면 +1EV에서 -3EV 사이의밝기에서제안한방법을사용한분류기가기존방법을사용한분류기보다좋은성능을보이며, 특히어둡게조정된샘플들에서성능변화가적은강건한모습을보인다. 밝게조정된샘플들에서는제안한방법을사용한분류기들이큰폭의성능저하를보이지만, 기존방법을사용한경우도 (a), (b), (c) 에서큰폭의성능저하를보이며, (d), (e) 에서도분명한성능저하를보이므로기존방법이밝은샘플들에대해우수하다고할수는없다. 그림 10-(a) 의 +3EV, +2EV의경우와 (e) 의 -2EV 의경우에기존방법을사용한분류기들의오검출률이큰폭으로증가하는것을보인다. 이는표준편차로나누어정규화할때밝기변화가작은영역들에서오검출이증가하는현상으로 (a) 의경우는배경이밝아지면서표준편차가작아져서오검출이증가한예이며, (e) 의경우는배경이어두워지면서오검출이증가한경우이다. (e) 의경우는특히고정된카메라에서움직이는보행자들을촬영하여샘플들의배경이동일하여오검출률의증가폭이더커졌다. Ⅴ. 결론 그림 10. 테스트샘플의밝기를 +3EV, +2EV, +1EV, 0, -1EV, -2EV, -3EV 변경하였을때분류기의성능변화. (a) Caltech Faces 1999 (Front) 사용얼굴정면분류기평가결과, (b) MIT CBCL Face Recognition Database 사용얼굴정면분류기평가결과, (c) 차량전면분류기평가결과, (d) 차량후면분류기평가결과, (e) 야간보행자분류기평가결과. Viola와 Jones의객체검출기는처리속도가빠르기때문에많은분야에서실용적으로활용될수있으나, 객체의특징을기술하기위한 Haar-like feature는조명의영향을많이받으므로밝기변화의영향을줄이기위해정규화한후에사용해야한다. 기존의윈도우의표준편차를이용한분산정규화는많은연산을필요로하여객체검출기의처리속도에적지않은영향을주며밝기변화가작은영역에서오검출이늘어나는문제가있으므로, 이를개선하기위해본논문에서는윈도우의평균을이용한정규화방법을제안하였다. 실험결과제안한방법을사용하였을때적분영상생성소요시간이 38% 줄었으며, 정규화값계산과 Haar-like feature 계산에소요되는시간이각각 5.7배와 9% 개선되어객체검출기의전체처리속도가 26% 개선되었다. 기존의정규화방법과제안한정규화방법을사용하여학습시킨얼굴정면, 차량전면및후면, 야간보행자분류기의성능을비교한결과제안한방법을사용한분류기들이 5% 이상높은검출률을보였으며, 조명변화가많은 MIT CBCL Face Recognition Database의샘플들로테스트한경우는기존방법에비해 45% 높은검출률을보였다. 테스트 512
논문 / 실시간객체검출을위한개선된 Haar-like Feature 정규화방법 샘플들의밝기를여러단계로변경하여성능을비교한경우에도 +1EV ~ -3EV의구간에서제안한방법을사용한검출기가우수한성능을보였다. 본연구를통하여영상의밝기변화가분류기의성능에영향을미치며, Haar-like feature의정규화방법도분류기의성능에많은영향을미치는것이확인되었다. 제안한정규화방법을사용하여학습시킨분류기가어두운영상에대해서는견고한성능을보였지만영상이밝아지는경우에는급격한성능저하를보였으므로영상의밝기에적응적으로정규화를적용하여분류기가밝기변화에대해좀더강건한성능을갖도록하는방안에대한추가연구가필요하다. 참고문헌 [1] C. Papageorgiou, M. Oren, and T. Poggio, A General Framework for Object Detection, in Proc. Sixth Int. Conf. Computer Vision, Bombay, India, pp.555-562, Jan. 1998. [2] M. Betke and N. Makris, Fast Object Recognition in Noisy Images using Simulated Annealing, in Proc. Fifth Int. Conf. Computer Vision, Boston, MA, USA, pp.523-530, Jun. 1995. [3] A. Yuille, P. Hallinan, and D. Cohen, Feature Extraction from Faces using Deformable Templates, Int. Journal of Computer Vision, Vol.8, No.2, pp.99-111, Aug. 1992. [4] H. Rowley, S. Baluja, and T. Kanade, Human Face Detection in Visual Scenes, Carnegie Mellon Univ. Computer Science Technical Report CMU-CS-95-158R, 1995. [5] M. Oren, C. Papageorgiou, P. Sinha, E. Osuna, and T. Poggio, Pedestrian Detection Using Wavelet Templates, in IEEE Conf. Computer Vision and Pattern Recognition, San Juan, Puerto Rico, pp.193-199, Jun. 1997. [6] E. Osuna, R. Freund, and F. Girosi, Support Vector Machines: Training and Applications, A. I. Memo 1602, MIT, 1997. [7] K. Sung and T. Poggio, Example-based Learning for View-based Human Face Detection, IEEE Transactions Pattern Analysis and Machine Intelligence, Vol.20, No.1, Jan. 1998. [8] C. Papageorgiou and T. Poggio, A Trainable System for Object Detection, Int. Journal of Computer Vision, Vol.38, No.1, pp.15-33, Jun. 2000. [9] P. Viola and M. Jones, Rapid Object Detection using a Boosted Cascade of Simple Features, in Proc. IEEE Conf. Computer Vision and Pattern Recognition, Kauai, HI, USA, pp.511-518, Dec. 2001. [10] N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, in Proc. IEEE Conf. Computer Vision and Pattern Recognition, Vol.1, San Diego, CA, USA, pp.886-893, Jun. 2005. [11] D. Gavrila and S. Munder, Multi-Cue Pedestrian Detection and Tracking from a Moving Vehicle, Int. Journal of Computer Vision, Vol.73, No.1, pp.41-59, Jun. 2007. [12] S. Bota and S. Nedesvchi, Multi-feature Walking Pedestrians Detection for Driving Assistance Systems, IET Intelligent Transport Systems, Vol.2, Issue. 2, pp.92-104, Jun. 2008. [13] M. Enzweiler and D. Gavrila, Monocular Pedestrian Detection: Survey and Experiments, IEEE Transactions Pattern Analysis and Machine Intelligence, Vol.31, No.12, pp.2179-2195, Dec. 2009. [14] S. Alvarez, M. Sotelo, I. Parra, D. Llorca, and M. Gavilan, Vehicle and Pedestrian Detection in esafety Applications, in Proc. World Congress Engineering and Computer Science, Vol.II, San Francisco, USA, pp.662-667, Oct. 2009. [15] W. Zheng and L. Liang, Fast Car Detection Using Image Strip Features, in Proc. IEEE Conf. Computer Vision and Pattern Recognition, Miami, Florida, USA, pp.2703-2710, Jun. 2009. [16] P. Viola and M. Jones, Robust Real-time Face Detection, Int. Journal of Computer Vision, Vol.57, No.2, pp.137-154, May 2004. [17] T. Ephraim, T. Himmelman, and K. Siddiqi, Real-Time Viola-Jones Face Detection in a Web Browser, in Proc. Canadian Conf. Computer and Robot Vision, Kelowna, British 513
Columbia, Canada, pp.321-328, May 2009. [18] J. Ren, N. Kehtarnavaz, and L. Estevez, Real-Time Optimization of Viola-Jones Face Detection for Mobile Platforms, in Proc. IEEE Dallas Circuits and Systems Workshop SoC: Design, Applications, Integration, and Software, Dallas, TX. USA, pp.1-4, Oct. 2008. [19] B. Kisacanin, Integral Image Optimizations for Embedded Vision Applications, in Proc. IEEE Southwest Symp. Image Analysis and Interpretation, Santa Fe, New Mexico, USA, pp.181-184, Mar. 2008. [20] Y. Freund and R. Schapire, A Short Introduction to Boosting, Journal of Japanese Society for Artificial Intelligence, pp.771-780, Sep. 1990. [21] Y. Freund and R. Schapire, Experiments with a New Boosting Algorithm, in Proc. Int. Conf. Machine Learning, Bari, Italy, pp.148-156, Jul. 1996. [22] R. Schapire, Y. Freund, P. Bartlett, and W. Lee, Boosting the Margin: A New Explanation for the Effectiveness of Voting Methods, in Proc. Int. Conf. Machine Learning, Nashville, TN, USA, pp.322-330, Jul. 1997. [23] R. Lienhart and J. Maydt, An Extended Set of Haar-like Features for Rapid Object Detection, in Proc. Int. Conf. Image Processing, Rochester, New York, USA, pp.900-903, Sep. 2002. [24] S. Li, L. Zhu, Z. Zhang, A. Blake, H. Zhang, and H. Shum, Statistical Learning of Multi-View Face Detection, in Proc. European Conf. Computer Vision, Vol.4, Copenhagen, Denmark, pp.67-81, May 2006. [25] T. Mita, T. Kaneko, and O. Hori, Joint Haar-like Features for Face Detection, in Proc. Int. Conf. Computer Vision, Beijing, China, pp.1619-1626, Oct. 2005. [26] F. Crow, Summed-Area Tables for Texture Mapping, in Proc. Conf. Computer Graphics and Interactive Techniques, Vol.18, Minneapolis, MN, USA, pp.207-212, Jul. 1984. [27] B. Benson, J. Cho, D. Goshorn, and R. Kastner, Field Programmable Gate Array (FPGA) Based Fish Detection Using Haar Classifiers, in Proc. American Academy of Underwater Sciences Symp., Atlanta, GA, USA, pp.160-167, Mar. 2009. [28] S. Ehsan, A. Clark, and K. McDonald-Maier, "Novel Hardware Algorithms for Row-Parallel Integral Calculation," Digital Image Computing: Techniques and Applications, Melbourne, Australia, pp. 61-65, Dec. 2009. [29] CBCL Face Database #1, MIT Center For Biological and Computation Learning, http://www.ai.mit.edu/projects/cbcl [30] Caltech Faces 1999(Front), Computational Vision at Caltech, http://www.vision.caltech.edu/ htmlfiles/archive.html [31] B. Weyrauch, J. Huang, B. Heisele, and V. Blanz, Component-based Face Recognition with 3D Morphable Models, in Proc. Conf. Computer Vision and Pattern Recognition Workshop, Washington D.C., USA, pp.85, Jun. 2004. [32] OpenCV, Open source computer vision library, http://opencv.willowgarage.com/wiki/ [33] J. Friedman, T. Hastie, and R. Tibshirani, Additive Logistic Regression: a Statistical View of Boosting, Annals of Statistics 28, pp.337-407, Aug. 1998. 박기영 (Ki-Yeong Park) 정회원 1991년 2월한양대학교물리학과학사 2006년 8월서강대학교정보통신대학원석사 2007년 현재 엠아이웨어부장 2008년 현재서강대학교전자공학과 CAD & ES 연구실박사과정 < 관심분야 > 패턴인식, 실시간시스템, 병렬처리시스템 514
논문 / 실시간객체검출을위한개선된 Haar-like Feature 정규화방법 황선영 (Sun-Young Hwang) 종신회원 1976년 2월서울대학교전자공학과학사 1978년 2월한국과학원전기및전자공학과공학석사 1986년 10월미국 Stanford대학전자공학박사 1976년 ~1981년삼성반도체 ( 주 ) 연구원, 팀장 1986년 1989년 Stanford 대학 Center for Integrated System 연구소책임연구원및 Fairchild Semiconductor Palo Alto Research Center 기술자문 1989년 1992년삼성전자 ( 주 ) 반도체기술자문 1989년 3월 현재서강대학교전자공학과교수 < 관심분야 > SoC 설계및 framework 구성, CAD시스템, Computer Architecture 및 DSP System Design 등 515