주요 객체 추출을 이용한 음란물 검출 방법 Pornographic Contents Detection Using Main Object Extraction 한유나, 박상성, 신영근, 장동식 고려대학교 정보경영공학부 136-713, 서울특별시 성북구 안암동5가 E-mail: chunyouna@korea.ac.kr Abstract With the growth of the internet, children can easily access adult images. To prevent incontinent access. a new algorithm for automatic adult image retrieval is proposed in this paper. The proposed algorithm can be summarized to three steps. First, segmentation of color image discriminating between objects of interesting (OOI) and backgrounds is performed. According to the research stating, 'Humans perceive things by contracting them into three to four essential colors', a color image is segmented into three regions utilizing K-means algorithm. Second, identifying OOI out of the segmented image is performed. Finally, if OOI contains more than threshold adult features(color, Texture), an input image is determined adult images. Otherwise it is classified as a non-adult images. To show effectiveness of the proposed method, experiments are conducted over four hundreds images. 1. 서론 전 세계 인터넷 이용자 수에서 한국은 6 위를 차지하며[1] 명실상부한 인터넷 강국 으로 부상하였 전체 가구 중 80% 이상이 컴퓨터를 보유하고 있을 정도로 한국에서는 누구나 컴퓨터를 접할 수 있 특히 조기교육 을 중요시하는 사회분위기 때문에 어린이들은 취학전부터 컴퓨터를 배우고 컴퓨터로 게임하 고 공부한 유익한 정보를 쉽게 접할 수 있 는 컴퓨터는 많은 편리함을 가져다 주었지만 인터넷 세상에는 그렇지 못한 정보도 있 인 터넷이 발달함에 따라 많은 유용한 콘텐츠가 증가함과 동시에 유해콘텐츠도 대거 등장하였 요즘 유해콘텐츠들은 인터넷에서 다양한 방법으로 사람들의 호기심을 불러일으킨 그 뿐만 아니라 유해콘텐츠를 개개인의 메일 에 무작위로 발송하고 있 이로 인해 어린이 들을 유해콘텐츠로부터 차단시켜 안전하게 보호하려고 하는 부모들이 점점 늘어나고 있 으며 동시에 이러한 문제들은 연구자들 사이 에서도 중요한 이슈가 되고 있 현재 연구되 고 있는 주요 방법들로는 유해사이트 를 차단하는 검출 방법, IP주소 IP기반 검출 방법과 텍스트 기반 그리고 이미지 기반 검출 방법이 있 텍스트 기반 검출방법은 미리 정의한 유 해한 텍스트들이 사이트에 들어 있으면 해당 사이트를 차단하는 방법이고 이미지 기반 검 출 방법은 사이트에 나타나는 이미지를 검출 하여 그 이미지가 음란물이면 해당 사이트를 차단하는 방법이 특히 이미지 기반 검출방 법에는 MPEG-7 이미지 검색기술을 이용한 음란물 검색 시스템[2], 신체의 주요부위를 분 석한 음란물 검색방법[3], 텍스트와 이미지 분 류를 통한 음란물 사이트 검출[4], 텍스트와 구조, 콘텐츠를 조합한 웹 필터링 엔진[5] 등 이 있 본 논문에서는 기존 연구들을 토대로 현재 활발히 연구 되고 있는 이미지 기반에 관한 새로운 검출 방법을 제안한 본 논문의 구성은 다음과 같이 구성된 제2장에서는 K-means를 사용하여 원본 영상 을 분할하고 스킨영역을 추출하여 임계치보다 크면 다시 질감특징을 추출하여 사람 피부인 지 스킨유사영역인지 분별해내는 알고리즘을 제안한 제3장에서는 제안된 알고리즘의 특
성을 분석하고 마지막 구에 대하여 설명한 2. 제안된 음란물 검출 방법 과 같 4장은 결론과 향후 연 이 논문에서 제안한 방법은 다음 1 현재 영상처리 분야에서 사용되는 색 모 델은 여러 가지가 있 기본적으로RGB모델 을 가장 많이 사용하지만 이러한 색 공간에서 는 인간이 느끼는 두 색간의 색차와 계산된 수치로 나타내는 색차가 색상에 따라서 많은 차이를 보이는 반면 CIE L*a*b* 는 균일한 색 공간 좌표로서 눈과 매우 근사한 차이를 보여 주며 밝기 성분에 영향을 받지 않으면서 처리 할 수 있는 장점이 있 즉, L*a*b* 는 3차원 에서 a*b* 성분만의 2차원에서 영상처리가 가 능하 그리고 인간은 3~4개의 주요색상으로 영상을 인식하는 경향이 있다는 연구 결과를 토대로[6] 본 논문에서 제안하는 알고리즘에서 는 영상을 3 개 그룹으로 분할하려고 한 다 음 2. 는 K-means알고리즘의 분할방법이 1. 음란물 검출 절차 먼저 K-means를 사용하여 원본 영상 을 3 개 그룹으로 분할한 다음 분할된 각 그 룹에 대하여 이진화를 실행한 실행된 이진 화 영상에 대하여 객체추출 마스크를 적용하 여 가장 큰 결과값을 가지는 영상을 주요영상 으로 판단한 이후 스킨 컬러가 주요영상 객 체의 미리 정의된 임계치 이상 차지하면 1차 성인물이라고 판단하고 임계치 이하이면 비성 인물이라고 판단한 1차 음란물이라고 판단 된 이미지에서 스킨유사영역을 검출하기 위하 여 질감 특징을 검출한 질감특징을 추출하 여 앞서 1차 음란물로 판단된 영상이미지의 스킨 영역이 스무딩한 영역이라면 최종 음란 물로 간주하고 그렇지 않으면 비성인물로 간 주한 2.1 K-means 방법을 이용한 그룹분할 음란물 이미지를 검출하기 위해서 가장 먼저 배경과 객체를 분할해야 한 K-means 알고리즘은 가장 가까운 양자화된 중심을 찾 는 과정으로 객체 분할이 가능하고 분할효과 도 좋은 알고리즘 중의 하나이 본 논문에서 는 을 K-means알고리즘을 이용하여 음란물 영상 3 개 그룹으로 분할한 2. K-means 알고리즘의 분할방법 이렇게 분할된 3개의 그룹을 사진촬영의 일반원리 및 삼각구도를 기반으로 한 가중치 마스크[7] 을 이용하여 주요객체를 추출한 객체의 위치는 영상을 9 등분(m/9,n/9) 했을 때 외곽과 접하지 않고 중간에 위치한다고 가정 한 이 마스크는 상단, 좌우, 중앙, 하단의 가중치를 다르게 부여하여 분할된 원 영상에 대하여 배경과 객체로 판정하는 효과를 나타 낸 또 위치적으로 상단에 있는 객체보다 중 하단에 있는 객체를 주요객체로 판정할 가능 성이 높 3개 그룹 중에서 관심영역 영상을 구분하기 위해 임계값 0.08을 사용하여 이진영 상으로 변환한 후 객체인식 마스크를 이용하 여 결과값이 가장 큰 영상을 관심영역이 포함 된 영상으로 선택한 3. 객체인식 마스크
3. 은 주요객체를 인식할 객체인식 마스크이 3개 그룹 중 관심영상으로 선정된 영상에서 객체 수가 를 2개 이상이면 객체의 수 n이라고 했을 때 각각의 객체에 대하여 가 장 큰 영역 순으로 1번부터 n번까지 지정하여 구별한 이때, 마스크의 음수( 좌측외곽, 우측 외곽, 상단) 에 접하지 않는 구역으로 가장 많 은 화소를 가지는 영역을 주요객체로 추출한 2.2 스킨 색상 추출 스킨유사 픽셀은 Cb, Cr보다 Y부분과 더 많은 연관이 있기에[8] 컬러 영역을 RGB에서 YCbCr 로 바꾼 만약 변환된 픽셀의 Cb, Cr 영역이 아래의 공식을 만족하면 분류한 피부색으로 그리고 (1) (2) 여기서,,, 은 다음과 같 (3) (4) (5) (6) 결과적으로 이 공식들은 주요객체의 스킨 영역을 찾아준 이 스킨영역이 미리 정한 임 계치보다 크면 2.3 질감 특징 추출 1 차 음란물이라고 판단한 선행연구에서 영상의 질감은 그레이 화소 값들의 모멘트(moment), 대비(contrast), 연관 성(correlation), 분산(variance), 혼잡도 (entropy)를 이용해서 가장 잘 표현할 수 있다 고 하였다[9]. 그러므로 본 논문에서는 co- occurrence 매트릭스를 이용하여 ASM (Angular Second Moment), contrast, correlation, variance, entropy의 5개의 질감특 징을 사용한 ASM과 entropy는 영상의 균 일성을, contrast는 영상안에서 나타나는 대조 성과 지역적 변동성을, correlation은 그레이톤 의 선형적 의존성을, variance는 인접 화소의 그레이레벨 차에 대한 산포도를 나타낸 질 감특징을 얻기 위해 한 영상을 7x7, 즉 49개의 영역으로 나누어 각 블록에 대해 정규화된 4 방 향 (,,, ) 그 레 이 레 벨 co-occurrence matrix를 계산한 다음 질감 특징치를 추출하여 평균화하면 회전에 무관한 질감 특징치를 얻는 정규화 되기전 매트릭스의 각 엔트리 값 은 아래와 같은 정의에 의해 얻을 수 있 P (i, j, d, 0 ) = num {((k, l), (m, n)) (Ly Lx) (Ly Lx) k - m = 0, l - n = d, I (k, l) = i, I (m, n) = j} P (i, j, d, 45 ) = num {((k, l), (m, n)) (Ly Lx) (Ly Lx) (k -m = d, l - n = -d) or(k - m = -d, l - n = d), I ( k, l) = i, I (m, n )= j} P (i, j, d, 90 ) = num {((k, l), (m, n)) (Ly Lx) (Ly Lx) k - m = d, l - n = 0, I (k, l) = i, I (m, n) = j} P ( i, j, d, 135 ) = num {((k, l),(m, n)) (Ly Lx) (Ly Lx) (k - m = d, l - n = d) or(k - m = -d, l - n = -d), I (k, l) = i, I (m, n)= j} P(i, j, d, 방향): 각 방향에 대한 matrix i행 j 열 entry의 값 Lx = {1, 2, Nx} Ly = { 1, 2, Ny }, G = { 1, 2, NG} image I: Ly Ls G Nx : 영상의 가로 방향 픽셀수 Ny : 영상의 세로 방향 픽셀수 Ng: gray levels d : num: 계산에 고려할 이웃픽셀과의 거리 정의를 만족하는 개수 matrix의 각 엔트리 값을 계산한 다음 각
방향에 대해 아래와 같은 를 나눠줌으로써 정규화하여 R값으로 각 엔트리 4방향에 대한 각 각의 그레이 레벨 co-occurrence matrix를 얻을 수 있 0 : R = 2Ly ( Lx - 1) 90 : R = 2Lx( Ly - 1) 45 : R = 2( Ly - 1)( Lx - 1) 135 : R =2( Lx - 1)( Ly - 1) 징을 위에서 얻은 matrix를 이용하여 질감 특 다음과 같이 계산한 Angular Second Moment = (7) Contrast = (8) Correlation = (9) Variance = (10) Entropy = (11) 여기서 p(i,j) : gray-level co-occurrence matrix 의 (i,j) 째 엔트리 Ng : gray level μx, μy, σx, σy : px와 py의 평균과 표준편차 μ : gray-level co-occurrence matrix의평균 px : p(i,j)의 행을 합하여 얻은 주변 확률 matrix py : p(i,j)의 열을 합하여 얻은 주변 확률 matrix 색상특징은 각 화소로부터 추출하고 질감 특징은 인접화소간의 관계를 통해서 추출하므 로 특정영역의 질감특징치를 영역 안의 모든 화소에 부여하는 방법을 통하여 질감특징도 화소단위 특정치를 갖도록 한 1차 음란물 영상에서 이 특징을 사용하여 거친 영역이면 비 음란물이라고 간주하고 그렇지 않으면 음 란물이라고 판단한 3. 결론 본 논문에서는 주요객체 추출을 이용한 음란물 검출 알고리즘을 제안하였 먼저 K-means알고리즘을 이용하여 주요객체를 추 출한 다음, 스킨 영역 특징과 질감 특징을 추 출하여 미리 정의한 임계값과 비교하여 음란 물인지 비 음란물인지를 판단한 이 알고리 즘은 주요객체가 보통 중하단부에 위치하고 있다는 특성을 이용하여 중하단부에 해당하는 마스크를 적용함으로써 검색시간을 단축시킬 것이 향후 이 알고리즘을 보완하여 더욱 새 롭고 강력한 음란물 검출 시스템을 구축하려 고 한 감사의 글 이 논문은 2008년도 두뇌한국 21사업에 의하 여 지원되었음. 본 연구는 지식경제부 및 정보통신연구진흥원 의 대학 IT연구센터 지원사업의 연구결과로 수행되었음. (IITA-2008-(C1090-0801-0025)) This work was supported by the IT R&D program of MIC/IITA [2007-S019-02] (Development of Digital Forensic System for Information Transparency). 참고문헌 [1]http://isis.nida.or.kr/ [2]Jau-Ling Shih, Chang-Hsing Lee, Chang- Shen Yang The Adult Image Identification Based on Online Sampling, Pattern Recognition Letters 28 (2007) pp.2367-2374 [3]Yang, J., Fu, Z., Tan, T., Hu, W., A novel aproach to detecting adult images"17th Internat. Conf. on Pattern Recognition 4, pp.479-482, 2004 [4]Hu,W., Wu,O., Chen,Z., Fu,Z., Maybank, S., Recognition of pornographic web pages by classifying texts and images" IEEE Trans. Pattern Anal. Machine Intell.29(6), 1019-1034. 2007 [5]Mohamed Hammami, Youssef Chahir, and Liming Chen, WebGuard:A Web Filtering Engine Combining Textual, Structural, and Visual Content-Based Analysis" IEEE Trans on Knowledge and Data Engineering, Vol.18,
No.2, 2006 [6] A. Mojsilovic', J. Kova'cevic', J. Hu, R. J. Safranek, and S. K. Ganapathy. Matching and Retrieval Based on the Vocabulary and Grammar of Color Patterns".IEEE Trans. on Image Processing, Vol. 1, No. 1, pp. 38 54, 2000. [7] 강선도, 유헌우, 신영근, 장동식 영상구도에 근거한 영상내의 주요객체 자동추출 기법 한 국콘텐츠학회논문지Vol. 8, No 3,pp.8-17 2008 [8]Garcia, C., Tziritas, G., Face detection using quantized skin color regions merging and wavelet packet analysis" IEEE Trans. Multimed.1, 264-277. [9]Robert M. haralick, K. Shanmugam, and Its'Hak Dinstein Textural Features for Image Classification" IEEE Trans. Vol. SMC-3, No 6, pp.610-621