Journal of the Korean Data & Information Science Society 2018, 29(5), 1287 1297 http://dx.doi.org/10.7465/jkdi.2018.29.5.1287 한국데이터정보과학회지 심층신경망기반총채벌레탐색에관한연구 이동환 1 석경하 2 12 인제대학교 통계학과 접수 2018년 8월 9일, 수정 2018년 9월 17일, 게재확정 2018년 9월 18일 요약 최근 감귤농업에서 주요해충으로 분류되는 미소 객체 (tiny object)인 볼록총채벌레 (Scirtothrips dorsalis Hood)의 탐색은 관심이 많고 어려운 작업으로 알려져 있다. 본 논문에서는 심 층신경망을 이용하여 볼록총채벌레를 탐색 (detection)하고자 한다. 분석자료는 황색끈끈이트랩 이미지자료 (250 150mm, 5472 3648픽셀)이며 합성곱 신경망 (convolutional neural network, CNN)인 ResNet을 기반으로 하는 Faster R-CNN (faster regions with CNN) 탐색모형을 사용하 였다. 이미지넷 (ImageNet)을 사전 학습한 가중치를 사용하고 초모수 (hyperparameter)를 격자탐 색법 (grid search)으로 선택한 모형을 제안한다. 제안된 모형의 AUC (area under curve)는 0.91로 아주 좋은 결과를 보이는데, 제안된 모형으로 볼록총채벌레의 생태를 파악하여 보다 더 정밀한 방제가 이뤄질 수 있을 것으로 기대한다. 주요용어: 객체 탐색, 볼록총채벌레, 빠른 지역기반 객체 탐색, 심층신경망, 합성곱 신경망. 1. 서론 곤충을 통하여 관찰하고자 하는 지역의 농업환경을 유추할 수 있다는 점에서 곤충연구는 중요하다. 또한 곤충연구는 농작물에 대한 해충의 발생특성을 파악하여 해충을 더욱 더 효과적으로 방제할 수 있도 록 도와준다 (Martineau 등, 2017). 객체 탐색은 객체의 위치를 찾음과 동시에 올바르게 분류하는 문제이다. 그러므로 분류보다 더 어 렵고 복잡한 작업이다. 그리고 볼록총채벌레는 크기가 0.7mm 1.0mm인 크기가 아주 작은 미소 곤충 이고 육안식별이 어려워 현미경을 사용하며 조사하는 등 식별에 어려움이 매우 크기 때문에 자동탐색 에 대한 요구가 절실하다. 이에 대한 연구로는 Cho 등 (2007)과 Hyun 등 (2012)이 있고, Moon 등 (2013)은 서포트벡터머신 (support vector machine)을 사용하여 볼록총채벌레를 분류하였다. 그리고 Xia 등 (2015)은 스캐너를 이용하여 얻은 트랩 이미지의 후보영역과 특징을 추출하여 총채벌레를 분류 하였다. Krishna와 Jawahar (2017)은 입력 이미지의 1%보다 작은 객체를 탐색하는 것을 미소 객체 탐 색이라고 정의하였다. 그렇지만 심층신경망을 기반으로 하는 미소 객체 탐색 모형에 관한 연구가 아직 부족한 실정으로 관련 연구를 위한 자료도 부족하다. 본 연구에서는 볼록총채벌레를 탐색하기 위해 합성곱 신경망 (convolutional neural network, CNN)을 기반으로 하는 Faster R-CNN모형을 사용하였다. 이용한 CNN 구조로는 ResNet (He 등, 2016)을 사 이 논문은 2017년도 정부의 재원으로 한국연구재단의 지원을 받아 수행된 연구 (NRF- 2017R1E1A1A01075541)임. 1 (50834) 경남 김해시 인제로 197, 인제대학교 통계학과, 석사. 2 교신저자: (50834) 경남 김해시 인제로 197, 인제대학교 통계학과, 인제대학교 통계정보연구소, 교수. E-Mail: statskh@inje.ac.kr
1288 Donghwan Lee Kyungha Seok 용하였는데, 심층신경망 모형에서 미소 객체 탐색이 어려운 이유는 입력 이미지의 크기가 합성곱 연산 (convolutional operation)을 거치면서 줄어들기 때문이다. 미소 객체 이미지는 일반적으로 단조롭고 더 작은 부분으로 분해하기가 어렵기 때문에 후보영역 추출층 (region of proposal network, RPN)에서 적절한 앵커박스 (anchor box)의 크기를 조정하고 후보풀링 (region of interest pooling)을 하는 과정 에서 특징도의 해상도를 높이는 방법을 고려하여야 한다 (Krishna와 Jawahar, 2017). 또한 모형의 최 적화를 위해 RPN의 최적화된 초모수 (hyperparameter)를 찾고 자료 키우기 (data augmentation)를 사용하여 훈련자료의 불균형 문제를 해결하고자 하였다. 제안된 모형은 앵커가 2개, RPN의 후보영역에서 중복영역 제거 (non-maximum suppression)를 위 한 기준값 (threshold)이 0.9, 중복영역을 제거한 후 남은 영역에서 선택되는 영역의 수 (maxbox)가 300개, 이 중에서 최종으로 선택하는 후보영역의 수 (number of ROI)가 32개인 모형이다. 제안된 모 형의 AUC (area under curve)는 0.910로 좋은 결과를 얻을 수 있었다. 본 논문의 2절에서는 황색끈끈이트랩 이미지 자료를 수집하여 탐색모형에 맞은 자료형태로 전처리하 고 훈련자료와 검증자료로 구성하는 것을 설명하였다. 그리고 3절에서는 본 연구에 관련된 사전연구에 대해 간략히 설명하고 4절에서는 좋은 성능의 모형을 제안하고 그 결과를 해석하였다. 마지막 5절에서 는 결론 및 향후연구에 대해 언급하였다. 2. 볼록총채벌레자료 2.1. 자료 볼록총채벌레 이미지는 국립원예특작과학원 감귤연구소 (NIHHS citrus research institute)에서 농 가에 1주일간 설치한 후 수거한 황색끈끈이트랩 (150 250mm) 이미지이다. Figure 2.1은 Canon EOS 6D모델 카메라로 트랩을 촬영한 예시 사진이다. 실선으로 이루어진 사각형은 가로와 세로가 각각 25mm인 정사각형이며 각 점선은 1mm 간격으로 표시되어 있다. Figure 2.1 Yellow sticky trap image Figure 2.1 에서는 볼록총채벌레를 육안으로 식별하기 어려워 트랩을 4등분으로 촬영한 자료를 2017년 8월 09일부터 2017년 11월 02일까지 7차례에 걸쳐 493장의 자료를 제공받았다. 각 이미지
Detection of Scirtothrips with deep neural networks 1289 의 해상도는 5472 3648픽셀이다. 2.2. 자료전처리 제공받은 자료를 Figure 2.2와 같이 300 300픽셀로 랜덤크롭 (random crop) 하였다. Figure 2.2 Random crop images of size 300 300pixel 300 300픽셀 크기로 랜덤크롭 함으로써 추출된 이미지에서 볼록총채벌레가 차지하는 마스킹 (masking)영역이 약 1.8% 되어 미소 객체를 탐색하는 문제를 완화시킬 수 있었다. 그렇지만 실제 모형에 입 력되는 이미지는 가로 세로 길이의 2배 확대시킨 600 600픽셀 이미지로 볼록총채벌레가 연산과정에서 사라지는 것을 최소화하였다. 제공받은 이미지를 훈련과 검증을 위한 이미지로 나누고 훈련자료는 랜 덤크롭을 통하여 전체 이미지 면적에 5배가 되도록 추출하여 이 중 1990장의 훈련자료를 만들었으며 329장의 검증자료를 만들었다. 탐색은 분류와 달리 다양한 객체가 적절한 비율을 유지 할 때 더 좋은 모형을 제공할 수 있음을 사전 실험으로 확인하여 훈련자료는 볼록총채벌레 1042마리, 미소 곤충 1211마리, 총채벌레 656마리, 점선 1156개 그리고 배경 5750개로 구성하였다. 검증자료는 트랩의 다양한 환경을 균형있게 구성하여 공정 한 평가가 이루어지도록 Table 2.1와 같이 구성하였다. 총 329장의 검증자료 중 168장에 볼록총채벌레 가 존재한다. Table 2.1 Number of images in test data containing various objects reflection dust big middle small Scirtothrips insect insect insect dorsalis Hood 88 109 112 118 102 168 3. 사전연구 영상처리분야에서 탐색에 관한 연구는 활발히 지속되어왔는데 최근에 CNN을 탐색모형에 적용함으 로써 탐색 성능을 획기적으로 향상시킬 수 있었다. CNN을 기반으로 하는 탐색모형은 SSD (single shot multibox detector; Liu 등, 2016)와 YOLO (you only look once; Redmon 등, 2016)과 같이 탐색 속도가 빠른 반면 정밀도와 재현율이 낮은 한 단계 탐색모형과, R-CNN (Girshick 등, 2014), Fast R-CNN (Girshick 등, 2015), Faster R-CNN (Ren 등, 2016)등과 같이 느린 반면 높은 성능을 보이는 두 단계 탐색모형이 있다. 최근에는 Mask R-CNN (He 등, 2017), RetinaNet (Lin 등, 2017) DetNet (Li
1290 Donghwan Lee Kyungha Seok 등, 2018) 등 다양한 탐색모형이 제시되고 있지만 본 논문에서는 ResNet을 적용한 Faster R-CNN을 사 용하였다. 3.1. ResNet ResNet은 He 등 (2016)이 제안한 구조로 종전의 모형들과 같이 입력 자료를 신경망의 흐름에 따라 순차적으로 계산할 뿐만 아니라 계산 이전의 특징도 (feature map)를 더하는 연산을 갖는 특징을 가진 다. He 등 (2016)은 Faster R-CNN모형에 ResNet을 적용하였을 때 VGG (Simonyan 과 Zisserman, 2014)를 적용하였을 때 보다 더 효과적임을 보였다. 3.2. Faster R-CNN 존의 두 단계 탐색모형인 R-CNN모형과 Fast R-CNN모형은 선택적 탐색 (selective search) 알고리 즘을 사용하여 입력 이미지의 후보영역을 결정하는데 많은 계산 시간이 필요한 단점이 있었다. Ren 등 (2016)은 후보영역을 추천하는 RPN을 도입하여 성능을 유지하면서 더 빠른 속도로 객체를 탐색할 수 있는 Faster R-CNN모형을 개발하여 많은 호응을 받고 있다. 3.3. 미소객체탐색 미소 객체는 합성곱 연산을 거치면서 입력 이미지의 크기가 줄어들기 때문에 심층신경망에서 이를 탐 색하는 것은 어려운 것으로 알려져 있다. 예를 들어 ResNet에서는 입력 이미지가 RPN층에 도달하였 을 때 가로와 세로가 각각 1/16로 줄어 아주 작은 특징도를 갖게 된다. Krishna와 Jawahar (2017)에 서도 합성곱 연산은 계층적 특징을 학습하여 객체를 탐색하지만 미소 객체 이미지는 일반적으로 단조롭 고 더 작은 부분으로 분해하기가 어렵기 때문에 RPN에서 적절한 앵커박스 (anchor box)의 크기를 조 정하고 후보풀링을 하는 과정에서 특징도의 해상도를 높이는 방안을 강구하기를 제안하였다. 이와 더불 어 모형의 최적화를 위해 RPN의 최적화된 초모수 (hyperparameter)를 찾고 자료 키우기를 사용하여 훈련자료의 불균형 문제를 해결 등의 방법을 모색하여야 한다. 4. 탐색모형 4.1. 실험환경 탐색 모형에 사용한 컴퓨터의 자원은 CPU: Intel xeon Bronze3106, GPU: GPU titanxp이며 사 용한 딥러닝 프레임워크는 TensorFlow (버전 1.3.0)에 기반한 Keras (Ver. 2.0.3)이다. 그리고 Faster R-CNN모형은 https://github.com/yhenon/keras-frcnn을 참고하였다. 4.2. 평가방법 객체 탐색에 관한 지표로는 IOU (intersection over union)를 주로 사용한다. IOU는 객체를 나타내 는 실제 영역과 모형에서 해당 객체를 예측하는 영역의 총면적 중에서 겹치는 면적을 비율로 나타낸 것 이다. 일반적으로 IOU가 0.5 이상이고 그 객체의 클래스 (class)까지 잘 분류하면 올바르게 탐색한 것 으로 평가한다. 객체 탐색모형의 성능은 재현율 (recall)과 정밀도 (precision)를 사용하여 확인할 수 있 으며 재현율과 정밀도 그래프의 면적인 AUC를 통하여 모형을 비교한다 (Everingham 등, 2015). 본 논문에서는 다음과 같은 방법으로 AUC를 구하였다.
Detection of Scirtothrips with deep neural networks 1291 AUC = ˆp(r), 여기에서 ˆp(r)은 재현율 r에 대응되는 보간정밀도 (interpolated precision)로 재현율 r보다 큰 재현율 에 대응하는 정밀도 중에서 가장 큰 정밀도로 다음과 같이 대체한 것이다 (Salton과 McGill, 1986). 여기서 p( r)은 재현율 r에 해당하는 정밀도이다. ˆp(r) = max r: r r p( r), 4.3. 볼록총채벌레분류 탐색 모형은 분류도 잘해야 하므로 분류를 잘 할 수 있는 모형을 우선 고려하는 것이 필요하다. 본 연 구에서는 좋은 평가를 받고있는 ResNet을 분류모형으로 사용하였는데 이미지넷 (ImageNet; Deng 등, 2009)을 사전 학습한 가중치를 사용하는 사전훈련모형 (M pre)과 He 등 (2015)에서 제안한 랜덤가중 치모형 (M He) 두 개의 모형을 고려한다. 분류를 위해 만든 자료는 볼록총채벌레 (훈련자료: 5407개, 검증자료: 100개), 총채벌레 (훈련자료: 5335개, 검증자료: 100개), 미소 곤충 (훈련자료: 5304개, 검증자료: 100개), 점선 (훈련자료: 5719개, 검증자료: 100개), 배경 (훈련자료: 4222개, 검증자료: 100개)으로 구성되었다. Figure 4.1 Training accuracy (a) and loss (b) for M pre and M He 에폭 (epoch)에 따른 훈련 결과를 나타낸 Figure 4.1에서 M pre가 M He보다 더 빠르게 학습되는 것 을 확인할 수 있다. Table 4.1의 검증자료를 사용하여 모형을 평가한 결과도 M pre가 M He보다 더 좋 다는 것을 확인할 수 있으며 검증자료의 정분류율이 92%로 비교적 정확하게 분류할 수 있음을 알 수 있 다. Table 4.1 Test loss and accuracy of M pre and M He Model Loss Accuracy M pre 4.7962 92% M He 5.0884 83.4% 아래 Table 4.2는 검증자료의 M pre에 의한 정오분류표이다. 모형은 모든 클래스를 잘 분류하지만 볼록총채벌레와 미소 곤충의 분류가 다른 클래스에 비교하여 상대적으로 더 어렵다는 것을 확인할 수 있 다.
1292 Donghwan Lee Kyungha Seok Table 4.2 Confusion matrix of M pre Real Scirtothrips Tiny Trips Dot Back Predict dorsalis Hood insect line ground Total Scirtothrips 85 10 2 0 3 100 dorsalis Hood Tiny insect 3 92 2 0 3 100 Trips 1 3 93 0 3 100 Dot line 1 0 0 93 6 100 Background 1 1 0 1 97 100 Total 91 105 97 94 112 500 4.4. 탐색모형최적화 사전연구를 통하여 사전 학습된 M pre 모형을 사용하고, 최대박스에 볼록총채벌레가 포함되는 수 를 늘려서 풀링되는 볼록총채벌레의 수를 늘리기 위해 RPN의 후보영역에서 중복영역 제거 기준값을 0.9로 높게 결정하였다. 그리고 모형의 최적화를 위해서 고려되는 다른 초모수 (hyperparameter)는 중 복영역 제거 후 남은 영역에서 선택되는 영역의 수, 최종 후보영역의 수 그리고 앵커의 크기와 수이 다. 배경 추가 여부가 탐색모형에 영향을 끼치는지도 확인하였다. 계산 시간을 고려한 격자탐색 (grid search)으로 최적의 초모수를 선택하였다. 앵커는 가로와 세로의 비율을 1:1, 1:2, 2:1로 고정하고 크기는 {94}, {64, 128}, {64, 94, 128}인 세 가지 경우를 고려하였다. maxbox와 후보영역의 수는 (100, 32), (100, 64), (300, 32), (300, 64), (300, 128), (500, 32), (500, 64), (500, 128)의 조합 그리고 배경 추가 여부를 고려하였다. 실험 결과 앵커는 {64, 128}, maxbox는 300, 후보영역의 수는 32 그리고 배경 추가가 선택되었다. 이때 AUC는 0.91로 상당히 좋은 결과를 보였다. 본 연구에서 확인할 수 있는 하나의 사항은 곤충의 날개, 곤충의 다리 부분, 흙, 먼지 등의 배경이미지 를 사용하는 것이 사용하지 않을 때의 AUC값 0.873 보다 더 좋은 결과를 보일 수 있다는 것이다. 4.5. 자료키우기 훈련자료의 볼록총채벌레 1042마리 중 명확하지 않은 것이 약 100여 마리로 매우 적었다. 이를 보완 하기 위해서 자료 키우기를 통해 명확하지 않은 볼록총채벌레와 미소 곤충을 생성하여 훈련자료에 추가 하여 모형의 성능을 향상시키고자 하였다. 추가시킨 자료는 명확하지 않은 볼록총채벌레 1260개와 미 소 곤충 1260개다. 자료를 키우는 방법으로는 1. 단순히 재사용 하는 방법 (recycling), 2. 이미지를 회 전, 쉬프트 (shift), 쉬어 (shear), 대칭변환을 랜덤하게 조합하는 방법 (augmentation), 3. 생성모형인 DCGAN (deep convolutional generative adversarial networks; Radford 등, 2015)을 사용하는 방법 (DCGAN)을 사용하였다. 훈련자료를 키워서 훈련한 모형의 검증자료에 대한 AUC가 Table 4.3에 나 타나 있다. 이 결과에 의하면 자료 키우기가 모형의 성능 향상에 도움이 되지 않는 것으로 확인된다. 특 히 recycling과 augmentation으로 생성된 자료를 추가한 모형은 오히려 성능이 많이 떨어진 것을 확인 할 수 있고 DCGAN으로 생성된 자료를 추가한 모형도 작은 값이기는 하지만 자료를 추가하지 않았을 때 보다 더 작은 AUC 값을 가지는 것을 알 수 있다.
Detection of Scirtothrips with deep neural networks 1293 Table 4.3 AUC of M pre with various augmentation methods methods AUC Recycling 0.874 Augmentation 0.855 GAN 0.906 Without augmenatation 0.910 4.6. 결과분석 Figure 4.2에 탐색결과를 나타내었다. 대체적으로 볼록총체벌레를 잘 탐색한 것으로 평가되는데 이 결과를 좀 더 세밀하게 분석해 본다. Figure 4.2 The result of the proposed model with a test image 4.6.1. 결과분석 아래 Figure 4.3은 분류가 올바르게 탐색된 이미지와 잘 못 탐색된 검증 이미지의 대표적인 예시이다. (a)는 볼록총채벌레를 올바르게 탐색한 이미지로 (1,1) (1행 1 열)은 반사와 벌레가 있는 환경, (1,2)는 점선과 볼록총채벌레가 다 수 있는 환경, (1,3)은 티끌, 벌레 그리고 실선이 이미지에서 차지 하는 비중이 큰 환경, (2,1)은 실선과 벌레가 있고 볼록총채벌레가 초점이 잡히지 않은 환경, (2,2)는 볼
1294 Donghwan Lee Kyungha Seok (a) (b) Figure 4.3 Correctly detected image (a) and incorrectly detected image (b) 록총채벌레와 유사한 벌레가 있는 환경과 (2,3)은 먼지가 대부분을 차지하고 있는 환경이다. 여기에서 제안된 모형은 다양한 환경에서도 볼록총채벌레를 제대로 탐색하고 있음을 확인할 수 있다. (b)는 볼록총채벌레를 잘못 탐색한 이미지로 (1,1)은 티끌을 볼록총채벌레로 잘못 탐색한 경우, (1,2)는 명확하지 않은 볼록총채벌레를 탐색하지 못한 경우, (1,3)은 벌레의 꼬리부분을 잘못 분류한 경우, (2,1)는 흙먼지를 볼록총채벌레로 탐색한 경우, (2,2)는 곤충의 다리를 볼록총채벌레로 탐색한 경 우이고 (2,3)은 불확실한 것을 볼록총채벌레라고 탐색한 경우이다. 이렇게 잘 못 탐색하는 경우도 있지 만 제안된 모형은 유사한 환경의 이미지에 대해서도 같은 결과를 산출하지는 않는 것을 알 수 있었다. 이런 결과로 미루어보아 탐색하고자 하는 객체와 아닌 객체가 합성곱 연산 과정에서 어떠한 결과를 만드 는지에 대해 명확하게 밝힐 수 있는 연구가 필요한 것으로 보인다. 4.6.2. 이미지효과 트랩을 촬영하면 전 영역이 고른 상태로 촬영되지 않는다. 초점이 맞춰진 영역은 명확한 볼록총채벌 레가 촬영되지만 초점이 맞춰지지 않은 영역은 볼록총채벌레가 명확하지 않게 촬영된다. 또한 촬영 시 흔들림이 있는 경우에도 이미지는 명확하지 않다. 아래 Figure 4.4는 볼록총채벌레 이미지 중 명확한 것과 그렇지 않은 이미지의 예이다. (a) (b) Figure 4.4 Clear images (a) and unclear images (b) of Scirtothrips dorsalis Hood 검증자료에서 명확한 볼록총채벌레와 명확하지 않은 볼록총채벌레에 대한 탐색모형의 결과는 아래
Detection of Scirtothrips with deep neural networks 1295 Table 4.8과 같다. Table 4.4 Evaluation of model according to Scirtothrips dorsalis Hood resolution of test data dataset AUC test data 0.910 clear data 0.936 unclear data 0.803 명확한 볼록총채벌레로 구성된 검증자료는 AUC 값이 0.936으로 검증자료의 모형평가 값인 0.910보 다 높지만 반면 명확하지 않은 볼록총채벌레로 구성한 검증자료는 AUC 값이 0.803으로 모형의 성능이 크게 떨어지는 것을 확인할 수 있다. 자료의 질이 모형의 성능에 많은 영향을 미칠 수 있음을 알 수 있 다. 5. 결론및향후과제 본 연구에서는 최근 감귤농업에서 주요해충으로 분류되는 볼록총채벌레 (Scirtothrips dorsalis Hood)를 탐색하는 모형을 제안하였다. 분석에 사용된 자료는 황색끈끈이트랩 이미지 (250 150mm, 5472 3648픽셀)다. 제안된 모형은 합성곱 신경망 (convolutional neural network, CNN)인 ResNet을 기반으로 하는 Faster R-CNN (faster regions with CNN) 탐색모형을 사용하였는데 이미지넷 (ImageNet)을 사전 학습한 가중치를 사용하고 초모수 (hyperparameter)를 격자탐색법 (grid search)으로 선택하였다. 그리고 모형 성능을 향상하기 위해 훈련자료와 검증자료는 이미지에 나타나는 여러 객체를 적절한 비율로 구성하였다. 제안된 모형의 AUC (area under curve)는 0.91로 아주 좋은 결과를 보이 는데, 제안된 모형으로 볼록총채벌레의 생태를 파악하여 보다 더 정밀한 방제가 이뤄질 수 있을 것으로 기대한다. 그리고 자료 키우기는 모형의 성능향상에 도움이 되지 않았다. 특징도의 심도 있는 분석과 모형을 효과적으로 사용자에게 서비스 할 수 있는 자동화된 시스템을 구축 하는 연구를 향후과제로 제안한다. References Cho, J., Choi, J., Qiao, Ji, C., Kim, H., Uhm, K. and Chon, T. (2007). Automatic identification of whiteflies, aphids and thrips in greenhouse based on image analysis. International Journal of Mathematics and Computers in Simulation, 346, 244. Deng, J., Dong, W., Socher, R., Li, L., Li, K. and Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. IEEE Computer Vision and Pattern Recognition (CVPR). Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C., Winn, J. and Zisserman, A. (2015). The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111, 98-136. Girshick, R. (2015). Fast R-CNN. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1440-1448. Girshick, R., Donahue, J., Darrell, T. and Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 580-587. He, K., Gkioxari, G., Dollar, P. and Girshick, R. (2017). Mask R-CNN. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2980-2988. He, K., Zhang, X., Ren, S. and Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification. In Proceeding of the 2015 IEEE International Conference on Computer Vision, 1026-1034.
1296 Donghwan Lee Kyungha Seok He, K., Zhang, X., Ren, S. and Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770-778. Hyun, J. W., Hwang, R. Y., Lee, K. S., Song, J. H., Yi, P. H, Kwon, H. M, Hyun, D. H. and Kim, K. S. (2012). Seasonal occurrence of yellow tea thrips, Scirtothrips dorsalis Hood (thysanoptera: thripidae) in citrus orchards and its damage symptoms on citrus fruits. Korean Journal of Applied Entomology, 51, 1-7. Krishna, H. and Jawahar, C. V. (2017). Improving small object detection. 4th Asian Conference on Pattern Recognition. Li, Z., Peng, C., Yu, G., Zhang, X., Deng, Y. and Sun, J. (2018). DetNet: A backbone network for object detection. arxiv preprint arxiv:1804.06215. Lin, T. Y., Goyal, P., Girshick, R., He, K. and Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2999-3007. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y. and Berg, A. C. (2016). SSD: Single shot multibox detector. European Conference on Computer Vision, 21-37. Martineau, M., Conte, D., Raveaux, R., Arnault, I., Munier, D. and Venturini, G. (2017). A survey on image-based insect classification. Pattern Recognition, 65, 273-284. Moon, C. B., Kim, B. M., Lee, J. Y., Hyun, J. W. and Yi, P. H. (2012). Detection of candidate areas for automatic identification of scirtothrips dorsalis. Journal of the Korea Industrial Information System Research, 17, 51-58. Radford, A., Metz, L. and Chintala, S. (2015). Unsupervised representation learning with deep convolutional generative adversarial networks. arxiv preprint arxiv:1511.06434. Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 779-788. Ren, S., He, K., Girshick, R. and Sun, J. (2016). Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 1137-1149. Salton, G. and McGill, M. J. (1986). Introduction to modern information retrieval, McGraw-Hill, New York. Simonyan, K. and Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arxiv preprint arxiv:1409.1556. Xia, C., Chon, T. S., Ren, Z. and Lee, J. M. (2015). Automatic identification and counting of small size pests in greenhouse conditions with low computational cost. Ecological Informatics, 29, 139-146.
Journal of the Korean Data & Information Science Society 2018, 29(5), 1287 1297 http://dx.doi.org/10.7465/jkdi.2018.29.5.1287 한국데이터정보과학회지 Detection of Scirtothrips with deep neural networks Donghwan Lee 1 Kyungha Seok 2 12 Department of Statistics, Inje University Received 9 August 2018, revised 17 September 2018, accepted 18 September 2018 Abstract In this paper, we study on a detection of Scirtothrips dorsalis Hood, which is classified as a major insect in citrus farming. The detection is based on the deep neural networks, specifically the Faster R-CNN (faster regions with CNN) model based on CNN (convolutional neural network), with the yellow sticky trap image data (250 150mm, 5472 3648pixels). It was found that the model performance becomes unstable when the object is too small and rare. In order to solve this problem, we use pretrained weights to set the initial value of the model, as well as we select hyperparameters by grid search. Result shows that our proposed model has an high AUC (area under curve) value 0.91. We expect that it would be possible to know more precisely the lifespan of the Scirtothrips dorsalis Hood and to control them more precisely through our proposed model. Keywords: Convolutinal network, deep learning, Faster R-CNN, object detection, Scirtothrips dorsalis Hood. This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education (NRF-2017R1E1A1A01075541). 1 Master of Science, Department of Statistics, Inje University, Gyungnam 50834, Korea. 2 Corresponding Author: Professor, Institute of Statistical Information, Department of Statistics, Inje University, Gyungnam 50834, Korea. E-mail: statskh@inje.ac.kr