저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우, 이저작물에적용된이용허락조건을명확하게나타내어야합니다. 저작권자로부터별도의허가를받으면이러한조건들은적용되지않습니다. 저작권법에따른이용자의권리는위의내용에의하여영향을받지않습니다. 이것은이용허락규약 (Legal Code) 을이해하기쉽게요약한것입니다. Disclaimer
공학석사학위논문 건너뛰기 합성곱 블록을 추가한 합성곱 신경망을 이용한 의료 영상 조밀 예측 Medical Image Dense Prediction using CNN with Skip Convolution 2018년 2월 서울대학교 대학원 전기 정보 공학부 최민석
공학석사학위논문 건너뛰기 합성곱 블록을 추가한 합성곱 신경망을 이용한 의료 영상 조밀 예측 Medical Image Dense Prediction using CNN with Skip Convolution 2018년 2월 서울대학교 대학원 전기 정보 공학부 최민석
건너뛰기 합성곱 블록을 추가한 합성곱 신경망을 이용한 의료 영상 조밀 예측 Medical Image Dense Prediction using CNN with Skip Convolution 지도교수 윤 성 로 이 논문을 공학석사 학위논문으로 제출함 2018년 2월 서울대학교 대학원 전기 정보 공학부 최민석 최민석의 공학석사 학위 논문을 인준함 2018년 2월 위 원 장: 이경무 (인) 부위원장: 윤성로 (인) 위 이종호 (인) 원:
초록 최근 딥 러닝 모델의 고도화와 파라메터 초기화, 정규화 기법 등의 발전을 발 판 삼아 조밀 예측 분야 또한 높은 성능을 거두고 있고, 의료 영상 분야에서도 EM 영상의 경계선 검출 문제나 Comet assay의 comet 분할과 같은 조밀 예측 연구들이 활발히 수행되고 있다. 본 논문에서는 의료 영상 분할 문제를 해결하기 위해 건너 뛰기 연결을 대체할 수 있는 건너뛰기 합성곱 블록을 제안하였다. 건너뛰기 합성곱 블록은 부호화 단계에서 추출되는 특징들과 복호화 단계에서 추출되는 특징들을 잘 융합할 수 있도록 잔류 경로를 포함한 합성곱 블록으로, 건너뛰기 연결을 대체하는 방식으로 모델에 적용할 수 있다. 본 논문에서는 제안된 모듈을 부호화-복호화 방 식의 FCN (Fully Convolutional Network)에 적용하여 부호화 단계의 특징과 복호화 단계의 특징이 잘 혼합되어 사용할 수 있는 모델을 설계하였다. 또한 의료 영상의 부족한 데이터 양을 보완하기 위하여 데이터 증강법을 효과적으로 수행하여 30장 이하의 적은 데이터에도 모델이 노이즈에 강인하고 뛰어난 일반화 성능을 가질 수 있도록 하였다. 제안된 모델은 코멧 분석 영상을 이용한 코멧 분할에서 기존 논문보 다 정밀도 (Precision) 측면에서 1%, 재현율 (Recall) 측면에서 3% 더 우수한 성능을 도출하였고, ISBI 2012 EM 데이터셋에서 Vinf o = 0.9620라는 결과를 도출하였다. 주요어: 의료 영상 분석, 조밀 예측, 기계 학습, 합성곱 신경망, 건너뛰기 합성곱, 데이터 증강법, 코멧 분석, ISBI EM 학 번: 2014-22583 i
목차 초록 i 표목차 3 그림목차 4 제 1 장 INTRODUCTION 5 1.1 Contribution.............................. 7 1.2 Organization.............................. 8 제 2 장 BACKGROUND 9 2.1 Convolutional Neural Networks: Layers................ 13 2.1.1 Fully-connected Layer..................... 13 2.1.2 Batch Normalizatioin Layer.................. 14 2.1.3 Activation Function....................... 15 2.2 Convolutional Neural Networks: Architectures............ 16 2.2.1 LeNet.............................. 16 2.2.2 AlexNet............................. 17 2.2.3 Fully Convolutional Networks (FCN)............. 17 2.2.4 U-net.............................. 19 제 3 장 METHODS 21 3.1 Proposed Network........................... 22 3.2 Data Augmentation........................... 26 1
제 4 장 EXPERIMENT SETUP 30 4.1 Comet Assay.............................. 30 4.1.1 Dataset............................. 30 4.1.2 Scoring Metric......................... 31 4.2 ISBI EM Dataset............................ 32 4.2.1 Dataset............................. 32 4.2.2 Scoring Metric......................... 33 4.3 실험환경................................ 35 제 5 장 RESULTS AND DISCUSSION 36 5.1 Comet Assay.............................. 36 5.2 ISBI EM Dataset............................ 41 제 6 장 CONCLUSION 44 참고문헌 46 ABSTRACT 55 2
표 목차 표 3.1 제안된 모델의 세부 사항..................... 24 표 5.1 코멧 분석 영상의 객체 분할 성능 비교............. 37 표 5.2 코멧 분석 영상의 객체 분할 IoU 성능 비교........... 38 표 5.3 뉴런 세포의 경계선 검출 성능 비교............... 42 3
그림 목차 그림 2.1 딥 러닝 이전의 기계 학습의 워크 플로............. 10 그림 2.2 딥 러닝 워크 플로........................ 10 그림 2.3 FingerNet의 전체 프레임 워크.................. 11 그림 2.4 LeNet 모델의 구조 개요..................... 17 그림 2.5 AlexNet 모델의 구조 개요.................... 18 그림 2.6 FCN 모델의 구조 개요...................... 19 그림 2.7 U-net 모델의 구조 개요..................... 20 그림 3.1 제안된 네트워크 학습 방법의 개요............... 21 그림 3.2 부호화 단계에서 추출되는 저수준 특징의 예시......... 22 그림 3.3 제안된 모델의 구조 개요..................... 23 그림 3.4 건너뛰기 합성곱 블록의 구성.................. 25 그림 3.5 데이터 증강법 워크 플로우................... 27 그림 4.1 Comet assay 영상의 예시..................... 31 그림 4.2 sstem 영상과 분할 영상의 예시................. 33 그림 5.1 Comet assay: 예시 데이터와 정답, 본 모델의 결과값...... 36 그림 5.2 Comet assay: 실험 조건별 비교................. 39 그림 5.3 ISBI EM: 예시 데이터와 정답, 본 모델의 결과값........ 41 4
제 1 장 INTRODUCTION 인공지능 연구에 있어 인간의 뇌를 이해하는 것은 매우 중요하다. 인간의 지능은 현존하는 지능 중 가장 우수하고, 지능이 어떻게 구현될 수 있는 지 이해할 수 있는 중요한 단서를 제공한다. 또한 인간의 뇌를 모방하는 데에서 인공지능 분야에서 도 약이 일어날 수 있다. 이러한 인간의 뇌를 이해하기 위해서는 뇌를 구성하는 뉴런의 역할과 이들의 연결성을 이해하는 것이 선행되어야 한다. 그러나 이들 뉴런은 매우 작고 빽빽하게 자리잡고 있어 뉴런을 재구성하는 과정은 많은 인력을 필요로 하여 1000 여개의 뉴런에 20,000 시간이 걸릴 정도다. [1] 딥 러닝이 각광을 받으며 우수한 성능을 앞세워 다양한 분야의 문제들에 적용 되고 있고, 그 어느 때보다 인공지능에 대한 관심이 높아지고 있다. 인공신경망은 그 이름처럼 인간의 뉴런을 모방하는 것으로 [2] 시작되어 이후 다양한 인공 신경 망(Neural Network) 연구가 [3, 4] 이어지며 발전되었다. 인공 신경망에 대한 학습 문제가 많이 해결되며 깊은 인공 신경망 (Deep Neural Network)은 여러 분야에서 높은 성능을 내도록 발전되었고, 딥 러닝과 인간의 뇌의 작동 방식의 연관성에 대 한 연구도 [5] 활발히 진행되고 있지만, 딥 러닝이 발전되는 방향은 뇌와 같아지는 방식이라기 보다는, 딥 러닝이라는 독자적인 연구 분야에서의 발전에 가깝다. 최근 sstem (serial section Transmission Electron Microscopy) 기술의 발달 [6, 7] 로 전자 현미경으로 큰 규모의 뉴런 세포들의 단층 촬영 영상을 정확하게 얻어낼 수 있게 되었다. 얻어진 단층 영상에 대하여 픽셀 단위로 라벨 예측을 수행하는 조밀 예측 (Dense prediction) [8] 문제를 풀어 경계와 뉴런을 구분하고, 얻어낸 2차원 경 계 영상을 잘 이어 붙인다면 뉴런의 3차원 구조를 재구성해낼 수 있다. 2차원 뉴런 단층 촬영 영상을 조밀 예측할 때 사람이 라벨링하는 대신 이를 자동화할 수 있다면 3차원 구조를 재구성하는 데 필요한 수고가 매우 큰 폭으로 줄 수 있다. 또한 인간 뇌 전체의 신경망 연결을 매핑하는 것도 더 이상 불가능한 일이 아닐 수 있다. 또한 5
DNA 손상 정도를 측정하기 위해 널리 사용되는 코멧 분석 영상에서 코멧 분할을 자동화할 수 있다면 관련 분야의 진보 또한 더욱 더 가속화할 수 있다. 본 논문에서는 DNA 손상 정도를 검사하기 위한 코멧 분석 영상에서의 코멧 검 출과 전자 현미경을 이용한 연속 절편 촬영 영상들에 대한 입력 영상의 각 지점의 경계/비경계로의 이항 분류, 즉 의료 영상 밀집 분류 (Dense classification) 문제에 집중하였다. 밀집 분류 문제의 경우, 일반적인 분류 문제와 달리 픽셀 단위까지 밀도 있게 예측해야 하는데, 문제 해결이 여러 방식으로 이뤄질 수 있다. 간단하게는 입력 영상의 중앙 픽셀 혹은 근방의 픽셀을 라벨링하는 방식부터, 찾고자 하는 목표물을 객체 검출 등의 기법을 이용하여 경계 사각형 (Bounding box)를 내놓고, 해당 박스 내의 물체의 분류과 마스크를 도출하는 방식 [9]까지 다양한 방법론이 존재한다. 의료 영상 밀집 분류 문제는 컴퓨터 비전 분야의 영상 분할 (Image segmentation) 문제와 픽셀 단위 분류 (Pixel-wise classification) 문제라는 측면에서 [8] 유사한 면 이 있다. 컴퓨터 비전 분야에서는 FCN (Fully Convolutional Network) [10] 가 등장 하며 End-to-End 픽셀단위 분류 문제가 일부 해결되었다. 이후 전치 합성곱 계층 (Transposed convolutional layer) [11]을 부호화 부분에 사용한 모델 [12]이 등장하며 부호화-복호화 형태의 딥 러닝 모델이 Semantic segmentation 문제를 풀기 위한 기본 모델이 되었다. 그리고 부호화 단계와 복호화 단계 사이에 대칭적인 건너뛰기 연결 을 추가한 U-Net [13]이 새로운 state-of-the-art 성능과 함께 등장하며 표준 모델로 자리잡았다. 이후 U-Net 의 합성곱 신경층 일부를 잔류 블록 (Residual block) [14] 으로 대체한 연구들 [15, 16, 17]이 등장하는 등 활발하게 연구되고 있다. 이 논문에서 중점적으로 다룰 주제는 적은 수의 의료 영상을 이용한 합성곱 신 경망 (Convolutional Neural Network)의 End-to-End 학습 및 조밀 예측 과제의 수행 이다. 이를 위해 본 연구에서는 건너뛰기 연결을 대체할 수 있는 건너뛰기 합성곱 블록을 제안하고 이를 바탕으로 깊은 구조의 네트워크를 설계하였다. 설계된 모델 은 코멧 분석 영상 [18]과 ISBI Challenge 2012의 2D EM stack 데이터 [19]를 사용 하여 이항 조밀 예측 과제을 수행하여 검증하였다. 학습에 사용된 코멧 분석 영상의 6
학습 데이터셋의 수는 28개, EM 영상의 학습 데이터셋의 수는 30개다. 딥 러닝 모 델 학습에 널리 사용되는 데이터셋 중 가장 간단한 숫자에 대한 데이터셋인 MNIST [20] 데이터셋이 학습 데이터셋 6만 장과 시험 데이터셋 1만 장의 영상을 포함하고 있음을 생각하면 이는 매우 적은 숫자이다. 별도의 사전 학습 절차를 거치지 않는 무 작위 초기화 후 End-to-End 방식의 딥 러닝 모델 학습 방법을 테스트하기 위하여, 본 연구에서는 의료 영상 조밀 예측 데이터에 적합한 데이터 증강법을 사용하여 데이 터의 양적인 부족함을 채우고, 단일 채널 흑백 영상을 전처리를 최소화하고 딥 러닝 모델의 역할이 최대한 발휘될 수 있도록 모델을 설계하는 것에 초점을 맞췄다. 본 논문에서 제시한 모델은 코멧 분석 영상에서 최신 연구 결과보다 정밀도 (Precision) 측면에서 1%, 재현율 (Recall) 측면에서 3% 더 우수한 성능을 도출하였고, ISBI EM 데이터에서 상호 정보량 기반 경계선 검출 정확도 평가 기준에서 Vinf o = 0.9620 로 최신 기법들의 성능에 약 2% 부족한 결과를 도출하였다. (Vinf o 에 대한 자세한 설명은 4장에 서술하였다) 1.1 Contribution 본 논문에서 제안한 사항은 다음과 같다. 첫째로, 건너뛰기 합성곱 블록을 제안하여 부호화 단계에서 추출되는 특징과 복호화 단계에서 추출되는 특징을 더 잘 결합할 수 있는 모듈을 제안하였다. 의료 영상 조밀 예측의 경우 U-net [13]의 등장 이후 다 양한 연구들 [15, 16, 17]에서 건너뛰기 연결이 사용되었지만 대부분 부호화 단계의 특징을 복호화 단계의 특징에 단순히 더하거나 덧붙이는 기존의 방식을 고수하고 있다. 본 논문에서는 여기서 한 걸음 더 나아가 부호화 단계의 저수준 특징과 복호화 단계의 고수준 특징이 잘 융합될 수 있도록 건너뛰기 합성곱 블록을 제안하였다. 또 한 건너뛰기 연결을 대체할 수 있는 합성곱 블록을 제안함으로써, 건너뛰기 연결을 사용하는 다양한 딥 러닝 모델에 별도의 모델 구조 변화 없이 적용될 수 있게 하였 다. 본 논문에서 제안한 건너뛰기 합성곱 모듈은 기존의 건너뛰기 연결과 같은 입력/ 7
출력 채널을 갖고 있고, 잔여 경로를 포함하는 구조로 건너뛰기 연결과 완벽하게 호환된다. 둘째로, 의료 영상 조밀 예측을 위하여 적은 양의 데이터를 보완할 수 있도록 다양한 데이터 증강법을 결합하여 데이터 증강법을 수행하였다. 많은 논문들에서 의료 영상 분야의 데이터 부족 문제를 해결하기 위하여 데이터 증강법을 시도하고 있지만 데이터 증강법을 구성하는 알고리즘들에 대한 작업 순서를 상세히 열거하는 경우는 찾아보기 쉽지 않다. 본 논문에서는 의료 영상에 대해 다양한 데이터 증강법 을 이용하여 부족한 데이터를 보완하고, 적용 방안을 제안하였다. 1.2 Organization 1장에서는 본 연구의 중요성과 해결하고자 하는 문제, 그리고 본 연구에서 제안한 방법론에 대한 기여도를 서술하였다. 2장에서는 딥 러닝 모델을 구성하는 인공 신경 망 계층과 본 연구를 하는 데 중요한 역할을 한 딥 러닝 모델들에 대해 서술하였다. 3장에서는 본 연구에서 제안한 딥 러닝 모듈과 이를 기반으로 설계한 딥 러닝 모델 을 서술하였고 의료 영상에 필수적인 데이터 증강법을 본 연구에서 적용한 방법에 대해 서술하였다. 4장에서는 실험을 수행한 두 가지 데이터셋에 대한 설명과 이를 평가하기 위한 기준에 대해 설명하고, 실험을 수행한 환경에 대해 서술하였다. 5 장에서는 수행한 실험을 바탕으로 결과에 대해 논의하고 제안된 방법론의 장점과 단점에 대해 서술하였다. 마지막으로 6장에서는 결론에 대해 서술하였다. 8
제 2 장 BACKGROUND 2012년 A Krizhevsky의 SuperVision [21] 팀이 ImageNet [22] Classification 부문에서 2위와 10 % 의 성능 차이로 1등을 차지한 이후, 딥 러닝에 대한 관심은 해가 갈 수록 높아져왔다. 자연 이미지 분류를 선두로, 객체 검출, 물체 탐색과 객체 분할 등 많 은 영상 처리 분야에 딥 러닝이 적용되어 왔고, Speech-to-Text, 자연어 처리, 자연어 이해, Text-to-Speech 등 음성인식과 합성, 자연어 인식 분야에서도 딥 러닝은 강력 한 힘을 발휘했다. 체스와는 달리 막대한 경우의 수 때문에 이전까지는 불가능이라 여겨졌던 바둑도 강화학습과 딥 러닝을 접목한 알파고 [23, 24]를 통해 정복되었다. 딥 러닝은 2000년대에 처음 나온 것이 아니다. 딥 러닝 모델 학습에 사용되는 오류 역전파 기법은 1989년 LeCun의 논문 [25]에서 숫자를 인식하는데 사용되었다. 이후 딥 러닝의 수많은 파라메터를 학습시키는 문제가 Glorot 초기화 기법 [26], He 초기화 기법 [27] 등으로 대표되는 개선된 매개변수 초기화 기법들과 드롭아웃 [28], 배치 정규화 (Batch Normalization) [29] 등으로 대표되는 regularization 기법 등의 발 달로 해결되었다. 이와 더불어 ImageNet [22], COCO 데이터셋 [30]으로 대표되는 딥 러닝 모델을 학습시키기 위한 큰 규모의 공개 데이터셋들과 수 많은 파라메터 를 학습시키는 데에 GPU 연산이 도움을 줌에 따라 딥 러닝의 학습에 관한 문제가 상당부분 해소되었고, 딥 러닝이 많은 문제를 해결하는 데에 사용되기 시작하였다. 전통적인 컴퓨턴 기법들이 기계학습으로, 또 딥러닝으로 대체되면서 문제 해결 에 대한 패러다임도 바뀌게 되었다. 전통적인 컴퓨터 비전 연구에서는 잘 작동하는 알고리즘을 찾기 위한 많은 연구가 진행되었다. 모서리 검출 기법과 관련된 survey 논문들 [31, 32]에서 보면 알 수 있듯이, 많은 연구들에서 더 좋은 모서리 검출기를 찾기 위해 다양한 평활화 필터를 다양한 매개변수를 이용하여 적용하고, 적절한 합 성곱 필터를 적용하거나 영상 경사도를 적용하였다. 더욱 더 강건한 필터를 찾기 위한 모서리 검출 (Edge detection) 문제에 대해 컴퓨터 비젼 분야에서는 여러 연구 9
그림 2.1: 딥 러닝 이전의 기계 학습의 워크 플로 [35] 그림 2.2: 딥 러닝 워크 플로 [35] 가 이뤄졌다. 이후 기계학습을 이용하여 데이터에 기반한 Haar 특징 기반 캐스케 이드 분류기 [33]나 Bag of visual words [34] 기법들이 등장하는 등 필터 그 자체를 연구하는 것 외에 잘 작동하는 필터를 잘 추출해내는 방법에 대한 연구가 활발히 이루어졌다. 딥러닝이 대두되기 전의 기계학습에서는 데이터를 분석하여 최적의 특징들을 잘 추출해내는 것이 중요했다. 그림 2.1와 같이 논리적으로 필요한 특징들을 고안 한 후 그에 알맞은 특징들을 뽑아낼 수 있는 모델들을 설계하고, 얻어낸 특징들을 잘 이어 붙여 좋은 성능을 도출해 내곤 하였다. 딥러닝이 높은 성능과 함께 기존 기 계학습의 새로운 대안으로 등장한 후, 기계학습의 패러다임은 점차 변하였다. 자료 주도적인 방식, 즉 기계학습으로 특징을 뽑아낸다는 점은 같았지만, 전통적인 기계 학습의 기존의 연구자가 직접 고안한 특징를 대체하는 수준을 넘어 그림 2.2와 같이 특징 그 자체와 그들의 역할까지 학습하는 End-to-End 방식으로 기법들이 진화한 것이다. 많은 컴퓨터 비전 처리 분야에서 이제 딥 러닝은 전통적인 영상 처리 기법과 이 미 큰 격차를 벌리고 있다. 널리 사용되는 딥 러닝 기법 중 하나인 합성곱 신경망은 입력 데이터를 합성곱 필터를 이용하여 처리하는 합성곱 계층 [36]를 주로 사용하는 딥 러닝 모델이다. 합성곱 신경망은 그 월등한 성능을 통해 점점 더 많은 분야에서 10
그림 2.3: FingerNet의 전체 프레임 워크 [39] 전통적인 이미지 처리 기법을 대체하고 있다. 모서리 검출에 대한 연구 [37]나 영 상 매팅 (Image matting)에 대한 연구 [38] 등 전통적인 이미지 처리 기법이 인간이 고안한 필터를 사용하는 것과 다르게 합성곱 신경망은 목적에 적합한 필터를 데이 터들로부터 학습을 통해 만들어낼 수 있다. 의료 영상을 컴퓨터로 분석할 수 있게 된 후로 1970년대부터 컴퓨터 비전 기법을 이용하여 의료 영상 분석이 연구되어왔고 [40], 1980년대 말부터 머신 러닝 기법을 이용한 연구 [41]가 등장하였다. 의료 영상들을 분석하여 구분하고자 하는 라벨들에 따라 나눠진 데이터들로부터 패턴, 즉 특징들을 추출하고 이를 이용하여 데이터를 분석하는 방법 등이 이에 해당한다. 컴퓨터 비전 기법을 사용하여 활발히 연구되는 의료 영상 분야에 딥 러닝이 적용되는 것은 자연스러운 일이다. 1990년대에 의료 영상 분석에 합성곱 신경망을 적용한 [42] 이후로, 컴퓨터 비전 기법의 발달과 의료 영상 분석 기법의 발달은 서로에 영향을 주며 나란히 발전되어왔다. 딥 러닝이 의료 영상 분석에 적용될 때에도 단번에 End-to-End로 적용되지는 않았다. 대부분의 컴퓨터 비전 분야와 마찬가지로, 단계적으로 기존에 사용되던 연 구자가 직접 고안한 특징들 혹은 딥 러닝 이전의 최근의 패턴 인식의 특징들을 대체 11
하는 방식으로 연구가 진행되었다. 손 X-ray 영상으로부터 관절을 찾는 문제를 푸는 데에 딥 러닝을 적용한 FingerNet [39] 논문을 보면, 전처리 (preprocessing) 단계와 FE (finger extraction) 단계의 경우 기존의 컴퓨터 비전 기법으로 문제를 해결하고, JD (joint detection) 단계에서 patch-wise 관절/비관절 분류에 딥 러닝을 사용한다. (그림 2.3) 또한 적용된 딥 러닝 모델 역시 단독으로 쓰이기보다는 피크 검출 기법을 함께 접목하여 문제를 해결한다. 딥 러닝이 발전하며 컴퓨터 비전 분야와 함께 의료 영상 분석에도 End-to-End 딥 러닝 모델이 적용되기 시작했다. 영상 분할이나 semantic segmentation, 거리 예측 과 같이 픽셀 단위로 라벨을 예측해야 하는 조밀 예측 문제 [8]들의 경우, 2014년에 Semantic segmentation 분야에서 FCN (Fully Convolutional Networks) [10] 이 제안 되었다. 이후, 2015년 각각 컴퓨터 비전 분야의 Semantic segmentation [12]과 의료 영상 분석 분야의 EM 스택 경계 분할 문제 [13]에 대해 부호화-복호화 구조의 CNN 이 제안되었다. 전자는 복호화 단계에 전치된 합성곱 계층를 사용함으로써 End-toEnd 합성곱 신경망 모델을 조밀 예측 문제에 성공적으로 적용시켰고 후자는 부호화 단계와 복호화 단계 사이에 여러 건너뛰기 연결 (skip-connection) 들을 이어줌으로 써 로컬 특징 (local feature)과 글로벌 특징 (global feature)을 적절히 사용하여 높은 성능 을 이끌어냈다. U-net 등의 여러 선구적인 시도들 덕분에 의료 영상에 대한 조밀 예측 문제에 알 맞은 딥 러닝 모델을 연구하는 것이 한층 쉬워지고, 이후 다양한 연구들이 발표되었 다. 그러나, U-Net의 구조를 차용하되 기존의 네트워크보다 더 깊어지고, 이를 만회 하기 위해 잔류 경로 (Residual connection) 등을 도입하는 방식의 연구들 [15, 16, 17] 이나 여러 결과들을 앙상블 하여 좋은 결과를 얻는 방식 [43], 여러 단계의 네트워 크를 이용하여 결과를 점점 개선하는 방식 [44] 등이 등장하였지만, 부호화 단계의 특징들과 복호화 단계의 특징들을 결합하는 방법에 대한 연구는 미흡하였다. 뉴런 의 세포벽의 분류에 있어 경계선과 같은 저수준 특징점들의 중요성을 생각해볼 때, 고수준 특징점들을 뽑기 위해 사용되는 부호화 단계에서 추출되는 특징들 이외에 그 12
자체로 경계선 검출에 큰 영향을 미칠 수 있는 특징을 잘 뽑는 것은 매우 중요하다. 본 연구에서는 부호화 단계의 특징과 복호화 단계의 특징을 이어붙이거나 더하는 대신에, 이들을 더 잘 융합할 수 있도록 건너뛰기 합성곱 블록을 도입하여 기존의 방법들을 개선시켰다. 건너뛰기 합성곱 모듈이 완전히 새롭게 제안된 것은 아니다. 의료 영상 조밀 예 측 문제와 같이 부호화 단계의 특징과 복호화 단계의 특징을 잘 융합하는 게 중요한 자세 추정 [45], 거리감 추정 [46] 등의 여러 조밀 예측 분야에서 유사한 방법들이 시도되고 있다. 부호화 단계에서 추출되는 특징과 복호화 단계에서 추출되는 특징 을 융합하기 위해 주요한 합성곱 신경망 경로 외에 별도의 합성곱 모듈을 이용하여 거리가 먼 특징들을 연결하는 방식들이 조금씩 제안되고 있지만, 의료 영상 분야의 경우 아직 그러한 시도가 없는 실정이다. 2.1 Convolutional Neural Networks: Layers 본 논문에서 다룰 합성곱 신경망 (Convolutional Neural Network)은 다양한 계층과 함수들의 조합으로 이루어진다. 이 절에서는 합성곱 신경망에서 주로 사용되는 계 층들에 대한 설명으로 할애한다. 2.1.1 Fully-connected Layer 가장 간단한 형태의 딥 러닝 모델로 MLP (Multi-layer perceptron)를 들 수 있다. 이 때 MLP를 이루는 요소에는 완전 연결 은닉 계층 (Fully-connected layer)과 활성화 함수 P 가 있는데, 여기서 완전 연결 은닉 계층은 선형 결합 부분으로 수식 2.1의 j wji xj 에 해당한다. 순수하게 완전 연결 은닉 계층만 쌓은 모델의 경우 선형 결합을 여러 번 선형 결합한 결과는 결국 선형 결합으로 표현될 수 있으므로 해당 모델과 수학 적으로 동일한 한 층 짜리 완전 연결 은닉 계층이 존재한다. 따라서 완전 연결 은닉 계층를 사용하는 경우 비선형성을 더해주기 위하여 완전 연결 은닉 계층 이후 활성 13
화 함수가 함께 사용한다. 활성화 함수의 경우 수식 2.1의 σ()에 해당한다. 여기서 i 는 입력단의 채널, j는 출력단의 채널을 가리킨다. yj = σ X wij xi ) + bj (2.1) i 2.1.2 Batch Normalizatioin Layer 배치 정규화 계층 [29]은 입력/출력 값의 분포를 정규화 시킴으로써 내부의 공분산 변화를 줄인다. 이 간단한 아이디어를 통해 딥 러닝 모델의 경사 하강법의 경사도 흐름이 획기적으로 개선되고 학습이 더 빠르고 좋은 결과를 내놓는 것이 실험적으 로 증명되었다. [29] 배치 정규화 계층이 등장한 이후, 이 정규화 계층은 드롭아웃 (Drop-out) [28]을 대체하게 된다. 주로 합성곱 신경 계층 이후 배치 정규화 계층이 사용되고, 배치 정규화 계층 이후에 활성화 함수가 적용되는 식으로 많은 모델에서 사용된다. 배치 정규화는 다음과 같이 수행된다. 한 배치의 데이터 개수가 m이고 xi 가 각 각의 입력 데이터라 할 때, 식 2.2에서 배치 단위 (B)의 평균 값을 구하고, 식 2.3에서 배치 단위 (B)의 분산 값을 구한다. 이를 기반으로 식 2.4와 같이 입력 값을 정규화한 다. 마지막으로, 학습 가능한 변수인 β, γ를 이용하여 선형 결합한 결과를 내놓는다. m µb 1 X xi m (2.2) i=1 σb2 1 m m X (xi µb )2 (2.3) i=1 xi µb x i q σb2 + (2.4) yi γ x i + β BNγ,β (xi ) (2.5) 14
2.1.3 Activation Function 완전 연결 은닉 계층을 사용하는 경우, 특징들 간의 관계가 선형 결합으로 표현되므 로 모델을 수식적으로 분석하기 쉽지만 비선형성을 포함한 함수를 표현할 수 없다는 한계가 있다. 단적인 예로, 완전 연결 은닉 계층만을 사용해서는 배타적 논리합 함 수를 표현할 수 없다. 따라서, 딥 러닝 모델에서는 ReLU [47]와 같은 활성화 함수 (Activation function)을 이용하여 모델이 비선형 함수도 모방할 수 있게 하였다. [48] Sigmoid [49] 시그모이드 (Sigmoid) 함수는 S 모양 곡선을 그리는 수학 함수를 통칭한다. 따라서, 때에 따라 시그모이드 함수는 로지스틱 (Logistic) 함수 (수식 2.6) 를 가리키거나 하이퍼볼릭 탄젠트 (Hyperbolic tangent) 함수 (수식 2.7)를 가리키고, 혹은 다른 함수들을 가리킬 수 있다. 일반적으로 시그모이드 함수는 실수 함수이고 단조 증가이며 모든 점에서 미분 가능한 특성을 가지고 있다. 또한 x ± 의 경 우에 수평 점근선에 수렴하는 특성을 가지고 있다. 모든 점에서 미분 가능한 특성과 (0, 1) 혹은 (-1, 1) 범위의 결과 값을 얻을 수 있다는 특성 덕분에 시그모이드 함수는 활성 함수로 많이 사용되고 잇다. f (x) = 1 1 + e x f (x) = tanh x = ReLU [47] ex e x ex + e x (2.6) (2.7) ReLU (Rectified Linear Unit)은 입력 데이터의 양수 부분만 통과시키고 그 외의 경우 0으로 바꿔서 출력하는 함수로, 수학적으로 상당히 단순하지만(Equation 2.8) 딥 러닝 모델의 학습을 매우 가속시킬 수 있음이 실험적으로 증명되었다. [21] ReLU는 연산량이 매우 적다는 장점이 있어, 입력이 0 이하인 경우 경사도가 0이기 때문에 경사 하강법을 통해 계산된 경사 하강법의 경사도의 흐름이 없다는 단점에도 불구하고 일반적으로 많이 사용되고 있다. 15
f (x) = max(0, x) (2.8) Leaky ReLU [50] ReLU의 가장 큰 단점 중 하나는 입력이 0 이하인 지점에서 미 분 값이 0이기 때문에 경사도가 0이 되어 경사 하강법의 값이 전달되지 않는다는 것이다. 이러한 dying ReLU 문제를 해결하기 위해 입력이 0 이하일 때 출력을 0 으로 하는 대신, 작은 경사도(a)를 갖도록 한 것 (수식 2.9)이 Leaky ReLU와 ReLU 의 가장 큰 차이점이다. 여기서 경사도 a는 10 1, 10 2 정도의 작은 값을 사용한다. 수행하는 과제와 모델의 구조에 따라 다르겠지만, Leaky ReLU의 경우 여러 분야에 걸쳐 좋은 성능을 내는 것으로 알려져 있다. [51] f (x) = max(ax, x) (2.9) Leaky ReLU에서 사용하는 작은 경사도 a에 상수를 사용하는 대신 학습 가능한 값을 사용할 수 있는데, 이러한 Leaky ReLU를 PReLU [27]라 한다. 2.2 2.2.1 Convolutional Neural Networks: Architectures LeNet LeNet [20]은 1998년 제안된 딥 러닝 모델로, 딥 러닝 붐이 일기 전의 모델 중 가장 성공적인 모델 중 하나로 여겨지는 모델이다. 합성곱 신경계층과 풀링 계층을 번갈 아 쌓은 후 모델의 뒷부분에서 완전 연결 은닉 계층를 다수 사용하는 구조로, 이후 AlexNet [21]부터 다른 많은 CNN 모델까지 이와 같은 구조로 모델을 디자인하게 된 시초가 되는 모델이다. 다만, 가장 많은 채널 수가 16개이거나 연산량의 부족 등의 이유로 합성곱 계층이 채널들끼리 완전히 연결되어 있지 않는 등, 2010년대 이후의 현대의 딥 러닝 모델들과는 다소 간극이 있는 편이다. 16
그림 2.4: LeNet 모델의 구조 개요 [20] 2.2.2 AlexNet AlexNet [21]은 2012년 ImageNet competition에서 자연 영상 분류 분야에서 딥러 닝을 사용하지 않은 2등을 10 퍼센트에 가까운 큰 성능 차이로 따돌리고 당해년도 우승을 거머쥔 모델이다. 합성곱 인공신경망의 초반부 합성곱 계층의 커널의 크기 를 크게 가져가고, 이후 데이터의 폭과 높이는 줄이고 채널 수는 점점 많아지는 추세 등, 최근 영상 분류 모델에서도 통용되는 여러 디자인적인 규칙들을 이 논문에서도 볼 수 있다. 당시 사용하던 GPU 메모리의 한계로 인해 합성곱 신경망이 서로 완전히 연결되지 않고 두 개의 그룹으로 나눠진 채로 수행된다. 이후 GPU 연산량과 메모리 가 크게 증가하게 되고, 후속 논문들을 통해 합성곱 신경망을 그룹으로 나누지 않는 것이 성능에 더 좋은 영향을 준다는 것이 밝혀졌다. 그러나 최근 적은 연산량과 매개 변수를 사용하며 높은 성능을 내고자 하는 ShuffleNet [52] 등의 논문에서 AlexNet 에서 한 것과 같은 그룹 합성곱 계층이 사용되고, 비슷한 성능을 내면서도 연산량을 크게 줄일 수 있음이 실험적으로 증명되고 있는 추세이다. 2.2.3 Fully Convolutional Networks (FCN) 합성곱 신경망의 성능은 물체 인식과 같은 적은 갯수의 라벨을 성공적으로 인식하 는 데에서 그치지 않고, FCN [10]의 등장과 함께 입력 영상에 비견될 수 있을 정도의 큰 데이터의 라벨링을 수행하는 조밀 예측 과제에 합성곱 신경망을 적용할 수 있는 17
그림 2.5: AlexNet 모델의 구조 개요 [21] 길이 열렸다. 조밀한 예측값을 내놓기에 기존 합성곱 신경망에는 몇가지 한계가 있 었다. 합성곱 신경망의 경우, 더 좋은 결과 값을 도출하기 위해서는 합성곱 신경망이 데이터를 인식할 수 있는 수용 영역이 넓어야 한다. 그런데 만약 풀링 (pooling)이나 스트라이드 (stride) 2 이상의 합성곱 신경망을 사용하지 않는다면, 3 3 크기 커널 의 합성곱 신경망을 7층 쌓아야 15 15에 해당하는 수용 영역을 갖게 된다. 합성곱 신경망을 더 깊게 쌓아서 32층을 쌓는다 하여도 65 65에 해당하는 수용 영역만을 가질 수 있게 된다. 그러나 최근 합성곱 신경망의 경우 200 200 이상의 영상을 입력 받는 경우가 대부분이다. [21] 위와 같은 이유로 풀링이나 스트라이드를 사용한다면 다른 문제가 떠오른다. 만 약 2 2 스트라이드를 5번 사용한다면 영상의 크기는 너비와 높이 모두 1/32 정도로 축소된다. 128 128 픽셀의 입력 영상의 경우 겨우 4 4 크기의 커널에 고수준 특징 이 저장되어 있게 된다. 따라서 이를 다시 입력 영상의 크기에 준하는 출력을 낼 수 있도록 확대하는 방법이 필요하다. FCN의 경우, 이를 위해 축소된 커널의 특징과 축소되기 전의 커널의 특징들을 융합하는 방식으로 저 수준 특징들을 복원하고자 하였다. 이 방법은 큰 성능 향상을 가져왔고, 합성곱 신경망을 이용한 조밀 예측 문 제의 새로운 전기를 마련하게 되었다. 18
그림 2.6: FCN 모델의 구조 개요 [10] 2.2.4 U-net FCN의 등장과 함께 합성곱 신경망을 이용하여 조밀 예측 문제를 풀 때 큰 크기의 커널을 갖는 저수준 특징과 작은 크기지만 넓은 수용 영역을 갖는 고수준 특징을 융합하는 것으로 문제를 해결할 수 있음이 알려졌다. 이에 따라 여러 논문에서 다 양한 방법으로 이들을 융합하고자 하는 시도가 나타났다. U-net [13]은 그 중에서 의료 영상의 경계선 검출 문제에 대해 직관적인 방식의 저수준-고수준 특징 융합 방 식을 제안한 논문이다. 그림 2.7을 보면 좌우 대칭적인 구조와 함께 부호화 단계의 특징을 같은 층위에 해당하는 복호화 단계의 특징들에 덧붙이는 방식으로 저수준 특징과 고수준 특징을 융합하였다. 이러한 구조는 이후 FusionNet [15] 등을 통해 수정 보완되며 발전하였다. 19
그림 2.7: U-net 모델의구조개요 [13] 20
제 3 장 METHODS 본 논문에서 제안하는 (그림 3.1) 건너뛰기 합성곱 블록은 부호화 단계에서 추출되는 특징과 복호화 단계에서 추출되는 특징을 더 잘 융합하기 위해 기존의 건너뛰기 연 결을 대체할 수 있는 형태로, 잔류 경로를 포함한 합성곱 모듈 (그림 3.4)로 구성되어 있다. 일반적으로 부호화 단계에서 추출되는 특징의 경우 인근 픽셀들의 관계를 잘 표현할 수 있도록 점, 선, 간단한 도형과 특징들을 갖게 되고, 복호화 단계에서 추출 되는 특징의 경우 넓은 수용 면적을 가지며 인식하고자 하는 객체의 형태와 유사한 특징을 갖게 된다. 조밀 예측 과제를 수행하는 경우, 객체 분류 과제를 수행하는 경 우와 마찬가지로 우수한 고수준 특징을 학습하는 것이 성능을 크게 좌우한다. 이에 더하여, 정밀한 조밀 예측 결과를 얻어내기 위해서는 그림 3.2에 나와있는 것과 같 은 점, 선과 같은 저수준 특징들을 잘 융합하여 사용하는 것이 추가적인 성능 향상에 크게 기여할 수 있다. 본 논문에서 제안하는 건너뛰기 합성곱 블록은 이러한 조밀 예측 과제에 적합하 도록 특징을 융합해내기 위하여 부호화 단계에서 추출되는 특징이 추가적인 합성곱 신경계층을 통과하도록 하고, 이에 잔류 경로를 더해줌으로써 고수준 특징과 성공 적으로 융합될 수 있는 특징이 학습되도록 하였다. 건너뛰기 합성곱 블록은 실험적 그림 3.1: 제안된 네트워크 학습 방법의 개요 21
으로 결정된 총 세 개의 합성곱 신경계층과 잔류경로로 이루어져 있어 그 구조는 일반적인 잔류 합성곱 신경 블록과 대동소이하다. 둘 사이의 차이는 부호화-복호 화 구조의 합성곱 신경망에서 부호화 단계에서 추출되는 특징과 복호화 단계에서 추출되는 특징을 융합하기 위함과 순차적으로 학습되는 특징을 융합하기 위함에 있 다. 본 모델에서는 기존의 잔류 합성곱 신경 블록에 더불어 제안된 건너뛰기 합성곱 블록을 함께 사용하여 모델을 구성하였다. 3.1 Proposed Network 본 연구에서 제안한 모델의 네트워크 구조는 그림 3.3과 같다. 조밀 예측 과제를 수행 할 때 일반적으로 사용되는 부호화-복호화 구조를 채택하였다. 부호화 단계는 하강 합성곱 (Down Convolution) 블록 4개로 이루어져 있고 복호화 단계도 마찬가지로 상승 합성곱 (Up Convolution) 블록 4개로 이루어져 있다. 그 사이를 핵심 합성곱 (Core Convolution) 블록과 건너뛰기 합성곱 (Skip Convolution) 블록 두 개가 이어 주고 있다. 이 외에도 표 3.1에는 표시되지 않았지만 건너뛰기 합성곱을 사용하지 않은 건너뛰기 연결이 두 개가 더 있다. 합성곱 신경 계층은 배치 정규화 계층과 활 성화 함수와 함께 사용하였다. 활성화 함수로는 실험을 통해 Leaky ReLU와 ReLU 를 섞어서 사용하는 것으로 결정하였다. 그림 3.2: 부호화 단계에서 추출되는 저수준 특징의 예시 [53] 22
그림 3.3: 제안된 모델의 구조 개요 건너뛰기 합성곱의 경우 (그림 3.4), 딥 러닝 모델의 연산량을 고려하여 기존 의 건너뛰기 연결 중 절반에 해당하는 연결에 대해 대체하여 사용하였다. 건너뛰기 합성곱은 일반적인 U-net 구조와의 차이는 건너뛰기 연결 블록의 유무에 있다. 일 반적으로 Semantic segmentation에 사용되는 딥 러닝 모델들에 건너뛰기 연결은 대 부분 필수적으로 사용되고 있다. 다만, 부호화 단계의 특징들의 특성을 살리기 위해 별도의 합성곱 연산을 수행하지 않고 지역 특성을 살리기 위해 크롭 정도만을 수행 하거나 그마저도 하지 않는 게 대부분이다. 본 논문에서는 딥 러닝 모델 초반부에서 추출되는 특징을 그대로 사용하여 후반부 특징과 더하거나 덧붙이기보다는 후반 특징들과 결합했을 때 더 적합한 특징을 학습할 수 있도록 건너뛰기 합성곱 블록을 사용하여 건너뛰기 연결으로부터 알맞은 특징들을 추출하도록 하였다. 합성곱 블록 내부의 합성곱 계층들의 경우, 그림 3.4와 같이 구성하였다. 별도의 가장자리 여백은 사용하지 않았고 모든 합성곱 신경망의 커널의 크기는 3 3으로 하였다. 상승 합성곱 계층에서 데이터의 크기를 키울 때에는 전치된 합성곱 (역합성 곱) [11]을 사용하였다. 건너뛰기 합성곱 블록의 결과물이 저수준 특징들을 충분히 포함할 수 있도록 잔류 경로를 이용하여 연결하였다. 손실 함수로는 semantic segmentation 문제에서 많이 사용되는 확률 밀도 추정 23
Block type Composition Feature map size Down/Up size 1 608 608 Input Down Conv 1 Residual, 4 Convolution 48 608 608 MaxPooling Down Conv 2 Residual, 4 Convolution 96 304 304 MaxPooling Down Conv 3 Residual, 4 Convolution 192 152 152 MaxPooling Down Conv 4 Residual, 4 Convolution 384 76 76 MaxPooling Core Conv Residual, 4 Convolution 768 38 38 Skip Conv 1-4 Residual, 3 Convolution 48 608 608 Skip Conv 2-3 Residual, 3 Convolution 96 304 304 Skip Conv 3-2 Residual, 3 Convolution 192 152 152 Up Conv 1 Residual, 4 Convolution 384 76 76 Deconvolution Up Conv 2 Residual, 4 Convolution 192 152 152 Deconvolution Up Conv 3 Residual, 4 Convolution 96 304 304 Deconvolution Up Conv 4 Residual, 4 Convolution 48 608 608 Deconvolution Output Convolution, Tanh 1 608 608 표 3.1: 제안된 모델의 세부 사항 에러 [35], 즉 수식 3.2의 L2 norm EExpected 과 수식 3.1의 Dice loss를 사용하였다. 이들은 딥 러닝 분류 모델에서 많이 사용되는 손실 함수이다. Dice loss EDice 는 영상 분할 문제에서 사용되는 손실 함수로, 정답과 예측값의 일치하는 정도를 수치화한 값이다. 이 손실 함수는 3차원 의료영상 조밀 예측 문제에 사용되었다. [54] 따라서 본 과제에서 사용한 손실 함수 EN et 는 식 3.3과 같다. pi 와 gi 는 각각 i 번째 데이터에 대한 정답 확률 분포와 모델이 예측한 확률 분포이다. 따라서 pi, gi [0, 1]의 범위에 있다. 24
그림 3.4: 건너뛰기 합성곱 블록의 구성 EDice P pi gi + 2 N = 1 PN i i (pi + gi ) + EExpected v un ux =t (pi gi )2 + (3.1) (3.2) i EN et = EDice + EExpected (3.3) 코멧 분석 영상의 경우 2차원 합성곱 신경계층을 이용한 부호화-복호화 구조의 신경망을 이용하여 분할 과제를 수행할 수 있고, EM 데이터의 경우 이 외에 3차원 합성곱 신경 계층을 사용하는 경우도 고려해 볼 수 있다. EM stack에 대한 경계선 분할 문제에 대해 3차원 합성곱 신경망을 사용하는 경우, 현재 사용하는 EM 데이 터셋의 경우 가로, 세로, 두께에 대해 해상도가 각각 4, 4, 50 nm/pixel로, 가로와 세로에 비해 두께의 해상도가 현저하게 낮아 두께 부분의 이웃한 픽셀들에 대하여 다른 차원의 인근 픽셀들과 같은 인근 픽셀의 지역적 연결성을 가정하기 힘든 문제 가 있다. 또한, 2차원 합성곱 신경망과 3차원 합성곱 신경망의 차이는 계층들에 있는데 2 25
차원 합성곱 신경 계층의 경우 2차원 커널을 적용하는 것과 달리 3차원 합성곱 신 경 계층의 경우 3차원 커널을 입력 데이터에 적용한다. 2차원과 3차원 입력 영상의 차원이 각각 ci 채널의 h w, h w d 이고 커널의 크기가 k k k, 출력 차원이 co 채 널이라고 가정해보자. 2차원과 3차원 합성곱 계층의 파라메터 수는 ci (k k) c0, ci (k k k) c0 으로 k배 차이 난다. 연산량은 d배 더 차이 나게 된다. 따라서 3 차원 합성곱 신경망에서는 커널의 크기를 크게 할 수 없고, 채널 수도 2차원 합성곱 신경망보다 크게 가져갈 수 없는 특징이 있다. 따라서, 본 논문에서는 코멧 분석 영 상의 경우 2차원 FCN (Fully Convolutional Network)을 적용하여 코멧 분할 과제를 수행하고, EM 데이터의 경우에도 코멧 분석 영상과 같이 2차원 FCN을 적용하여 경계선 분할 과제를 수행하였다. 3.2 Data Augmentation 특징들을 선정함에 있어 전문가의 판단이 개입할 수 있는 기존의 머신 러닝 알고 리즘과 달리, 데이터로부터 특징과 특징들 간의 관계성을 모두 학습하는 딥 러닝의 경우 데이터가 매우 중요한 역할을 한다. 충분히 많은 양의 데이터를 통해 딥 러닝 모델이 데이터의 분포를 학습할 수 있으면 좋겠지만, 일반적으로 깊은 모델을 훈 련시키기에 충분한 양의 데이터를 모으는 경우는 어렵고, 의료 영상의 경우 더더욱 어려운 면이 있다. 데이터 증강법은 따라서 데이터의 부족한 다양성을 충족시켜주고 노이즈로부 터 강인한 모델을 학습시키기 위하여 반드시 필요하다. 본 연구에서 사용된 코멧 분석 영상과 연속 단면 촬영 전자 현미경 영상은 흑백 영상이고 상하좌우의 구분이 불분명한 특징이 있으므로 좌우/상하 반전, 회전, 평행이동에 강인하게 모델을 학습 시킬 수 있다. 이 외에도 Elastic distortion [55] 이나 Thin-plate splines [56]와 같은 다양한 변형 변환들이 사용될 수 있다. 데이터 증강법을 적용하는 방식은 두 가지가 있을 수 있다. 하나는 on-the-fly 26
그림 3.5: 데이터 증강법 워크 플로우 [35] [57]로 학습 데이터셋에서 데이터를 뽑은 후 데이터에 변환을 가하는 방식이고 [35], 다른 하나는 데이터 증강법을 통해 데이터의 양이 많아진 학습 데이터셋을 만들어 놓고, 증강된 학습 데이터셋에서 데이터를 뽑아 모델을 학습시키는 방식이다. [35] 후자의 경우 데이터에 변형을 가하는 것이 학습 전에 완료되므로 학습 시간이 줄 어들 수 있는 장점이 있지만, 네트워크에 배치 정규화를 사용하는 경우 데이터들이 non-i.i.d. 하기 때문에 학습에 오버피팅이 발생할 수 있는 단점 [58]도 있다. 따라 서 본 논문에서는 on-the-fly로 데이터를 학습시킴으로써 non-i.i.d. 특성을 피하고자 하였다. 본 연구에서 사용된 코멧 분석 영상의 학습 데이터셋의 샘플 수는 28개이고 EM 영상의 학습 데이터셋의 샘플 수는 30개다. 영상 정보에 대해 객체 분류에서 주로 사용하는 딥 러닝 모델 학습에 사용되는 데이터셋 중 가장 샘플이 적은 것 중 하나인 MNIST [20] 데이터셋이 학습 용 샘플 6만 장과 시험 데이터셋으로 샘플 1만 장의 영 상을 포함하고 있음을 고려해볼 때, 본 논문에서 학습에 사용하는 샘플의 수는 매우 적다. 본 연구에서는 End-to-End 방식의 딥 러닝 모델 학습 방법을 시험하기 위하여 별도의 사전 학습 절차를 거치지 않고 매개변수 무작위 초기화 후 제안된 모델에 대해 학습을 수행하였다. 부족한 학습 데이터 샘플에 대해서는 데이터 증강법을 사 용하여 데이터의 양적인 부족함을 채우고자 하였다. 27
사용된 데이터 증강 기법과 그 순서는 그림 3.5에서 볼 수 있다. 먼저 거울상 패딩 을 이용하여 이미지를 타일링하여 크게 만든다. (pad with tiling) 크게 만든 이미지에 적용할 아핀 변환 (affine transformation)은 반전과 회전, 층밀기가 있다. [35] 먼저 좌 우 반 전 (left-right flip, LR Flip)과 상하 (up-down flip, UD Flip) 반전을 각각 절반의 확률로 수행하고 [ 90, 90 ] 범위에서 균일 분포에 따라 회전 (rotate)을 수행한다. 마지막으로 층밀기 (shear)를 수행한다. 이후 픽셀별 아핀 변환을 수행하고 왜곡 원 근 변환을 수행하여 모델이 강인하게 학습될 수 있도록 한다. 이후 원하는 크기에 맞게 크롭을 수행하고 크기를 맞춘다. 앞에 열거된 데이터 증강법의 경우 분할 과 제를 수행할 데이터와 정답이 될 마스크 라벨 모두에 적용되는 증강법이다. 이후, 대조비를 조정하여 명암 대조를 개선하거나 악화시키고, 탄성 변형 [55]을 주거나 그림이 흐릿해지도록 블러 필터 [59]를 적용한다. 뒤에 열거한 세 가지의 데이터 증 강법의 경우 마스크 라벨에는 적용하지 않고, 데이터 영상에도 모두 적용되기 보다 는 다소 적은 확률에 따라 적용되게 하였다. 이를 통해 28개와 30개의 영상을 충분히 증강시켜 제안한 모델이 적은 데이터에 과적합 되지 않도록 하였다. 28
Algorithm 1: Data augmentation Data: input Image and Mask Result: augmented Image and Mask 1 initialize transform; 2 pad or tile the image ; 3 left-right flip with prob. 0.5; 4 up-down flip with prob. 0.5; 5 rotate the image with uniform distribution [ 90, 90 ]; 6 shear the image; 7 apply transform to Mask //do not initialize transform; 8 pixelwise transform; 9 elastic distortion; 10 apply transform to Image; 29
제 4 장 EXPERIMENT SETUP 본 논문에서 제안한 건너뛰기 합성곱 블록과 이를 기반으로 한 부호화-복호화 구 조의 FCN은 조밀 예측 과제를 수행하기 위한 합성곱 인공신경망 구조이다. 제안된 방법론을 실험적으로 검증하기 위하여, 본 논문에서는 의료 영상 분야 조밀 예측 과 제로 DNA 손상 정도를 테스트하기 위해 널리 사용되는 코멧 분석 영상의 코멧 분할 과제와 ISBI EM 데이터셋의 뉴런 세포의 경계선 분할 과제를 수행하였다. 본 챕터 에서는 실험에 사용된 두 가지 데이터셋에 대해 설명하고, 해당 데이터셋에 대해 제안된 방법론의 성능에 대해 검증을 수행할 평가 지표에 대해 서술하였다. 4.1 4.1.1 Comet Assay Dataset 코멧 분석, 또는 SCGE (Single Cell Gel Electrophoresis) 분석은 세포를 전기영동하 였을 때 나타나는 혜성 (Comet)과 같은 형체들의 유형을 분석하는 기법으로, DNA (Deoxyribonucleic Acid) 손상을 검출하기 위한 방법으로 1980년대에 처음 소개된 이후 DNA의 손상 정도 등을 평가하기 위해 널리 사용되어왔다. 코멧 분석 기법은 간단하고 빠르고 시각적으로 직관적이라는 장점을 갖고 있고, 이로 인해 DNA 손상 정도를 판별해야 하는 여러 문제들에서 사용되고 있다. [60] 코멧 분석 기법의 속 도적인 장점과 시각적 직관성은 컴퓨터 비젼 기법을 이용하여 자동화하기 최적의 조건이고, 이에 따라 최근 코멧 분석을 자동화하기 위한 연구들이 활발히 진행중이 다. [61, 18] 본 연구에서 사용할 코멧 분석 영상들은 코멧 분석 기법 관련 연구들 중 가장 최 신에 출판된 연구 [18]에서 사용한 데이터를 기반으로 하고 있다. 해당 논문에서는 총 35장의 1024 1360 픽셀의 흑백 영상을 컴퓨터 비젼 기법들과 머신 러닝 기법을 30
이용하여 수행하고 있다. 본 연구에서는 35장의 코멧 분석 영상들을 유형에 근거하 여 7장의 시험 데이터셋과 28장의 학습 데이터셋으로 분할하여 코멧 영상 분할을 수행하였다. 그림 4.1: Comet assay 영상의 예시 [18] 4.1.2 Scoring Metric 코멧 분석의 경우 정확한 갯수의 코멧을 찾아내는 것이 중요하다. 이를 위해 본 논문 에서는 선행 연구 [18]의 성능 평가 기준에 따라, 데이터셋에 대해 TP (True Positive), FP (False Positive), FN (False Negative) 의 갯수를 계산하고 정밀도 (Precision)와 재 현율 (Recall)에 따라 결과를 도출하였다. 정밀도와 재현율은 수식 4.1, 4.2 와 같이 계산할 수 있다. precision = TP (T P + F P ) 31 (4.1)
recall = TP (T P + F N ) (4.2) 정밀도가 높을 수록 모델이 도출한 결과에 실제 정답이 많고 재현율이 높을 수 록 실제 정답 가운데 모델로부터 도출한 결과가 많다고 해석할 수 있다. 정밀도와 재현율을 계산할 때 주어진 라벨이 가장자리에 걸쳐 일부분이 잘리거나 여러 코멧 유형이 50프로 이상 오버랩이 있는 경우는 데이터의 정답 [18]의 성능 평가 방식을 따라 예외로 두었다. 코멧의 갯수에 대해 중점을 두는 위의 평가 방식 외에, 의료 영상 조밀 예측, 즉 영상 분할 자체에 대한 성능의 평가 기준이 필요하다. 이를 위하여 영상 조밀 예측의 평가 지표로 널리 사용되는 [10] IoU (Intersection over Union) 평가 지표를 이용하여 정답 마스크와 예측 마스크의 IoU을 구하고 이를 평가 기준으로 사용하였다. IoU는 두 마스크에 모두 포함되는 영역을 Intersection, 두 마스크 중 한 곳에라도 포함되 는 영역을 U nion이라 할 때 수식 4.3와 같이 정의된다. 따라서 두 영역이 일치할 때 1로 가장 큰 값을 갖게 되고 서로 일치하지 않는 영역이 늘어날 수록 작은 값을 갖게 된다. IoU = 4.2 4.2.1 Intersectioni U nion (4.3) ISBI EM Dataset Dataset ISBI EM 데이터셋 [19]은 학습 데이터와 시험 데이터로 이루어져 있다. 이 중 학습 데이터는 sstem을 통해 얻어진 30장의 연속된 512 512 픽셀의 흑백 영상으로 이뤄져 있다. 학습에 사용되는 30장의 영상에 해당하는 부피는 2 2 1.5 µm3 이고 해상도는 가로, 세로, 두께 각각 4, 4, 50 nm/pixel 이다. 가로, 세로에 비해 두께에 해당하는 해상도가 10배 이하로 현저하게 낮은 것은 TEM (Transmission Electron Microscopy) 촬영을 위해 세포 블럭을 물리적으로 잘라내야 하기 때문이다. [62] 32
TEM은 표본에 전자빔을 쏘아서 투과시킴으로써 영상을 얻어낸다. 따라서 표본은 세포 블럭 조각을 얇게 저며서 만들어지고, 각각의 세포 블럭 조각에 대해 TEM의 전자빔이 이를 투과하며 촬영이 수행된다. 50 nm의 두께가 세포 단위에서는 무시할 수 없는 규모의 숫자이고, 이 때문에 전자빔을 표본의 단면에 수직하게 쏘아도 서로 다른 세포가 겹쳐 있거나 혹은 세포막이 단면에 수직하지 않을 가능성이 있다. 이러 한 경우 정답이 모호한 데이터를 얻을 가능성이 있고 수반되는 노이즈는 전자현미경 데이터 분석에 혼동울 줄 수 있다고 판단된다. [7] 그림 4.2: sstem 영상 (좌)과 분할 영상 (우)의 예시 [63] ISBI EM 2012 데이터셋의 시험 데이터의 경우에도 학습 데이터와 유사하게 이 루어져 있다. 시험 데이터의 샘플들은 sstem 기법을 이용하여 촬영한 30장의 연속 된 512 512 픽셀의 흑백 영상이고, 해상도도 학습 데이터와 동일하다. 시험 데이터 의 경우 모델을 검증하기 위하여 전문가가 만든 정답 데이터를 공개하지 않고, 시험 데이터를 통한 점수를 공개할 때도 정답의 일부분만을 사용하여 계산한다. [64] 4.2.2 Scoring Metric ISBI 대회의 경우, 경계선 분할이라는 데이터 분석의 목적성을 분명히 하기 위하여 일반적으로 사용되는 픽셀 단위의 추정치 에러, 즉 픽셀 에러를 사용하지 않는다. 33
픽셀을 몇개 더 많이 맞추는 것보다 뉴런들을 잘 구분하는 것에 더 가중치를 두기 위하여 정규화된 랜덤 에러 VRand (수식 4.6)와 정보이론 에러 Vinf o (수식 4.10)를 다음과 같이 정의하고 이를 기반으로 하여 얇아진 경계에 대한 전경 기반 성능 평 가 방식 (foreground-restricted rand scoring after border thinning) Vrand 과 얇아진 경계에 대한 전경 기반 정보이론 성능 평가 방식 (foreground-restricted information theoretic scoring after border thinning) Vinf o 을 사용하여 평가한다. [64] P Rand Vsplit ij = P ij = P = ij α p2ij (4.5) 2 k sk P VαRand (4.4) 2 k tk P Rand Vmerge p2ij 2 k sk P p2ij + (1 α) (4.6) 2 k tk P 알고리즘을 통해 도출해낸 결과 영상을 S, 그에 해당하는 정답 영상을 T라고 할 때, pij 는 임의로 선택한 픽셀이 예측 영상 S에서 i 분할에 포함되고 정답 T의 P j 분할에 포함될 확률로 정의된다. 따라서 ij pij = 1을 만족한다. 마찬가지로 P P si = j pij, tj = i pij 를 임의로 뽑은 픽셀이 S 영상에서 i 분할에 포함될 확률, T 영상에서 j 분할에 포함될 확률로 정의할 수 있다. 이를 기반으로 두 가지 평가 inf o 는 S에서 임의로 뽑은 두 픽셀이 S와 T에서 같은 기준을 제안할 수 있다. [64] Vsplit inf o 분할에 속할 확률을 나타내는 점수(수식 4.4)이고, Vmerge 는 T에서 임의로 뽑은 두 픽셀이 S와 T에서 같은 분할에 속할 확률을 나타내는 점수(수식 4.5)이다. ISBI EM 대회에서는 수식 4.4, 4.5의 분모 부분을 혼합한 VαRand 를 수식 4.6와 같이 정의하여 사용하였다. 본 논문에서도 이를 이용하여 제안한 방법론에 대해 평가하고 결과를 비교하였다. I(S; T ) = X pij log pij X ij i 34 si log si X j tj log tj (4.7)
inf o Vsplit = I(S; T ) H(S) (4.8) inf o Vmerge = I(S; T ) H(T ) (4.9) I(S; T ) (1 α)h(s) + αh(t ) (4.10) Vαinf o = Vinf o 성능 평가 기준의 경우 정보이론의 상호 정보량에 근거하여 점수를 도출한 다. 모델이 결과로 내놓은 예측 결과 S와 정답 T에 대해 두 데이터의 상호 정보량은 수식 4.7에 따라 계산할 수 있다. Vinf o 은 상호 정보량에 따라 Vrand 와 마찬가지로 inf o inf o Vsplit, Vmerge 를 수식 4.8, 4.9과 같이 정의할 수 있다. 두 수식의 분모를 혼합하여 Vrand 와 동일하게 성능 평가 기준을 마련한 것이 수식 4.10이다. [64] 4.3 실험 환경 본 논문에서는 의료 영상 조밀 예측 과제를 수행하는 딥 러닝 모델을 딥 러닝 프레 임워크 PyTorch [65]를 이용하여 모델을 구현하고 영상 분할 실험을 수행하였다. 딥 러닝 모델의 초기화의 경우, 사전 학습된 모델의 매개변수를 사용하지 않고 무작위 초기화를 통해 수행되었다. 학습의 경우 별도의 휴리스틱한 학습 없이 End-to-End 로 학습되었다. 구현된 실험의 경우 NVIDIA Titan X (Pascal) GPU 두 개로 구성된 서버를 이용하여 학습과 추론을 수행하였다. 배치 크기가 1인 경우 GPU를 하나만 사용하였고, 두 개인 경우 두 개의 GPU를 사용하여 학습을 수행하였다. 사용한 GPU 는 12 GB/7.0 Gbps 메모리와 1000 MHz 클락의 3072개의 CUDA 코어를 내장하고 있다. 35
제 5 장 RESULTS AND DISCUSSION 본 논문에서는 의료 영상 조밀 예측을 위한 부호화-복호화 구조에서 부호화 단계의 특징과 복호화 단계의 특징을 융합하기 위해 기존의 건너뛰기 연결을 대체할 수 있 는 건너뛰기 합성곱 블록을 제안하고, 이를 기반으로 딥 러닝 모델을 제안하였다. 이번 챕터에서는 제안된 모델을 이용하여 코멧 분석 영상의 코멧 분할과 ISBI EM 데이터셋의 경계선 분할 과제를 수행하고 결과에 대해 논의하였다. 5.1 Comet Assay 그림 5.1: Comet assay: (a) 예시 데이터 (b) 정답 (c) 본 모델의 결과값 36
Proposed Method HiComet [18] N TP FP FN Precision Recall Precision Recall 14 13 0 1 1.00 0.93 1.00 1.00 9 8 0 1 1.00 0.89 1.00 1.00 13 13 0 0 1.00 1.00 0.92 0.92 21 20 1 1 0.95 0.95 1.00 0.81 21 21 0 0 1.00 1.00 0.94 0.76 12 12 0 0 1.00 1.00 1.00 0.92 9 8 0 1 1.00 0.89 1.00 1.00 0.99 0.95 0.98 0.92 Average 표 5.1: 코멧 분석 영상의 객체 분할 성능 비교 그림 5.1은 코멧 분석 영상들과 분할 정답 영상들, 본 모델의 결과값을 나타낸 것 이다. 코멧 분석 영상에서 어려운 점은 그림 5.1의 첫 번째 줄 영상에서 보이는 것과 같은 인위적인 노이즈가 추가될 수 있고 서로 다른 코멧들이 겹치는 현상이 발생할 수 있다. [66] 다만, 비교 논문 [18]에서 겹침이 심한 경우 코멧 분할을 수행하지 않고 생략한 것에 따라 본 논문에서도 겹침이 심한 경우는 제외하여 이러한 문제는 크지 않았다. 흰 색의 인위적인 노이즈의 경우, 흰 색은 검은색과 달리 가장 큰 값의 명도 를 가지기 때문에 인공 신경 계층을 지난 신호가 활성 함수를 통과할 위험이 있다. 그러나 건너뛰기 합성곱 모듈을 사용한 본 모델의 경우 그림 5.1에서 볼 수 있는 것 과 같이 이러한 노이즈에 강인한 결과를 내놓는 것을 알 수 있다. 이는 훈련 영상이 28장에 불과한 것을 고려하면 매우 의미있는 결과로 생각된다. 본 모델의 코멧 분석 영상의 분할 과제 수행 결과는 2017년에 발표된 해당 분야 최신 논문 [18]의 결과와 비교하였다. 해당 논문은 코멧 분석 영상 중 다소 정형화 된 입력 영상을 갖는 microwell-array 기반 코멧 분석 영상을 다뤘던 기존 연구들과 37
N HiComet [18] proposed method no skip-convolution no augmentation 14 0.7645 0.8629 0.8699 0.8635 9 0.7876 0.8397 0.8613 0.8786 13 0.8624 0.8829 0.9048 0.8888 21 0.5411 0.6900 0.6786 0.7007 21 0.6236 0.8123 0.7694 0.8074 12 0.7646 0.7448 0.7735 0.7754 9 0.6663 0.7847 0.6470 0.6050 Average 0.7157 0.8024 0.7864 0.7885 표 5.2: 코멧 분석 영상의 객체 분할 IoU 성능 비교 달리, 노이즈가 상당할 수 있는 코멧 분석 영상을 가정하여 코멧 영상 분할과 겹쳐 져 있는 코멧의 분리를 자동화한 연구이다. 본 논문에서는 코멧 영상 분할 분야의 state-of-the-art 연구 [18]에서 사용한 데이터셋을 기반으로, 논문과 제안한 기법을 비교하였다. 실험 결과는 표 5.1에서 확인할 수 있다. 표 5.1에서 N은 영상에 존재하는 코멧의 갯수, TP와 FP는 제안된 모델에서 찾은 코멧 중 라벨과 일치하는 실제 코멧과 코멧 이 아닌 것의 수, FN는 코멧이지만 제안된 모델이 찾지 못한 것의 수이다. 표 5.1에서 확인할 수 있듯이, 본 논문에서 제시한 모델의 결과가 기존 기법보다 평균적으로 우 수한 결과를 얻었다. 특히나 정밀도의 경우, 노이즈에 강인한 딥 러닝 기법의 장점을 재확인하는 결과를 얻을 수 있었다. 다만 그림 5.1의 두 번째 줄 하단 영상의 결과와 같이, 크기에 따른 임계처리 외에 별도의 후처리를 하지 않은 탓에 딥 러닝 모델의 결과 값에서 서로 다른 코멧의 마스크가 분리되지 않고 합쳐서 나오는 경우가 존재 한다. 해당 경우는 코멧을 정확히 찾았음에도 불구하고 이를 분리하지 못했음으로 FN로 처리하였다. 이는 적절한 후처리를 통해 개선될 수 있을 것으로 기대된다. 38
그림 5.2: Comet assay: 실험 조건별 비교 (1), (a) 예시 데이터 (b) 정답 (c) 제안된 모 델의 결과 (d) 건너뛰기 합성곱 모듈 대신 건너뛰기 연결을 사용한 경우 (e) 데이터 증강법을 사용하지 않은 경우 코멧 영상의 분할의 경우 각 코멧들의 명도가 일정하지 않다는 것도 매우 어려 운 점 중 하나이다. 딥 러닝 기법 이외의 컴퓨터 비젼 기법들 중 기본적인 임계처리 기법을 사용하는 경우, 특히나 각 코멧들에 따라 크게 다른 명도에서 문제를 겪을 위 험이 크다. 본 논문에서 제시한 모델의 경우, 그림 5.1의 넷째 줄 하단과 같은 명도가 크게 차이나는 경우에 강인한 결과값을 내놓는 것을 확인할 수 있다. 제안된 모델이 노이즈와 명도 차이에 강인한 특성을 갖게 된 이유에는 딥 러닝 모델 자체의 우수한 성능 외에도 데이터 증강법과 건너뛰기 합성곱 블록의 영향을 들 수 있다. 그림 5.2의 (a) 그림과 같이 명도가 매우 차이나는 코멧이 입력 영상에 39
여럿 들어있는 경우, 데이터 증강법을 통해 노이즈에 강인하게 학습되지 못한 (e)에 서는 코멧의 꼬리 부분이 잘려 두 부분으로 분할되는 방식으로 적합하게 분할되지 못한 것을 확인할 수 있다. 데이터 증강법을 사용하지 않은 경우와 건너뛰기 합성곱을 사용하지 않은 경우, 얻은 마스크 라벨을 IoU (Intersection over Union) 수치로 정량적 비교를 한 결과는 표 5.2에 나와 있다. 제안된 방법론에 비해 건너뛰기 합성곱 블록을 쓰지 않고 건너 뛰기 연결을 쓴 경우 약 2%의 성능 하락이 발생하였고, 데이터 증강법을 사용하지 않은 경우 2%의 성능 하락이 발생하였다. 눈여겨 볼 점은 다른 방법론들이 모두 실패하는 데이터에서 제안된 방법론이 월등히 좋은 성능을 나타낸다는 점이다. 이 러한 결과는 표 5.2에서 볼 수 있듯이 State-of-the-art 방법론인 HiComet [18]보다 약 12% 더 우수한 값이다. 데이터 증강법을 사용하였지만 건너뛰기 합성곱 블록을 사용하지 않은 경우에 는 그림 5.2에서와 같은 현상을 관찰할 수 있다. 코멧 분석 영상의 경우 코멧이 서로 겹치거나 가려지는 현상이 종종 발생할 수 있다. 기존 state-of-the-art 연구 [18]의 경 우, 코멧이 절반 이상 겹치는 경우를 제외하면 성공적으로 인접한 코멧을 분리할 수 있었고, 이러한 결과가 해당 연구를 다른 연구보다 우수한 결과를 낼 수 있게 하였 다. 본 연구에서는 코멧이 서로 겹치는 현상을 완전하게 분리할 수는 없었지만, 그림 5.2와 같이 코멧이 거의 완벽하게 분리되는 현상을 관찰할 수 있었다. 데이터 증강 법을 제외하고 학습된 모델의 경우 즉 해당 그림의 (e)의 경우, 겹친 코멧 데이터를 제대로 구분하지 못하고 코멧 중앙을 제대로 분할하지 못한 것을 확인할 수 있다. 이 외에도 그림 5.2과 5.2를 보면 전체적으로 건너뛰기 합성곱 블록을 사용한 (c)의 경우가 (d), (e) 보다 부드럽고 코멧의 꼬리를 더 잘 분할하는 것을 확인할 수 있다. 40
그림 5.3: ISBI EM: (a) 예시 데이터 (b) 정답 (c) 본 모델의 결과값 5.2 ISBI EM Dataset 그림 5.3은 본 모델의 결과값을 예시에 대해 나타낸 것이다. 뉴런 세포의 전자현미경 데이터의 가장자리 검출 과제에서 어려운 점 중 하나는 미토콘드리아와 같은 세포 내의 소낭들에 대해 잘못된 답을 도출하지 않고 검출해야 하는 가장자리와 별도로 구분하는 것이다. [15] 그림 5.3의 좌측 그림을 보면 흰 색 화살표가 가리키고 있 는, 뉴런 세포들보다 한층 어두운 색으로 촬영된 여러 개의 다양한 크기의 소낭을 볼 수 있다. 그림 5.3의 가운데 그림이 제공된 정답이고 우측 그림이 건너뛰기 합 성곱 신경망을 사용한 본 모델의 예측값이다. 정답과 모델을 통해 얻어낸 예측값을 비교해보면, 눈에 보이는 대부분의 조그만 색이 진한 소낭들을 검출해내야 하는 가 장자리와 혼동하지 않고 성공적으로 분류해낸 것을 확인할 수 있다. 이는 소낭들과 세포의 명도 차이에도 불구하고, 소낭들을 세포와 독립된 것이 아닌 소낭을 둘러싼 세포의 일부라는 것을 딥 러닝 모델이 제대로 학습했을을 보여준다고 할 수 있다. 표 5.3는 에서 보면 알 수 있듯이, 본 논문에서 제안한 모델이 Vinf o 성능 평가 방 식의 경우 state-of-the-art 성능, 즉 최신 모델들에 준하는 성능을 얻었다는 것을 알 수 있다. 다만 Vrand 가 기존 state-of-the-art 기법들과 다소 차이가 있는 것을 확인할 수 있는데, 이에 대해선 다음과 같은 원인들이 있을 수 있다. 첫째로는 하이퍼 파라메터 41
Methods Vrand Vinf o ** human values ** 0.9978 0.9990 IAL-Steerable Filter CNN [67] 0.9868 0.9914 M2FCN [44] 0.9836 0.9902 PolyMtl [17] 0.9806 0.9882 FusionNet [15] 0.9780 0.9899 U-Net [13] 0.9728 0.9866 Our approach 0.8579 0.9620 w/o skip-covolution 0.8343 0.9538 표 5.3: 뉴런 세포의 경계선 검출 성능 비교 탐색의 문제를 고려할 수 있다. 딥 러닝 모델은 매우 깊은 구조와 많은 매개변수를 지니고 있기 때문에, 딥 러닝 모델의 성능은 다양한 매개변수와 모델 구조에 대한 하이퍼 스페이스의 다양한 지점들에 대해 시도해보며 개선시킬 수 있다. 본 모델에 대해서도, 건너뛰기 합성곱 블록에 대한 다양한 실험과 가능한 여러 모델, 하이퍼 파라메터를 이용하여 탐색해보면 Vrand > 0.9 에 해당하는 결과를 충분히 얻을 수 있을 것으로 기대할 수 있다. 다른 하나는 배치 정규화 (Batch normalization) [29]의 문제에 기인하는 것으로 보인다. 배치 재정규화 (Batch renormalization) [58]를 제안한 논문의 실험 결과에 따 르면, 배치 정규화의 경우 non i.i.d 특성을 가진 데이터들의 경우, 즉 데이터가 서로 독립적이지 않은 경우 모델 학습 시에 사용하는 데이터 분포와 모델 시험 시에 사용 하는 데이터 분포에 괴리가 생겨 모델의 일반화 성능이 하락하고 과적합이 발생할 수 있다. ISBI EM 데이터의 경우, 학습 데이터가 30장에 불과하고 이들이 3차원적 으로 쌓여있어 인접한 조각의 경우 서로 밀접한 관련이 있다. 따라서 완전한 가짜 데이터를 만들어내는 것이 아닌 데이터 증강법만을 사용하는 경우, non i.i.d 특성에 42
서 벗어나기 힘들고, 따라서 뉴런 세포 조각들이 서로 밀접한 관련이 있기 때문에 배치 정규화를 사용하는 본 모델의 경우 위에서 제기한 문제가 발생할 가능성이 높 다. 이는 추후 배치 재정규화 기법을 적용하여 해결할 수 있을 것으로 기대된다. 43
제 6 장 CONCLUSION 본 논문에서는 조밀 예측 과제를 수행하기 위한 부호화-복호화 구조의 딥 러닝 모델 에서 부호화 단계에서 추출되는 특징과 복호화 단계에서 추출되는 특징을 효과적으 로 혼합하기 위한 건너뛰기 합성곱 블록을 제안하였다. 제안된 모듈은 기존 네트워 크 구조를 별 다른 수정 없이 건너뛰기 연결을 대체하는 방법으로 적용될 수 있다는 장점이 있다. 제안된 모듈을 기반으로, 본 논문에서는 부호화-복호화 구조의 합성곱 신경망의 건너뛰기 연결을 건너뛰기 합성곱 블록으로 대체하여 의료 영상 분야의 조밀 예측 과제를 수행하였다. 명암이나 모서리와 같은 저수준 특징들이 매우 중요 한 의료 영상의 영상 분할 과제의 경우, 부호화 단계에서 추출되는 특징과 복호화 단계에서 추출되는 특징을 잘 혼합하여 사용하는 것이 매우 중요하다. 본 논문에 서 제안한 건너뛰기 합성곱 블록의 경우, 잔류 경로를 통한 부호화 단계의 특징과 건너뛰기 합성곱 블록을 통한 고도화된 특징, 그리고 부호화-복호화를 통해 전달된 고수준 특징을 함께 사용하여 이 문제를 해결하였다. 또한 의료 영상의 부족한 데이 터 양을 보완하기 위하여 데이터 증강법을 효과적으로 수행하여 모델이 강인하게 학습되고 과적합을 피할 수 있도록 하였다. 제안된 모델은 코멧 분석 영상을 이용한 코멧 분할에서 기존 논문보다 정밀도 (Precision) 측면에서 1%, 재현율 (Recall) 측면 에서 3% 더 우수한 성능을 도출하였고, ISBI 2012 EM 데이터셋에서 Vinf o = 0.9620 라는 결과를 도출하였다. 본 논문에서 제안한 건너뛰기 합성곱 블록의 경우, 부호화-복호화 형태의 모델 에서는 건너뛰기 연결을 대체하는 방식으로 사용이 직관적으로 이뤄질 수 있지만, 분류기나 여타 다른 형태의 딥 러닝 구조에서는 적용되기에 아직 어려운 부분이 존 재한다. 또한 적용이 가능한 구조의 경우에도, 기존의 존재하는 건너뛰기 연결 중 어떤 연결을 대체할 지에 대해서 아직 연구된 바가 없다. 모든 건너뛰기 연결을 대체 하는 것이 가장 큰 성능 향상을 불러올 것으로 예상되지만, 건너뛰기 합성곱 블록의 44
경우 건너뛰기 연결과는 달리 연산량과 매개변수의 용량에 증가를 가져오기 때문 에 부호화 단계의 초반부와 복호화 단계의 후반부 특징을 잇는 연결, 모델에서 가장 가까이 존재하는 특징들 간의 연결, 혹은 그 사이 특징들 간의 연결 중 어떤 연결이 가장 높은 성능 변화를 이끌어 내는 지에 대한 가이드라인이 되는 연구가 반드시 이뤄져야 할 것이다. 45
참고문헌 [1] M. Helmstaedter, K. L. Briggman, S. C. Turaga, V. Jain, H. S. Seung, and W. Denk, Connectomic reconstruction of the inner plexiform layer in the mouse retina, Nature, vol. 500, no. 7461, pp. 168 174, 2013. [2] W. S. McCulloch and W. Pitts, A logical calculus of the ideas immanent in nervous activity, The bulletin of mathematical biophysics, vol. 5, no. 4, pp. 115 133, 1943. [3] B. Widrow and M. E. Hoff, Adaptive switching circuits, tech. rep., Stanford Univ CA Stanford Electronics Labs, 1960. [4] B. Widrow and M. E. Hoff, Associative storage and retrieval of digital information in networks of adaptive neurons, in Biological Prototypes and Synthetic Systems, pp. 160 160, Springer, 1962. [5] J. Guerguiev, T. P. Lillicrap, and B. A. Richards, Towards deep learning with segregated dendrites, elife, vol. 6, 2017. [6] M. Kuwajima, J. M. Mendenhall, and K. M. Harris, Large-volume reconstruction of brain tissue from high-resolution serial section images acquired by sembased scanning transmission electron microscopy, Nanoimaging: Methods and Protocols, pp. 253 273, 2013. [7] K. M. Harris, E. Perry, J. Bourne, M. Feinberg, L. Ostroff, and J. Hurlburt, Uniform serial sectioning for transmission electron microscopy, Journal of Neuroscience, vol. 26, no. 47, pp. 12101 12103, 2006. 46
[8] M. A. Islam, N. Bruce, and Y. Wang, Dense image labeling using deep convolutional neural networks, in 2016 13th Conference on Computer and Robot Vision, pp. 16 23, IEEE, 2016. [9] K. He, G. Gkioxari, P. Dollár, and R. B. Girshick, Mask R-CNN, CoRR, vol. abs/1703.06870, 2017. [10] J. Long, E. Shelhamer, and T. Darrell, Fully convolutional networks for semantic segmentation, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431 3440, 2015. [11] M. D. Zeiler, G. W. Taylor, and R. Fergus, Adaptive deconvolutional networks for mid and high level feature learning, in 2011 IEEE International Conference on Computer Vision, pp. 2018 2025, IEEE, 2011. [12] H. Noh, S. Hong, and B. Han, Learning deconvolution network for semantic segmentation, in Proceedings of the IEEE International Conference on Computer Vision, pp. 1520 1528, 2015. [13] O. Ronneberger, P. Fischer, and T. Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, in Medical Image Computing and Computer- Assisted Intervention, pp. 234 241, Cham: Springer International Publishing, Nov. 2015. [14] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770 778, 2016. [15] T. M. Quan, D. G. Hilderbrand, and W.-K. Jeong, Fusionnet: A deep fully residual convolutional neural network for image segmentation in connectomics, arxiv preprint arxiv:1612.05360, 2016. 47
[16] A. Fakhry, T. Zeng, and S. Ji, Residual deconvolutional networks for brain electron microscopy image segmentation, IEEE Transactions on Medical Imaging, vol. 36, no. 2, pp. 447 456, 2017. [17] M. Drozdzal, G. Chartrand, E. Vorontsov, M. Shakeri, L. D. Jorio, A. Tang, A. Romero, Y. Bengio, C. Pal, and S. Kadoury, Learning normalized inputs for iterative estimation in medical image segmentation, Medical Image Analysis, vol. 44, no. Supplement C, pp. 1 13, 2018. [18] T. Lee, S. Lee, W. Y. Sim, Y. M. Jung, S. Han, J.-H. Won, H. Min, and S. Yoo, Hicomet: A high-throughput comet analysis tool for large-scale dna damage assessment, Proceedings of the 28th International Conference on Genome Informatics, 2017. [19] A. Cardona, S. Saalfeld, S. Preibisch, B. Schmid, A. Cheng, J. Pulokas, P. Tomancak, and V. Hartenstein, An integrated micro-and macroarchitectural analysis of the drosophila brain by computer-assisted serial section electron microscopy, PLoS Biology, vol. 8, no. 10, p. e1000502, 2010. [20] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, vol. 86, no. 11, pp. 2278 2324, 1998. [21] A. Krizhevsky, I. Sutskever, and G. E. Hinton, Imagenet classification with deep convolutional neural networks, in Advances in Neural Information Processing Systems, pp. 1097 1105, 2012. [22] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, ImageNet 48
Large Scale Visual Recognition Challenge, International Journal of Computer Vision, vol. 115, no. 3, pp. 211 252, 2015. [23] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, et al., Mastering the game of go with deep neural networks and tree search, Nature, vol. 529, no. 7587, pp. 484 489, 2016. [24] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, et al., Mastering the game of go without human knowledge, Nature, vol. 550, no. 7676, p. 354, 2017. [25] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, Backpropagation applied to handwritten zip code recognition, Neural computation, vol. 1, no. 4, pp. 541 551, 1989. [26] X. Glorot and Y. Bengio, Understanding the difficulty of training deep feedforward neural networks, in Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, pp. 249 256, 2010. [27] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in Proceedings of the IEEE International Conference on Computer Vision, pp. 1026 1034, 2015. [28] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, Dropout: a simple way to prevent neural networks from overfitting., Journal of Machine Learning Research, vol. 15, no. 1, pp. 1929 1958, 2014. [29] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in International Conference on Machine Learning, pp. 448 456, 2015. 49
[30] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick, Microsoft coco: Common objects in context, in European Conference on Computer Vision, pp. 740 755, Springer, 2014. [31] L. S. Davis, A survey of edge detection techniques, Computer Graphics and Image Processing, vol. 4, no. 3, pp. 248 270, 1975. [32] D. Ziou, S. Tabbone, et al., Edge detection techniques-an overview, Pattern Recognition and Image Analysis C/C of Raspoznavaniye Obrazov I Analiz Izobrazhenii, vol. 8, pp. 537 559, 1998. [33] P. Viola and M. Jones, Rapid object detection using a boosted cascade of simple features, in Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 511 518, IEEE, 2001. [34] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray, Visual categorization with bags of keypoints, in Workshop on Statistical Learning in Computer Vision, pp. 1 22, Prague, 2004. [35] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. MIT Press, 2016. [36] K. Fukushima and S. Miyake, Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition, in Competition and Cooperation in Neural Nets, pp. 267 285, Springer, 1982. [37] W. Shen, X. Wang, Y. Wang, X. Bai, and Z. Zhang, Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3982 3991, 2015. 50
[38] D. Cho, Y.-W. Tai, and I. Kweon, Natural image matting using deep convolutional neural networks, in European Conference on Computer Vision, pp. 626 643, Springer, 2016. [39] S. Lee, M. Choi, H.-s. Choi, M. S. Park, and S. Yoon, Fingernet: Deep learningbased robust finger joint detection from radiographs, in Biomedical Circuits and Systems Conference, IEEE, pp. 1 4, IEEE, 2015. [40] G. Litjens, T. Kooi, B. E. Bejnordi, A. A. A. Setio, F. Ciompi, M. Ghafoorian, J. A. W. M. van der Laak, B. van Ginneken, and C. I. Sánchez, A survey on deep learning in medical image analysis, Medical Image Analysis, vol. 42, pp. 60 88, Dec. 2017. [41] S. Katsuragawa, H. MacMahon, et al., Image feature analysis and computeraided diagnosis in digital radiography: Detection and characterization of interstitial lung disease in digital chest radiographs, Medical Physics, vol. 15, no. 3, pp. 311 319, 1988. [42] S.-C. Lo, S.-L. Lou, J.-S. Lin, M. T. Freedman, M. V. Chien, and S. K. Mun, Artificial convolution neural network techniques and applications for lung nodule detection, IEEE Transactions on Medical Imaging, vol. 14, no. 4, pp. 711 718, 1995. [43] H. Chen, X. Qi, J.-Z. Cheng, P.-A. Heng, et al., Deep contextual networks for neuronal structure segmentation., in Association for the Advancement of Artificial Intelligence, pp. 1167 1173, 2016. [44] W. Shen, B. Wang, Y. Jiang, Y. Wang, and A. Yuille, Multi-stage multirecursive-input fully convolutional networks for neuronal boundary detection, arxiv preprint arxiv:1703.08493, 2017. 51
[45] A. Newell, K. Yang, and J. Deng, Stacked hourglass networks for human pose estimation, in European Conference on Computer Vision, pp. 483 499, Springer, 2016. [46] W. Chen, Z. Fu, D. Yang, and J. Deng, Single-Image Depth Perception in the Wild., Neural Information Processing Systems, 2016. [47] R. H. Hahnloser, R. Sarpeshkar, M. A. Mahowald, R. J. Douglas, and H. S. Seung, Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit, Nature, vol. 405, no. 6789, pp. 947 951, 2000. [48] X. Glorot, A. Bordes, and Y. Bengio, Deep sparse rectifier neural networks, in Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, pp. 315 323, 2011. [49] J. Han and C. Moraga, The influence of the sigmoid function parameters on the speed of backpropagation learning, From Natural to Artificial Neural Computation, pp. 195 201, 1995. [50] A. L. Maas, A. Y. Hannun, and A. Y. Ng, Rectifier nonlinearities improve neural network acoustic models, in Proceedings of the International Conference on Machine Learning, vol. 30, 2013. [51] B. Xu, N. Wang, T. Chen, and M. Li, Empirical evaluation of rectified activations in convolutional network, arxiv preprint arxiv:1505.00853, 2015. [52] X. Zhang, X. Zhou, M. Lin, and J. Sun, Shufflenet: An extremely efficient convolutional neural network for mobile devices, arxiv preprint arxiv:1707.01083, 2017. 52
[53] M. D. Zeiler, D. Krishnan, G. W. Taylor, and R. Fergus, Deconvolutional networks, in 2010 IEEE Conference on Computer Vision and Pattern Recognition, pp. 2528 2535, IEEE, 2010. [54] F. Milletari, N. Navab, and S.-A. Ahmadi, V-net: Fully convolutional neural networks for volumetric medical image segmentation, in Fourth International Conference on 3D Vision, pp. 565 571, IEEE, 2016. [55] P. Y. Simard, D. Steinkraus, J. C. Platt, et al., Best practices for convolutional neural networks applied to visual document analysis., in International Conference on Document Analysis and Recognition, vol. 3, pp. 958 962, 2003. [56] F. L. Bookstein, Principal warps: Thin-plate splines and the decomposition of deformations, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 11, no. 6, pp. 567 585, 1989. [57] Ö. Çiçek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, 3d u-net: learning dense volumetric segmentation from sparse annotation, in International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 424 432, Springer, 2016. [58] S. Ioffe, Batch renormalization: Towards reducing minibatch dependence in batch-normalized models, in Advances in Neural Information Processing Systems 30, pp. 1942 1950, Curran Associates, Inc., 2017. [59] R. Fisher, S. Perkins, A. Walker, and E. Wolfart, Laplacian/laplacian of gaussian, Hypermedia Image Processing Reference. URL: http://homepages. inf. ed. ac. uk/rbf/hipr2/log. htm, 2000. [60] A. R. Collins, The comet assay for dna damage and repair, Molecular Biotechnology, vol. 26, no. 3, p. 249, 2004. 53
[61] B. M. Gyori, G. Venkatachalam, P. Thiagarajan, D. Hsu, and M.-V. Clement, Opencomet: an automated tool for comet assay image analysis, Redox Biology, vol. 2, pp. 457 465, 2014. [62] D. B. Williams and C. B. Carter, The transmission electron microscope, in Transmission Electron Microscopy, pp. 3 17, Springer, 1996. [63] I. Arganda-Carreras, S. Seung, A. Cardona, and J. Schindelin, Isbi challenge: Segmentation of neuronal structures in em stacks, 2012. [64] I. Arganda-Carreras, S. C. Turaga, D. R. Berger, D. Cireşan, A. Giusti, L. M. Gambardella, J. Schmidhuber, D. Laptev, S. Dwivedi, J. M. Buhmann, et al., Crowdsourcing the creation of image segmentation algorithms for connectomics, Frontiers in Neuroanatomy, vol. 9, 2015. [65] A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison, L. Antiga, and A. Lerer, Automatic differentiation in pytorch, Proceedings of the Neural Information Processing Systems Workshop on Autodiff Submission, 2017. [66] T. Lee, S. Lee, W. Y. Sim, Y. M. Jung, S. Han, C. Chung, J. J. Chang, H. Min, and S. Yoon, Robust classification of dna damage patterns in single cell gel electrophoresis, in Engineering in Medicine and Biology Society, 2013 35th Annual International Conference of the IEEE, pp. 3666 3669, IEEE, 2013. [67] M. Weiler, F. A. Hamprecht, and M. Storath, Learning steerable filters for rotation equivariant cnns, arxiv preprint arxiv:1711.07289, 2017. 54
ABSTRACT Recently, due to the advancement of deep learning models, parameter initialization, and normalization techniques, the dense prediction field has achieved high performance in recent years, and dense prediction studies in medical data such as EM boundary detection or comet assay have been actively conducted. In this thesis, we propose a novel skip convolution block that can replace the skip connection, which has been widely used in designing modern deep learning architectures to handle the medical image segmentation task. The skip convolution block can be applied to the segmentation model in a way that replaces the skip connection with the convolutional block containing the residual path to better blend local low-level and global highlevel features. We design a encoder-decoder style FCN (Fully Convolutional Network) model that can mix the low level features of the encoding step and the high level features of the decoding step based on the proposed skip convolution module. In addition, an effective data augmentation method is applied to supplement the lack of data, so that the model can avoid overfitting and learn robust features with fewer than 30 slices of the data. The proposed method achieves better performance of 1% higher precision and 3% higher recall than the state-of-the-art performance in the segmentation of comet assay and also achieves V info = 0.9620 from the ISBI 2012 EM dataset. 주요어 : Medical Image Analysis, Dense Prediction, Machine Learning, Convolutional Neural Network, Skip Convolution, Data Augmentation, Comet Assay, ISBI EM 학번 : 2014-22583 55