서론 레벨 1 증거중심의학 (Level 1 evidence based medicine) 은대규모환자집단을대상 으로한무작위대조시험에의존한다. 그러나정밀의학 (precision medicine) 을실현하기위 해필요한임상적생물학적매개변수들의수가증가함에따라정밀의학에대한전용시

방사선종양학에서의빅데이터와머신러닝 : 최신기술과미래전망 초록 정밀의학 (precision medicine) 은증가하는불균일한정보양에의존한다. 매치료전마 다 CT 촬영통해, 선량측정과영상을수행하는방사선치료의발전은통합이필요한상당 한정보의흐름을발생시킨다. 동시에전자의무기록은이제이런정보와상관관련이 있을수있는대규모환자집단의표현형프로필을제공한다. 본리뷰에서는방사선종양 학의예측모델을만드는데사용될방법들에대해서기술한다. 또한잠재적으로사용하 게될서포트벡터머신 (support vector machine) 이나인공신경망 (artificial neural network), 딥러닝 (deep learning) 같은머신러닝 (machine learning) 의방법도논의될것 이다.

서론 레벨 1 증거중심의학 (Level 1 evidence based medicine) 은대규모환자집단을대상 으로한무작위대조시험에의존한다. 그러나정밀의학 (precision medicine) 을실현하기위 해필요한임상적생물학적매개변수들의수가증가함에따라정밀의학에대한전용시 험을설계하는것은매우어렵다. 환자들의모든하위집단에대한새로운접근법이필 요하며적절한치료의조합 ( 방사선치료, 항암화학치료, 표적치료, 면역치료 ) 을결정하기 위해의사는필요한모든진단도구 ( 의료영상, 피검사, 유전자검사 ) 를사용해야한다. 각 각의환자는질병의원인이나치료의반응, 임상적결과와관련이있는개개인의유전자 이상을가지고있다. 맞춤치료는각각의환자가가지고있는이런이상을식별하고활 용하는것다. 분자 - 종양학 (molecular oncology) 의이런변화는최근 25 년간암연구를 주도해왔고비소세포성폐암이나흑색종과같이예후가나쁜질병에서유의한진전이보 였다. 그러나하나의종양에서도변형돌연변이들이수백개의유전자를포함하고있을 수있다. 차세대염기서열결정 (sequencing) 은특정한부위, 진유전체 (exome) 이나유전 체전체로초점을맞출수있습니다. 전사체 (transcriptome) 연구에도같은접근법을사 용할수있습니다. 일차적이나이차적으로치료저항성또는방사선치료에대한반응에 관여하고있는분자회로의복잡성을풀어낼때가능한많은유전자을탐구하게될것이 다. 하지만각각의모든경우에대한특정한시험을만드는것은연관된복잡성때문에 불가능에가깝다. 전통적으로우리의인지수용력은치료결정을위한요소를최대 5 개

까지통합할수있다고여겨왔다. 2020 년에는한명의환자에대한결정이최대 10,000 개의매개변수에의해결정될전망이다. 염기서열결정비용은의미있게감소했고컴퓨터의성능은계속해서향상되고있다 ( 그림 1). 질병의결과에영향을주는인자를발견하는것을가로막는것은대규모표현 형 (phenotype) 집단이부족하다는것이다. 일상화된전자의무기록은충분한표현형을만 들어주는기회를제공한다. 정보과학 (data science) 은거대한데이터기반에서결과예측 과치료지침을주는모델을만드는데역할을하게될것이다. 임상연구결과와일반치료환자개개인의동반질환들과중증도, 치료시작까지의시간, 종양특성들에대한일치에는항상의문이제기되어왔다. 일반환자의치료정보를재사 용하여의사결정을돕는정보주도방법론의새로운패러다임이대두되고있다. I.S.Kohane 은다음과같이서술하였다. 치료결정지원알고리즘은전적으로정보에서이 끌어진다 거대한양의데이터를사용하면알수없는혼란에지장을받지않는관측으 로부터추론을이끌어내는것을가능해진다. 하지만그런거대하고불균질한양의데이터를통합하는것자체가실제로정확한모 델을만들기전에극복해야할과제다. 이리뷰의목적은방사선종양학에서의정밀의료 를구현하기위한주요한정보학 (informatics) 과제들을설명하고이러한과제들을해결 하기위한접근법에대한설명이다.

어떤데이터가고려되어야하며어떻게데이터를관리해야하는가? Lambin 등은예측모델에서고려되고통합되어야할특징들에정리하였다. - 임상정보 : ( 환자의수행도, 종양의병기와등급, 혈액검사결과, 환자설문지 ) - 치료정보 : ( 계획된시공간적선량분포, 관련된항암화학치료. 이런것들은기록과검증 소프트웨어에서직접추출한다.) - 영상정보 : 종양의크기와부피, 종양대사섭취 (radiomics 연구영역에포함된 ) - 분자적정보 : 내인적방사선감수성 (intrinsic radiosensitivity), 저산소증, 증식과정상조 직반응 (proliferation and normal tissue reaction) 데이터수집과관리 최신방사선치료는시행된치료를전산자료로제공한다. 각환자들에게실제로시행 된방사선처방계획이저장되며매치료마다환자의몸속어디에광자가가는지매우 잘알고있어서이론상으로는모든환자의디지털포맷을가지고있다. 매치료의변동 량도온보드영상에의해고려될수있다. 그래서실제로어디에선량이전달되는지알 수있으며수행된치료의시공간적선량분포를얻을수있다. 각부분의기록검증소프 트웨어 (record and verify software) 에서모든환자의데이터가전향적으로모아진다. 이 런고도의전산화된특성은치료전달과정을수량화하고분석하는데적합하다. 수집된 데이터의질은다른의학분야보다훨씬우수하다. 데이터를추출하고병원의임상데이

터웨어하우스 (clinical data warehouse) 에서통합하면다양한레벨에서작업이가능하다. 미가공데이터는선량체적히스토그람 (dose-volume histogram) 과치료체적, 각분할사 이의시간, 전체치료기간, 선량률, 온보드시스템을통해생성된영상에대한상세한정 보를제공한다. 임상데이터웨어하우스에통합하기전에관련있을것같은데이터만추 출하는방법은정보의풍부함을크게감소시키므로피한다. 치료후경과관찰은방사선종양학과의학에서치료합병증을발견하기위해서매우 중요하다. 그와관련해서온라인과모바일그리고착용기기 (wearable device) 가권장된 다. 치료중이거나치료후부작용에대한환자의정보를외래예약을기다릴필요없이 실시간으로제공할수있다. 수집하고관리해야할데이터의크기는빠르게증가하고있다. 환자한명이 7GB 정 도로추정되고그중 70% 가미가공유전데이터이다. ( 표 1) 의료데이터의보안과접근 성은어떤기관에서든지가장큰과제이다. 철저한보안에어디에서든지쉽고빠르게접 근할수있어야한다. 원격데이터접속에는강력한사용자인증을포함한높은수준의 보안과모든데이터처리과정에서추적이가능이있는구조가필요하다. 관련된전문의 료인의로그인에는상당한비용이드는확장가능한프로세스가필요하며결코간과해서 는안된다. 의료기록의연결과데이터익명성은데이터를연구에제공할때가장자주 필요하게될단계이다. 이런절차들을담당할신뢰할수있는제 3 자가필요하다. 일반적 으로연구에제공될의료데이터는의사와환자시의신뢰관계에의해통제되는의료영

역에서익명화하고분석가능하게만드는특수데이터관련기관이통제하는비의료영 역으로반드시옮겨야한다. 현재사용되는진료기록저장과접근을지원하는솔루션들은변환연구플랫폼을포 함한다. 플랫폼들은거대한임상정보데이터세트와유전체를비롯한망라적분자정보 학 (OMICS) 데이터를통합할수있다. 기술적인발달에도불구하고일부에서는데이터 양의증가속도가데이터저장능력을앞지를것이라고예상하기도한다. 이에대한해 결책의한가지로대부분의병원이오래된큰문서는외부저장소로이동시켜서관리하 는것처럼데이터도이렇게관리하는방법이있다. 디지털데이터의경우빠르고쉬운 접근을유지시키기위해서는가장커다란데이터를이차저장소최적화플랫폼에옮기는 것입니다. 그림 2 는병원데이터와환자가직접제공한데이터를통합하는시스템에대 한제안이다. 양질의데이터추출을위한온톨로지 (ontology) 사용 온톨로지는각각의단어, 개념이전체시스템중에서어디에위치하는밝히는연구분 야이다. 어떤단어와단어사이의상관관계를보다빠르고쉽게검색할수있도록돕는 것을말한다. 인공지능분야에서의온톨로지는컴퓨터가인간의지식체계를갖도록개념 화시키는작업이라할수있습니다. 전자의무기록과치료술기, 유전학에서사용되는영역과용어의표준화는데이터의질

과비교가능성을증가시킨다. 여러영역이가진특성으로인한다양성은양질의데이터 를추출하고통합하는것을불가능하게한다. 온톨로지즉공통개념세트는모든데이터 수집시스템과예측모델에서핵심구성요소가된다. 현재약 440 개의생명의학분야의 온톨로지가존재한다. 가장많이사용되는것이 SNOMED, the NCI Thesaurus, CTCAE. The UMLS meta thesaurus 같은것이다. 이런온톨로지에는방사선종양학용어들이많이 빠져있어서방사선종양학용어를추가시킨방사선종양학온톨로지가만들어지게되었다. 공통온톨로지의광범위한사용은여러기관들의데이터추출과통합을자동화시켜줄 것이다. 데이터세트의품질과신중한양상선택은매우중요합니다. 가능하다면이차적인큐 레이터또는데이터검사자에의한독립적인확인이반드시있어야한다. 전문가의추가 적인확인은매우중요하다. 따라서임상시험을수행하는의사와데이터전문가사이의 협업은필수이다. 어떻게예측모델을만들것인가? 예측모델은먼저자격검증 (Qualification) 을하고그뒤에유효성입증 (Validation) 이 라는두단계로진행된다. 자격검증은데이터가결과를나타내는것임을보여주는것으 로구성된다. 에측인자또는예후인자가확인되면그인자들을다른데이터세트에서유효 성을검증해야한다. 한예측모델이자격과검증이이루어졌다면그예측모델을가지

고결정한치료가실제로환자치료결과를향상시켰는지를평가하는추가적인연구도 반드시시행되어야한다. Kang 등이제안한방사선종양학모델의원칙 1. 선량예측인자와비선량예측인자를모두고려 2. 자동분석전에수동예측인자를수동으로관리 3. 자동화된예측인자선정방법을선택 4. 다중공선성 (multicollinearity) 예측인자가모델에어떤영향을미치는지고려 5. 외부데이터세트를사용한모델일반화를제공을위해정확한교차검증사용으로 외부데이터예측인자수행도와일반화향상 6. 다수의모델을평가하고기존의모델들과결과를비교 이런원칙들은모든의료영역으로확장가능하며예측모델을만들고검증하기전에 신중하게검토되어야한다. 새롭게모델을만들때전통적인통계방법과머신러닝을사 용할수있다. 전통적인통계방법 합병증같은질적인결과예측모델에는로지스틱회귀분석 (logistic regression) 이생 존유형데이터에는콕스회귀분석 (Cox regression) 이사용된다. 로지스틱회귀분석은예 측인자의조합을 S 자곡선 (sigmoidal logistic function) 위에결과확률로매핑한다. 로지

스틱회귀분석은관련없는적은수의예측변수에서만사용해야한다. 예를들면폐부위 정위적방사선치료 (SBRT) 에서국소제어를할수있는 (1 차원데이터, 그림 3A) 최적의 방사선선량을결정할때사용할수있다. 또 GTV 의크기같은예측인자로추가할수 있다 (2 차원데이터, 그림 3B). 각각의특징은선형적그리고부가적으로모델에나타난 다. 결정경계는사용된예측인자수보다한차원작게만들어지게된다 ( 두개의예측인 자에 1 차원선, 3 개의예측인자에 2 차원 ). 로지스틱회귀분석은폐나두경부암의방사선 치료후식도염이나입마름증을예측하는몇개의연구에서사용되었다. 머신러닝방법 종양학에서사용되고있는머신러닝알고리즘 - Decision Tree (DT) : 간단한알고리즘으로미리정의된질문을순서적으로응답함으 로써상호배타적인등급을만든다. - Naïve Bayes (NB) classifiers 변수들간에확률적종속성들을산출 - K-nearest Neighbors (k-nn), 데이터세트에서가장가까운이웃에따라분류되며, 분류 와회귀분석에사용된다. -Support Vector Machine (SVM) 훈련된모델이새로운데이터를범주로분류한다. -Artificial Neural Network (ANN), 생물의신경망에서영감을얻은모델로근사함수에사 용된다.

-Deep learning (DL), 인공신경망의한종류로여러층의신경이사용된다. 이런방법들은각각의장점과단점이있으며사용에필요한컴퓨터의성능도달라서 데이터분석프로젝트에맞는방법을선택해야한다. 아래는방사선종양학연구에쓰이 는두가지방법에대한설명이다 : 서포트벡터머신과인공신경망그리고인공신경망의 한가지인딥러닝 서포트벡터머신 (Support vector machine) 앞서설명한대로로지스틱회귀분석은제한된수의양상들에대한선형역치로정의 된다. 만약에예측모델이선형으로분리되지않는많은수의변수들이있다면서포트벡 터머신을사용하여복잡한패턴을찾을수있다. 유사도함수 (similarity function (or kernels)) 는데이터변환수행그리고데이터포인트또는지원벡터를고르는데선택된 다. 벡터들의조합을가지고있는환자들은새로운환자들과비교하거나새로운환자의 결과를예측하는데이용된다 ( 그림 4). 서포트벡터머신은방사선치료후방사선폐렴예측 과폐부위정위적방사선치료후국소제어율, 식도암에서항화학방사선치료민감도같 이여러연구에서사용되었다. 이연구들에서는선량 (DVH, EUD, BED) 또는비선량적양 상 ( 임상적또는생물학적양상 ) 같은입력매개변수들을저자들이분류하였다. 사용된 양상의정확한개수와특성이항상제공되는것이아니어서결과의적용가능성과영향 력이제한될수있다.

인공신경망 (Artificial neural network) 인공신경망에는여러층 (layer) 의뉴런들이설정된다. 각 뉴런 은그자체의중요성 에따라가중치가결정된다. 각층은이전층으로부터데이터를받으며, 점수를계산하고 출력 (output) 하여다음층으로보낸다 ( 그림 5). 인공신경망을사용하려면정확한가중치 가적용된뉴런들과올바른연결들이필요하다. 이것을달성하기위한방법으로뉴런들 에게우선무작위로가중치를입력한뒤계산을시키고결과값과비교하여가중치를보 정한다. 이런계산과보정을계속반복하여가중치의일치성 (correlation) 을점진적으로 향상시킨다. 인공신경망은진행된두경부암에서방사선치료와항화학치료의추가여부에 따른생존예측을위해사용된적이있다. 그연구에서는 14 개의임상적매개변수를통 합한 3 개층으로이루어진피드포워즈신경망 (feed forward neural network) 은천번 반복을통해훈련되었다. Bryce 등은인공신경망이로지스틱회귀분석보다신뢰할수있 고더많은예측인자변수들을사용할수있다는것을보여주었다. 6 년뒤 Gulliford 등은 인공신경망을이용하여전립선암에서방사선치료후생물학적결과와독성을예측하였다. 그들은선량분포 (DVH) 변수에야간뇨, 직장출혈, PSA 를측정한세개의분리된인공지 능망을이용하였다. 인공신경망이 55% 이상의민감도와정확도로생화학적제어와특정 한방광과직장의합병증을예측할수있다는것을보여주었다. 다른연구들은거대한 데이터세트에서수행하여민감도와정확도를향상시켰다.

폐부위방사선치료에서도폐렴예측에인공신경망이사용된적이있다. Chen 등의 연구에서 6 개의양상들이골라졌다. 16 Gy 초과조사된폐부피 (V16), DLCO, FEV1, 선행 된항화학치료여부, generalized equivalent uniform dose for the exponent a = 1 (mean lung dose), geud for the exponent a = 3.5. 모든양상을모델에서제거하여그들의관련 성을평가하였다. FEV1 와방사선치료전항화학요법여부를제외한모든것이최적예 측을위해필요했다. 인공신경망은방사선치료받은자궁경부암환자의생존률을예측하는데도이용되었 다. 그연구에서예측모델은단일곱개의매개변수만사용되었다 ( 나이, 수행도, Hb, total protein, FIGO 병기, 조직학, 주기적인생검에의해결정된방사선영향등급 ) 딥러닝 (Deep learning) 딥러닝은인공신경망의한변형이다. 인공신경망이보통하나또는두개의숨겨진 층 (hidden layer) 에지도학습 (supervised learning) 을특징으로한다면딥러닝은더많 은수의숨겨진층이있고지도학습과비지도학습 (unsupervised learning) 모두시행할 수있어다르다. 딥러닝은분류나분할을위한의료영상에서는많은관심을받고있지만 방사선치료후결과예측에는아직사용되지않았다. 지도학습 (supervised learning) 과비지도학습 (unsupervised learning) 의차이

지도학습의목표는알고있는출력 (output) 에대해예측하는것이다. 지도학습은일반 적으로물체의이미지나문서의유형을인지하는데쓰인다. 지도 (supervised) 알고리즘은 각훈련예제들과가장잘들어맞는함수를만들기위해서훈련데이터세트 ( 각예제는 입력값과원하는출력값을포함한한쌍으로되어있다.) 를분석한다. 컴퓨터는훈련데 이터세트를이용해만들어진함수를가지고모르는값 (input) 에대한모르는출력 (output) 을예측할수있게된다. 비지도학습에서는알고리즘이제공된분류되어있지않은데이터내에서본연의패턴 이나그룹을찾으려고시도한다. 의학에서의비지도학습은임상양상이주어진벡터로 각환자를특징짓는것으로구성될것이다. 연구자에의해서는잠재적으로예측이나예 후인자로간주되지않았던높은레벨의특징들이예측이나예후인자로발견될수있다. 또비지도학습을통해기존의환자군중에서특정환자집단이새롭게분류되면그를통 해새로운생리 - 병리적현상이발견될수있다. 그러나중요한단점은비지도학습이연 구자가생각하지못한지점에서핵심적인상관관계나연결성을찾게된다면그상관관계 나연결성이의미하는바를반드시제공하는것은아니라는것이다. 어떤경우에는비지 도학습이발견한매우유의한상관관계에대해서이해하는사람이없을수도있다. 오늘 날까지종양학예측연구에적용된머신러닝에서는거의대부분지도학습을사용하였다.

고찰 왜빅데이터를방사선종양학에이용해야하는가? 빅데이터는 volume, variety, velocity, veracity ( 용량, 다양성, 속도, 진실성 ) 로 4V 이다. 암환자의포괄적인전자의무기록은가장큰유전자데이터까지포함해서거의 8GB 에육 박한다 (volume). 방사선종양학에서예측모델을만들기위해필요한데이터는매우다 양하고불균질해서 (variety) 그것자체로도의미있는도전이다. 이런예측모델을사용해 서의료결정지원시스템이개발된다면의료결정을돕기위해서는빠른데이터처리가 필요할것이다 (velocity). 마지막으로방사선종양학은실제로처방되고시행된치료정보 가전향적으로저장되기때문에데이터품질이매우높다 (veracity). 이런이유로방사선 종양학과빅데이터천생연분이라고여겨진다. 암연구를위한인공지능과머신러닝 머신러닝을이용한연구들이모두엄격한실험설계를가지고시행된것은아니다. 데이터의크기가다른데이터세트에서알고리즘을검증하기는물론이고훈련과시험세 트로나눌만큼의충분한크기가아닌것도있었다. 모델을시험하려면나중에내부검 증을위해서데이터의 10-20% 를초기에추출해야한다. 데이터사용에서오는어떤편 향 (bias) 을제거하거나적어도최소화하기위해서충분하게큰다른데이터세트를사용 한외부검증이필요하게될것이다. 수천개의정보를모델에통합할때양상당환자수

비율 (patient per feature ratio) 역시어려운난제이다. 왜냐하면적어도그비율이 5 에서 10 이되어야하기때문이다. 작은비율은과적합 (overfiting) 을야기시킨다. 예를들면인 공신경망훈련에사용된특정데이터세트에만잘맞고다른인구집단에는신뢰할수없 는무작위오류 (randome error) 또는무의미한정보 (noise) 만제공할것이다. 예측모델의성능을평가하기위해서다른머신러닝방법을사용한복수의예측인자 모델들이사용되어야한다. 이상적으로는새로운예측모델은이전분류 (classification) 를 능가해야만한다. 지금까지나온머신러닝을이용한종양학연구들중에서단 17% 정도 만이한개이상의기계학습방법을시험한것으로추정된다. 종양학예측모델개발에는인공신경망이가장많이쓰이고있지만다른많은분야에 서는딥러닝에관심을두고있다. 구글사의 TensorFlow 같은공개소프트웨어 (open source software) 가배포되어서앞으로는딥러닝을사용한연구가더많아질것이다. 미래비전 : 학습의료시스템 (learning health system) 치료지침을위해서방사선종양학에서진정한통합모델을만들고검증하는작업은 데이터와과학자들을여러기관에서공유하는것이필요하다. 하지만이런모델과방법 론은모든종양의부위에사용될수있는그들을만드는데사용된다. 그들은 10-15 년내 에모든방사선종양학부서에서빅데이터를사용한의료결정지원시스템을보강할것이 다. 이런시스템들은동적프로그래밍과강화학습기법으로거의실시간으로업데이트

를필요로할것이다. 그들은환자의양상과지식의상태에따른최상의치료법선택을 위한초기상담에서의료결정을안내할것이다. 최적의선량분포, 치료시간, 항암화학 요법, 표적치료, 면역치료들이의사가아닌알고리즘에의해선택될것이다. IBM 사의왓슨같은민간주도는뉴욕의 MSKCC 같은몇몇의병원에서이미사용되고 있다. 같은시스템은또한경과관찰동안치료결정에가이드하고재발을조기에발견할 수있다. 만약학습의료시스템이만들어진다면종양학의판도를바꿀것이다. 경과관찰 은인구의많은부분에의해채택되고있는착용형기기와연결개체가모은모든데이 터를통합해야만할것이다. 지속적인비정상이벤트의실시간모니터링은재발의조기 발견과재발치료효율성및비용최적화를이끌어낼것이다. 임상연구에미치는영향 정밀의학은새로운임상연구설계를탄생시켰다. 한예로 SHIVA 임상연구는불응성 (refractory) 암환자들에서종양의분자적분석을기반으로한표적치료와전통적인치료 법을비교하였다. 마찬가지로알고리즘주도의데이터에기반을둔개인맞춤형방사선 치료 (personalized radiation treatment) 와전통적인방사선치료를비교할수있을것이다. 방사선종양학에서의빅데이터는대형환자집단을연구하고다양한유형의데이터를 통합하는것을의미한다. 비지도기계학습을통한데이터유형들을사용하게되면인간 의이해력넘어서는패턴을식별하게될가능성이높다. 종양학은이미해부학적조직

학적양상들을기반으로하는치료에서더나아가환자군과질병군을새롭게정의하는 분자적이상으로초점을맞추고있다. 이런발전은복잡성을중가시키고의사에의해궁 극적으로사용되지않게될지식의변화를유도한다. 개개인의분자적특질에따라서 설계된임상시험들은통계학적으로충분한검증이불가능하며이런임상시험설계의재 정과방법의부담때문에지속할수없을것이다. 전자의무기록은환자특성과치료양상, 부작용, 경과관찰에대한대규모의데이터를 전산화해수집하는가장손쉬운방법이다. 풍부한정보는새로운지식을생성하는데사 용하여야한다. 나쁜데이터는나쁜결과를생성하기때문에수집된정보의품질과성격 은중요하다. 그리고빅데이터를어떤질문에도쉽고믿을만한대답을줄수있는마법 상자로보아서도안된다. 임상시험은교란요인을피하고항상전자의료기록을사용할 수있는것은아니지만상세한데이터를모아서설계되어있다. 몇몇의 SEER 연구들은중요한질문에빠른결과를생성했었다. 그러나방사선치료 에대한연구할때빅데이터의중요한한계는치료특성에대한상세한정보가부족하 다는것이다. 기록과검증시스템에서치료특성을바로통합한다면신뢰할수있는선 량분포와시간데이터가제공될것이다. 이미여러팀에서방사선치료에예측모델을더잘적용하려는연구를발표했지만 어떤것도임상적으로사용되지는않았다. 치료계획시스템은간단하고쉬운시스템으 로구현되어야한다. 환자의의료병력과해부학을기반을최상의실현가능한치료계

획이선량계측사와의학물리학자에게전달되고환자가치료받는동안같은시스템이감 시에사용되어야한다. 예측된표준외의부작용이발생할때마다의사에게알려야주 며각각의환자와치료에서발생된정보는모델안에서통합되어야한다. 그러나아직 이런시스템은없으며이것을달성하기위해서는몇가지어려운과제가해결되어야한 다. ( 전자의무기록에서핵심방사선종양학데이터수집, 한가지모델안에서임상적, 선 량적, 생물학적데이터의통합, 전향적인환자집단에서의모델검증 ).

결론 주목받고있는빅데이터분석과머신러닝은방사선종양학에서높은품질의연구성 과를낼것으로기대된다. 고성능컴퓨터의비용감소와일반화된전자의무기록, 머신러 닝의발전 ( 인공신경망과딥러닝 ) 은방사선종양학에혁신을불러올것이다. 에측모델의 발전으로사용되어안정성과효율성을갖춘개인별방사선치료 (personalizing radiation treatment) 를시행하는데도움을주는학습의료시스템이사용될것이다. 의사들이의료에 서중추적인역할로계속남기위해서는반드시이런알고리즘에대한소유권을가져야 할것이다.

표 1. 환자한명의데이터유형과크기 데이터유형 포맷 크기 임상양상 TEXT 10 MB 혈액검사 TEXT (numbers) 1 MB 병원행정기록 ICD-10 codes 1 MB 영상데이터 DICOM 450 MB 방사선치료데이터 DICOM, RT-DICOM 500 MB 유전데이터 BAM 6 GB 총합 7.9 GB 표 2. 머신러닝들의알고리즘의장점과한계 알고리즘장점한계 Decision Tree 이해가쉽다. 빠르다 상호배타적인분류들 결과가선택속성순서에의존한다. 심하게복잡한의사결정분지도 Naïve Bayesian k-nearest Neighbors 이해가쉽다 빠르다 훈련순서의영향이없다. 빠르고간단 데이터의결손이나무의미한정보에대해서관대 비선형분류에사용가능 회귀와분류모두사용가능 변수들이통계적으로독립적이어야한다. 숫자속성은정규분포를따라야한다. 상호배타적인분류들 낮은정확도 비슷한속성을가진변수는같은분류로정렬 모든속성이동등하게관련됨 변수의숫자에따른컴퓨터성능고려가필요 Support Vector 견고한모델 느린훈련속도 machine 오류위험이제한된다 과적합위험성 비선형관계에사용가능 이해하기어려운출력모델 인공신경망과딥러 닝 데이터의결손이나무의미한정보에대해서관대 분류와회귀에사용가능 새로운데이터의쉬운추가 이해하기어려운출력모델 과적합위험성 고성능컴퓨터가많이필요함 최적네트워크구조를찾기위한실험이필요

그림 1. 전체유전자염기서열 ( 실선 ) 비용과컴퓨터성능가격 ( 점선 )

그림 2. 데이터수집과관리시스템

그림 3. 로지스틱회귀분석이만들어낸일차원선형임계값 (linear threshold) (A), 이차원 선형임계값 (B)

그림 4. 서포트벡터머신이변환할데이터들 (A), 서포트벡터머신이서포트벡터의도움을받아환자 를분류 (B)

그림 5. 각뉴런은층 (layer) 에속하고가중치를가진다. 데이터는입력 ( 요인조사 ) 에서 출력 ( 결과 ) 까지층에서층으로전달된다.