Journal of the Korea Institute of Information and Communication Engineering 표준의학용어체계에서의효과적인용어비교검색기법 류우석 * Effective Scheme for Comparative Search of Clinical Terms from Standard Clinical Terminology Wooseok Ryu * Department of Health Care Management, Catholic University of Pusan, Busan 609-757, Korea 요약 종합적표준임상의학용어체계인 SNOMED CT 는용어의방대함및구조의복잡성때문에환자상태를표현하는가장적합한용어를짧은진료시간내에선택하기가어려운용어선택의모호성문제를내포하고있다. 본논문에서는용어검색과정에서발생하는동일하거나유사한용어를분석하고이를효과적으로구분하기위한용어비교검색기법을제시한다. 제안하는기법은용어의계층구조분석을통해용어간 is-not-a 관계를새로정의함으로써두비교대상용어의차이점을명확하게하는특징이있다. 이를통해진료과정에서유사한이름을가진용어들중환자의상태를가장적합하게표현하는용어를빠르게선택함으로써 SNOMED CT 의활용성을개선한다. ABSTRACT SNOMED CT, which is a standard clinical terminology, imposes an ambiguity problem of terminology selections caused by its huge expressive power and structural complexity. It is very difficult to distinguish similar terms and to select an appropriate term among them within short consultation hours. This paper analyzes the ambiguity problem and proposes a novel scheme for comparative search of similar terms. The proposed scheme provides a differential view of similar terms by defining a is-not-a relationship based on the hierarchical structure of the concepts. The result of this work improves the utilization of SNOMED CT such that medical officers can efficiently select an appropriate term among similar terms which represents patient s status adequately. 키워드 : SNOMED CT, 의학용어, 모호성, 용어비교, 관계정의 Key word : SNOMED CT, Clinical Terms, Ambiguity, Terminology Comparison, Defining Relationship 접수일자 : 2014. 09. 22 심사완료일자 : 2014. 10. 23 게재확정일자 : 2014. 11. 06 * Corresponding Author Wooseok Ryu (E-mail:wsryu@cup.ac.kr, Tel:+82-51-510-0611) Department of Health Care Management, Catholic University of Pusan, Busan, 609-757, Korea Open Access http://dx.doi.org/10.6109/jkiice.2015.19.3.537 print ISSN: 2234-4772 online ISSN: 2288-4165 This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/li-censes/ by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. Copyright C The Korea Institute of Information and Communication Engineering.
Ⅰ. 서론 SNOMED CT(Systematized Nomenclature of Medicine- Clinical Terms) 는임상과정에서발생하는각종진료기록을전산화하기위한종합적임상의학용어체계이다. 이는전자건강기록 (electronic health record, EHR) 을위한표준용어체계로서미국등해외에서활발히그활용범위를넓혀가고있다 [1]. 국내의경우에도의무기록의체계적저장, 관리및연구에활용하기위한목적으로전자의무기록 (Electronic Medical Record, EMR) 및 EHR 의작성에 SNOMED CT 용어체계를도입하고자노력하고있다 [2]. SNOMED CT는다른용어체계와는비교하기어려울정도로용어의방대함, 용어활용의확장성및유연성을가지고있다. 하지만, 용어의방대함에따른용어체계의복잡성이임상에서의적극적인활용측면에서문제를야기하고있는데, 직접사용가능한의학용어가 40만개에달하고있으며이를조합하면사실상무한대에가까운표현이가능하기때문이다. SNOMED CT가가지는또다른특성으로환자의상태를기술하기위한한가지임상적의미가 SNOMED CT에서제시하는다양한용어들및그조합으로표현될수있으며, 하나또는유사한용어가여러가지임상적의미에중복해서사용되기도한다. 이러한특성은동일한증상을여러방식으로기술하거나서로다른증상을동일한용어로표현하게하므로진료기록의작성단계에서환자상태를기술하는가장적합한용어를짧은진료시간내에선택하기가어려운문제가발생한다. 작성단계에서의용어선택의모호성 (ambiguity) 문제 [3-5] 는진료기록뿐만아니라, 이후분석단계에서그의미가왜곡되거나잘못해석될여지도발생한다. 용어체계의원활한활용을위해서는 SNOMED CT 용어체계의복잡성에따른용어의모호성문제의해결이필요하다. 본논문은선행연구 [5] 를확장하여먼저 SNOMED CT 용어체계의복잡성에따른용어선택의모호성문제를분석하고, 적합한의학용어를검색하고선택하는과정에서발생하는모호성을제거또는완화하기위한효과적인용어비교기법을제시한다. 논문의구성은다음과같다. 2장에서는 SNOMED CT 용어를검색하기위한브라우저기술과용어의복 잡성을해결하기위한관련연구를제시하고, 3장에서는 SNOMED CT 용어체계의특성및용어의중복된표현으로인한용어의복잡성문제를분석한다. 4장에서는이를해결하기위한유사용어간효과적인비교검색기법을제시한다. 마지막으로 6장에서결론및향후연구를기술한다. Ⅱ. 관련기술 SNOMED CT 브라우저는 SNOMED CT에포함된의학용어들을검색하기위한검색프로그램이다 [6]. 대표적인브라우저인 CliniClue Xplore[7] 는 PC에설치하여사용하는용어검색브라우저로서용어의이름또는 ID를이용한검색을지원하며해당용어에대한설명, 계층구조, 관련용어와의관계들을조회할수있다. 그림 1은 NLM(US National Library of Medicine) 에서제공하는 SNOMED CT 브라우저 [8] 의실행화면인데, 이는웹에서구동되며기능적으로는 CliniClue Xplore와유사한특징이있다. 이들브라우저는개별용어의자세한설명을비교적쉬운인터페이스를통해접근할수있으나동일하거나유사한용어들의직접적인비교는지원하지않고있다 [6-8]. 그림 1. NLM SNOMED CT 브라우저 Fig. 1 NLM SNOMED CT Browser 538
표준의학용어체계에서의효과적인용어비교검색기법 SNOMED CT 용어체계의복잡성을해결하기위한연구로서 BLUSNO[9] 라는용어체계의간략화기법이제안되었다. 이연구는복잡한계층구조를단순화시킨추상네크워크를제안함으로써이를통해복잡한 SNOMED CT 용어체계를한눈에파악할수있도록하고원하는용어를빠르게접근가능하도록하는특징이있다. 또한, 추상네트워크에가변성 (scalability) 을부여하여네트워크노드내컨셉의수가많은경우이를더욱자세하게조회하는기법 [10] 도제시되었다. 그리고, 어휘분석을통해용어의비일관성문제를도출하고용어정의의비일관성을개선하는연구가진행되었다 [11]. 하지만, 이들연구는용어체계의복잡성을야기하는주요문제인중복성을해결하지는못하고있으며, 유사한용어를구분하는것은여전히사용자에게맡겨야하는한계점을가진다. Ⅲ. SNOMED CT 용어체계 3.1. SNOMED CT 용어체계개요 SNOMED CT는컨셉 (Concept) 이라고부르는약 40 만개의의학적의미를포함하고있다. 컨셉은최대 18 자리숫자로구성된 ID를통해서로구분되며컨셉의의미를표현하는여러개의설명 (Description) 들을포함한다. 이는하나의컨셉이한가지의단어또는어구로만표현하기어려운문제를해결하기위한방법으로그림 2와같이하나의컨셉에 FSN(Fully Specified Name) 이라는대표설명과여러개의동의어 (Synonym) 을포함하는특성이있다 [12]. 이컨셉들은 SNOMED Clinical Terms 라는루트컨셉부터 is-a 라는관계 (Relationship) 를통해하위컨셉으로계층구조를형성하고있다. 루트컨셉과 is-a 관계로연결된최상위컨셉은 Body Structure, Clinical Finding 등 19개이다. 이계층구조는다중부모컨셉을허용하는특징이있는데, 이는기존의의학용어체계와다른 SNOMED CT의고유한특징으로서용어체계의복잡성을야기하는원인이된다. 그리고, 각컨셉들은 is-a 관계뿐만아니라 finding site, part of, severity 등 60가지이상의관계로의미에따라서로유기적으로연결되어있다. 그림 2. 컨셉의설명 (Description) 예시 Fig. 2 An example of descriptions of a concept 3.2. 용어체계의중복성분석 SNOMED CT 의학용어의중복성은하나의설명 (Description) 이서로다른컨셉에서동일하거나유사하게사용되는것에서초래한다. 그림 3을예를들어보면해부학적인체구조중골반관절을의미하는 joint of pelvis 는서로다른두컨셉에모두포함되어있다. 이경우 joint of pelvis 를진료과정에서기술하려고할때둘중어떤컨셉을선택해야할지에대한선택의모호성이발생한다. 본예시는설명이완전히동일한예시이나 NLM SNOMED CT Browser에서 joint of pelvis 를검색하면부분단어검색 (substring match) 을통해총 9개의컨셉이검색된다. 그림 3. 동일한설명 (Description) 을가진컨셉의예시 Fig. 3 An example of two concepts with the same descriptions 표 1은 19개의최상위컨셉중주요컨셉을대상으로하위컨셉의개수및설명의중복이발생하는컨셉의개수및비율을정리한표이다. 신체구조 (Body Structure) 539
의경우절반에가까운컨셉들이서로중복되며, 의약품및의약물질에서도적지않은비율의컨셉이서로중복된다. 유사하거나중복표현된컨셉으로인해빠른시간내에적합한컨셉을검색하기가매우어려운모호성이발생하므로중복된컨셉의의미를명확하게구분하기위한컨셉의비교기법이필요하다. 표 1. 최상위컨셉별컨셉의중복비율 [5] Table. 1 Ratio of duplicated concepts per top-level concept 최상위컨셉컨셉수중복컨셉수비율 Body structure 30,588 12,787 41.8% Pharmaceutical / biologic product 16,769 3,305 19.7% Substance 23,844 3,766 15.8% Qualifier value 8,943 429 4.8% Clinical finding 99,811 2,171 2.2% Organism 33,156 600 1.8% Procedure 53,628 898 1.7% Special concept 648 5 0.8% Specimen 1,439 8 0.6% 바탕으로최소한의비교정보를제시하기위해계층구조를아래와같이분석한다. Ancestor (C A ) : 특정컨셉에서 is-a 관계로이어진부모및조상컨셉들의집합 Common Ancestor (C CA ) : 두컨셉각각의조상컨셉집합들에대한교집합 Distance (D) : 계층구조상에서두컨셉의거리. 이는한컨셉에서다른컨셉으로도달하기위해몇번의 is-a 관계를따라컨셉들을방문해야하는지를의미함. 이때, 두컨셉간도달하는경로가두가지이상인경우짧은경로의거리로계산 Nearest Common Ancestor (C NCA ) : 두컨셉의 C CA 중컨셉각각에대한 Distance의합이가장작은컨셉 그림 4는 SNOMED CT 컨셉중장애를의미하는 disorder 컨셉에대한하위컨셉들의 is-a 계층구조에대한예시를도시하고있다. disorder 컨셉은최상위컨셉인 Clinical Finding 의자식컨셉으로 disorder 컨셉의자식컨셉의수는실제로는 55개이나그림 4에는그일부만도시되어있다. Ⅳ. 유사용어비교검색기법 3장에서소개한바와같이 SNOMED CT의컨셉들중동일또는유사한명칭의컨셉의의미를명확히이해하기위해서는계층구조상에서해당컨셉들간의상호관계를정량화하여표현하는것이필요하다. SNOMED CT의컨셉을검색하고조회하는역할을수행하는 SNOMED CT 브라우저들은단일컨셉에대한상세내역들만검색가능하며, 여러개의컨셉을동시에비교하는방법은제시되어있지않다. 용어검색결과두개이상의컨셉들이도출된경우이들중가장적합한것을선택하는건진료기록을작성하는진료의또는의무기록사가담당하며이들은각각진료과정, 코딩과정에서해당업무를수행한다. 작성자가검색을통해적절한용어를선택하는방법으로써각컨셉의설명, 컨셉의계층구조, 관계와같은기본정보모두를비교하는것은용어체계의복잡성으로인해오히려올바른컨셉의선택을저해한다. 본논문에서는위의정보들을모두제시하는대신 is-a 관계를 그림 4. 두컨셉에대한 Nearest Common Ancestor 의예시 Fig. 4 An example of the NCAs of two concepts 그림 4를예를들어보면컨셉 I는 Severe laceration of hand 로서 C A (I) 는 {A, B, C, D, E, G, H} 이다. 그리고컨셉 K는 Joint Injury 로서 C A (K)={A, C, F} 이다. 이때 C CA (I,K) 는 C A (I) 와 C A (K) 의교집합인 {A, C} 이 540
표준의학용어체계에서의효과적인용어비교검색기법 다. 이때, C NCA (I, K) 는컨셉 I, K에대해컨셉 A, C의 Distance를비교해보면 {C} 임을계산할수있다. is-a 관계를바탕으로두컨셉을비교할때 C CA 중 C NCA 를제외한나머지조상노드들은서로동일하므로이들을통해서두컨셉을비교하는것은무의미하다. 그러므로, C NCA 의하위노드들을이용하여두컨셉을비교하는것이필요하다. 이를위해서아래와같이 Representative Ancestor를정의한다. Representative Ancestor (C RA ) : 두컨셉의 C NCA 의자식컨셉들중한컨셉의 C A 에만포함된컨셉의집합. 그림 5를예를들어보면두컨셉 I, K의 C NCA 인 C NCA (I, K) 는 {C} 이고이때 C RA (I, K) 는 C A (I) 중컨셉 C의하위컨셉인 {D, E} 가된다. 그리고그반대의경우인 C RA (K, I) 는 C A (K) 중컨셉 C의하위컨셉인 {F} 가된다. 2) 컨셉 F는컨셉 K의조상이지만컨셉 I의조상은아니다. 즉, 컨셉 I는컨셉 F의특성을갖고있지않다. 즉, 컨셉 K와컨셉 D, E는서로연관관계가없으며, 컨셉 I와컨셉 F와도아무런연관관계를가지지않는다. 본논문에서는이관계를 is-not-a 관계로정의하여이를두컨셉의차이점을비교하기위한최소한의정보로활용한다. is-not-a 관계를보다명확하게정의하면다음과같다. C INA (A, B) : C NCA (A, B) 의자식컨셉들중 A의조상컨셉이아닌컨셉의집합, C INA (A, B) = C RA (B, A). 위예시에서보면 C INA (I, K) = {F} 이고 C INA (K, I)= {D, E} 인것을확인할수있다. 즉, Severe laceration of hand 는 bone or joint injury 가아니라는것을알수있다. 동일하거나유사한두컨셉들의차이점을명확하게구분하기위해서는 is-a 관계로연결된모든조상노드들을제시하여비교하도록하는대신에 C RA 및 C INA 만을이용하여계층구조내에서서로차별되는요소들만을도출하고제시함으로써두컨셉의차이를보다효과적으로비교구분할수있다. 이를통해짧은시간내에보다더목적에부합하는용어를선택할수있다. 이비교정보의제시를통해 SNOMED CT의모호성문제를완화하고용어체계의활용도를보다높일수있다. Ⅴ. 결론 그림 5. Representative Ancestor 를통한두컨셉의비교 Fig. 5 Comparison of two concepts using the representative ancestor C RA 를이용하면 I, K, C RA (I, K)={D, E}, C RA (K, I)={F} 간에아래와같은관계가성립한다. 1) 컨셉 D, E는컨셉 I의조상이지만컨셉 K의조상은아니다. 즉, 컨셉 K는컨셉 D와 E의특성을갖고있지않다. SNOMED CT 표준용어체계를이용한진료기록의작성시용어체계의복잡성으로인해의도하는용어를빠르게찾기어려운문제가있다. 본논문에서는 SNOMED CT 표준용어체계의복잡성으로인한용어선택의모호성문제를분석하고. 유사하거나동일한이름을가진두컨셉들간의효과적인비교검색을위해 is-not-a 관계를정의하였다. 그리고, is-not-a 관계에기반한대표조상 (C RA ) 및차이조상 (C INA ) 을제시함으로써, 유사한이름을가진컨셉들을효과적으로비교하고의도하는컨셉을보다빠르게선택하기위한기법을제시하였다. 진료과정에본연구결과를도입함으로써 541
기존에자연어 (free-text) 로작성된진료기록을보다효과적으로표준의학용어로변환할수있으며, 또한진료기록과정에서용어선택의모호성에따른불필요한시간지연을효과적으로줄일수있다. 향후연구로서본논문에서제안한 is-not-a 관계를지원하는 SNOMED CT 브라우저를설계구현하고이를진료기록작성단계에적용함으로써임상현장에서의유용성을검증하는것이필요하다. 감사의글이논문은 2014년도부산가톨릭대학교교내연구비에의하여연구되었음 REFERENCES [ 1 ] K. Nonnelly, SNOMED-CT: The Advanced Terminology and Coding System for ehealth, Stud Health Technol Inform, Vol. 212, pp.279-290, 2006. [ 2 ] R. W. Park, A clinical research strategy using longitudinal observational data in the post-electronic health records era, J Korean Med Assoc, Vol. 55, No. 8, pp.711-719, 2012. [ 3 ] I. Alecu, C. Bousquet, and M. C. Jaulent, A case report: using SNOMED CT for grouping Adverse Drug Reactions Terms, BMC Medical Informatics and Decision Making, 8(Suppl 1), 2008. [ 4 ] S. Lusignan, T. Chan, and S. Jones, Large complex terminologies: more coding choice, but harder to find data reflections on introduction of SNOMED CT (Systematized Nomenclature of Medicine Clinical Terms) as an NHS standard, Informatics in primary care, vol. 19, no. 3, pp. 3-5, Mar. 2011. [ 5 ] W. Ryu, Effective Searching of Clinical Terms from Standard Clinical Terminology, in Proceedings of the Korean Institute of Information and Communication Sciences Conference, vol. 18, pp. 323-325, 2014. [ 6 ] D. Lee, R. Cornet, F. Lau, and N. Keizer, A survey of SNOMED CT implementations, Journal of Biomedical Informatics, Vol. 46, pp. 87-96, 2013. [ 7 ] The Clinical Information Consultancy Ltd.. CliniClue Xplore [Internet]. Available: http://www.cliniclue.com. [ 8 ] IHTSDO. UMLS SNOMED CT Browser [Internet]. Available: http://uts.nlm.nih.gov/snomedctbrowser.html. [ 9 ] J. Geller, C. Ochs, Y. Perl, and J. Xu, New abstraction networks and a new visualization tool in support of auditing the SNOMED CT content, in AMIA Annual Symposium Proceedings, pp. 237-246, 2012. [10] C. Ochs et al, Scalability of abstraction-network-based quality assurance to large SNOMED hierarchies, in AMIA Annual Symposium Proceedings, pp. 1071-1080, 2013. [11] A. Agrawal and G. Elhanan, Contrasting lexical similarity and formal definitions in SNOMED CT: Consistency and implications, Journal of Biomedical Informatics, Vol. 47, pp. 192-198, 2013. [12] IHTSDO. SNOMED CT Technical Implementation Guide [Internet] Available: http://www.snomed.org. 류우석 (Wooseok Ryu) 2012 년 2 월부산대학교컴퓨터공학과공학박사 2012 년 3 월 ~2013 년 2 월부산대학교 U-port 정보기술산학공동사업단박사후연구원 2013 년 3 월 ~ 현재부산가톨릭대학교병원경영학과조교수 관심분야 : 의학용어, U-Health, 의료정보, 빅데이터 542