[ISBN ] 기술기회발굴을위한텍스트마이닝기술 기반플랫폼개발연구 전홍우정창후최성필최윤수송사광정한민 한국과학기술정보연구원

Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion


Pharmacotherapeutics Application of New Pathogenesis on the Drug Treatment of Diabetes Young Seol Kim, M.D. Department of Endocrinology Kyung Hee Univ

<30385FC1A4C3A2C8C42E687770>

00약제부봄호c03逞풚

°í¼®ÁÖ Ãâ·Â

#Ȳ¿ë¼®

서론 34 2

한국성인에서초기황반변성질환과 연관된위험요인연구

01( ) SAV12-12.hwp

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

서강대학교 기초과학연구소대학중점연구소 심포지엄기초과학연구소

자연언어처리


<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>


김범수

½Éº´È¿ Ãâ·Â

<BFA9BAD02DB0A1BBF3B1A4B0ED28C0CCBCF6B9FC2920B3BBC1F62E706466>

11¹Ú´ö±Ô

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

강의지침서 작성 양식

04김호걸(39~50)ok

0125_ 워크샵 발표자료_완성.key

김기남_ATDC2016_160620_[키노트].key

ePapyrus PDF Document


Microsoft PowerPoint - 27.pptx

의미정보를활용한관계추출 시스템개발및성능평가


Dementia2

Microsoft PowerPoint - ch03ysk2012.ppt [호환 모드]


Output file

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

차 례... 박영목 **.,... * **.,., ,,,.,,

04-다시_고속철도61~80p

... 수시연구 국가물류비산정및추이분석 Korean Macroeconomic Logistics Costs in 권혁구ㆍ서상범...

서론

DBPIA-NURIMEDIA

공연영상

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Æ÷Àå82š

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

¼º¿øÁø Ãâ·Â-1

歯1.PDF

Microsoft PowerPoint - 26.pptx

DBPIA-NURIMEDIA

감각형 증강현실을 이용한

대한한의학원전학회지26권4호-교정본(1125).hwp

45-51 ¹Ú¼ø¸¸

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

<31325FB1E8B0E6BCBA2E687770>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월


BSC Discussion 1

歯3이화진


Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

05( ) CPLV12-04.hwp

<C7C1B7A3C2F7C0CCC1EE20B4BABAF1C1EEB4CFBDBA20B7B1C4AA20BBE7B7CA5FBCADB9CEB1B35F28C3D6C1BE292E687770>

À±½Â¿í Ãâ·Â

Microsoft PowerPoint - AC3.pptx

2009;21(1): (1777) 49 (1800 ),.,,.,, ( ) ( ) 1782., ( ). ( ) 1,... 2,3,4,5.,,, ( ), ( ),. 6,,, ( ), ( ),....,.. (, ) (, )

- 2 -

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

09김정식.PDF

Vol.257 C O N T E N T S M O N T H L Y P U B L I C F I N A N C E F O R U M

(5차 편집).hwp

본문01


목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

<C7D1B9CEC1B7BEEEB9AEC7D03631C1FD28C3D6C1BE292E687770>

원고스타일 정의

연하곤란

012임수진

<BCF6BDC D31385FB0EDBCD3B5B5B7CEC8DEB0D4C5B8BFEEB5B5C0D4B1B8BBF3BFACB1B85FB1C7BFB5C0CE2E687770>

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

( )Kju269.hwp

Æ÷Àå½Ã¼³94š

May 10~ Hotel Inter-Burgo Exco, Daegu Plenary lectures From metabolic syndrome to diabetes Meta-inflammation responsible for the progression fr

03±èÀçÈÖ¾ÈÁ¤ÅÂ

상담학연구. 10,,., (CQR).,,,,,,.,,.,,,,. (Corresponding Author): / / 567 Tel: /

KD hwp


정치컴 23호-최종.hwp

DBPIA-NURIMEDIA

<B0E6C8F1B4EBB3BBB0FA20C0D3BBF3B0ADC1C E687770>

MVVM 패턴의 이해

DBPIA-NURIMEDIA

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

Chapter4.hwp

퇴좈저널36호-4차-T.ps, page Preflight (2)

09권오설_ok.hwp

<31335FB1C7B0E6C7CABFDC2E687770>

( )Jkstro011.hwp

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: Awareness, Supports

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Transcription:

[ISBN 978-89-6211-979-4-93560] 기술기회발굴을위한텍스트마이닝기술 기반플랫폼개발연구 전홍우정창후최성필최윤수송사광정한민 한국과학기술정보연구원

목차 1. 서론... 1 2. 기술개체간관계추출플랫폼개발... 5 2.1. 개요... 5 2.2. 분야독립적관계추출... 27 2.3. 실험및평가... 46 3. 결론... 48 [ 참고문헌 ]

1. 서론 기술개체사이의관계분석 / 추출에관한기존연구는 무수히많다. 그중커널기반방법론을채택한기존연구를 조사하였고, 그안에서도 5 가지유형을분석하여비교 분석하였다. 국내에서두드러진성과를보이는연구는아직 없으므로해외의연구동향을분석 / 비교하였다. 표 1 과 표 2 는각방법론에대해간략한소개를하고, 표 3 과 표 4 는각시스템의성능을비교분석하였다. 마지막으로 표 5 는각방법론의장점과단점을분석하였다. 1

표 1 기존연구들의비교분석 (1) 표 2 기존연구들의비교분석 (2) 2

표 1 기존연구성능비교 (1) 표 2 기존연구성능비교 (2) 3

표 3 기존연구의장 / 단점분석 4

2. 기술개체간관계추출플랫폼개발 2.1. 개요 1) 시스템구성도 그림 1 은관계추출의시스템구성도로써두기술개체명 또는문서 ( 논문또는특허 ) 에대해이들의관계를인식하고 판별하게된다. 시스템내부는그림 1 에서와같이기존 리소스를활용한필터링프로세스, 보유하고있는문서 ( 논문 또는특허 ) 나웹으로부터해당개체가포함되어있는 문장 (Cooccurrence) 를추출하는프로세스, 추출한문장을 구문분석하고술어 - 논항 (Predicate-Arguement Structured pattern, PAS) 패턴을구축하는프로세스, 문서에서후보 관계를추출하는기술개체쌍생성프로세스, 그리고패턴 기반관계추출프로세스가포함되어있다. 5

2) 대상문서및관계정의 그림 1 시스템구성도 가 ) 대상문서 KISTI NDSL 이보유하고있는논문전체와미국특허, 일본특허, 유럽특허전부이다. 나 ) 대상관계 문서내에존재하는동사들을분석하여다음과같이 29 개 관계를정의하였다. 6

is_a * 용례 - 부록참조 : is-a (subsumption) is a relationship where one class D is a of another class B (and so B is a of D). For instance, a "fruit" is a generalization of "apple", "orange", "mango" and many others. One can say that an apple is a fruit.[1] : 과일 과 사과 와같이두개체는동일한속성이승계되는종속된상 하위관계다. 문장에서흔히보이는 clue word 의예는 be(is, are)_a, be kind of, such as, comma(,), 괄호등이있다. [Idiopathic pulmonary fibrosis] (IPF) is a progressive [interstitial lung disease] that is hallmarked by these processes. - 두개체간관계가동격으로판단될경우에도 is_a 관계에넣기로한다. that [Apple s new dual core processor], which will likely be called the [A5] (the successor to ), spits out huge 1080p highdefinition files like running water. [2] part_of * 용례-부록참조 7

: FSI engine 과 smart car 의관계는부분과전체를이루는개체사이의관계다. 그러나전체라고한정하는영역은상황에따라다르며상대적일수있다. 일례로물질의전형적인예인물을생각해본다면알수있다. 물, 얼음, 수증기라는물리의세계와분자, 원자, 소립자라는화학의세계는명확하게분리되는영역이지만그사이에관계는존재한다.[3] 따라서물리 ( 현실 ) 와논리 ( 관념 ) 의영역을통틀어관계의대상으로삼고그것이갖는속성 ( 성질, 특질 ) 까지도전체를구성하는부분으로보기로한다. - 물리와논리의영역을모두포함하는경우예 ) iphone { A6 quad-core mobile processor (AP), Retina display, Touch Sensitive Case, Touch-feely, Gyroscope sensor } [4] A [lymph node] (LN), which can resist virus and germs, is part of the [lymphatic system] that exists in the human body and every apparatus inside it. : 본작업에서는넓게보아 based_on( 의존 / 기반 / 수반관계 ) 도 part_of 관계에포함하기로한다. 8

[Distraction osteogenesis] accompanied by [orthodontic mechanics] is a sensible way of achieving this goal. coordinating * 용례 - 부록참조 : 문장에서두개체간대등한의미로연결지어진관계로보통, 등위접속사 (and, or 등 ) 혹은 comma(,) 로연결되거나대등한구나절로표현되는관계다. 실제로는유사의미도있고반대의미일수도있다. 하나의관점을기준으로하여동일선상에나열할수있는개체들이이관계에속한다. 예를들어, 과일이라는기준을명시할때, 사과 와 배 를유사의미의등위관계로볼수있다. 물이라는기준을명시할때, 뜨거운물 과 차가운물 은반대의미의등위관계이다. [Diastolic dysfunction], [endothelial dysfunction], microalbuminuria, and lowered glomerular filtration rate were more frequent among elderly patients. Prevent * 용례-부록참조 : prevent 라고하면일반적으로 어떤주체 가 어떠한행위 또는사실 을방해하거나막는행태를말한다. 그러나본 9

작업에서 어떤주체 와 어떠한행위또는사실 이란모두 ( 기술 ) 개체 임에유의한다면, 행위의주체가사람이아니므로좋지않은일반적의미의방해라기보다는진행과현상을저지하여억제한다는뜻으로보기바란다. 조금더나아가현상태를유지하거나예방 / 보호 (protect) 하는의미까지허용하기로한다. [Portopulmonary hypertension] (POPH), or pulmonary arterial hypertension associated with cirrhosis, carries a high mortality and often precludes [liver transplantation]. Conflict * 용례-부록참조 : 워드넷에의하면 conflict 의상위어는 differ 혹은 relate 다. 즉, 두개체사이에마찰이있는또는마찰할수밖에없는상태를말한다. 관계 3 의등위관계 (coordinating) 에서언급한반대의미와는차이가있다. 즉, 서로양립할수없고절충할수없는모순된관계, 서로부딪히거나 (collide) 상충하는관계 를의미하는것이다. 그러나실제데이터상에서이관계는많지않아화학분야에서대표적인예를찾을수있었다. 그밖의관련된의미를생각한다면, 10

서로반대방향으로힘이작용하고있는상태는더나아가 상쇄하다, 중화하다 (neutralize), 균형 ( 평형 ) 을잡아주다 (counterbalance) 라는뜻으로확장되므로이러한의미까지도허용하기로한다. At endogenous brain concentrations, the astrocyte-derived metabolite [kynurenic acid] (KYNA) antagonizes the alpha7 [nicotinic acetylcholine receptor] and, possibly, the glycine co-agonist site of the NMDA receptor. Surpass * 용례 - 부록참조 : 이관계는자칫관계 8 의기존 대체관계나관계 12 의증가 확장관계와혼동할수있으나능가관계의상위어는어떠한액션을취하는변화 (change) 가아닌현재에그러한상태 (state) 로보기로한다. 구체적으로말하면기준선이나한도가존재할때에그것을넘어선, 초과한, 능가한상태라는뜻이다. 즉, 어떠한측면혹은기준이명시되었을때, 기존 대체관계처럼완벽하게대체될수있다는확신은없다. 또어떤한측면에서개체 A 가개체 B 에비하여 우월 하다는의미는단순히양과질의증가를나타내는 11

증가 확장관계와는확연히다른의미를갖는다. 이와같이구분지어능가관계를정의하고자한다. For the limit cycle oscillations considered here, it is demonstrated that the [ensemble Kalman filter] and particle filter outperform the [extended Kalman filter] in the presence of sparse observational data or strong measurement noise. Create * 용례 - 부록참조 : make 의의미와같고, creation 이라는카테고리는범위가매우포괄적이므로다른관계 ( 인과, 활성화 ) 의상위레벨이다. 그러나본작업에서는개체 A 가 완성된 개체 B 를 만들어내다, 고안하다 라는뜻에주안점을두기로한다. 그밖의허용가능한의미로는 생산하다 (produce), 합성 ( 생성 ) 되다 (synthesize), 형성하다 (form) 등이있다. The authors present the case of a female patient with a [prenatal diagnosis] made by [magnetic resonance imaging] (MRI), her clinical course, and neurorradiological evolution following birth. Replace * 용례 - 부록참조 : 두기술개체사이에시간적간격이존재하거나다른한 개체가어느측면에서진보또는진화하여동일한목적을 12

위해대신사용되어진다는표현이문장에있을때, 두개체를기존 대체관계로정의한다. Under anesthesia, the left [mandibular second molar] was extracted and replaced by a miniature [dental implant] to injure the inferior alveolar nerve. caused_by * 용례 - 부록참조 : 문장에서하나의개체가다른개체의원인혹은결과가될때그관계를인과관계라한다. 인과라정의하기모호한경우도있는데, 유도, 유발의의미 (induce, derive 등 ) 까지는허용한다. 그러나내용상인과성이너무미약하거나확실하지않은표현일경우 ( 자극을주다, 촉진하다, 추출 / 산출하다, 도움이된다등 ) 는인과관계로보지않는다. Efficacy of Revascularization For [Renal Artery Stenosis] Caused by [Fibromuscular Dysplasia]. Activate * 용례 - 부록참조 : 인과관계와혼동될수있으나, 달리뚜렷한결과는아닌 어떠한현상을돕거나 (help, assist) 활성화 한다는의미로 따로분류하기로한다. 실제데이터량은많지않지만 13

인과로보기에미약한의미를 cause 의하위레벨로써 정의하고자한다. 촉진 / 촉매작용과같은화학적작용을주로생각하면된다. The result was distilled [Rehmannia glutinosa], Wild Ginseng and Astragali Radix pharmacopuncture in healthy adult males tended to activate the [autonomic nervous system], particularly the sympathetic nervous system. Change * 용례 - 부록참조 : 변화라함은매우포괄적인의미이지만, 본작업에서는두가지를기본적으로정의한다. 첫째, 변경시키다 (alter), 수정시키다 (modify), 전환시키다 (convert) 등의의미로생각한다. 즉, A change B 라할때, 개체 A 가개체 B 를직접변화시키는관계가된다. 둘째, A change B into C 의경우 B 와 C 의관계는 A 에의해변화된관계이다. 여기서개체 B 와개체 C 사이의관계를변화관계로본다. - A convert B into C 의경우도마찬가지다. [Butyrate kinase] catalyzes the phosphorylation of butyrate, or converts [butyryl phosphate] to butyrate in the reverse phosphorylation 14

reaction in the last step of butyrate fermentation. Increase * 용례 - 부록참조 : Increase 라 함은 Increase in size or magnitude ( 워드넷 )[6] 로써 양적질적 증대를 포괄한다. 따라서 최상위어는 change 라고 볼 수 있으며 본 작업에서는 양과 질의 면에서 개체를 확장 (extend)/ 증대 (maximize)/ 증강 (intensify)/ 추가 (add)/ 획득 (o btain) 할뿐만 아니라 좋은 방향으로의 변화, 즉 개선 (improve)/ 향상 (enhance)/ 강화 (fortify) 의 의미까지 넓게 보아정의내린다. BACKGROUND Ovarian hyperstimulation syndrome (OHSS) seems to be induced by the ovarian release of [vascular endothelial growth factor] (VEGF), which increases [vascular permeability]. Decrease * 용례 - 부록참조 : Increase 관계와마찬가지로 Decrease 를정의해본다면, Decrease in size or magnitude 로써, 양과질의양 15

측면에서의줄어듦을의미하며이것은약화 (weaken) 와연결되며조금더확장하여기준치에서아래로떨어져나쁜조건에들었다는저하 (worsen), 악화 (deteriorate/aggravate) 의뜻까지포함한다. [Nitric oxide] reduces [oxidative stress] generated by lactofen in soybean plants. Affect * 용례 - 부록참조 : 워드넷에의하면 affect 의상위어는 change 다. 그러나앞에서 change( 변화관계 ) 에대해언급했듯이확연히드러나는변화라고한정한바있다. 따라서영향을준다혹은줬다라는것은실제변화되기이전단계로보기로한다. 변화가좋은변화가될지나쁜변화가될지도불확실한단계에있는두개체간의관계를영향관계로정의하기로한다. 즉, 단순히자극하다 (stimulate) 라는의미는영향관계에속한다. However, very few studies have been reported on how the [blood-brain barrier] is affected by [sonodynamic therapy]. Stabilize 16

: 이단어의상위어는 Change 다. 즉, 안정된상태를말하는 것이아니라안정시키는행위및작용에초점을맞춘다. 즉, 개체 A 가개체 B 를안정시키거나 비활성화 (inactivate) 한다는의미다. 유의할점은, State 의 하위레벨인관계 11 의상충관계에서 균형을잡아주다 라는확장의미와혼동하지않길바란다. 상충관계는 A, B 개체모두서로를밀어내는힘이작용하여이루어진상태를말하는것이다. 본관계는실제데이터에서용례가많지않으나화학분야에서비활성화를떠올리면이해하기용이할것이다. 해당관계에대한예제없음. Use * 용례 - 부록참조 : 사용, 활용, 적용이라는의미는매우포괄적이지만두기술개체간표현에서흔히쓰이는표현이다. 여기에서기술개체는알고리즘, 이론, 요소, 물질, 원리, 기술등으로다양하게나타날수있다. 17

[Scalable video coding] (SVC) based on H.264/AVC uses [motion compensation], whichresults in motion vectors and residual pictures. Measure * 용례 - 부록참조 : Analyze 의최상위어로 treat 이있다 ( 워드넷 )[5]. 다루다 라는뜻에서알수있듯이분석 평가관계가허용하는일반적의미의범위는매우포괄적이다. 그러나기술관련문서의특성상개체 A 는개체 B 를분석, 평가, 검사, 실험, 측정 (measure) 연구하는수단의의미가많다. 본작업에서중요한것은 ( 기술 ) 개체 간의관계라는점을상기하기바란다. [Macular edema] was examined by [optical coherence tomography]. Move * 용례 - 부록참조 : 상위레벨에속하는 move 라는단어에서파생되는의미로는기술개체사이의관계임을감안할때 옮기다, 전달하다, 전송하다, 운반하다 등을생각할수있고조금더확장한다면 소통하다 까지허용한다. [Dengue fever] is usually transmitted by [Aedes aegypti.] Control * 용례 - 부록참조 18

: control 이라는단어는여러가지상위레벨을가질수있다. 의미에따라다양한카테고리를갖지만그중본작업에서필요한카테고리는 treat 과 cognition 에있다. 즉조절 / 제어, 조정의의미에초점을둔다. 유의할점은, change 라는카테고리의하위레벨로서 control 이있는데그의미는바로 correct 다. 그러나이의미에대해서는변화관계에서다루기로이미정한바있다. 이와혼동하지않도록한다. 다시말하면, 조절관계란어느한기술개체가다른개체에의해특정한범위내에서조절될수있음을의미한다. 물론앞에서언급한물리, 논리적개념을통틀어정의하는것이므로기술개체의양상은다양할수있다. Even though the participants could not attentively differentiate the chemosensory stimuli, [emotional contagion] seems to be effectively mediated by the [olfactory system]. Provide * 용례 - 부록참조 19

: 제공관계에서한개체는 공급원 의의미이고다른 개체는수요자가아닌 공급의대상 이다. 즉, A provide B 라고할때, A 와 B 는사람이아닌 개체 가된다. [String theory] provides a [UV completion] in which these nonrenormalizable terms can be computed. Eliminate * 용례 - 부록참조 : eliminate 란단어역시여러가지의미가있지만본작업에서다루는범위는상위어 move 에서파생되는단어들즉 치워없애다, 제거 / 박멸하다 만을생각하기로한다. 실제데이터에서는생물, 화학, 의학분야에서많은예가보인다. The abilities of peracetic acid and [hydrogen peroxide] to remove or reduce [Pseudomonas aeruginosa] and Stenotrophomonas maltophilia in output water from microfiltered water dispensers (MWDs) were investigated. Divide * 용례 - 부록참조 : divide 는상위어 move 에서파생된단어중 separate 의 하위레벨이지만본작업에서는두단어사이에의미상큰 20

차이가없다. 유의할점은 divide 는 move 의상위어인 treat 이나 act 의카테고리라는것인데즉, 나누다, 분리하다, 구분하다또는쪼개다, 분할하다, 분해하다까지를허용하며인식과판단의범위인분별, 구별, 식별의개념은이관계에서다루지않는다. 실제데이터에서는주로생의학, 생화학계통에서개체사이의관계로나타난다. The [nasal septum] divided the [nasal cavity] in half. Ultrasonography was used in 6 patients to guide the surgical approach and to aid in intraoperative localization; it was invaluable in localizing the proximal segment of a [radial nerve] sectioned by a [humerus fracture]. be_located_in * 용례-부록참조 : 하나의개체가위치하는장소에대한관계이다. 예를들어, 어떤단백질이셀의특정위치에존재하는정보를파악하여해당단백질에대한유용한정보를확인할수있다. The growth condition of cells was observed, and [subcellular localization] of Zfp637 gene was located by [fluorescence microscope] at the same time. Determine * 용례 - 부록참조 21

: determine 은 cognition 이라는상위카테고리에속한다. 또한관계로정한 solve 와 measure 은 determine 의하위카테고리이다. 의미적중첩이되지않도록주의해야한다. 개체 A 가개체 B 를결정한다는것은중요한 ( 독립 ) 변수로작용한다는뜻으로판단의근거가된다는의미다. 개체를식별하기위해필요한개체일수도있고논리적근거로서의개체를뜻할수도있다. Cell survival was determined by trypan blue exclusion assay and intracellular [reactive oxygen species] (ROS) were determined by [flow cytometry]. [Multivariate analysis] adjusted for age and gender identified [atrial fibrillation], hypertension, hyperlipemia, family history of stroke, and smoking as the risk factors of stroke recurrence at 1 year. [Site-directed mutagenesis] identifies a [molecular switch] involved in copper sensing by the histidine kinase CinS in Pseudomonas putida KT2440.. Solve : 인식이라는범주에서문제에대한해결방법이라고 명시된관계를말한다. 22

Our [sparse PCA] is formulated as solving an [optimization problem] with a criterion function motivated from penalized Bernoulli likelihood. As to be shown, these estimators are defined as the joint optimizer of a relatively complex objective function, and a [genetic algorithm] is developed for solving the corresponding [optimization problem]. The [genetic algorithm] is used for solving the [optimization problem]. [Dynamic programming] is used to efficiently solve the [optimization problem]. Bind : 인식이라는범주에서 connect 의하위레벨로정의하였지만관계 22. Divide 에대한반대관계로보아도무방하다. 기술개체간의물리적논리적연결, 결합, 통합, 조합, 배합의의미를포괄적으로정의한다. [Augmented reality] (AR) combines a [virtual reality] (VR) setting with real physical materials, instruments, and feedback. Be_relateded_with 23

: 두기술개체사이의관계가 relate 와같은동사로명백한관계표현은없지만임의의관계가명시되어있는경우해당관계로할당한다. Be_not_related_with : 두기술개체사이의관계에대해관계가없다는표현을 명시적으로한경우해당관계에할당한다. etc. : 두기술개체사이의관계가기정의한관계로할당할수없으나관계를갖고있는경우로써 be_related_with 는단지관계가있다는표현이있는것이고해당관계는표현은명백하지만기정의된관계가없는경우에할당한다. 즉, 해당관계에분류된관계는후처리로관계를재설정해야할대상이된다. 다 ) 관계들의상호계층관계 24

정의한모든관계들에대해서로계층을 WordNet 을 이용하여파악하였다. ( 표 6) 관계중에는서로상하위관계를 갖는경우도있으나논문이나특허에서빈번하게등장하는 관계에대해서는하위에있어도독립적으로추가하였다. 표 4 관계들의상호계층관계 level2 level3 level4 level5 level6 relate act use treat analyze (touch) respond move give provide remove separate eliminate divide control station be_located_ with replace change increase: add fortify improve enhance 25

affect decrease weaken worsen deteriorate correct modulate(cont rol) stabilize activate:2 replace1 create replace caused_by activate:1 induce effect serve help recognize determine evaluate solve control judge measure connect bind(combinat ion) state part_of consist 26

is_a include equivalen ce coordinati ng prevent maintain protect differ contrast conflict surpass: be_related_with no_rela te be_not_related_ with 2.2. 분야독립적관계추출 1) 개방형관계추출 일반적으로관계추출이라함은입력문서에포함되어있는 여러가지자질들을이용하여해당분야에적합하게정의된 관계의종류를예측하는방법을의미한다. 이때관계를 예측하기위해서문서에포함되어있는다양한어휘적, 27

구문적자질을활용할뿐만아니라, 관계예측의직접적인 단서가될수있는개체의의미적속성을활용하기도한다. 그러나사용자가이러한입력문서와개체의속성정보를 제공하면서관계예측을수행하는경우에는많은전문적 지식이필요하다. 이러한요구사항과는별개로전문사용자가아닌일반 사용자도단순히키워드몇개만을입력하고해당키워드들 간의연관관계를알고싶은경우가있다. 이러한 요구사항을만족시키기위해서본연구에서는일반 사용자들이입력한키워드들의연관관계까지도추측해볼수 있는개방형관계추출방법을추가적으로개발하였다. 개방형관계추출이라함은사용자가제공한전문적지식 없이, 다시말해서분야에종속된특정지식없이, 시스템이 확보하고있는자원과방대한웹자원을기반으로관계 예측을수행하는방법을의미한다. 개방형관계추출의처리과정은다음과같다. 28

우선사용자가관심을가지고있는키워드한쌍을 입력받는다. 사용자의요구사항은분야에상관없이해당 키워드들간의연관관계를알고싶은것이다.( 물론결과 제공인터페이스를통해서분야를필터링할수는있다.) 시스템은이한쌍의키워드를입력받아서관계추출을 수행하는데, 내부적인프로세스는다음과같다. 가 ) 상하위어관계를포함한여러관계를직관적으로 파악할수있는휴리스틱규칙을적용하여관계를파악한다. 나 ) 기존에이미구축되어있는생물학, 의학등의대용량 트리플데이터베이스를검색하여관계를파악한다. 다 ) 각분야에다양하게구축되어있는대용량시소러스 정보를탐색하여관계를파악한다. 라 ) 웹검색엔진을이용하여해당키워드들이동시에 발생하는문서를수집한다. 그리고이문서를정제하고 구문분석을수행하여필요한자질정보들을얻는다. 29

이렇게얻어진자질정보들을사용자가입력한키워드와 결합시켜올바른연관관계를예측하도록시도한다. 이러한개방형관계추출은단순호기심을가진사용자도 복잡한입력절차없이단순한키워드만으로관계검색을 수행할수있기때문에시스템의활용성을증대시킬수 있다. 2) 분야별보유리소스를이용한관계필터링 범용과학기술개체간관계추출을위해다음의분야별 자원을활용하였다. MEDIE 데이터는일본동경대학교 Tsujii 연구실에서구축한데이터로써 18 백만개정도의 생물학논문초록으로부터추출한생물학 / 생의학개체들 간의관계정보이다. 그리고 Compendex 와 MeSH 는각각 모든과학분야와생명공학분야시소러스로써 BT(Broad 30

term) 과 NT(Narrow term) 정보를분석하여추출한정보이다. 본사업에적용한정보의양은다음의표 7 과같다. 표 5 입력문서분석 데이터이름 데이터양 MEDIE 1,967,026 Compendex 9,589 MeSH 51,524 3) 패턴정보를이용한관계추출 가 ) 술어 - 논항구조패턴정의및패턴추출방법 술어 - 논항구조는술어와논항관계를이용하여문장내에 존재하는각단어간의유의미한연관관계를표현하는 구조이다. 그리고술어 - 논항구조패턴은문장을구성하는 모든단어에대한술어 - 논항관계그래프에서중요하게 지정된두개체를연결하는최소집합의술어 - 논항으로 구성된순서열을의미한다. 이러한특성때문에술어 - 논항 31

구조패턴은문장내에서상호작용하는두개체간의 연관관계를표현해주는중요한단서정보가된다. 따라서 한개체로부터시작해서다른개체로까지의의미적 연결고리를제공해주는술어 - 논항구조패턴을이용하여 관계추출을수행할수있다. 본연구에서는술어 - 논항구조패턴을추출하기위해서 HPSG 파서를이용하였다. CFG 를사용하는전통적인 파서와달리 HPSG 를사용하는파서는효과적으로문장의 구문적 / 의미적구조를분석하여술어 - 논항관계를제공한다. 따라서사용자는파싱결과로부터직접적으로문장에있는 단어들사이의의미적연관관계를파악할수있다. HPSG 파서를이용한문장분석결과의예는아래 그림 2 와같다. 32

그림 2 HPSG 구문분석의예 위그림에서보는바와같이 HPSG 파서는문장을 입력으로받아서문장을구성하는각단어의술어 - 논항 관계를분석하여제공한다. 행으로나열된술어 - 논항분석 결과의각필드에대한설명은아래표 8 과같다. 표 6 HPSG 구문분석결과분석 열번호 상세설명 1 술어 2 술어의기본형 3 술어의품사 4 술어의기본형의품사 5 문장에서술어의위치 33

6 술어의종류 7 술어와논항사이의관계레이블 8 논항 9 논항의기본형 10 논항의품사 11 논항의기본형의품사 12 문장에서논항의위치 표 8 에서설명한내용을바탕으로 Radon_exposure is the second leading cause of lung_cancer in the general population. 문장에대한분석결과인그림 2 의 2 번째행과 3 번째행을설명하면, 우선단어 is 는동사로서논항 1 과 2 를갖는데그중논항 1 은명사인단어 radon_exposure 를지칭하고논항 2 는또다른명사인 단어 cause 를지칭한다는사실을나타낸다. 분석결과의 1 번째행은단순히문장의기본술어 (root predicate) 를 34

표현하는것이고, 4 번째행부터는 2 번째와 3 번째행을 해석한것과같은방식으로해석하면된다. HPSG 파서에서제공된결과를이용하여각단어의술어 - 논항관계그래프를그리면아래그림 3 과같이표현된다. 그림 3 HPSG 구문분석결과를이용한술어 - 논항관계그래프 위그림에서실제적으로문장내에존재하는두개체간의 유의미한관계를표현하는술어 - 논항구조만을추출하여 패턴을구성하면아래그림과같다. 화살표의연결은한 개체로부터상호작용하는다른개체로까지의술어 - 논항 관계를추적할수있다는것을의미한다. 따라서 radon_exposure 와 lung_cancer 사이의관계를추적해보면 35

is cause of 와같은중요한패턴을기반으로관계가 형성되어있음을알수있다. 그림 4 HPSG 구문분석에서추출한술어 - 논항구조패턴 결과적으로개체 1 과개체 2 의관계는두개체를유의미한 관계로연결해주는술어 - 논항구조패턴에의하여식별될 수있다. 나 ) 동사집합수집및빈도조사를통한특허문헌에서의 관계종류정의 특허문헌에존재하는유용한관계를파악하기위하여특허 문헌에존재하는개체들간의관계를기술하는동사집합을 추출하여각동사의발생빈도를조사하였다. 이러한 36

과정을거쳐서특허문헌에중요하게존재하는서술어로의 역할을수행하는중요한동사들을수집하고, 이것들을 기반으로좀더개념화된관계집합을정의할수있다. 관계집합은각각의동사집합보다좀더추상적으로 정의된상위개념으로서특허문헌에존재하는개체들간의 상호작용을표현하는역할을수행한다. 다음표 9 는특허문헌에존재하는상위 20 개의동사발생 빈도를나타낸다. 표 7 특허문헌내상위 20 개동사 순위동사빈도순위동사빈도 1 be 167,800 11 obtain 22,162 2 use 143,463 12 determine 19,636 3 comprise 100,053 13 encode 19,570 4 have 90,609 14 measure 18,460 5 base 59,501 15 reduce 18,114 6 include 46,369 16 increase 16,523 37

7 contain 33,212 17 consist 16,131 8 show 27,243 18 induce 15,994 9 provide 26,957 19 produce 15,910 10 associate 26,839 20 cause 15,711 본연구에서는이와같은관계를이용하여특허문헌에서 트리플을추출하였다. 트리플의중요성을판단하기 위해서는동사가해당문헌에서중요하게사용되는지의 여부뿐만아니라, 동사의연결대상이되는술어와논항의 중요성이함께반영되어야한다. 따라서본연구에서는 동사의연결대상이되는술어와논항의중요성을반영하기 위해서술어와논항이위키피디아데이터베이스에서중요한 개체로사용되는지를조사하여그결과를반영하였다. 이러한정제과정을거쳐서추출된트리플의각관계별 분포는다음그림 5 와같다. 38

그림 5 관계트리플의각관계별분포 다 ) 시드및동사집합을이용한부트스트랩핑 패턴기반관계추출시스템의적용을위해서는다양한 관계의트리플을추출할수있는충분한패턴의수집이 필수적이다. 그러나실제시스템에서사용자가이러한 패턴을수동으로수집하는것은어렵기때문에자동화된 패턴수집방법을사용해야된다. 본연구에서는정확률이 39

비교적높다고알려진 Espresso 알고리즘을사용하여패턴 확장을수행하였다. 부트스트랩핑을위하여사용되는 Espresso 알고리즘은 다음과같다. 신뢰도가높은패턴은해당관계에포함되는신뢰도가높은개체를추출하고, 반대로신뢰도가높은개체는해당관계를표현하는신뢰도가높은패턴을추출한다는가정을이용한다. 패턴의신뢰도와개체쌍의해당관계에대한신뢰도를상호학습하는과정을반복하면서최종결과를생성하는데, 과정은다음과같다. ➀ 먼저각각의의미관계에대한 seed 를수작업으로작성한다. ➁ 품사태깅이완료된코퍼스로부터 seed 가나타난문장들을모두추출한다. ➂ 각 seed 에포함된용어들사이에서나타나는문자열을패턴으로서추출한다. ➃ 추출된모든패턴은다음의식을사용하여신뢰도를측정한다. 40

➄ 신뢰도가높은패턴을이용하여다시개체쌍을추출한다. ➅ 추출된개체쌍의신뢰도를이용하여다시패턴을추출한다. ➆ 2-7 의과정을반복하면서신뢰도가높은패턴과개체쌍을추출한다. 이러한 Espresso 알고리즘을사용한패턴기반관계추출 시스템의구성도는다음그림 6 과같다. 그림 6 패턴기반관계추출시스템구성도 라 ) 시드생성을위한패턴및개체분류 시드패턴은 [ 술어 / 논항의종류 워드넘버 워드기본형 워드 기본형품사 워드 워드품사 술어타입 논항타입 ] 로 구성되어있다. 이러한시드패턴의예는표 10 과같다. 41

표 8 시드패턴의예 시드패턴 관계분류 PREDICATE 12 cause VB caused VBN verb_arg 12 ARG2 reason_re sult PREDICATE 14 compare VB compared VBN verb _arg12 ARG2 similar PREDICATE 15 with IN with IN prep_arg12 ARG1 PREDICATE 8 treat VB treated VBN verb_arg12 ARG2 equal PREDICATE 9 as IN as IN prep_arg12 ARG1 PREDICATE 6 consist VB consists VBZ verb_arg 1 ARG1 consist PREDICATE 7 of IN of IN prep_arg12 ARG1 PREDICATE 4 include VB included VBN verb_arg 12 ARG2 classify PREDICATE 5 into IN into IN prep_arg12 ARG1 42

PREDICATE 33 be VB is VBZ verb_arg12 ARG1 equal PREDICATE 8 fall VB fall VBP verb_arg1 ARG1 PREDICATE 9 within IN within IN prep_arg12 AR classify G1 PREDICATE 12 derive VB derived VBN verb_arg 12 ARG2 PREDICATE 13 through IN through IN prep_arg1 reason_re sult 2 ARG1 PREDICATE 4 include VB including VBG prep_ar g12 ARG1 classify PREDICATE 34 call VB called VBN verb_arg123 ARG2 equal 시드개체의예는표 11 과같다. 표 9 시드개체의예 개체 1 개체 2 관계분류 amplified signals injecting signals similar 43

optical gates switching elements equal optical waveguide photonic crystal consist brain-derived neurotrophic factor neuronal survival reason_result genetic disorder iron accumulation reason_result wireless network mobile nodes consist output power photovoltaic modules reason_result control signal centralized controller reason_result Inflammatory bowel diseases Crohn disease classify surface plasmon resonance signals gold surface reason_result 44

이러한시드패턴과시드개체를이용하여패턴 부트스트랩핑을수행할수있다. 2.3. 실험및평가 1) 실험환경 - 구문분석서버 : 7 서버, 15 데몬, 48 클라이언트 - 개체후보추출서버 : 5 서버, 10 데몬, 10 클라이언트 2) 5 개말뭉치에대한평가 - AIMed, BioInfer, HPRD50, IEPA, LLL 말뭉치를대상으로 수행하였다. 표 12 는그결과이다. Airola et al. (2008) [17] Miwa et al. (2009) [18] 표 10 5개말뭉치에대한평가 AIMed BioInfer HPRD50 IEPA LLL Average 56.4 61.3 63.4 75.1 76.8 66.60 60.8 68.1 70.9 71.7 80.1 70.32 45

Proposed approach 77.1 82.0 79.0 76.3 85.6 80.00 3) 논문및특허말뭉치에대한평가 가 ) 검증집합구축 - 5,000 개기술개체간관계후보를임의로추출하여 수작업으로검증하였다. ( 단, 30 개이하의관계후보를 포함한관계카테고리는평가대상에서제외 ) 나 ) 성능 - 표 13 은기술개체인식의현황과이들간의관계 추출성능이다. 평가척도는정확률 (Precision) 과 재현율 (Recall) 의조화평균 (F1-score) 를채택하여 사용하였다. 46

표 11 특허 / 논문에대한평가 47

3. 결론 본사업의결과물로 TOD 지원시스템 (S/W 솔루션형태 ) 이 제공될예정으로다양한정보소스 ( 논문, 특허, 보고서, 웹문서 ) 에서의미있는 TOD 관련정보들을추출하게된다. 산업계또는학계의연구자들이수요자가되며제공되는 TOD 지원시스템을직접사용하여본사업의결과물을 이전받거나, 웹상에서접속하여 TOD 관련정보활용 가능할것으로기대된다. 더불어기술 - 시장모니터링 도구로써도활용이가능할것이다. 48

4. 참고문헌 1. Zelenco, D., Aone, C., Richardella, A., Kernel Methods for Relation Extraction, Journal of Machine Leanring Research 3, 1083-1106, 2003. 2. Culotta, A., Sorensen, J., Dependency Tree Kernels for Relation Extraction, Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, 2004. 3. Bunescu, R.C., Mooney, R.J., A Shortest Path Dependency Kernel for Relation Extraction, Proceedings of the Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, Vancouver, B.C., pp.724-731, 2005. 4. Bunescu, R.C., Mooney, R.J., Subsequence Kernels for Relation Extraction, Advances in Neural Information Processing Systems, 2006 49

5. Zhang, M., Zhang, J., Su, J., Zhou, G., A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features, 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pp. 825-832, 2006 6. Zhao S.B. and Grishman R. 2005. Extracting Relations with Integrated Information Using Kernel Methods. ACL-2005 7. Miller S., Fox H., Ramshaw L. and Weischedel R. 2000. A novel use of statistical parsing to extract information from text. NAACL-2000 8. Jiang, J., Zhai, C., A Systematic Exploration of the Feature Space for Relation Extraction, Proceedings of NAACL HLT, 2007 9. GuoDong Z., Min Z., Dong H. J., QiaoMing Z., Tree Kernelbased Relation Extraction with Context-Sensitive Structured Parse Tree Information, Proceedings of the 2007 Joint 50

Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 728-736, Prague, June 2007. 10. http://www.inf.ed.ac.uk/resources/nlp/local_doc/mxpost.html 11. http://people.csail.mit.edu/mcollins/code.html 12. http://opennlp.sourceforge.net/ 13. http://www.cs.brown.edu/~ec/ 14. GuoDong, Z., Jian, S., Jie, Z., Min, J., Exploring Various Knowledge in Relation Extraction, Proceedings of the 43rd Annual Meeting of the ACL, pp. 427-434, 2005 15. Kambhatla N. 2004. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations. ACL-2004 (poster) 51

16. 정창후, 전홍우, 송사광, 최윤수, 최성필, 성원경, 술어 - 논항구조의패턴유사도를결합한혼합커널기반관계 추출, 한국인터넷정보학회논문지 2011.11 17. 정창후, 전홍우, 송사광, 최윤수, 최성필, 성원경, 워드넷을활용한의미기반구문트리커널개발, 한국인터넷정보학회하계학술대회 2011.06 18. 정창후, 전홍우, 송사광, 최윤수, 최성필, 성원경, 술어 - 논항구조의패턴유사도를활용한혼합커널기반관계 추출 KCC 2011.06 19. 정창후, 전홍우, 송사광, 최윤수, 최성필, 성원경, " 동사기반패턴을이용한대용량문헌정보내에서의 기술용어간관계추출시스템 " 대한민국특허 10-1061393 2011.08 20. 전홍우, 정창후, 송사광, 최윤수, 최성필, 성원경, Relation Extraction based on Composite Kernel combining 52

Pattern Similarity of Predicate-Argument Structure, UNESST2011.12 21. 전홍우, 정창후, 송사광, 최윤수, 최성필, 성원경, Relation Extraction based on Composite Kernel combining Pattern Similarity of Predicate-Argument Structure, Communications in Computer and Information Science Vol.264, PP.269-273 53

[ISBN 978-89-6211-979-4-93560] 전홍우 정창후 최성필최윤수 송사광 정한민 기술기회발굴을위한텍스트마이닝기술기반플랫폼개발연구 2012년 2월 14일인쇄 2012년 2월 14일발행 발행처 대전광역시유성구어은동 52-11 305-806 전화 : 042-869-1004 등록 : 1991년 2월 12일제 5-259호 발행인박영서 인쇄처 미래미디어 54