KISTA ISSUE PAPER Vol. 15 ( ) Contents 텍스트마이닝기반의특허분석및이를활용한기술동향예측 I. 개요 3 II. 개념및방법론 1. 기본개념 4 2. 텍스트마이닝 (Text Mining) 6 III. 사례연구 1. 키워드분석을통한트렌

KISTA ISSUE PAPER Vol. 15. 2018. 5. 텍스트마이닝기반의특허분석및 이를활용한기술동향예측

KISTA ISSUE PAPER Vol. 15 (2018. 5.) Contents 텍스트마이닝기반의특허분석및이를활용한기술동향예측 I. 개요 3 II. 개념및방법론 1. 기본개념 4 2. 텍스트마이닝 (Text Mining) 6 III. 사례연구 1. 키워드분석을통한트렌드예측 11 2. Context 분석을통한기술동향분석 13 Ⅳ. 결론 15 [ 부록 ] 참고문헌 16 2

텍스트마이닝기반의특허분석및이를활용한기술동향예측 개요 데이터마이닝 (Data mining) 이란대량의데이터에서통계적규칙이나패턴을찾아내고, 찾아낸정보 패턴을다양한형태로활용하는기술을의미한다. Neflix의협업필터링 (collaborative filtering) 을활용한영화추천시스템 (recommendation) 과같은 개인화마케팅 분야에서가장활발하게활용되고있으며, 최근들어사회변화예측및유망기술예측등의분야로적용이확대되고있다. 객관적데이터에기반한기술예측은새로운기술의등장및발전속도가급격히빨라짐과더불어중요성이점차증대되고있으며, 이에따라데이터마이닝을이용한기술예측, 유망기술발굴및 R&D 기획방법론에대한연구가활발하게진행되고있다. 본이슈페이퍼에서는텍스트마이닝 (Text mining) 을활용한특허분석및기술개발방향예측 탐색에의적용가능성에대해검토해보고자한다. 2절에서는데이터마이닝의기본개념및분석방법론 (process) 에대해간단히소개하고, 3절에서텍스트마이닝을활용한특허분석사례연구를통해기술개발방향예측 탐색방법론으로의적용가능성에대해검토해보고자한다. 그림 1 Data Mining and Knowledge Discovery 3

KISTA ISSUE PAPER Vol. 15 (2018. 5.) 개념및방법론 2-1 기본개념 데이터마이닝은대량의데이터에서유용한패턴, 인과관계또는상관관계를찾아내는과정으로, 통계학, 컴퓨터공학및기계학습 (machine learning) 3가지분야가상호연계 (interdisciplinary) 된기술이라할수있다. 통계학적관점에서는데이터에서통계적모델을구축하는작업으로정의되고, 컴퓨터공학관점에서는알고리즘의문제로, 기계학습관점에서는기계학습과유사어 (synonym) 로이해되고있다. 세가지분야에서서로다른관점으로바라보고있지만, 결론적으로는대량의데이터에서새로운지식을발견 (knowledge discovery) 하기위한분석과정 (analysis step) 으로정의할수있다. [ 그림 2] 에데이터마이닝의일반적인프로세스를도식적으로나타내었다. 그림 2 데이터마이닝프로세스 데이터마이닝의일반적인프로세스를살펴보면, 해결하고자하는과제및데이터마이닝의목적을정의하고, 이에적합한데이터를선정한후, 데이터마이닝에적절한형태로데이터를전처리하고, 통계적인방법을통해데이터들을모델링함으로써, 데이터내에잠재된패턴및데이터간상관관계를찾아내어, 이를목적에맞게활용하는단계로이루어진다. 예를들어설명하면, 최근개발되고있는신기술개발트렌드를알고싶다면, 해당기술의논문또는특허모집단을선정 수집하고, 컴퓨터가인식할수있는형태로논문 특허의텍스트데이터를정비하여출현빈도가높은기술용어, 빈도는낮지만특징적인기술용어및함께등장하는기술용어들을추출해냄으로써, 기술트렌드를유추하는과정을거치게되는것이다. 데이터에서통계적규칙 패턴을찾아내는과정, 즉데이터모델링 (Data Modeling) 은데이터요약 (Summarizing data) 과특징추출 (Feature extraction) 의크게 2 가지로구분될수있다. 데이터요약 (Summarizing data) 은대푯값으로데이터를요약하는것과유사한데이터끼리그룹을 지어나타내는클러스터링 (clustering) 으로구분된다. 대푯값을이용한데이터요약의두가지사례를 [ 그림 3] 에나타내었다. [ 그림 3](a) 는대푯값을이용한데이터요약의가장기본적인형태로, 데이터 4

텍스트마이닝기반의특허분석및이를활용한기술동향예측 의평균및표준편차를이용하여데이터의분포를나타내는것이다. [ 그림 3](b) 클러스터링의사례를나타낸것으로, 클러스터란비슷한특성을갖는데이터집단을의미한다. 클러스터링에의한데이터대표화는각클러스터를대표하는중심값 (centroid of cluster) 과클러스터내의개별데이터로부터중심값간의평균거리로데이터분포를나타내는방법이다. 그림 3 Summarization of Data 특징추출 (Feature extraction) 이란주어진데이터세트에서식별가능한본질적인정보, 즉특징 (feature) 을추출하여, 보다간결하게데이터 패턴을표현하는과정을의미한다. 기계학습 (machine learning), 패턴인식 (pattern recognition) 및이미지처리 (image processing) 분야에서대량의입력데이터 ( 예를들어이미지의픽셀 ) 로부터반복적이고무의미한데이터들을제거하여, 이후의기계학습등의작업을차원감소 (dimension reduction) 된데이터만을활용하여수행하도록하는과정이라할수있다. 그림 4 특징추출 (Feature Extraction) 사례 5

KISTA ISSUE PAPER Vol. 15 (2018. 5.) 2-2 텍스트마이닝 (Text Mining) 텍스트마이닝은입력데이터가문서또는웹등에나타나는텍스트로, 인간이사용하는자연어를 처리 (natural language processing) 하여정보를추출하는과정을의미한다. 본절에서는텍스트마이 닝관련용어및프로세스를간단히소개한다. 텍스트마이닝의첫번째과정은분석대상데이터, 즉텍스트데이터를수집하여모집단을구축하는것인데, 논문, 특허, 웹뉴스등대량의텍스트문서들을모아놓은집합을 corpus라고명명한다. 개별문서들을구성하는최하의텍스트단위는단어 (word, token) 이며, 두개의연속된단어를이중자 (bigram) 라한다. 이중자중에서일반적으로쓰는연속된단어 ( 예를들어 the wine ) 가아닌이중자, 예를들어 red wine 과같이특정한의미를가지는이중자는연어 (collocation) 라명명한다. 이중자는단순히연속해서존재하는두단어를의미하는반면, 연어는문맥적인의미 (context) 를가진다는점에서차이를갖는다. [ 그림 5] 에 corpus, word/token, bigram 및 collocation의사례를나타내었다. 그림 5 텍스트마이닝관련기본용어 텍스트마이닝을통해정보를얻을수있는가장기본적인단위는단어 (word, token) 이고, 텍스트를구성하는단어들중에서도의미가있는단어, 즉해당문서의주제 (theme, topic) 를나타내는단어를키워드 (keyword) 라할수있다. 텍스트마이닝의가장기초적인형태는텍스트문서로부터키워드를뽑아그문서또는문서의집합이나타내는주제를유추해보는것이다. 이러한키워드를뽑기위한텍스트마이닝의첫단계는텍스트문서를단어단위로쪼개어어떤단어들이문서에포함되어있는지를살펴보는것이라할수있는데, 텍스트문서의모든문장을개별단어단위로쪼개는과정을토큰화 (tokenize) 라고부른다. 문서의모든문장을토큰화하여단어들을모았다고가정하자. 그렇다면문서의주제를나타내는단어는어떻게찾을수있을까? 가장쉽게생각할수있는것이, 토큰화를통해단어들을모은후, 각단어들의출현빈도를계산하여문서에여러번등장하는단어를살펴보는것이다. 그렇다면출현빈도가높은단어들이항상중요한단어, 즉키워드라할수있을까? 실제로는예상과정반대로, 출현빈도가높은단어들은의미가없는단어들, 예를들어, 조사, 관사 / 정관사등 6

텍스트마이닝기반의특허분석및이를활용한기술동향예측 문장을구성하기위해항상쓰이는단어들이빈도가높게나타난다. [ 그림 6] 에미국특허의초록 (abstract) 을토큰화하여단어들의출현빈도를계산한결과를나타내었다. [ 그림 6] 에서알수있듯이 가장출현빈도가높은단어는정관사 the 로, 해당특허의주제와는무관한단어임을알수있다. 그림 6 토큰화및개별단어의출현빈도측정사례 위의사례로부터단순히출현빈도가높은단어들을찾아내는것은텍스트문서의주제어, 즉키워드를찾고자하는목적에는적절하지않음을알수있다. 출현빈도에근거하여주제를나타낼가능성이있는단어를추려내는방법으로, TF-IDF라는통계적수치가가장일반적으로사용되고있다. TF-IDF란 Term Frerquency-Inverse Document Frequency 의줄임말로, 여러문서로이루어진문서군에서어떤단어가특정문서내에서얼마나중요한것인지를나타내는통계적수치이다. TF( 단어빈도, term frequency) 는특정한단어가문서내에얼마나자주등장하는지를나타내는값으로, 이값이높을수록문서에서중요하다고생각할수있다. 하지만단어자체가문서군내에서자주사용되는경우, 이것은그단어가흔하게등장한다는것을의미한다. 이것을 DF( 문서빈도, document frequency) 라고하며, 이값의역수를 IDF( 역문서빈도, inverse document frequency) 라고한다. TF-IDF는 TF와 IDF를곱한값이다. IDF 값은문서군의성격에따라결정된다. 예를들어 ' 원자 ' 라는낱말은일반적인문서들사이에서는잘나오지않기때문에 IDF 값이높아지고문서의핵심어가될수있지만, 원자에대한문서를모아놓은문서군의경우이낱말은상투어가되어각문서들을세분화하여구분할수있는다른낱말들이높은가중치를얻게된다. 문서군내의단어들별로 TF-IDF 값을비교했을때, 높은 TF-IDF값을갖는단어들이문서의주제를나타낼가능성이높은것으로판단할수있다. [ 그림 7] 에 TF-IDF의개념을도식적으로나타내었다. 7

KISTA ISSUE PAPER Vol. 15 (2018. 5.) 그림 7 TF-IDF 의개념 대량의문서로구성된문서군을텍스트마이닝을통해의미를추출하는방법에는위에서기술한키워드추출외에도의미를갖는두개의연속단어 ( 이중자 ), 즉 collocation을추출하여의미를유추하는방법도적용이가능하다. Collocation은이중자중에서, 일정빈도이상으로함께쓰이는단어의조합으로, 텍스트의의미 (context) 를나타낼가능성이높은두단어의조합을의미한다. 따라서 collocation 분석을통해개별단어의 tf-idf 값에기반한키워드분석만으로는유추하기어려운문맥적의미를유추할수있다. 단어나이중자분석에서한걸음더나아가대량의문서에존재하는주제를예측하는방법도지속적으로연구및활용되고있는데, 그중대표적인것이토픽모델링 (Topic Modeling) 이다. 토픽모델링이란, 수집된문서에대해각문서에어떤주제들이존재하는지를찾아내는기계학습 (machine learning) 의한종류로, 자주함께나타나는단어들을클러스터링함으로써, 잠재된주제 (topic) 를유추하는것이라할수있다. 토픽모델링에있어서가장기본적인가정 (assumption) 은 Bag-of-Word model 개념으로, 텍스트문서는단어의뭉치 (bag) 로, 문법이나단어의순서는토픽과는무관하다는개념이다. 예를들어, I like to watch movies. 라는문장을단어단위로쪼개면 (I, like, to, watch, movies) 가되는데, 개별단어의순서가바뀐 (like, movies, I, watch, to) 도같은단어의뭉치라는것이다. 문서군의토픽을유추하는통계적방법에는 LSI(Latent Semantic Indexing), plsa(probabilistic Latent Semantic Analysis), LDA(Latent Dirichlet Allocation) 이있는데, LSI 와 plsa 의단점을보완 한 LDA 기법이가장많이사용되고있다. 8

텍스트마이닝기반의특허분석및이를활용한기술동향예측 LDA 기법은문서를여러개의토픽의뭉치 (mixture of topics) 로, 각토픽은개별단어들의확률적뭉치 / 분포 (probabilistic distribution of words) 로간주한다. 토픽모델링을개념적으로나타내면 [ 그림 8] 과같이나타낼수있다. [ 그림 8] 에블랙박스로나타낸부분이문서를처리하는통계모형 알고리즘을의미하는것이고, 가장많이활용되는 LDA에해당하는부분이다. 그림 8 토픽모델링 (Topic Modeling) 의개념 [ 자료 ] http://chdoig.github.io/pygotham-topic-modeling LDA를이용한토픽모델링의 5단계주요과정을 [ 그림 9] 에나타내었다. 분석대상인텍스트문서들을개별단어단위로쪼개고 (tokenization), 일반어 (stopwords) 를제거하는전처리과정 (pre-processing) 을거친후, 단어들의집합 (bag-of-words) 을구성하여 LDA를적용하여유사한단어들을주제로클러스터링한다. 그림 9 토픽모델링 (Topic Modeling) 의과정 [ 자료 ] http://chdoig.github.io/pygotham-topic-modeling 9

KISTA ISSUE PAPER Vol. 15 (2018. 5.) LDA는개별단어들을토픽별로무작위할당하고, 특정문서가해당토픽을포함할확률및특정단어가특정토픽에해당할확률을계산하고, 단어를재샘플링하여상기확률을계산하는과정을반복 (iteration) 하는알고리즘이다. LDA에의한토픽모델링의결과가얻어지면, 분석자가토픽또는단어를무작위로섞어서평가하는 Human-in-the-loop 방법과 cosine similarity를측정하는방법을이용하여평가 (evaluation) 하고, 클러스터링된토픽의정확도가낮다고판단되면, iteration 횟수, 토픽의개수등변수를바꾸어서다시모델링을수행한다. 지금까지기술한텍스트마이닝을활용한기술트렌드분석 예측, 대량의텍스트의주제도출을실 제기술분석에적용한사례를다음절에간단히소개한다. 10

텍스트마이닝기반의특허분석및이를활용한기술동향예측 사례연구 신기술에대한수요 (needs) 또는관심은최신논문및특허에고스란히반영되어있으며, 논문및특허를분석함으로써신기술개발방향및주요이슈등을예측할수있다. 본사례연구에서는미래형주방 (Smart kitchen) 에대한소비자들의수요가어떻게진화하고있는지, 그리고이에대응하기위해어떤기술이연구개발되고있는지살펴보기위해, 주방 (kitchen) 과관련된특허들을대상으로텍스트마이닝을적용, 유의미한키워드및키워드진화 (temporal evolution), 미래형주방과관련이있는것으로보이는단어들의문맥적의미를분석하였다. 3-1 키워드분석을통한트렌드예측 [ 그림 10] 에미래형주방에대한특허를대상으로한키워드분석절차를나타내었다. 텍스트마이 닝은 1990 년부터 2016 년까지 26 년간출원 등록된미국및유럽특허 2,000 건의초록 (abstract) 을 대상으로수행하였다. 그림 10 특허대상텍스트마이닝및키워드도출절차 [ 그림 10] 에나타낸절차중, 4번째단계는본사례연구에서특별히추가된단계로, 분석대상인특허에서관용적으로사용되는일반적인표현들을제거하기위한단계이다. 특허초록에는 invention, method, provide 등의단어들이가장일반적으로많이사용되기때문에, [ 그림 10] 의 3단계에서얻어진단어빈도수를검토하여, 상기관용어들을따로분류하여제거함으로써분석주제인미래형주방과관련된기술용어, 수요에관련된단어들만추출하고자하였다. 11

KISTA ISSUE PAPER Vol. 15 (2018. 5.) [ 그림 11] 에도출된키워드의빈도수분포및 1990 년이후시기별키워드의빈도수변화를워드 클라우드로나타내었다. 워드클라우드상의단어의크기차이는빈도수를의미하는것으로, 굵고크 게표현된단어가출현빈도가높은단어를의미하는것이다. 그림 11 키워드빈도수분포및시대별키워드진화 [ 그림 11] 에나타낸키워드빈도수를살펴보면, intelligent 라는단어가특허상에가장많이사용되고있음을알수있고, sensor, refrigerator, monitoring, safety 등의단어가다수출현하고있음을알수있다. 또한 wireless, communication, network, mobile, alarm, smart, rfid, security 등의단어들도자주나타나고있는데, 이러한단어들의공통점을생각해보면, 대부분 IT 기술을활용한모니터링, 센싱, 통신등의개념이라할수있다. 즉, 주방과관련하여일반적으로생각할수있는 food, cooking 등의단어보다상기단어들의빈도수가높다는사실은 IT 기술과접목된형태의진보된주방에대한관심이높게나타나고있음을반영하는것이라예측할수있다. 1990년이후시대별키워드진화를살펴보면, 이러한특징은더욱두드러지게나타난다. 1990년대에출원된특허에가장많이등장한단어는 food, nutritional, dietary 등음식, 영양과관련된용어인데비해, 2000년이후출원된특허상에는 sensor, detection이라는단어가가장높은빈도로등장하고, 2010년이후에는 intelligent, refrigerator 및 sensor가가장많이등장함을알수있다. 또한, 2000년이후 wireless, communication, mobile과같은 IT 기술과관련된단어들이등장하고있음을알수있다. 이러한결과로부터, 기존의전통적인주방에 IT 기술과융합되어통신, 모니터링등이가능한진보된주방에대한기술적관심, 즉기술개발이증가되고있음을예측할수있다. 12

텍스트마이닝기반의특허분석및이를활용한기술동향예측 3-2 Context 분석을통한기술동향분석 개별키워드분석으로도신기술동향을예측할수있지만, 개별키워드들이어떤문맥에서, 어떤다른단어들과함께나타나는지를분석함으로써, 좀더명확한예측이가능할수있다. 예를들어, 키워드분석결과에서가장높은빈도로나타난 intelligent 와같은단어들은어떤문맥에서사용되었는지를분석하면, 어떤개념, 어떤기술이개발되고있는지유추할수있을것이다. 이러한문맥분석의방법의하나로, 함께등장하는단어 (collocation) 를분석한결과를 [ 그림 12] 에나타내었다. 그림 12 Collocation 분석결과 먼저, 가장빈도수가높은키워드 intelligent 가어떤의미로쓰였는지를 [ 그림 12] 의결과로부터확인할수있는데, intelligent refrigerator, intelligent home과같이지능화된냉장고및집에대한관심을반영하고있음을알수있다. 시대별로살펴보면, 1990년대에는 food menu, smoke alarm 등의 collocation이주로나타난반면, 2000년이후 intelligent refrigerator, safety module, sensor array, remote sensor 등 IT 기술과의융합을의미하는 collocation이등장하고있음을뚜렷하게알수있다. 또한 2010년이후에는 Internet of Things(IoT), intelligent home, wireless communication 등이등장하는것으로부터주방및집에 internet, 통신기술들이융합되어보다편리하고스마트한형태로발전되어가고있음을나타내고있다. 실제로 2016년상반기, 삼성전자는 IoT 기능을적용, 요리와식재료주문및보관기간관리까지가능한스마트냉장고를출시했는데, 이는특허에서나타나는키워드및문맥분석이기술개발흐름 / 방향을예측할수있음을나타내는대표적인사례라고할수있을것이다. 함께나타나는두단어, 즉 collocation을추출하여분석함으로써, 개발하고자하는관심기술및개발방향에대한좀더명확한예측이가능함을상기사례로부터확인할수있는데, collocation에국한하지않고, 관심대상인특정키워드를포함하는문장을추출하여해당단어의전후문맥적인의미를살펴보는방법을활용할수도있다. 가장출현빈도가높은키워드 intelligent 를포함하는문장 13

KISTA ISSUE PAPER Vol. 15 (2018. 5.) 을추출한결과를 [ 그림 13] 에나타내었다. 높은빈도로동시출현한 intelligent refrigerator 이외에도, intelligent appliances, intelligent sensor system, intelligent thermostat, intelligent food receptacles, intelligent food safety management card, intelligent bio-preservation system, intelligent temperature sensing spoon 등다양한주방기기 / 용품들에대한지능화, 스마트화에대한기술개발이이루어지고있음을확인할수있다. 그림 13 특정키워드를포함하는문장의문맥분석 14

텍스트마이닝기반의특허분석및이를활용한기술동향예측 결론 본고에서는텍스트마이닝에대한간략한소개와더불어텍스트마이닝기반의특허분석을통해신기술에대한수요 관심 (needs) 및기술개발방향을예측하는방법에대해살펴보았다. 텍스트마이닝을활용하여대량의문서데이터를분석함으로써, 분석자의주관적인의견을배제한객관적정보를빠른시간안에효율적으로추출해낼수있다. 대량의논문, 특허등의텍스트문서로부터유의미한키워드들을추출하고, 이를기반으로문맥분석및동시출현단어를분석하여시장에서수요가높은기술을예측하거나, 실제기술이개발되는동향, 진화방향을예측하는데효과적인방법으로, 연구단계초기의거시적트렌드예측또는두가지이상의기술이융합된융합분야의기술을예측하는데유용하게활용될수있을것이라판단된다. 또한, 기계학습방법을도입하여, 대량의텍스트에잠재되어있는주제 (topic) 들을추출 유추하거나문서간의유사도 (similarity) 를기반으로대량의문서를주제별로분류 (classification) 하는시스템에도확장응용이가능한방법으로, 향후기술예측이나기술기획, 소비자수요파악등으로그활용범위가크게확장될것으로기대된다. 15

KISTA ISSUE PAPER Vol. 15 (2018. 5.) 참고문헌 Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, second edition, Cambridge University Press(2014) Latent Dirichlet Allocation, D.M.Blei et al., J.Machine Learning Research, 3, 993(2003) A correlated topic model of science, D.M.Blei and J.D.Lafferty, The Annals of Applied Statistics, 1(1), 17(2007) Python Machine Learning, Sebastian Raschka & Vahid Mirjalili, second edition, Packt (2017) https://ko.wikipedia.org/wiki/tf-idf http://chdoig.github.io/pygotham-topic-modeling 16

ISSUE PAPER 국가 R&D 를선도하는지식재산전략전문기관 본이슈페이퍼의내용을전재할수없으며, 인용할시에는반드시 국가특허전략청사진구축 활용사업의연구결과 임을밝혀야합니다. 본이슈페이퍼의내용은한국특허전략개발원의공식견해와다를수있음을알려드립니다. 참여집필진 - 집필책임자 : 김원선 본원 서울시강남구테헤란로 131 한국지식재산센터 8 층 (06133) TEL 02. 3287. 4250 FAX 02. 3287. 4351 www.kista.re.kr 분원 서울시강남구테헤란로 145 우신빌딩 8, 9 층 (06132)