유아언어학습에대한하이퍼망메모리기반모델 983 유아언어학습에대한하이퍼망메모리기반모델 (Hypernetwork Memory-Based Model for Infant's Language Learning) 이지훈 이은석 (Ji-Hoon Lee) (Eun Seok Lee) 장병탁 (Byoung-Tak Zhang) 요약유아들의언어습득에있어서중요한점하나는학습자에대한언어환경의노출이다. 유아가접하는언어환경은부모와같은인간뿐만아니라각종미디어와같은인공적환경도포함되며, 유아는이러한방대한언어환경을탐색하면서언어를학습한다. 본연구는대용량의언어데이터노출이영향을미치는유아언어학습을유연하고적절하게모사하는인지적기제에따른기계학습방식을제안한다. 유아의초기언어학습은문장수준의학습과생성같은행동들이수반되는데, 이는언어코퍼스에대한노출만으로모사가가능하다. 모사의핵심은언어하이퍼망구조를가진기억기반학습모델이다. 언어하이퍼망은언어구성요소들간의상위차원관계표상을가능케함으로써새로운데이터스트림에대해유사구조의적용과이용을도모하여발달적이고점진적인학습을모사한다. 본연구에서는 이연구는한국학술진흥재단 (KRF-2008-314-D00377), 과학재단미래유망파이오니어사업, 정보통신연구진흥원 IT산업원천기술개발사업 (IITA- 2009-A1100-0901-1639), BK21-IT 에의하여지원되었음 이논문은 2009 한국컴퓨터종합학술대회에서 하이퍼망메모리기반유아언어학습및생성모델 의제목으로발표된논문을확장한것임 학생회원 : 서울대학교생물정보학협동과정 jhlee@bi.snu.ac.kr 학생회원 : 서울대학교인지과학협동과정 eslee@bi.snu.ac.kr 종신회원 : 서울대학교컴퓨터공학부교수 btzhang@bi.snu.ac.kr 논문접수 : 2009년 8월 14일심사완료 : 2009년 10월 8일 CopyrightC2009 한국정보과학회ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 컴퓨팅의실제및레터제15권제12호 (2009.12) 11 개의유아용비디오로부터추출한문장 32744 개를언어하이퍼망을통한점진적학습을수행하여문장을생성해유아의점진적, 발달적학습을모사하였다. 키워드 : 언어학습, 언어생성, 문장생성, 하이퍼망학습, 하이퍼네트워크 Abstract One of the critical themes in the language acquisition is its exposure to linguistic environments. Linguistic environments, which interact with infants, include not only human beings such as its parents but also artificially crafted linguistic media as their functioning elements. An infant learns a language by exploring these extensive language environments around it. Based on such large linguistic data exposure, we propose a machine learning based method on the cognitive mechanism that simulate flexibly and appropriately infant s language learning. The infant s initial stage of language learning comes with sentence learning and creation, which can be simulated by exposing it to a language corpus. The core of the simulation is a memory-based learning model which has language hypernetwork structure. The language hypernetwork simulates developmental and progressive language learning using the structure of new data stream through making it representing of high level connection between language components possible. In this paper, we simulates an infant s gradual and developmental learning progress by training language hypernetwork gradually using 32,744 sentences extracted from video scripts of commercial animation movies for children. Key words : Language learning, Language generation, Sentence generation, Hypernetwork learning 1. 서론 1.1 언어습득이론현대언어학을지배하고있는생성문법은언어습득의핵심은구문syntax의학습에있다고주장한다. 구문론은잘형성된문장형태와잘못형성된형태를구분하는기준이되며문장 S를구문적으로옳거나 / 그른코드로맵핑하는것을배우는과정이언어습득과정이라고본다. 또이러한과정을가능하게하는기제는태어날때부터가능하다고본다 [1]. 하지만소리 / 단어 / 문장스트림으로부터언어적패턴을사실상추출해내는확률기반기계학습적인접근을통한연구로인해생성문법이론에대해많은비판이가해졌다. 구문론적규칙을가지고해공간을탐색하는것보다는, 언어의확률적이고통계적인측면에대한정보의증가를통해언어학습이가능하다는입장이확률기반언어습득론이다 [2]. 기계학습이좀더풍부한데이터를가용할
984 정보과학회논문지 : 컴퓨팅의실제및레터제 15 권제 12 호 (2009.12) 수있게되면서, 이같은논의는더욱활발해지고있다. 즉언어적 자극Stimulus 은그간언어학자들이생각했던것보다도훨씬더풍부하고방대하다. 두데이터간의맵핑-언어형태와그형태가지시하는의미-이 crosssituational 추론을통해이루어질수도있고 [3], 언어데이터에대해방대한양의확률정보를암묵적으로저장하고이를확률적제약조건으로삼아언어가학습되기도한다 [2]. 이이론적입장은언어학습은인간의보편적인학습기제로인해일어난다는가설을지지하고있다. 언어습득에있어서최근나타나는또다른계산론적방법론으로발달모델을들수있다. 앞서의두입장은언어의특정현상을시간의흐름을무시한채그자체만으로고립시켜놓은상태에서다룬다. 이러한접근은언어습득의과정을중요하게뒷받침하는발달적측면을도외시할가능성이높다. 발달모델은이러한점을보충한다. 즉 incremental, open-ended 방식으로학습이가능하도록한다 [4-6]. 이방법론에서유아는자신을둘러싼언어환경을탐색하면서관찰된자극들과상호영향을주고받는다. 이렇게함으로써학습단계가늘어가면서시간의흐름에따라주어진언어자극을저장 / 변형 / 생성하는경험을늘려간다. 즉한꺼번에 ( 앞의두접근처럼 ) 언어의복잡성에노출되는것이아니라, 단계적으로복잡성을증가시켜나가는것이다. 1.2 연구목적본연구에서는이와같은언어의발달적측면을고려한확률기반의언어학습양상을보인다. 구체적으로시뮬레이션하는내용은언어환경으로부터의자극이증가함에따라유아 ( 기계학습자 ) 가점점그자극에대해연합된개념이풍부해지고추상적구조 ( 구문론적구조 ) 의출현이점점강화되는양상이다. 이기제의핵심은언어하이퍼망구조를가진기억기반학습모델이다. 언어하이퍼망은언어구성요소들간의상위차원관계표상을가능케함으로써새로운데이터스트림에대해유사구조의적용과이용을도모하여발달적이고증가적인학습을시뮬레이션한다 [7-9]. 언어학습에대해가장활발한논의가진행되는영역은구문론이다. 유아가어떤방식으로처음에는무분별하게나열된데이터의스트림으로부터소리, 단어, 구, 절을구분해내는가? 본연구에적용된언어하이퍼망은어떠한명시적인구문론적규칙이없이도계속되는학습단계별로주어진자극으로부터연합기억을만들어내고, 이를바탕으로구문론적으로정합적인문장을생성하고, 또더나아가서의미론적으로도정합적인문장을생성하는데적합한모델이다. 1.3 유아에게노출되는언어환경의특징유아가언어환경에노출되면서드러나는언어환경의 특징을약술하면다음과같다. 첫째언어자극들이 random하게나열되어있고, 자극들간에연합되어제시되는데그방식또한유아입장에서는알수가없다. 따라서언어형태-의미간맵핑함수는유아에게전혀가용하지않다. 물론유아의부모와같은언어학습을매개하는기능이있으나이것이유아의언어발달에전면적인영향을끼치지는않는다 [10]. 둘째언어학습환경은생각보다훨씬방대하며복잡하다. 따라서환경전체를정확하고면밀하게모사한환경자극을제시해야만시뮬레이션의학습자도현실적이고유연하게언어학습의양상을보일수있을것이다. 셋째언어환경은시간의흐름에따라연속적으로유아에게입력된다. 이환경은똑같은양상으로자주나타날수도있고, 한번나타났던것이다시는나타나지않을수도있다. 즉그환경의시간에따른변화가심하다. 이환경을얼마나현실적으로입력할수있는가역시발달적학습의요소를도입하는데핵심적인문제일것이다. 2. 언어하이퍼망모델하이퍼망 H는두개이상의여러개의정점의집합 X, 두개이상의정점의집합인하이퍼에지 E, 하이퍼에지의가중치 (weight) 집합 W로구성된다 [8]. 본논문의하이퍼망언어모델에서는문장의단어가정점이되고, 순서정보가있는연결된단어묶음이하이퍼에지가되며, 각하이퍼에지의출현빈도가가중치가된다. 이때연결되는단어의개수를 Order라한다. 예를들어, 그림 1에서언어하이퍼망은 7 단어 good, friend, best, my, a, have, your 를정점으로가지고, Order 3의 5개문장, my good friend, my best friend, have a friend, your best friend, a good friend 를하이퍼에지로가진다. 각각의하이퍼에지들은순서대로 weights(3,2,1,4,1) 를가진다. 각각하이퍼에지들을연결하면그림 1에서와같이하이퍼망을만든다. 기존의하이퍼망은하이퍼에지내정점들간의방향성을고려하지않지만본논문의언어하이퍼망에서는정점의순서를고려한다. 이것은문장생성문제에있어서연결된단어간의선후관계에의미를부여함으로써언어특성에맞는하이퍼망을만들기위해서이다. 언어하이퍼망은유아의언어자극정도에따라다르게생성되며, 생성된하이퍼망을통해문장을생성함으로써유아의언어학습양상을모사할수있다. 3. 문장생성실험 3.1 실험재료및단계언어환경은총 11단계로구성하여단계별로총합적으로 incrementally 학습시키고, 각단계별로주어진키워
유아언어학습에대한하이퍼망메모리기반모델 985 그림 1 하이퍼망 H는단어집합 X, 하이퍼에지집합 E, Weight 집합 W로구성된다. Order 3의하이퍼에지들이모여하이퍼망구조를만든다. 그림 2 언어하이퍼망을통한문장생성예시. 키워드는 you, 생성된문장은 thank you for helping me said thomas 드에따라생성되는문장 100개를추출한후, 이들중구문론적으로옳은문장과의미론적으로옳은문장들의분포와비율을분석하였다. 각단계별로학습시키는문장은유아용비디오의자막으로구성되어있다. 실험에쓰인문장데이터의비디오는 < 늑대와 7마리아기양 > < 미피와친구들 > < 루니튠스 > < 까이유 > < 도라도라 > < 싱어롱맥도널드농장 > < 꼬마기관차토마스 > < 티모시네유치원 > < 곰돌이푸 > < 굿모닝헬로키티 > < 찰리브라운과스누피 > 이다. ( 학습순서에따라나열함 ) 언어하이퍼망을구성하는문장데이터의용량은각단계별평균 100kb이다. 본실험에서사용된키워드는명사 / 형용사형태로, Kucera and Francis 빈도에서상위에위치하는단어 you 를사용하였다 [11]. 키워드에따라생성된문장들중 100개를무작위로추출하고, 이를다시구문론적으로옳은문장과의미론적으로옳은문장, 그리고옳지않은문장으로분류하여, 학습단계발전에따른생성양상을살펴보았다. 3.2 하이퍼망학습및생성유아의언어학습양상을모사하기위한방법으로언어하이퍼망을통한문장생성실험을수행하였다. 하이 퍼망을 Order 3으로생성하였을경우문장은그림 2에서처럼키워드를중심으로양방향으로생성된다. 문장생성알고리즘은다음과같다 : 단계 1. 주어진키워드 L q = (x q) 를하이퍼망 H에서검색하여동일한키워드를포함하는하이퍼에지를찾아 M = {L 1,L 2,,L m} 에저장. 단계 2. M 에서 Roulette wheel selection을통해하이퍼에지 L h = (x q-1, x q, x q+1) 선택단계 3. 키워드 L q = (x q-1) 을업데이트한후단계 1, 2 를다시수행하여 L left = (x q-2, x q-1, x q) 를정한다. 단계 4. 키워드 L q = (x q+1) 을업데이트한후단계 1, 2 를다시수행하여 L right = (x q, x q+1, x q+2) 를정한다. 단계 5. L left 를 L right 연결하여부분문장 L h = (x q-2, x q-1, x q, x q+1, x q-2) 을생성한다. 단계 6. 단계 3-5 를 L q = (x q-2) 과 L q = (x q+2) 에수행한다. 이과정을문장이종료조건을맞이할때까지반복수행한다. 문장생성의종료는생성되고있는문장의양쪽말단에위치한단어들이하이퍼망상에서종료단어이거나시작단어일확률이높을경우종료하도록하였다.
986 정보과학회논문지 : 컴퓨팅의실제및레터제 15 권제 12 호 (2009.12) 4. 결과및분석표 1은하이퍼망의언어데이터학습후 you 라는키워드를중심으로생성된문장들의예문이다. 제시된문장들은생성된문장 100개중에서구문론적 / 의미론적으로공히정합적인문장들이다. 이문장들은단어 4개부터 10개로구성되어있고, 학습단계가진행될수록정합적이면서길이가긴문장들이더많이생성되었다. 학습데이터를구성하는형태별어휘들의개수 (type number) 는총 6124개이고사용된모든어휘개수 (token number) 는총 252936개로서 small world를형성한다. 하이퍼망이형성하는전체가설공간, 즉총문장개수의크기는 32744개이다. 학습단계는총 11회에걸쳐진행 했다. 주어진키워드에대해생성된문장의정합성에대한분석기준은다음과같다 : * 문장의구문론적정합성 : 생성된문장이문법적으로옳은지의여부를살펴보았다. * 문장의의미론적정합성 : 의미적으로옳은문장인지여부. 문장이문법적으로옳다고하더라도의미적으로옳지않은경우가많다. 가장생성되기어려운기준이므로이기준에부합하는문장수도가장적다. 그림 3에서보는것과같이, 실험결과학습단계가진행될수록생성된문장에서구문론적, 의미론적정합적인문장의개수가늘어나는것을볼수있었다. 표 1 문장생성결과 그림 3 각학습단계별정합적문장생성비율 (%). 총 11단계까지진행했다. 괄호안은학습어휘 type의개수이다. 5. 결론및논의본연구는언어학습에대한선험적인규칙없이하이퍼망기반의기억모델을통해언어환경의확률적분포와시간에따른언어환경및기억변화로부터유아의언어획득및생성이가능한지에대해시뮬레이션실험으로고찰해보았다. 언어환경구축은유아용비디오의자막데이터를사용하였고, 하이퍼망을사용하여총 11 단계의점진적, 발달적학습을모사하였다. 이후하이퍼망이주어진키워드에따라생성하는문장들의구문론적 / 의미론적정합성을확인하였다. 하이퍼망은학습데이터에대한명시적인규칙없이데이터항목들사이의연결양상으로부터구조를파악하고주어진구조와비슷한데이터를생성하는데유용하다. 또데이터가증가적으로늘어날수록학습효율과유연성이뛰어나언어학습처럼가설공간이사실상무한에가깝고보편적인인지기제들이동원되는언어적작업수행에좋은능력을보인다. 실험을통해, 데이터가증가하면서정합적인문장의생성능력이늘어감을알수있었다. 또정합적인문장
유아언어학습에대한하이퍼망메모리기반모델 987 의길이또한증가하였기때문에, 유아언어학습의보편적인양상을반영하는부분이라할수있다. 종합적으로, 본실험이언어학습의발달적측면을일부나마잘모사한것으로볼수있다. 차후좀더많은양의데이터와학습단계, 언어학습에영향을끼치는다양한심리학적변인들로연계실험을진행할필요가있다. 참고문헌 [ 1 ] Marcus, G., Poverty of the stimulus arguments, Cambridge MA, MIT Press, pp.660-661, 1999. [ 2 ] Seidenberg, M. and MacDonald, M., A probabilistic constraints approach to language acquisition and processing, Cognitive Science, vol.23, pp.569-588, 1999. [3] Siskind, J., A computational study of cross-situational techniques for learning word-to-meaning mappings, Ccognition, vol.61(1-2), pp.39-91, 1996. [ 4 ] Weng, J., A theory for mentally developing robots, In Second International Conference on Development and Learning, IEEE Computer Society Press, 2002. [ 5 ] Lungarella, M., Metta, G., Pfeifer, R., and Sandini, G., Developmental robotics: A Survey, Connection Science, vol.15(4) pp.151-190, 2003. [ 6 ] Oudeyer, P.-Y., Kaplan, F., and Hafner, V., Intrinsic motivation systems for autonomous mental development, IEEE Transactions on Evolutionary Computation, vol.11(2) pp.265-286, 2007. [ 7 ] Zhang, B.-T. and Kim, J.-K., DNA hypernetworks for information storage and retrieval, Lecture Notes in Computer Science, DNA12, vol.4287, pp. 298-307, 2006. [8] Kim, S., Heo, M.-O., and Zhang, B.-T., Text classifiers evolved on a simulated DNA computer, IEEE Congress on Evolutionary Computation, pp. 9196-9202, 2006. [9] Ha, J.-W., Eom, J.-H., Kim S.-C. and Zhang, B.-T., Evolutionary hypernetwork models for aptamer-based cardiovascular disease diagnosis, The Genetic and Evolutionary Computation Conference, vol.4, pp.2709-2716, 2007. [10] Chomsky, N., Rules and Representations, Oxford: Basil Blackwell, 1980. [11] Kucera, H. & Francis, W., Computational analysis of present-day American English, Providence, RI: Brown University Press, 1967.