특집원고 I SNU Videome Project: 인간수준의비디오학습기술 서울대학교장병탁 * 1. 서 1) 론 1950 년에 Alan Turing 은 Mind 지에발표한논문 Computing Machinery and Intelligence 에서생각하는 기계 (Thinking Machines) 를개발하는원대한꿈을제 시한다 [1]. 그러나인공지능연구는그동안본질적인 큰질문에대한답을추구하기보다는단편적인문제들을해결하기에급급했다. 최근들어, 여러연구자들에의해다시원래의질문으로돌아가서인간수준의인공지능 (Human-Level Artificial Intelligence) 실현에대한연구를해야한다는주장이대두되고있다 [2-5]. 하지만인간수준의인공지능실현을위해서는먼저인간수준의기계학습 (Human-Level Machine Learning) 기술이개발될필요가있다. 학습능력이결여된지능시스템은지속적인성능향상을보장할수없다. 이점에착안하여서울대바이오지능기술연구센터 (CBIT) 에서는사람의뇌인지모델에기반한인지기계학습기술을연구해오고있다 [6]. 이프로젝트는세상에존재하는모든비디오데이터즉 Videome을분석하는것을학습의목표로한다. 비디오는이미지, 소리, 동작, 텍스트등의다양한모달리티의정보를포함하고있을뿐만아니라일상생활의단면과전체적인줄거리를가지고있다. 비디오를모델링하는것은인간의시각, 언어, 사고, 행동을분석하고모사하는것으로이는현재기계학습기술에대한상당한도전과제이다 [7,8]. 한편, 비디오데이터는디지털매체로서그특성과내용을기술수준에따라서알맞게조절할수있어서연구용학습데이터로서아주적합한장점이있다. 본고에서는인간수준의기계학습실현을위해기계학습연구가향후나아가야할방향을논하고, 이점에서 Videome 프로젝트가기여하는부분에초점을맞 * 종신회원 본연구는한국연구재단 (NRF) 도약과제 (No. 2010-0017734) 의지원으로수행되었다. MMG 플랫폼개발과 TV Drama 실험및 KidsVideo 실험을수행한 Videome 과제참여연구원들의기여에감사한다. 추고자한다. 먼저 2절에서는현재의기계학습기술을간략히살펴보고, 3절에서는인간수준의인공지능을실현하기위한기계학습의도전과제들을논의한다. 4절에서는 SNU Videome Project를개괄하고, 5절과 6 절에서는현재까지의실험결과들을소개한다. 7절에서는 Videome 프로젝트를통해개발되는인지기계학습기술과그활용분야에대해서논한다. 2. 기계학습현재수준본절에서는학습시스템을정의하고, 최근의성공사례를통해서기계학습의개념과활용성을논한다. 다양한학습구조와알고리즘을개괄적으로살펴보고, 연구의역사와최근연구동향을기술한다. 2.1 정의및활용예기계학습은환경과의상호작용을통한경험으로부터시간이지남에따라서스스로성능을향상시키는시스템을연구하는인공지능의한분야이다. 컴퓨터공학관점에서보면데이터 D로부터프로그램또는모델 M을자동으로생성하는일종의자동프로그래밍기술로볼수있다. 즉기계학습알고리즘은다양한입출력관계에대한데이터집합 D = {(x i, y i ) i = 1,...,N} 을이용하여입력벡터 x i 가주어지면대응되는출력 y i = f M (x i ; W) 를산출하는함수 f M ( ;W ) 를자동으로생성한다. 여기서 W는모델 M의파라메터집합으로학습에의해서최적화된다. 기계학습기술을이용하여무인자동차를개발하는예를생각해보자. 이를위해서자동차운전석에전방카메라를설치한후사람이운전하는동작을센서로측정하여학습데이터 D = {(x i, y i ) i = 1,...,N} 를구축한 2011. 2 정보과학회지 17
그림 1 기계학습성공사례. 스탠포드대학교인공지능연구소에서개발한무인자동차가기계학습기술을활용하여 DARPA Grand Challenge 에서우승함 [9] 다. 여기서입력벡터 x i 는카메라입력에대한영상데이터를나타내고, 츨력벡터 y i 는핸들방향, 가속도페달, 브레이크페달을조작하는변수값들을표시한다. 이제학습데이터 D를이용하여자동차운전제어기모델 f M ( ;W ) 를학습시켜서입력 x i 에대한원하는출력 y i = f M (x i ;W) 가생성되도록학습시키면된다. 학습모델로신경망을사용할경우 W는신경망의연결강도를나타내는파라메터벡터이다. 실제로, 1990년대중반에 CMU에서는다층신경망을사용하여무인자동차 ALVINN 시스템을개발하여고속도로주행에성공한바있다. 이러한기술이더욱발전하여, 2005년에는 DARPA에서 Grand Challenge를개최하여, 사막에서무인주행하는자동차경주대회를열었으며, Stanford 대학의 Sebastian Thrun 교수팀이 175 마일을 10 시간이내로주파함으로써우승하였다 [9]. 이자동차는현재 Smithsonian 역사박물관에전시되어있다 ( 그림 1). 2.2 모델구조기계학습모델의클래스 M은다양한종류가있으며각모델마다조정이가능한특유의파라메터집합 W를가지고있다. 하나의 Java 프로그램도그입출력데이터에대한모델로볼수있으며, Java로짜여진프로그램은입력 x를주면그것에대한출력 y를산출하는함수 f M (x ; W(Java)) 로볼수있다. Java 프로그램을자동으로생성하는기계학습알고리즘은데이터 D가주어지면 f M (x ; W (Java)) 를수행하는출력모델 M을산출물로준다. 물론 Java 언어와같이범용의프로그램구조를자동으로학습하는것은효율적이지못하므로, 기계학습에 서는이보다제한적인표현능력을갖는프로그램구조를모델의구조로사용한다. 예를들면, 유전자프로그래밍 (Genetic Programming, GP) 기법에서는제한적인 Lisp 구조를모델의표현구조로하여유전자알고리즘을이용하여학습시킴으로써 Mini Lisp 형태의프로그램구조 M을생성하여입출력함수 f M (x ; W(Lisp)) 를구현한다. Inductive Logic Programming(ILP) 방식은 1차술어논리형태의 Prolog 프로그램구조를사용하여모델 f M (x ; W(Prolog)) 을데이터로부터자동으로학습한다. 다른예로, 앞에서언급한바있는신경망 (Neural Network, NN) 학습에서는단순한뉴런프로세서들이망형태로프로그램을표현한다. 즉단순한프로세서에해당하는뉴런들을다층의망형태로결합하고그들의연결가중치매트릭스 W를학습함으로써입력 x에대한출력 y를산출하는함수 f M (x ; W(NN)) 를구현한다. 또다른예로는, 의사결정트리 (Decision Tree, DT) 를들수있다. 이경우학습되는모델의구조는트리구조이다. 즉데이터로부터트리구조의모델 M를생성함으로써후에입력데이터 x가주어지면출력 y를생성하는 f M (x ; W(DT)) 를구현한다. 베이지안망 (Bayesian Network, BN) 학습기법은 DAG (Directed Acyclic Graph) 구조의그래프를모델구조로사용하여데이터집합의확률분포를추정하는모델 f M (x ; W(BN)) 를생성한다. 2.3 학습방법기계학습은학습데이터의제공방식에따라서크게다음의세가지로구분된다. 감독학습 : 입력 x와그에대한목표출력 y를제시하는학습방식 무감독학습 : 입력 x만주어지고그에대한목표출력 y가제시되지않는학습방식 강화학습 : 입력 x와그에대한목표출력 y 대신출력의평가치 c만알려주는방식서양장기를예로들면, 감독학습은학습자가장기한수를둘때마다올바른수를이야기해주는방식이고, 무감독학습은아무런피드백을주지않는방식이며, 강화학습은학습자가둔수에대해서잘했는지못했는지의방향성만제시해주는방식이다. 보다구체적으로, 감독학습은학습데이터집합이 D = {(x i, y i ) i = 1,...,N} 18 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
로주어지고, 무감독학습의경우는 D = {(x i ) i = 1,...,N} 로주어진다. 강화학습은순차적으로일어나며시간 t 까지의학습데이터집합은 D t = {(x i, a i, r i ) i = 1,...,t} 로구성되는데여기서 a i 는입력 x i 에대한학습자의실제출력 ( 행동 ) 이며 r i 는이출력에대한보상치이다. 보상치 r i 는목표출력값 y i 와는달리출력의방향성만을알려주는값이다. 현재까지다양한종류의학습구조와학습알고리즘이개발되어있다. 감독학습의예로는앞의절에서언급한신경망, 의사결정트리가대표적이며그외에 k- 최근점학습 (k-nn), 지지벡터기계 (SVM) 등이있다. 무감독학습의예로는앞에서언급한베이지안망이있으며그외에데이터의군집화에사용되는자기조직신경망 (SOM), K-Means, 계층적클러스터링, 주성분분석 (PCA), 독립성분분석 (ICA), 은닉마코프모델 (HMM), 마코프랜덤필드 (MRF), Latent Dirichlet Allocation (LDA) 등이있다. 강화학습은대표적인예로는 Actor- Critique 모델, Q-Learning 등이있다. 이는또한마코프의사결정과정 (MDP) 과관련이있으며동적프로그래밍에기반한최적화나계획수립등에활용되고있다. 그외의다른기계학습기법과관련주제는 [10-12] 에보다자세히기술되어있다. 2.4 역사및연구동향기계학습은 1980년대중반까지는기호적표현기반의귀납적규칙학습기법들이주로연구되었다 [13]. 이러한기법들은전문가시스템이나의사결정지원시스템에일부응용되었다. 기계학습이보다본격적인기술로활용되기시작한것은 1980년대중반부터신경망기술이널리쓰이기시작하면서라고볼수있다 [14]. 1986년에개발된오류역전파기반다층신경망학습알고리즘개발을시작으로그후 RBF, SVM 등의커널머신 (kernel machines) 으로진화하면서학습속도와분류정확도면에서많은발전을이루었다. 초기에대학연구실수준에서주로연구되던기계학습은인터넷과웹이등장하면서점차산업화되기시작하였다. 특히 1990년대중반에인터넷포탈과쇼핑몰이등장하면서정보검색, 데이터마이닝, 전자상거래에적극적으로활용되었다. 한편 1990년에시작된인간유전체프로젝트를통해서생성된대량의유전체데이터분석에도기계학습의역할이더욱중요해졌다. 이론적인관점에서기계학습은 1990년을전후해서계산이론과통계학과접목되면서계산학습이론 (computational learning theory) 과통계학습이론 (statistical learning theory) 의새로운분야가형성되었다. 또한이미 1980년대초반부터홉필드망, 볼쯔만머신과같은에너지기반모델의학습알고리즘으로시뮬레이티드어닐링, 유전자알고리즘, 메트로폴리스알고리즘, 몬테칼로시뮬레이션 (MCMC) 등이연구되면서기계학습은통계물리학과일찍부터관련을맺으며발전하였다 [15,16]. 2000년을전후하여베이지안망, 부스팅알고리즘, ICA, 커널머신, 가우시안프로세스등의새로운학습모델들이활발히연구되었다. 특히베이지안통계학, 확률이론, 그래프이론, 정보이론에기반한새로운학습이론과모델들이활발히시도되었다 [10,17-19]. 이들은크게감독학습중심의변별적모델과무감독학습중심의생성적모델로구별할수있으며전자는커널머신으로대표되고후자는확률그래프모델로대표된다. 전자는분류성능면에서우수하고후자는데이터의특성을기술하는데유용하다. 인지과학적인측면에서볼때변별적학습모델은재인기억과관련되며, 생성적학습모델은회상기억과관련된다. 회상기억이연상작용, 창발성, 상상력의기반이되는점을고려해볼때특히회상능력을모방하는생성적기계학습기술에대한연구가인지기반인공지능관점에서중요해보인다. 특히볼쯔만머신, 베이지안망, 마코프랜덤필드, 은닉마코프모델등으로대표되는확률그래프모델들은이론적으로흥미있을뿐만아니라, 방법론적으로도전통적인기호적인공지능시스템의표현력과연결론적인공지능기술의적응력을결합하려는실제적인모델이다 [20]. 확률적인베이지안학습모델들중에서도기존의모델은대부분특정확률분포를가정하는파라메터모델들이었으나, 최근들어마코프로직네트워크, 하이퍼네트워크, 계층적 Dirichlet 프로세스 [21] 등과같은비파라메터베이지안모델 (nonparametric Bayesian models) 들에대한연구가활발히이루어지기시작하고있다. 인공지능관점에서볼때기존의기계학습은대부분수동적이고정적인학습시스템이다. 즉학습자는주어지는학습데이터를수동적으로관측하면서정적인목표함수에대한통계적인추정을수행한다고본다. 이는학습시작전에이미모든학습데이터가알려져있다고가정하는것이다. 그러나많은실세계문제에서학습은동적이며학습이진행됨에따라서데 2011. 2 정보과학회지 19
이터가순차적으로관측된다. Markov Decision Process (MDP) 로대표되는이러한학습상황은전통적으로은닉마코프모델, 강화학습, 동적베이지안망, Particle Filtering, Sequential Monte Carlo 등을통해연구되었으며, 최근들어이러한동적학습알고리즘에대한중요성이증가하고있다 [22]. 3. 인간수준의기계학습먼저인간지능의특성과그근간이되는뇌의정보처리구조와기능적특성을살펴본다. 이어서인간수준의인공지능실현에필요한기계학습기술의도전과제를제시하고간략히토론한다. 3.1 인간지능과뇌의특성인간은여러측면에서컴퓨터와는특성이다르다. 인간의지능은흔히창의성, 적응성, 다재다능성, 사회성, 감성, 비논리성등으로기술된다 [6,23]. 사람은다양한문제를해결할줄아는범용기계인데반해서현재의컴퓨터는특수목적의기계이다. 인간은정확한계산을잘수행하지는못하지만다양한불확실성하에서도아주빠르게안정된의사결정을내릴수있다 ( 그림 2). 컴퓨터는계산은정확하고빠르지만불확실성을잘다룰줄모른다. 인간은주어진문제에대해서다양한해결책을제시하는창발성을지니는데반해서컴퓨터는보통한가지관점에서최적화된하나의답만을찾아준다. 그림 2 인간수준인공지능실현과지능의특성이러한인간지능의특성은뇌의구조와정보처리원리에기인한다 [24-26]. 최근신경과학과뇌영상기술의발전에힘입어인지뇌과학의발전속도가가속화되고있으며점차뇌구조의특성과기능적인정보처리원리가밝혀지고있다 [27-30]. 예를들어, 뇌신경망 그림 3 뇌신경망의구조적및기능적연결의특성. 뇌의연결망은랜덤구조와정규구조의장점을결합하여효율적이고안정적인정보전달이가능한 Scale-Free 특성을지님 은웹과같이빈익빈부익부특성을보이는 Scale-F ree 구조를가지며 [31] 이는랜덤네트워크와정규적인네트워크구조의장점을결합한효율적이고안정적인정보전달구조이다 ( 그림 3). 기능적으로볼때뇌는디지털컴퓨터와비교하여다음과같은차이점이있다 [32]. 뇌는정확하고빠른계산을수행하기보다는환경변화에적응하는데유리하도록진화됨 프로세서중심이기보다는메모리중심의정보처리를수행하는계산모델임 물리적으로제한된용량에연상작용을이용하여실제로무제한의메모리능력을보유함 다수의가소성소자들을네트워크로연결해서분산정보코딩과병렬정보처리를수행 고체소자와는다른액체유기물질의물리화학적특성을활용한정보처리방식 위의특성을보면뇌는정확하고구체적인프로그래밍방식에의해작업을수행하기보다는기억을통해서다양한경험을축적함으로써수행성능을점차적으로향상하도록설계되어있다는것을짐작할수있다. 이는인간수준의인공지능을모사하기위해서는뇌와같이유연한모델구조를적응적으로변화시키는학습과진화를지향하는문제해결방식이궁극적으로성공가능성이높음을시사해준다 [33]. 최근에뇌과학과인지과학분야에서새로운패러다임으로제시되고있는 Bayesian Brain이나 Bayesian Mind 모델들은이러한연구방향을대변하는예로볼수있다 [34-36]. 20 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
3.2 인지기계학습도전과제인간수준의인공지능실현을위해서는뇌의구조와기능을모사한인지적기계학습기술이필요하며이는적어도다음과같은연구주제를포함할것이다 ( 그림 4). - 점진적학습 - 온라인학습 - 전이학습 - 대규모기억학습 - 주의집중학습 - 생성적학습 - 능동학습 - 다중센서학습 - 구성적학습 - 크로스모달학습 - 동적학습점진적학습. 인간의기억은주어지는학습아이텀의순서에영향을받는것으로알려져있다 (position effect). 학습아이텀의최신성이나서로간의간섭에의한방해현상으로기억이영향을받으며이는학습효과에영향을준다 [37]. 즉현재의학습은과거의학습결과에영향을받는다. 교육학에서도점점더난이도를높임으로학습효율을높이는 Scaffold 학습방식이활용되고있다. 그러나현재까지의기계학습은전체학습데이터를한꺼번에처리하는일괄처리방식을취하였으며순차적으로과거결과에기반하여현재데이터를학습하는방식에대한연구가필요하다. 온라인학습. 인간은다양한감각센서를통해서감지되는온라인스트림데이터를순간적으로학습하는능력이있다 [38]. 실제기계학습이적용되는기술적인환경에서도센서네트워크나모바일로그데이터와같이스트림형태로들어오는데이터를저장해둘경우대규모의디스크나메모리용량을필요로하며, 실시간에변화되는트렌드를놓칠우려가있다. 감지되는데이터를순간적으로학습하고버리는온라인학습기술은인간수준의지능실현을위해서갖추어야할중요한특성이다. 전이학습. 한가지도메인에서의학습은다른도메인에서의학습으로전이될수있다 [39]. 예를들어, 탁구를배울때습득한정보가후에테니스를배우는데전파된다. 특히어린아이들이인지발달과정에서의학습은서로다른과제를수행하는데시너지효과를발휘할수있으며경우에따라서는한개의예제로부터도학습할수있다. 현재까지의기계학습기술 그림 4 인간수준의인공지능실현을위한기계학습의도전기술 은한가지과제에대해서많은수의예제가주어질경우그통계적인특성을주로습득하는학습기법을발달시켜온반면에유사한다른과제간의전이방식에대해서는향후연구가필요하다. 대규모기억학습. 앞절에서살펴본바와같이인간의기억능력은거의무한하다. 아마도인간의학습은우리가지금까지생각하던것보다도더욱기억장치의능력에의존할가능성이있음을시사해준다. 최근의기계학습연구결과를볼때도대규모의기억용량을필요로하는학습알고리즘들이점점더좋은성능을보이고있음을알수있다. 예를들어, 커널머신들의학습은원리적으로는모든데이터인스턴스간정보를계산할수있는대규모기억용량과계산능력이있으면상당히우수한학습성능을보일수있다. 또한 Deep Belief Network[25], Hypernetwork[6] 의실험은지금까지의상식보다도더큰메모리용량을활용하는기계학습방법이유용할수있음을시사해주는새로운연구결과이다. 향후대규모메모리기반의기계학습모델에대한체계적인연구가필요하다. 주의집중학습. 사람의정보처리가효율적인이유중의하나는사람은들어오는모든정보를다처리하지않는다는것이다. 특히이는시각정보처리를보면명확한데, 인간의눈은자기팔을앞으로쭉폈을때엄지손가락만한정도 ( 각도 2도 ) 의영역에만초점을둘수있으며나머지영역에대해서는집중하지않는다. 그러나머리와눈동자를움직이면서여러영역을스캔하여주변의정황도작업기억에저장하기때문에전역적인정보를알수있는것이다 [37]. 인간수준의기계학습을위해서는홍수처럼밀려오는데이터에대해서이를선별적으로선택하여학습하는방식에대한연구가필요하다. 생성적학습. 인간의창의성과다재다능성은기본적으로인간기억의연상작용및회상작용과관계가있다고보여진다. 즉주어진일부자료를이용하여관 2011. 2 정보과학회지 21
련되는정보를회상해내고이에기반하여다시다른정보를떠올려냄으로써새로운정보를생성하고기억을재구성하는생성적인정보처리능력은모든인간정보처리의기저를이루는것으로보인다 [40]. 기계학습은주어진데이터로부터이를구별하는변별적인학습모델을만드는방식에대해서는많은연구가이루어진반면에, 만들어진모델로부터새로운데이터를생성해낼수있는생성적인학습방법에대해서는연구가부족하다. 현재연구되고있는무감독학습기반의확률그래프모델계열의학습기법은이러한방향의연구로서중요하다. 능동학습. 사람은주어지는데이터를단지수동적으로처리하기보다는능동적으로새로운데이터를만들어낼수도있다. 이러한능동적인학습은특히새로운영역을탐색하여야하는환경이나학습데이터가부족한환경에서는필수적인요소이다. 즉학습에있어서문제해결능력뿐만아니라문제를찾고선별하는능력은학습의효율을극대화하고학습의응용분야를확장하는데중요한요건이다. 기존의기계학습은감독학습과무감독학습방식에서모두주로수동적인학습에의존해왔으며능동적인학습에대한연구는부족하였다. 표지된데이터와표지되어있지않은데이터들이혼합된학습데이터로부터분류기를학습하는반감독학습 (semi-supervised learning) 이나, 행동에의한시행착오에기반하여탐색적으로학습하는강화학습모델은능동학습과밀접한관련이있는학습기술이다. 다중센서학습. 사람은몸을가지고환경에놓여있는체화된인지시스템이다. 몸을가짐으로써다양한센서를통해서주변의다양한정보를감지하고이들을결합하고통합하여기억에저장함으로써기억이안정되고오래가도록구성되는것으로보인다 [41]. 즉한가지정보가감지되지않는불확실한상황에서도나머지센서들의정보들을결합함으로써다른정보를유추할수있는상호보완적인시너지효과를활용하고있다. 학습된정보가망각되지않고안정적으로오래갈수있으려면사람의다중센서장치처럼다양한정보를결합하는학습방식이중요해보인다. 구성적학습. 인간은단위정보들을조합하여보다복잡한새로운정보단위를만들어내는구성적능력이있다. 인간의뇌가어떻게이러한정보처리를수행하는지에대한기작은아직잘밝혀있지않으나다양한심리학적실험결과를보면어린아이들도이러한능력을보유하고있음을알수있다. 특히이러한조 합적구성적학습능력은기호에기반한학습에서두드러진다 [42]. 현재까지의기계학습은특히연결론적학습에서는주어진단위들의상호작용의강도만을조정하고새로운단위들을생성하는연산자는포함되어있지않다. 구성적인학습을위해서는기존의단위정보들을합성하고재조합 (blending) 하여새로운정보모듈들을생성해내는방식에대한연구가필요하다. 크로스모달학습. 인간은정보를저장할때다중센서를사용하여여러개의모달리티로기억하고기억을회상할때이들간의상호작용을통해서안정적으로정보를인출하고재구성할수있는것으로알려져있다. 서로다른모달리티간의전이가가능한학습방식은이러한점에서아주중요해보인다. 특히인공지능이실현하고자하는시각능력과언어능력은단순히분리된시각과언어능력만으로처리되기보다는이들간의상호결합에의한크로스모달학습을수행함으로써더욱잘실현될수도있을것이다. 물론시각, 청각뿐만아니라인간의경우에는촉각이나미각및후각도언어와시각에작용할것이다 [41]. 동적학습. 인간의학습은환경과의끊임없는상호작용을통해서일어난다 [38]. 이러한학습환경에서는실시간성, 온라인학습, 다중센서통합, 주의집중, 크로스모달리티등의특성등이모두결합될필요가있으며이는학습시스템을고정된목표물을추적하는정적인시스템이아니고움직이는목표를추적하는동적인시스템으로보는것이더욱유용하다. 물론동적인학습의경우에도목표시스템이변화하지만정적인경우도있을수있다. 많은경우에사람의학습환경도처음부터정해진목표가뚜렷하게있기보다는시간이지나면서사태가진화함에따라서목표가조금씩변화될수있는동적인시스템이다. 4. SNU Videome Project Videome 프로젝트는세상에존재하는모든비디오를학습데이터로이용하여기계를교육시키고자하는기계학습연구프로젝트이다 ( 그림 5). 현재기술로는영상분석이나소리분석이완전하지않기때문에 [43] 이문제는여러가지측면에서도전적인과제이다. 이과제의초점은영상이나소리의인식과이해그자체보다는 [44], 어떻게하위수준의개념단위들이상위수준으로매핑되면서의미있는개념으로진화하는지에초점이맞추어져있다. 특히비디오데이터의특성을살려서시각과언어의두모달리티간의공간적상호작용과시청각스토리의시간적전개를고려함으로써인 22 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
그림 5 학습데이터로서디지털비디오의특성공지능시스템이실세계의멀티센서스트림데이터로부터시공간적인개념체계를형성하고발달시켜서진화해나가는효과적인방법을탐구하는것이목표이다. 4.1 학습데이터로서디지털비디오비디오데이터는실생활을학습할수있는이상적인데이터중의하나이다. 비디오는다양한현실세계에서일어나는일들을영상미디어에담은제작물이다. 특히드라마는일상적인주변의삶의내용을주제로한영상물로서대사나영상물의내용을통해서많은정보를획득할수있다. 또한다큐멘터리등많은영상물들이교육매체로제작되어사람을교육하는데사용되고있으며이는기계에게지식을부여하는데도유용한학습매체가될수있다. 비디오는장르별로다양하게분류되어있어학습목적과필요에따라서선별적으로활용할수있다. 디지털비디오의또다른특징은음성과자막 ( 텍스트 ) 이다개국어로제공되고있어언어학습과기계번역연구에도중요한코퍼스로활용가능하다 [45,46]. Videome 프로젝트에서는먼저 TV 드라마와아이들의만화비디오를중심으로데이터베이스를구축하고있다. TV 드라마는주변에서일어나는 (naturalistic) 사건과이야기를다루기때문에일상생활 (everyday life) 의면모를들어다볼수있는데이터이다. 드라마는또한시간적인 (temporal) 패턴과스토리 (story) 를가지고있으며동적으로 (dynamic) 변화되는현상을다루고있다. 다양한등장인물 (multiple characters) 들이상호작용하여사회적인 (social) 특성을학습할수있으며, 이야기와장면은여러가지문맥 (context) 을가지고구성되기때문에상황및정황을 (context-based) 모델링할수있는데이터이다. 연속적인 (continuous) 행동이강조된비디오나영화장면의경우행동 (activity) 을학습할수있는데이터이다. 아이들의만화비디오는특히인지과학적인기반을둔인공지능과기계학습연구에좋은자료를제공한다. 만화는드라마에비해서영상분석이상대적으로쉬운장점이있으며대사도아이들의수준에맞추어제작되어있으므로특히아이들의언어학습이나개념학습을모사하는인지기계학습기술개발에유용하다. 비디오데이터는체화된기계학습을위한실제센서데이터에대한대체물로서유용한장점이있다. 앞에서살펴본바와같이인간수준의기계학습연구를위해서는현실세계의다양한센서에기반한동적인스트림데이터에서의학습기술을개발할필요가있다. 이러한데이터를얻기위해서는사람이다양한센서를착용하고일상생활을하면서수집하는것이한가지방법이다. 이러한예로서마이크로소프트연구소 (MSR) 에서개발한 SenseCam과같은장치가있다. 하지만이러한방식으로는대용량의데이터를모으는것이쉽지않다. 최근들어서, 모바일폰을이용하여사람들의일상생활을기록한라이프로그데이터가모아지고있다. 그러나이러한데이터는통화기록이나폰을사용한행동은잘기록되는반면에영상과언어등의컨텐츠측면에서의학습에는유용하지않은단점이있다. 비디오데이터는특히시각, 청각, 언어, 행동, 스토리를포함하는풍부한멀티모달컨텐츠를가지고있어서인간의사고와행동에대한지식을습득할수있는중요한학습데이터를제공한다. 4.2 멀티모달메모리게임 (MMG) 사람을닮은인지적기계학습기술을개발하기위해서는먼저사람의학습방식을이해할필요가있다. Videome 프로젝트에서는사람들이비디오를통해서드라마에나온영상과대사간의관계를학습하는방식과기억의메카니즘을연구하기위해서멀티모달인지기억게임 (multimodal memory game) 플랫폼인 MMG 를구축하였다 [7]. 그림 6은 MMG 시스템의구조를보여준다. MMG는게임매니저와기계학습자및한명이상의피험자 ( 게임머 ) 로구성되어있다 [47]. 게임매니저는먼저피험자에게비디오영상을보여준다. 피험자는비디오를본후게임에들어가는데기본적으로두가지의게임이있다. 한가지는장면 ( 이미지 ) 을보여주고대응되는대사 ( 텍스트 ) 를알아맞히는 I2T(image to text) 게임이다. 다른게임은대사가주어지면대응되는장면을알아맞히는 T2I(text to image) 게임이다. 장면은정지화면으로주어지면대사는글로주어진다. 문제는주관식으로주어질수도있고객관식으로주어질수도있다. 2011. 2 정보과학회지 23
그림 6 멀티모달메모리게임 (MMG) 시스템의구조또한여러명의피험자가동시에게임에참여할수도있다. 각각의피험자는독립적으로게임을할수도있고아니면피험자들간에역할을분담하여 ( 즉한명은 I2T, 다른한명은 T2I 역할 ) 게임을할수도있다. 또한독립적으로게임을하는경우에도서로다른사람의게임과정을관찰함으로써사회적인학습이가능하게할수있다. MMG 플랫폼에는기계학습자 (Machine Learner) 가하나존재하여사용자들의학습과정을데이터로하여사람의학습을흉내내는학습을할수있다. 사람을학습시키는것을목적으로하는지기계를학습시키는것을목적으로하는지아니면그들간의상호학습을목적으로하는지등에대한다양한게임의목적과방법이존재할수있다. 본글에서는가장단순한경우에해당하는게임매니저와사람 1명간의게임과게임매니저와기계학습자의학습을중심으로살펴본다. 그림 7은주어진대사에대해서대응되는장면이 4 개주어지고피험자가이중에서가장적합한것을하나선택해야하는 4지선다형 T2I 게임의한장면을보여주고있다. 그림 8은 T2I 실험으로부터얻은사람의학습곡선이다. 이실험은 20분짜리 TV Drama에대한두사람의실험결과로서매세션마다 30번의게임을수행하고세션이반복됨에따라서주어진대사에대한장면을알아맞히는정확도가향상되는것을확인할수있다. 그림 9는장면이하나주어질때이에대응되는대사를알아맞히는 I2T 게임의학습곡선이다. 앞의실험과유사한모양으로성능이향상되는것을관찰할수있다. 그러나앞의 T2I 과제때보다는조금더빨리성능이향상되는것을알수있다. 이결과는대사에서장면을추론하기보다는반대로장면에서대사를추론하는것이상대적으로쉽다는것을알수있다. 그림 7 MMG 에서대사로부터영상기억하기 (T2I) 게임의사용자화면 그림 8 대사로부터영상기억하기 (T2I) 게임의사람실험결과 그림 9 영상으로부터대사기억하기 (I2T) 게임의사람실험결과 5. TV Drama 비디오학습실험 영화를보고난후사람은화면을보여주지않고대사만을들려주면그에해당하는장면을머릿속으로떠올릴수있다. 또한반대로장면을보여주면그장면에서이야기된대사를 ( 비록정확하게는아닐지라도 ) 기억해낼수도있다. 뿐만아니라영화를보고난후주요장면들을떠올리며전체의줄거리가생각나기도 24 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
한다. 이는시각과언어메모리간의상호연상작용에의한회상기억에기반한것이다. 이러한멀티모달교차연상능력은인간수준의지능정보처리에대한핵심이되는능력으로판단된다 [40]. 이절에서는시각-언어간의교차연상작용을모사하는실험결과를살펴본다. 5.1 장면-대사상호번역실험 실험을위하여 TV 시트콤인 Friends의에피소드를모아서 1,000개의대사와대응되는 1,000개의장면을학습데이터집합으로준비하였다. 학습방법으로는하이퍼네트워크모델을이용하였다 ( 그림 10). 하이퍼네트워크는학습데이터벡터를무작위적으로작은조각으로분리한후이를하이퍼에지로표현하여저장한후진화연산에기반한학습방법을이용하여이데이터를재구성하는데유용한조각들은복제하고재구성에실패하는조각들은제거하는방식으로반복적으로데이터를학습한다 [6,48]. 이렇게구성된하이퍼에지들의모임은하이퍼네트워크를구성하며이는데이터를재구성하는연상메모리모델로볼수있다. 하이퍼네트워크모델은데이터의확률분포를그래프구조를이용하여표현하는확률그래프모델의일종이다. 그러나기존의확률그래프모델들과는달리여러변수들간의고차상호작용을하이퍼에지에직접적으로표현함으로써메모리기반의학습에의한연상작용을보다잘모사할수있는인지적학습모델이다. 그림 11은장면이영상이미지로주어질때대사가글로생성되는 I2T 과제에대한기계학습실험결과이다. 하이퍼네트워크학습방법을사용하였으며, 그 그림 11 I2T에대한기계의학습성능향상곡선림 8과 9에보인사람의학습곡선과비교해볼때수행성능이천천히그러나꾸준히향상됨을알수있다. 이와같이 I2T 변환은그림으로부터글로의번역으로볼수있으며이변환을학습하기위해서하이퍼네트워크구성시에장면과대사의쌍으로된학습예제들을학습한다. 전처리를통해서장면은시각단어로정의된표현으로변환되며대사도표준형의단어들로변환된다. 이예제로부터무작위적으로시각단어와언어단어를각각 k개씩선택하여하나의하이퍼에지를구성한다. 즉하나의하이퍼에지는시각단어일부와텍스트단어일부를가지고있어서이중에서일부의정보가외부의질의정보와일치하면이로부터연상작용에의해나머지정보를추론할수있다. 그림 12는 T2I 과제즉텍스트가주어질때대응되는장면의이미지를생성한결과이다. 제일오른칸의그림은생성된이미지를질의어로사용하여장면에대한이미지데이터베이스를검색하여가장유사한이미지를인출해낸결과이다. 그림 13은 I2T 과제즉이미지가주어질때대응되는장면의텍스트를생성한결과이다. 그림 10 시각 - 언어멀티모달기억을모사하는하이퍼네트워크학습모델 그림 12 기계의대사로부터영상기억하기게임 (T2I) 에대한질의 - 응답의예 2011. 2 정보과학회지 25
의시각적스토리요약으로볼수있다. 그림 14는위의방식으로요약한장면들의예를보여준다. 현재의모델은마코프가정하에두개의연속된대사간의관계만을학습하여국부적인스토리를연결하기때문에긴줄거리를구성하는데한계가있다. 향후전체스토리를학습하는방법에대한보다체계적인연구가필요하다. 6. KidsVideo 학습실험 그림 13 기계의영상으로부터대사기억하기게임 (I2T) 에대한질의 - 응답의예 5.2 시각스토리텔링 앞의실험에서는장면과대사간의연관관계를학 습할때드라마의순차적진행에따른장면들의순서를고려하지않았다. 즉학습데이터로주어진장면과대사의쌍은독립적인것으로간주되었다. 그러나드라마나영화는줄거리를가지고시간에따라서장면과대사가전개된다. 이러한시간적인관계를학습하는것은인간수준의인공지능을실현하는데있어서중요한핵심부분이다. 약 20분짜리 Friends의에피소드하나를선정하여시간적인순차성을반영한동적인학습을실험하였다. 이실험에서는시간적으로연속적인두개의장면 -대사쌍에대해서상호관계를하이퍼네트워크로학습을한후시간 t-1에서의대사가주어지면시간 t에서의대사를생성하는실험을하였다. 이렇게학습된하이퍼네트워크를가지고가중치가가장높은하이퍼에지들로구성된장면들을모아서시간에따라서정렬하였다. 그결과는해당드라마에피소드에대한일종 그림 14 비디오스토리의시각적요약. TV 드라마에피소드를연상메모리에학습후가중치가높은장면과대사를확률적으로추출함 아이들은인지발달과정에서개념을학습한다. 체화된인지 (embodied cognition) 입장에서보면이개념은언어적인요소외에도다양한센서정보를포함하고있으며특히비디오를보고체득한시각적인정보는이에아주중요한요소이다 [49,50]. 인지발달과정에서의어린아이들의체화된개념학습과언어발달과정을모사하기위해서아이들의비디오특히만화비디오를다수수집하였다. 이렇게모아진 KidsVideo 코퍼스를이용하여두가지의실험을수행하였다 [51]. 첫번째실험은언어습득에관한것이며, 두번째실험은시각정보가추가된개념학습에관한것이다. 6.1 언어학습실험아이들을대상으로만들어진영어만화비디오 10 편을수집하였다. 추천연령및사용언어의난이도를고려하여쉬운것으로부터어려운순으로 10편의비디오를순서대로정렬하였다. 이비디오코퍼스에는 32,700여문장이포함되어있으며이는약 6,200개의어휘를포함하며단어토큰의수로는 252,900여개단어를포함한다. 각각의비디오를난이도에따라서순차적으로점진적학습을수행하면서언어생성능력을평가하였다. 하이퍼네트워크를사용하여학습하였으며, 생성시에는질의어단어를제시할때 ( 예를들어, beautiful) 이로부터연결할수있는단어들을하이퍼에지의가중치값에따라서순차적으로생성하도록하였다. 문장에서단어의순서가중요하기때문에이실험에서는방향성이있는하이퍼에지를사용하는하이퍼네트워크로학습하였다. 그림 15는학습의초기에생성된문장의예와후기에생성된문장의예를대조적으로보여주고있다. 이문장들은모두 beautiful이라는단어를키워드로주어질때하이퍼네트워크로부터연상되는확률이높은단어들을순차적으로생성함으로써만들어진문장들이다. 표에서알수있듯이초기상태에는생성되는문장의길이가짧고단순한데반해서후기상태에서는 26 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
문장의길이가길고복잡하다는것을알수있다. 아 이들이더욱많은비디오만화영화를시청함에따라서어휘력과문장구사의복잡도가증가하는인지적발달과정을모사하는것으로볼수있다. 그림 16은학습이순차적으로진행되는도중에학습된하이퍼네트워크를이용하여추출한개념도이다. 즉 beautiful 이라는단어를중심으로연상되어생성될확률이높은단어들을연결하여개념간의상호인접관계를그림으로도식화한것이다. 여기서원의크기는그단어 ( 개념 ) 가생성될확률의크기에비례한다. 그림에서두개의개념지도를비교해볼때학습이진행됨에따라서학습자의 beautiful에대한개념도가점차복잡해지는것을알수있다. 이개념지도는그림 15에서보여준문장들을생성한언어메모리에해당하는것이며본실험에서는이러한개념도가사람에의해서설계된것이아니라비디오코퍼스데이터로부터무감독기계학습방식에의해서자동으로만들어졌다는점에서그의의가크다고할수있다. 특 그림 15 KidsVideo 코퍼스학습시초기와말기에생성된문장의복잡도비교 히비디오대신에만약실제어린아이들이사용한언어를수집하여이실험을하였다고한다면실제로나이별로발달되는특정아이들의언어습득과정을모델링하는데이기술이사용될수있음을시사한다. 언어학습실험에서만화영화에나온대사만을수집해서무감독학습에의해서학습하였으며그외에다른어떤문법적인정보도주지않았음에주목할필요가있다. 그런데생성되는문장을보면완전하지는않지만상당히문법적인문장들이만들어지는것을관찰할수있다. 실제로학습된하이퍼네트워크언어메모리가문법에관한정보를담고있는지를알아보기위해서추가로분석을하였다. 9가지의간단한문법규칙을설정한후이들이학습된하이퍼네트워크에서얼마나출현하는지를학습세션별로분석하였다. 그림 17은문법규칙이성장하는과정을보여주고있다. 그림에서가로축은학습이진행되는시간이며세로축은각각의문법규칙이나타나는빈도수를표시한것이다. 대상으로한 9개의문법규칙들이시간이감에따라늘거나줄면서전반적으로는늘어나는경향을보이는것을알수있다. 이는아이들의머릿속에서문법규칙이형성되는진화과정을간접적으로모델링하는것으로볼수있다. 만약비디오를다른순서로학습시켰다면이구체적인모양은달라졌을것이다. 이와같이서로다른순서로비디오를학습하여가장좋은순서의비디오학습순열을찾아낸다면이는교육효과를최대화하는학습전략을설계하는것과유사하여이는교육공학적으로활용될수있음을시사한다. 6.2 시각개념생성실험앞절에서의 KidsVideo 언어실험에서는대사에해당하는텍스트만을사용하여언어발달과정을시뮬레이션하였다. 여기서는텍스트에추가로장면시각 그림 16 학습이점진적으로진행됨에따른개념지도의변화 (KidsVideo 코퍼스 ) 그림 17 학습진행에따른문법규칙의진화 (KidsVideo 코퍼스 ) 2011. 2 정보과학회지 27
이미지를추가하여학습을수행하는실험을살펴본다. 이실험의가정은사람이개념을학습할때언어뿐만아니라시각정보도함께사용한다는것이다. 예를들어, 자동차라는개념을학습할때다양한종류의자동차를관찰하고타보고하면서자동차의개념이점점일반화및구체화되는과정을거쳐갈것이다. 그림 19 KidsVideo 실험에서주어진단어에대한이미지생성의 Top N 정확도 그림 18 KidsVideo 실험에서 Engine 의시각개념이학습에따라변화해나가는과정 그림 18은영어만화비디오 Thomas and Friends에대해서 engine 이라는단어에대한시각적인개념이변해가는과정을점진적으로학습하면서비교하여보여주고있다 [52] 시각-언어의멀티모달하이퍼네트워크로이비디오데이터를학습하였으며학습된결과에대해서 engine이라는단어를제시하면이로부터연상되는시각단어들을조합하여장면을재구성해내는과정을통하여영상을생성한것이다. 이실험을위해서는시각단어를만들때장면을그리드기반의패치형태로분리하여 ( 패치사이즈는 35 픽셀 ) 영상이미지를재구성할때위치정보를이용할수있도록하였다. 그림에서제일윗줄에나열된그림들이재구성된이미지들이다. 이는심리학에서의심상 (mental imagery) 에해당한다고볼수있으며 [53] 얼핏눈으로보기에는차이가잘나타나지않으나실제로학습이진행됨에따라서미세한차이들이나타나고있다. 그차이를명확히알기위해서이생성된심상이미지를이용하여비디오장면을저장한데이터베이스로부터가장잘매치가되는 5개의만화장면을검색해서그다음줄에보여주었다. 시간이지남에따라서이 Top 5 이미지가달라지는것을알수있다. 그림의제일아랫줄에는실제로단어 engine과연결되어있는정답화면들을보여준다. 그림 19는 T2I 과제즉텍스트단어가질의어로줄때이미지를생성하는실험결과를정리한표이다. 빈 도수가 10 이상인단어를질의어로주어질때정답화면이 Top 5에나타날확률은 91.4% 이고정답화면이 Top 8에나타날확률은 97.6% 로향상됨을알수있다. 만약빈도수가 5 이상인단어들을질의어로사용한다면 Top 5와 Top 10에정답화면이들어있을확률은각각 75.3% 와 90.3% 가된다. Top 10에정답이나타나는것을목표로한다면빈도수가 5 이상이단어를질의어로줄경우 90.3% 로정답을맞출수있다. 이실험은하나의만화비디오시리즈에국한된실험이나만약더욱더큰비디오코퍼스에대해서실험을한다면어떠한결과가나올지그리고코퍼스의크기가커짐에따라서학습의성능이어떻게향상되거나저하될지를살펴보는것은아주흥미로울것이다. 최근인지과학분야에서교차상황적단어학습 (cross-situational word learning) 에관한연구들이아주활발하다 [49,50]. 사람과같이대규모데이터로부터점진적으로빠르게학습할수있는유연한학습특성곡선을보이는인지적기계학습기술을개발하는것은인간수준의인공지능실현에중요한기반을제공할것이다. 7. Videome 학습과바이오인지지능 체화된인지 (embodied cognition) 이론에의하면진정한지능은몸과센서를필요로한다. 고전적인기호적 AI는환경과몸체와센서를고려하지않음으로써실세계문제를다루는데소홀하였다. 기계학습관점에서보면체화된학습 (embodied learning) 을필요로하는것이다. Videome 프로젝트는체화된기계학습연구로볼수있다. 언어학습관점에서볼때, 텍스트만을이용하는기존의연구와는달리비디오를이용함으로써시각, 청각, 움직임등의상황기반언어학습과정을모사할수있다. Videome 프로젝트는장기적으로사람의인지기반지능과기억및학습에대한이해를증진하고이를바 28 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
탕으로보다인간적인바이오인지지능을실현하고자한다. 한가지비전은상상력기계 (imagination machine) 를만드는것이다. 11년동안의 TV 드라마 Friends의전집으로기계를학습시켰다고하자. 이학습기계에게등장인물중한사람인 Rachel에대해서이야기해보라고하면어떤인물로이야기하고영상화할것인가? 만약에 사랑과우정 에대해서이야기해보라고하면어떤스토리를들려주거나보여줄것인가? 만약에이학습기계가 TV 드라마 Big Bang Theory를본후 사랑과우정 에대해서이야기하라고하면어떤줄거리나장면들이연출될것인가? 만약이학습기계에게세상에존재하는모든비디오를학습시킨다면과연무슨지식을학습할것이며어떤상상력을발휘할것인가? 이상상력학습기계를로봇의브레인에이식하여로봇몸체와연결한다고하자. 그리고이제 MMG 실험을다음과같이확장한다. TV 모니터에는무선 Eye Tracker를장착하여, 비디오를시청하고있는피험자를모니터링한다. 피험자의머리에는 EEG를장치하여실험을하는동안뇌의활동이모니터링된다. 로봇은카메라를장착하고사람의표정과제스쳐를인식하며또한마이크와스피커를통해서사람과대화한다. 이와같이비디오와시청자의전체시스템과상호작용하면서학습한로봇에게이제비디오에관한여러가지질문을던진다고하자. 로봇은과연사용자가보고싶은영화를내용기반으로순간검색하여추천하거나상상력을발휘해서애니메이션형태의비디오를합성해줄수있을까? 아니면사용자의의도까지파악하여요청이들어오기전에적합한비디오나영화를추천하거나즉흥연출해줄수있을까? 이러한인간수준의인지적인지능서비스를실현하기위해서는컴퓨터과학뿐만아니라인지과학, 뇌과학, 인문학및예술분야와의융합연구가필요하다. Videome 프로젝트를통해서확보하게될뇌인지적지능모델기반의기계학습기술은인간의다중센서기반멀티모달기억과학습및지각과행동에대한이해를증진시켜줄뿐만아니라긍극적으로시각능력과언어능력및상상력을갖춘인간수준의학습지능을실현하는새로운방법을제공해주게될것이다. 참고문헌 [ 1 ] Turing, A. M., Computing machinery and intelligence, Mind, 59: 433-460, 1950. [ 2 ] Cassimatis, N. L., Mueller, E. K., & Winston, P. H., Achieving human-level intelligence through integrated systems and research: introduction to this special issue, AI Magazine, 27(2): 12-14, 2006. [ 3 ] Langley, P., Cognitive architectures and general intelligent systems, AI Magazine, 27(2): 33-44, 2006. [ 4 ] McCarthy, J., From here to human-level AI, Artificial Intelligence, 171: 1174-1182, 2007. [ 5 ] McClelland, J. L., Is a machine realization of truly human-like intelligence achievable?, Cognitive Computation, 1(1): 4-16, 2009. [ 6 ] Zhang, B.-T., Hypernetworks: A molecular evolutionary architecture for cognitive learning and memory, IEEE Computational Intelligence Magazine, 3(3): 49-63, 2008. [ 7 ] Zhang, B.-T., Cognitive learning and the multimodal memory game: Toward human-level machine learning, IEEE World Congress on Computational Intelligence (WCCI-2008), pp. 3261-3267, 2008. [ 8 ] Zhang, B.-T., Teaching an agent by playing a multimodal memory game: challenges for machine learners and human teachers, AAAI 2009 Spring Symposium: Agents that Learn from Human Teachers, pp. 144-149, 2009. [ 9 ] Thrun, S., A personal account of the development of Stanley, the robot that won the DARPA Grand Challenge, AI Magazine, 27(4): 69-82, 2006. [10] Bishop, C., Pattern Recognition and Machine Learning, Springer, 2006. [11] Duda, R. O., Hart, P. E., & Stork, D. G., Pattern Classification, Wiley, 2000. [12] 장병탁, 차세대기계학습기술, 정보과학회지, 제25 권, 제3호, pp. 96-107, 2007년 3월. [13] Michalski, R. S., Carbonell, J. G., & Mitchell, T. M. (Eds.), Machine Learning: An Artificial Intelligence Approach, Springer, 1984. [14] Rumelhart, D. E. & McClleland, J. L. (Eds.) Parallel Distributed Processing, Vol. I, MIT Press, 1987. [15] Aarts, E. & Korst, J., Simulated Annealing and Boltzmann Machines: A Stochastic Approach to Combinatorial Optimization and Neural Computing, Wiley, 1989. [16] Neal, R. M., Probabilistic Inference Using Markov Chain Monte Carlo Methods, Technical Report CRG- TR-93-1, Dept. of Computer Science, University of Toronto, 1993. [17] Jordan, M. I., Learning in Graphical Models, MIT Press, 1998. [18] Schoelkopf, B. and Smola, A., Learning with Kernels: Support Vector Machines, Regularization, Optimization, 2011. 2 정보과학회지 29
and Beyond, MIT Press, 2001. [19] MacKay, D. J. C., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003. [20] Koller, D. & Friedman, N., Probabilistic Graphical Models: Principles and Techniques, MIT Press, 2009. [21] Hjort, N. L., Holmes, C., Müller, P., & Walker, S. G. (Eds.), Bayesian Nonparametrics, Cambridge University Press, 2010. [22] Zhang, B.-T., Dynamic Learning: Architectures and Algorithms, Graduate Course Notes, School of Computer Science and Engineering, Seoul National University, http://bi.snu.ac.kr/courses/g-ai10f/g-dl10f.html, 2010. [23] Minsky, M., The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind, Simon & Schuster, 2007. [24] Rumelhart, D. E., Brain style computation: learning and generalization, In: An Introduction to Neural and Electronic Networks, Academic Press, 1990. [25] Hinton, G. E. & Salakhutdinov, R. R., Reducing the dimensionality of data with neural networks, Science, 313(5786): 504-507, 2006. [26] Rudy, J. W., The Neurobiology of Learning and Memory, Sinauer, 2008. [27] van Hemmen, J. L. & Sejnowski, T. J., 23 Problems in Systems Neuroscience, Oxford University Press, 2006. [28] Bear, M. F., Connors, B. W., & Paradiso, M. A., Neuroscience: Exploring the Brain, Lippincott Williams & Wilkins, 2007. [29] Pomerantz, J. R., Topics in Integrative Neuroscience, Cambridge University Press, 2008. [30] Gazzaniga, M. S., Ivry, R. B., & Mangun, G. R., Cognitive Neuroscience: The Biology of the Mind, Norton, 2008. [31] Sporns, O., Networks in the Brain, MIT Press, 2010. [32] 장병탁, 나노바이오지능분자컴퓨터 : 컴퓨터공학과바이오공학, 나노기술, 인지뇌과학의만남, 정보과학회지, 제23권제5호 pp. 41-56, 2005년 5월. [33] Sendhoff, B., Koerner, E., Sporns, O., Ritter, H., & Doya, K., Creating Brain-Like Intelligence, Springer, 2009. [34] Doya, K., Ishii, S., Pouget, A., & Rao, R. (Eds.), Bayesian Brain: Probabilistic Approaches to Neural Coding, MIT Press, 2007. [35] Chater, N. & Oaksford, M. (Eds.), The Probabilistic Mind: Prospects for Bayesian Cognitive Science, Oxford University Press, 2008. [36] Griffiths, T. L., Chater, N., Kemp, C., Perfors, A., & Tenenbaum, J. B., Probabilistic models of cognition: Exploring representations and inductive biases, Trends in Cognitive Sciences, 14: 357-364, 2010. [37] Eichenbaum, H., Learning & Memory, Norton, 2008. [38] Spivey, M., The Continuity of Mind, Oxford University Press, 2008. [39] Lefrancois, G. R., Theories of Human Learning, Thomson, 2006. [40] Squire, L. R. & Kandel, E. R., Memory: From Mind to Molecules, Roberts & Company, 2009. [41] van Campen, C., The Hidden Sense: Synesthesia in Art and Science, MIT Press, 2007. [42] Turner, M. & Fauconnier, G., The Way We Think. Conceptual Blending and the Mind's Hidden Complexities, Basic Books, 2002. [43] Schonfeld, D., Shan, C., Tao, D., & Wang, L., Video Search and Mining, Springer, 2010. [44] Zheng, N. & Xue, J. Statistical Learning and Pattern Analysis for Image and Video Processing, Springer, 2009. [45] Yuille, A. & Kersten, D., Vision as Bayesian inference: analysis by synthesis?, Trends in Cognitive Sciences, 10(7): 301-308, 2006. [46] Chater, N. & Manning, C. D., Probabilistic models of language processing and acquisition, Trends in Cognitive Sciences, 10(7): 335-344, 2006. [47] Fareed, U. & Zhang, B.-T., MMG: A learning game platform for understanding and predicting human recall memory, Lecture Notes in Artificial Intelligence: PKAW- 2010, 6232: 300-309, 2010. [48] Ha, J.-W., Kim, B.-H., Lee, B., & Zhang, B.-T., Layered hypernetwork models for cross-modal associative text and image keyword generation in multimodal information retrieval, Lecture Notes in Artificial Intelligence: PRICAI-2010, 6230:76-87, 2010. [49] Smith, L.B. & Yu, C., Infants rapidly learn word-referent mappings via cross-situational statistics, Cognition, 106: 333-338, 2008. [50] Frank, M. C., Slemmer, J. A., Marcus, G., & Johnson, S. P., Information from multiple modalities helps fivemonth-olds learn abstract rules, Developmental Science, 12: 504-509, 2009. [51] 이지훈, 이은석, 장병탁, 유아언어학습에대한하이퍼망메모리기반모델, 정보과학회논문지 : 컴퓨팅의실제및레터, 제15권제12호 ), 983-987, 2009. 30 특집원고 I SNU Videome Project: 인간수준의비디오학습기술
[52] Heo, M.-O., Kang, M.-G., & Zhang, B.-T., Visual query expansion via incremental hypernetwork models of image and text, Lecture Notes in Artificial Intelligence: PRICAI-2010, 6230: 88-99, 2010. [53] Luck, S. J. & Hollingworth, A. (Eds.), Visual Memory, Oxford University Press, 2008. 장병탁 1986 서울대컴퓨터공학과학사 1988 서울대컴퓨터공학과석사 1992 독일 Bonn 대학교컴퓨터과학박사 1992~1995 독일국립정보기술연구소 (GMD, 현 Fraunhofer Institutes) 연구원 1997~ 현재서울대컴퓨터공학부교수및인지과학, 뇌과학, 생물정보학협동과정겸임교수 2003~2004 MIT 인공지능연구소 (CSAIL) 및뇌인지과학과 (BCS) 객원교수 2007~2008 삼성종합기술연구원 (SAIT) 객원교수현재 : 서울대인지과학협동과정전공주임, 한국정보과학회컴퓨터지능소사이어티회장, IEEE Transactions on Evolutionary Computation 및 BioSystems 의 Associate Editor 관심분야 : 바이오지능, 인지기계학습, 분자진화컴퓨팅기반뇌인지정보처리모델링홈페이지 : http://bi.snu.ac.kr/~btzhang/ 2011. 2 정보과학회지 31