<31342DC0E5BAB4C5B92E687770>

Similar documents
Ch 1 머신러닝 개요.pptx

04 Çмú_±â¼ú±â»ç

제1강 인공지능 개념과 역사

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

빅데이터_DAY key

Introduction to Deep learning

제 3강 역함수의 미분과 로피탈의 정리

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

1-1-basic-43p

<B3EDB4DC28B1E8BCAEC7F6292E687770>

PowerPoint Presentation

Microsoft PowerPoint - 26.pptx

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

학점배분구조표(표 1-20)

딥러닝 첫걸음

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

PowerPoint 프레젠테이션

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

PowerPoint 프레젠테이션

<30312DB8F1C2F72E687770>


JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

Microsoft PowerPoint Relations.pptx

제4장 자연언어처리, 인공지능 , 기계학습

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Microsoft PowerPoint - ai-8 기계 학습-I

Chap 6: Graphs

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

블록체인전공 학수번호 과목명 학점 개 요 본과목에서는블록체인의기본기술들과암호화폐개념에대해공부한다. Bitcoin에서구체화된블록과체 GSIT101 블록체인및암호화폐입문 Introduction to Blockchain & Cryptocurrency 3 인, 분산합의, Do

2 Journal of Disaster Prevention

제 12강 함수수열의 평등수렴

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

Jkafm093.hwp

PowerPoint 프레젠테이션

Microsoft Word - PLC제어응용-2차시.doc

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

소성해석

Chap 6: Graphs

김기남_ATDC2016_160620_[키노트].key

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

John B. Watson and Little Albert

전산학부전공과목이수요건 (2015 학년도이전입학생학사과정용 ) 공통이수요건은반드시따로확인하시기바랍니다. 졸업이수학점 : 총 130 학점이상이수 ( 특이사항 ) 기초선택이수요건 : - 기초선택교과목으로선형대수학개론을반드시포함하여야하며, 복수전공이수자는선형대수학개론을반드시

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

02장.배열과 클래스

슬라이드 1

PowerPoint Presentation

PowerPoint 프레젠테이션

Resampling Methods

금오공대 컴퓨터공학전공 강의자료


( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

PowerPoint Presentation

다문화사회와 인권

Microsoft PowerPoint - chap06-2pointer.ppt

DBPIA-NURIMEDIA

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

Ch 8 딥강화학습

exp

OCW_C언어 기초

½½¶óÀ̵å Á¦¸ñ ¾øÀ½

Sequences with Low Correlation

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

DBPIA-NURIMEDIA

170918_hjk_datayanolja_v1.0.1.

C++ Programming

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

Microsoft PowerPoint - ch07 - 포인터 pm0415

chap x: G입력

Reinforcement Learning & AlphaGo

PowerPoint Presentation

표본재추출(resampling) 방법

C# Programming Guide - Types

< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

실험 5

Microsoft PowerPoint Predicates and Quantifiers.ppt

슬라이드 1

Microsoft Word - Lab.4

Microsoft PowerPoint - CSharp-10-예외처리

gnu-lee-oop-kor-lec06-3-chap7

설계란 무엇인가?

MVVM 패턴의 이해

임베디드시스템설계강의자료 6 system call 2/2 (2014 년도 1 학기 ) 김영진 아주대학교전자공학과

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

PowerPoint Presentation

통계적 학습(statistical learning)

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

CR hwp

PowerPoint Presentation

Untitled-1

에듀데이터_자료집_완성본.hwp

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

Transcription:

14 차세대기계학습기술 서울대학교장병탁 * 1. 서론 1) 경험으로부터학습할수있는능력은사람을포함한지능적인시스템의가장근본적인특성중의하나이다. 기계학습 (Machine Learning) 은 환경과의상호작용에기반한경험적인데이터로부터스스로성능을향상시키는시스템을연구하는과학과기술 로정의된다. 이정의에서주목해야할것은학습시스템이 환경, 데이터, 성능 의요소를가지고있다는것이다. 환경 은학습시스템이독립적으로존재하지않고상호작용하는대상이있다는것이며상호작용의방법에따라서경험하는 데이터 의형태가다르다. 이것은보통의컴퓨터프로그램이이미프로그램이작성될때모든가능한입력을고려하여그경우만을다루도록설계되는것과구별된다. 학습시스템은또한문제해결을수행하며이수행의 성능 이시간이감에따라향상된다. 예를들어, 사용자가전자메일을사용하는패턴을분석하여자동으로스팸메일을차단해주는스팸필터학습시스템이있다고하자. 이경우스팸필터가 시스템 이되며사용자는 환경 이고 데이터 는메시지들와이에대한사용자행동의관측값들로구성된다. 여기서 성능 은제시해준메시지개수에대한사용자가읽은메시지의개수즉얼마나효과적으로메일을여과해주는지로측정된다. 이글은기계학습기술을개괄적으로살펴보고앞으로의연구방향에대해서논의하는것을목표로한다. 이를위해서지금까지제시된기계학습모델과알고리즘을다양한각도에서구분하고그특성을분석한다. 마지막으로 U-환경, 모바일웹, 디지털컨버전스, 나노기술, 생명과학연구환경에서의인공지능을위한차세대기계학습기술의연구방향을제안하고토론한다. 2. 역사및응용분야기계학습이라는용어가처음문헌에등장한것은 * 종신회원 1959 년 Samuel 의논문 Some Studies in Machine Learning Using the Game of Checkers 에서이다 [1]. 그는게임보드의패턴으로정의된특징과가중치의곱의합으로평가함수를정의하고가중치를변경함으로써게임을학습하는방법을제안하였다. 또한비슷한시기에 Rosenblatt 은신경망모델의일종인퍼셉트론과그학습알고리즘을제시하였다. 1975 년에 Winston 은건축물의아치모양을예로부터학습하는기호적인개념학습프로그램을개발하였다 [2]. 이러한태동기의아이디어에기반하여기계학습이하나의새로운연구분야로자리잡기시작한것은 1980 년대중반에이르러서이다. 1983년과 1986 년에 Machine Learning: An Artificial Intelligence Approach 의 Volume I과 II가발간되어기호적기계학습연구의기반이마련되었다 [3,4]. 1986 년에는 Rumelhart & McClleland 의 Parallel Distributed Processing 모델에관한연구결과가두권의책으로정리되어발표되면서 [5] 연결론적기계학습연구가시작되었다. 여기에 Valiant 가같은해인 1986 년에 Communications of the ACM 에 A Theory of the Learnable 이란제목의계산학습이론 (Computational Learning Theory) 논문을발표하면서기계학습이계산이론과접목되면서이론적인틀을갖추기시작하였다. 다른한편, 1980 년대중반부터 Uncertainty in Artificial Intelligence(UAI) 나 Artificial Intelligence and Statistics(AI & Stats) 등의학술대회를통해서통계학과인공지능이결합되는시도가일어나고이들이마침내 Pearl 의 Probabilistic Network 연구, Lauritzen 과 Jensen 등의 Graphical Model 연구, Neal 의 Belief Network 연구, Hinton 의 Helmholtz Machine 연구, Vapnik 의 Statistical Learning Theory, Schoelkopf의 Kernel Machine 연구등을통해서기계학습에대한수학적, 확률통계학적인기반이마련되면서기계학습이엄밀한학문및기술분야로정립되기시작했다. 1990년대중반이후에는인터넷과웹이활성화되고데이터마이 96 2007. 3. 정보과학회지제 25 권제 3 호

표 1 기계학습의응용분야 응용분야 인터넷정보검색 컴퓨터시각 음성인식 / 언어처리 모바일 HCI 생물정보학 바이오메트릭스 컴퓨터그래픽 로보틱스 서비스업 제조업 적용사례텍스트마이닝, 웹로그분석, 스팸필터, 문서분류, 여과, 추출, 요약, 추천 문자인식, 패턴인식, 물체인식, 얼굴인식, 장면전환검출, 화상복구 음성인식, 단어모호성제거, 번역단어선택, 문법학습, 대화패턴분석 동작인식, 제스쳐인식, 휴대기기의각종센서정보인식, 떨림방지 유전자인식, 단백질분류, 유전자조절망분석, DNA 칩분석, 질병진단 홍채인식, 심장박동수측정, 혈압측정, 당뇨치측정, 지문인식 데이터기반애니메이션, 캐릭터동작제어, 역운동학, 행동진화, 가상현실 장애물인식, 물체분류, 지도작성, 무인자동차운전, 경로계획, 모터제어 고객분석, 시장클러스터분석, 고객관리 (CRM), 마켓팅, 상품추천 이상탐지, 에너지소모예측, 공정분석계획, 오류예측및분류 닝이새로운산업으로등장하면서기계학습은그핵심기술로자리매김하게되었다. 현재기계학습은인터넷정보검색, 텍스트마이닝, 생물정보학, 바이오메트릭스, 자연언어처리, 음성인식, 컴퓨터비젼, 컴퓨터그래픽, 로보틱스, HCI, 통신사업, 서비스업, 제조업등거의모든분야에서활용되는핵심기반기술이다 ( 표 1). 예를들어, 인터넷쇼핑몰운영자는고객에게개인화된양질의서비스를제공하고보다직접적인마켓팅전략을세우기위해서웹로그파일을데이터마이닝하기위해기계학습기술을이용한다. 컴퓨터그래픽연구자는모션캡쳐데이터를기계학습하여사람처럼자연스러운동작을재현하는애니메이션모델을자동으로생성한다. 생명과학연구자는 DNA 칩을이용한유전자발현데이터로부터암에관련되는질병에직접적인영향을주는유전자를찾아내기위해서기계학습기반의지식발굴기술을사용한다. 모바일환경에서휴대기기를편리하게조작하기위해서다양한센서정보에기반하여기기의움직임을인식하는데기계학습알고리즘이적용되고있다. 3. 기계학습의분류 기계학습시스템은학습데이터를획득하는방법, 모델의표현구조, 데이터로부터모델을생성하는학 습알고리즘에의해구별된다. 즉 기계학습모델 = 데이터획득방식 + 모델구조 + 학습알고리즘 로나타낼수있다. 여기서는각각의요소에대해서알아본다. 3.1 학습시스템의분류환경으로부터받는학습에필요한정보또는데이터가어떤형태인지에따라서기계학습은감독학습, 무감독학습, 강화학습의세가지로구분된다 ( 표 2). 감독학습 (supervised learning) 은입출력의쌍으로구성된학습예제들로부터입력을출력으로사상하는함수를학습하는과정으로볼수있다. 무감독학습 (unsupervised learning) 의경우는학습예로입력은주어지나대응되는출력이없으며이경우입력패턴들에공통적인특성을파악하는것이학습의목적이다. 강화학습 (reinforcement learning) 은감독학습과무감독학습의중간형태로서입력에대해학습자가행동을선택하고그행동에대해서교사가보상치를제공하면이에따라서학습한다. 보상치는감독학습에서주어지는입력에대한올바른출력값이아니라학습자자신의출력에대한평가치이다. 감독학습과무감독학습에서는학습시점에서모든데이터가주어지는데반해서강화학습에서는학습신호가시간적인지연을가지고순차적으로일어난다. 수학적으로, 학습시스템은함수또는사상 f(x;m) 을관측데이터로부터구성하는것이다. 여기서학습모델 M은구조 S와파라메터벡터 W로구성된다. 감독학습은입력벡터 x와이에대한올바른응답 d (desired output) 를학습데이터로제공받는경우로서즉학습데이터 D={(x,d)} 에기반하여학습자는관측하지않은새로운문제 x' 가들어왔을때이로부터올바른해답 d ' 을추론하는방법을배우게된다. 감독학습은주로패턴인식, 질병진단, 문서여과, 주가예측등의분류 (classification) 와회귀분석 (regression) 문제해결에적합하다. 무감독학습의경우에는문제 x들의집합만이주어지고대응하는답들은존재하지않는경우로서학습데이터는 D={(x)} 이다. 이경우에학습자는 x들간에존재하는유사성에근거하여 x의집합을군집화 (clustering) 하거나 x의밀도함수 (density fuction) 를추정하는일을한다. 앞에서언급한전자메일스팸필터의경표 2 문제 ( 학습데이터 ) 의유형에따른기계학습의분류학습방법학습문제의예감독학습인식, 분류, 진단, 예측, 회귀분석무감독학습군집화, 밀도추정, 차원축소, 특징추출강화학습시행착오, 보상함수, 동적프로그래밍 차세대기계학습기술 97

우메일문서들을군집화함으로써문서들의무감독학습을통해서문서들의특성을파악할수있고이를기반으로나중에어떤군집의문서에대해서스팸으로규정할수있는지를파악할수있다. 무감독학습은차원축소, 특징추출에도사용하며가시화를통해서데이터마이닝과지식발굴의도구로서유용하다. 강화학습의경우에는입력벡터 x에대해서출력이주어지기는하나이것이원하는목표출력 d가아니고학습자가출력한예측치 y에대한평가치 c (critique) 가주어진다. 즉학습데이터가 D={(x,c)} 로주어지며일반적으로 c는 x에대한올바른목표출력치 d 가아니라이에대한평가치만을제공한다. 강화학습은자율이동로봇, 온라인게임, 주식투자등의상황과같이순차적인의사결정과정에관여한다. 예를들면, 장기를두는프로그램을학습시킬때학습자가수 (move) 를결정했을때그수가얼마나좋은지를 c [0, 1] 의상수값으로평가해서학습자에게정보를전달하는경우이다. 이러한간접적인학습정보 c는, 학습자가둔수 y에대해서이것이아닌다른수 d를두었어야한다고가르쳐주는감독학습의경우와는대조적이다. 스팸필터의경우에는학습시스템이스팸메일 x에대해서이것이스팸인지아닌지의두가지만을구별하면되므로즉 d =1 or d =0 또는 c=1 or c=0 이경우감독학습과강화학습이상당히유사하다. 그러나감독학습의경우에는모든학습데이터집합 D가학습을시작할때이미주어져있는것을가정하는데반해서강화학습은보통학습집합 D가학습시스템수행이이루어지는사이에순차적으로결정되는것이일반적이다. 또한보상치가시간적인지연을가지고제공되는것이보통이기때문에 ( 게임의경우승부가결정된후에서야중간과정에대한올바른보상치를제공가능 ) 동적프로그래밍을이용해재귀적학습이필요하다. 강화학습에서는이러한온라인특성은목표함수가시간에따라변할수도있는것을의미하며따라서수렴이보장되지않을수도있다. 3.2 학습모델구조의분류학습시스템이일을수행하기위한함수 f(x;m) 를어떻게표현하는지에따라서모델 M=(S, W) 의구조 S는논리식, 규칙, 함수, 트리, 그래프등다양하다. 표 3에는이들표현구조와그사례들을기술하고있다. 기호적인공지능패러다임하에서는명제논리등에기반한논리식이나 If-Then 규칙에기반한표상을사용한기계학습방식이많이연구되었다. 표 3 학습모델표현구조의종류모델구조표현기계학습모델예 논리식 규칙 함수 트리 그래프 명제논리, 술어논리, Prolog 프로그램 If-Then 규칙, 결정규칙 Sigmoid, 다항식, 커널 유전자프로그램, Lisp 프로그램 방향성 / 무방향성그래프, 네트워크 Version Space, 귀납적논리프로그래밍 (ILP) AQ 신경망, RBF 망, SVM, 커널머신 결정트리, 유전자프로그래밍, 뉴럴트리 확률그래프모델, 베이지안망, HMM 신경망이등장한 1980 년대중반이후로는다양한종류의수치적인기저함수 (basis function) 들의결합으로구성된모델구조들이연구되었다. 예를들어, 뉴런의활성함수를모사한시그모이드함수나 단순한선형적가중치결합함수 또는이를일반화한 와같은구조가대표적인예이다. 최근에많이연구되고있는지지벡터머신 (SVM) 을포함한커널머신계열의학습모형은이러한모델의연장선상에존재한다. 한편트리를기본표현구조를사용하는학습방식으로결정트리나유전자프로그래밍이있다. 보다일반적인그래프나네트워크구조를사용하여결합확률분포나자식노드 x i 와부모노드 pa(x i ) 간의조건확률분포 를표현함으로써데이터의구조를학습하는확률그래프모델등이사용되고있다. 3.3 학습알고리즘의분류 알고리즘관점에서는크게미분과같은연속적인수치계산을통해서오차를수정하는수치해석적인기계학습알고리즘과연속이아닌구조나파라메터를변경하는이산적인학습알고리즘으로구별할수있다. 98 2007. 3. 정보과학회지제 25 권제 3 호

표 4 학습을위한목표함수의종류 학습알고리즘설명예 오류최소화 최대가능도 최대사후확률 베이지안학습 정보이론적학습 오류절대값, 분류오류률 학습데이터생성확률최대화 최대가능도에사전확률모델고려 가능한모델들의전체분포를추정 엔트로피, 정보이득, 상대엔트로피 퍼셉트론, 다층신경망, 커널머신 통계적학습모델, 기대치최대화 (EM) 베이지안망, 확률그래프모델 (PGM) MCMC 기반학습모델 볼쯔만머신, 결정트리 학습모델이이산적인구조와연속적인파라메터값으로구성되었을경우이둘을모두학습할수도있고경우에따라서는이산적인모델구조는고정한상태에서수치적인파라메터만을주로학습하는모델들도존재한다. 그러나최종학습성능은구조와파라메터모두에의존한다. 표 4는현존학습알고리즘에서많이사용되는학습목표함수를요약정리한것이다. 대부분의학습알고리즘들이학습데이터집합 D 에대한오류치또는오분류율을 최소화하는것을목표로한다. 여기서 f(x n;m) 은입력 x n 에대한학습모델 M의실제출력 ( 예측치 ) 을의미한다. 이값은원하는출력 d n 와비교되어그차를줄이는방향으로모델 M의구조 S나파라메터 W 가수정되어학습이이루어진다. 확률모델의경우에는주어진데이터의관측할확률을최대화하는 argmax M {P(DM)} 최대가능도 (ML) 추정법이나, 여기에모델들의사전확률을추가로고려하여학습하는 argmax M{P(DM)P(M)} 최대사후확률 (MAP) 추정법을사용한다. 가장일반적인모델은베이지안추론규칙을직접사용하는것이다. 이것은사전확률 P(M) 과가능도 P(DM) 를결합하여사후확률분포 P(MD) 를추정하고이분포를이용하여모델을구성하는학습방법이다. 이방법은이상적 이기는하나모든가능한모델의전체공간을탐색해야하기때문에정확한계산이실제적으로는불가능하다. 그러나최근에컴퓨팅파워의증가로 Markov Chain Monte Carlo(MCMC) 등의확률적샘플링방법을사용하여근사적으로베이지안추론을하는연구가활발히이루어지고있다. 정보이론에기반한목표함수들도기계학습에많이활용된다. 예로서결정트리학습에서는변수 x i 가학습데이터 D의엔트로피 H(D) 를줄이는데기여하는정도즉정보획득 (information gain) 을정의하고 이를최대화하는변수들을우선적으로선택하여모델을구성한다. 다른예로서, 무감독학습방법으로정보량이많은특징을추출하기위해서상호정보 (mutual information) 가종종사용된다. 이측도는두개의변수간의상호의존성이강한정도를측정한다. 즉두변수가서로독립이라면결합확률값과각각의확률값의곱이같게되어, 즉 P(x,y) = P(x)P(y), 상호정보량은 0이되고그렇지않은경우양의값을갖는다. 정보이론에기반한학습목표함수로가장일반적인형태는 KL-Divergence 로도알려진상대엔트로피이다. 이것은두개의확률분포 P와 Q가있을때 Q에대한 P의상대적인엔트로피 ( 비대칭 ) 값을나타낸다. 이를추정하기위한학습알고리즘으로 MCMC 계열의확률적샘플링방법을주로사용한다. 4. 기계학습현재기술수준 이절에서는현재실제문제해결에많이활용되고 있는기계학습모델의최신연구동향을알아본다. 이를통해서현재기술수준을파악하고새로운문제해결에가장적합한기계학습모델을선택하는기준을마련할수있을것이다. 4.1 학습모델의종류및특징 현재가장많이사용되는기계학습모델은주로군 차세대기계학습기술 99

집화를위한무감독학습알고리즘과패턴분류를위한감독학습모델들이다. 무감독학습알고리즘의대표적인예로는 K-Means, 계층적군집화, 자기조직지도 (SOM) 등이있다. 감독학습의대표적인예로는다층신경망 ( 퍼셉트론 ), 지지벡터머신 (SVM), 커널머신, 결정트리, 나이브베이스, K-최근점분류기 (KNN), 베이지안망, 은닉마코프모델 (HMM), 잠재변수모델등의확률그래프모델이있다. 감독학습과무감독학습은실제산업적으로많이활용되고있다. 반면에강화학습은많은이론적인발전을이룩했음에도불구하고문제자체의어려움으로인해학습에이전트와로보틱스분야에서일부활용되고있다. 강화학습은기본적으로시행착오에기반해있기때문에수렴하는성능을얻기까지많은학습시간을필요로한다. 각기계학습모델들에대한특징을간략히요약하여기술하면다음과같다. *K-평균벡터(K-Means): 예제의평균벡터저장, EM 방식학습, 잡음에견고함. * 계층적군집화 (HC): 전체데이터를계층구조로분할, 다차원데이터의시각화에유용. * 자기조직지도 (SOM): 층구조신경망, 출력층이격자구조, 경쟁학습, 데이터가시화에유용. * 다층퍼셉트론 (MLP): 층구조, 시그모이드뉴런, 에러수정, 잡음에견고, 이산치 / 연속치입출력사상. * 방사형기저함수망 (RBF): 층구조, 가우스함수뉴런, 선형모델, 빠른학습. * 지지벡터머신 (SVM): 마진최대화, 정규화, 예측성능우수, 이진분류, 빠른학습. * 커널머신 (KM): 커널트릭, 차원확장, 고차원공간에서선형분리, 이진분류, 커널정의필요. * 결정트리 (DT): 트리구조, 데이터공간의순차적분할, 엔트로피기반정보획득, 규칙으로변환가능. * 유전자프로그래밍 (GP): 프로그램트리, 진화에의한학습, 변이와선택, 개체군기반병렬탐색. * 귀납적논리프로그래밍 (ILP): 술어논리프로그램학습, 사람이해용이. *K-최근점 (KNN): 학습예저장, 암기식학습, 제일가까운 K개의최근점의투표, 모든학습예저장필요. * 사례기반학습 (CBR): KNN 과유사, 기호적인표현구조, 프로토타입기반학습방식과유사. * 베이지안망 (BN): 방향성그래프 (DAG) 구조, 확률적모델, 변수간의존관계분석. * 나이브베이스 (NB): 분류모델, 변수들간독립가정, 베이지안망의특수한경우. * 은닉마코프모델 (HMM): 방향성그래프, 순차적데이터모델링, 확률적모델, 생성모델. * 마코프랜덤필드 (MRF): 무방향그래프, 결합분포추정, 클리크에전위함수정의. * 조건부랜덤필드 (CRF): 무방향그래프, 조건부확률분포추정, 마코프가정 ( 인접노드에만의존 ). * 잠재변수모델 (LVM): 혼합 (mixture) 모델, 잠재변수가정, 차원축소, 요인분석. * 가우시안혼합모델 (GM): 가우시안함수의혼합모델, 잠재변수모델, EM 학습. * 주성분분석 (PCA): 분산이큰차원, 특징추출, 차원축소. * 독립성분분석 (ICA): 독립적인성분으로분리, Blind Source Separation, 요인분석. * 가우시안프로세스 (GP): 회귀분석모델, 커널머신, RBF와유사. * 지역가중치회귀분석 (LWR): 회귀분석모델, KNN 및 RBF 와유사. * 홉필드망 (HN): 완전그래프, 동적활성화, 제약조건만족, 학습없음, 기억회상, 최적화문제해결. * 볼쯔만머신 (BM), 헬름홀쯔머신 (HM): 은닉변수를가진층형망구조모델, 확률적생성모델. * 에이다부스트 (AdaBoost): 기본학습기의가중치앙상블머신, 메타학습, 분산의감소효과. 이들모델의구조와학습에대한보다상세한정보는참고문헌에나온교과서를참고하기바란다. 그중에서 [6], [7], [8], [9] 는기계학습의전반적인내용을포괄적으로다루고있다. 확률그래프모델에보다전문적인소개서로서 [10] 과 [11] 이있으며 [12] 와 [13] 은커널머신에대해잘다루고있다. 표 5에는기계학습분야의주요저널과전문학술대회를열거하고있다. 보다최신의연구및기술동향파악을위해서는관련된웹사이트를방문할수있다. 표 5 기계학습분야주요저널및전문학술대회구분예 Machine Learning(MLJ) Journal of Machine Learning Research(JMLR) 저널 Neural Computation(NCJ) Evolutionary Computation(ECJ) Int. Conf. on Machine Learning(ICML) European Conf. on Machine Learning(ECML) 학술대회 Int. Conf. on Comp. Learning Theory(COLT) Neural Information Processing Systems(NIPS) 100 2007. 3. 정보과학회지제25권제3호

표 6 최신기계학습모델의세계적선두연구그룹 학습모델 커널머신연구그룹 연구그룹의예 MIT 의 Poggio 그룹 Max-Planck 연구소의 Schoelkopf 그룹 Bell Labs 의 Burge 그룹 Southampton 대학의 Shawe-Taylor 그룹 UC Davis 의 Cristiani 그룹 TU Berlin 의 Obermayer 그룹 Toronto 대학의 Hinton, Neal, Frei 그룹확률 Stanford 대학의 Koller 그룹및 Thrun 그룹그래프 MIT의 Tenenbaum 그룹모델 Microsoft 연구소의 Bishop 그룹및 Heckerman 그룹연구 Cambridge 대학의 MacKay 그룹및 Ghahramani 그룹그룹 UC Berkeley의 Jordan 그룹, Russel 그룹, Griffith 그룹기호적 CMU의 Mitchell 그룹학습 King's College의 Muggleton 그룹연구 Bonn대학 /Fraunhofer 연구소의 Wrobel 그룹그룹 Georgia Tech 의 Kolodner 그룹 4.2 최근연구동향 최근기계학습연구는커널머신과확률그래프모델에상당히집중되어있다. 그외에웹정보검색이나바이오데이터분석등에서해석의필요성에따라기호를사용한명시적인학습에대한중요성이다시부각되고있다. 이분야의선두적인연구그룹을표 6 에예시하였다. 이세가지모델계열은그장단점이많이다르다. 커널머신은선형대수에이론적기반을두고있으며학습속도가빠르고예측성능이좋은장점이있다. 입력변수는이산치또는연속치를모두취할수있으나출력은이진값만가능하다. 따라서이진분류문제에주로적합하며결과를설명하는모델로서는적합하지않은단점이있다. 또한학습속도가데이터의입력차원수에대해서는무관하기때문에아주큰차원의데이터를분류하는데적합한데반해서학습데이터의개수에비례하여학습속도와메모리용량이증가하기때문에많은수의데이터를학습하는데에기술적인어려움이있다. 확률그래프모델은커널머신과다른장단점을가진다. 즉학습이느리고예측성능이별로좋지않지만반면확률적인상관관계를분석하고가시화할수있어데이터를묘사 / 설명하는모델로적합하다. 최근데이터마이닝과지식발견관점에서많이사용되고있다. 분류문제해결을위해서는나이브베이스와같은성능이안정된간소화된확률그래프모델도유용하다. 반면확률그래프모델은확률변수를입출력변 수로다루기때문에수치데이터를처리하기위해서는이산화과정을거쳐야한다. 모델구조즉그래프의구조학습을위해서는시간이많이걸리며대규모확률그래프망을구성하는효율적인알고리즘이연구되어야한다. 기호적학습모델은주로논리식이나 If-Then 규칙과같은기호적인표현구조를사용하며귀납적논리프로그래밍, 사례기반학습, 유전자프로그래밍등이그대표적인예이며이산적변수를갖는결정트리도여기에속한다. 논리식에기반한기호적표현은보통규칙형태로기술이자연스럽기때문에그결과를사람이이해하거나이로부터규칙을추출하는데아주유용하다. 반면, 기호적인이산구조만을다루기때문에수치데이터처리가어렵다. 기호적학습기법은신경망기법이등장한후한때연구가소홀하였으나최근에웹이나인터넷의정보등비정형화된 ( 벡터형이아닌 ) 기호적데이터로부터데이터마이닝과지식추출이새로운이슈로등장함에따라다시그중요성이부각되고있다. 5. 차세대기계학습기술연구방향 5.1 기계학습연구접근방법 기계학습은컴퓨터과학자 ( 특히인공지능연구자 ) 와수리과학자 ( 특히확률통계학자 ) 들이학제적인연구를통해서발전되었다. 최근에는인지과학자 ( 특히심리학자와언어학자 ) 와신경과학자 ( 생물학자 ) 도기계학습연구에참여하고있다. 표 7은기계학습연구를위한다양한접근방법을학문분야별로요약정리하고있다. 표 7 기계학습연구의접근방법접근구체적사례방법 컴퓨터과학적 수학적 인지과학적 생물학적 일반화와특수화연산자, 오류수정알고리즘, 과다학습, 모델선정, 지식표현, 목표함수, 능동학습 선형대수, 확률론, 통계학, 정보이론, 그래프이론, 미적분, 동력학, 함수론, 최적화 인간의기억과학습, 장기기억, 단기기억, 언어능력, 지각능력, 의사결정, 행동학습 생리학적, 분자생물학적, 생화학적, 유전학적, 세포생물학적, 시스템신경과학적 주요관심사 인공적인시스템구현을통한효율적문제해결및이의과학기술적응용 형식적인문제정의, 특성분석, 계산학적해결가능성규명 인간의학습능력이해및이의질병치료및교육등에의활용 학습과기억능력의생물학적기반규명및이상현상연구 차세대기계학습기술 101

지금까지의기계학습연구는주로컴퓨터과학자나수학자의계산과학적인관점에서발전하였다. 그러나앞으로인지과학적생물학적관점에서의연구가활발히이루어질것으로기대된다. 최근들어인지과학이나신경과학분야에서사람의학습과기억에관해새로운실험결과들이데이터베이스화되어축적되고있다. 뇌활동의사진을찍은 fmri 이미지데이터베이스가그대표적인예이다. 이러한데이터를현재의기계학습기술을이용하여모델링함으로써새로운인지신경과학적인발견을이룰수있다. 이는마치유전체데이터를기계학습으로분석하여유전학에서새로운발견을하는것과같다. 이러한모델링연구는반대로컴퓨터과학자로하여금인간의학습패턴을닮은기계학습모델을개발할수있게하는통찰력을제시해줄것이다. 5.2 기계학습의근본원리 현재의기계학습기술은알고리즘수준에서많은발전을이룩하였다. 그러나보다더근본적인이론적질문에대해서는아직많은연구가필요하다. 예를들어서, 학습시모델의최적구조를결정하는것은쉬운일이아니다. 이것은가용한학습데이터의크기와품질등과관련되며이에대한일반적인가이드라인을제시하는것은기계학습에서아주근본적이고중요한연구이다. 표 8에는이러한학습이론적인고찰의예로서세가지의학습원리를요약하였다. 첫번째의균등의원리 (The Principle of Indifference) 는데이터를관측하기전에는불필요한가정을최소화하라는원리이다. 즉특별히차이가나는것으로알려진것이아니라면모든가능한모델들에대해서동등한확률즉 P(x)=1/n을부여하라는원리이다. 이원리는시스템전체의엔트로피 H(X)= P(x) logp(x) 를최대화하는즉최대엔트로피원리의특별한경우로볼수있다. 표 8 기계학습의근본원리원리 균등의원리 (Principle of Indifference) 오캄의원리 (Principle of Occam's Razor) 양보의원리 (Principle of No Free Lunch) 설명 / 해석 차이를증명할만한데이터를관측하기전에는구별하지않는다. 주어진데이터를설명하는범위내에서는단순한모델을선호한다. 학습알고리즘의효율과성능은서로양보해야하는관계이다. 두번째의오캄의원리 (The Principle of Occam's Razor) 는주어진데이터를설명하는모델이여러개있다면그중에서단순한모델을복잡한모델보다우선해서선택하라는원리이다. 이는단순한모델들이가정이적기때문에관측하지못한새로운데이터를설명할때통계학적으로분산이적은답을제시할가능성이높다는사실에근거해있다. 세번째의양보의원리 (The Principle of No Free Lunch) 는학습성능향상에관계하는원리로서이익을보는것이있으면손해를보는것도있을수밖에없다는즉공짜로얻는성능향상은없다는것이다. 즉학습모델또는알고리즘 A1이 A2보다문제 s1을해결하는데더우수하다면문제 s2를해결하는데는 A1 이 A2 보다못할수도있다는것이다. 그이유는 A1 이문제 s1을잘해결하기위해최적화하는과정에서여러가지가정 (bias) 이들어가고이는 s2를해결하는데는적합하지않기때문에성능이오히려저하될수있기때문이다. 학습원리는새로운학습모델이나알고리즘설계시방향을제시해준다. 예를들어, 모델의구조를고정시켜놓고파라메터만학습함으로써최대일반화성능에는제한이있지만학습속도가아주빠른알고리즘 A1이있을수있고, 이에반해서학습시간은많이걸리지만파라메터뿐만아니라모델의구조까지도학습함으로써일반화성능이더좋을가능성을열어둔알고리즘 A2가있을때, A1과 A2가모두나름대로의의미가있을수있음을암시한다. 어느알고리즘이더적합한지는응용문제의특성및요구조건에따라서선택할사항이다. 5.3 학습모델의종류변별적 / 생성적모델. 모델이학습되는방식에따라서기계학습은변별모델 (discriminative model) 과생성모델 (generative model) 로나뉠수있다. 전자는차이점을부각함으로써데이터를학습하는데반해후자는학습데이터들의유사점을파악하는것에역점을둔다. 변별모델들은주로분류 ( 스팸메일또는정상메일 ) 나인식 ( 스팸메일인지여부파악 ) 문제해결에이용되며서로다른부류의것들을구별하는것이목적이기때문에각클래스의특성자체파악보다는서로다른클래스간의구별되는특징을학습한다. 생성모델들은주로데이터에대한확률모델을구성함으로써만들어지기때문에모델로부터나중에데이터를재생성해낼수있는장점이있다. 반면모델에대한가정이필요하거나가정이없는경우학습에많은데 102 2007. 3. 정보과학회지제25권제3호

이터와학습시간을필요로할수있다. 그러나이러한모델들은주어진데이터집합을잘묘사하거나설명하는데유용하기때문에데이터마이닝특히과학적데이터마이닝에유용하다. 암묵적 / 명시적모델. 인간의학습은의식하지못하는사이에일어나는암묵적학습 (implicit learning) 과의식적인과정을통해서일어나는명시적학습 (explicit learning) 의두가지측면을모두가지고있다. 전자는행동학습과같이절차적인 (procedural) 방법의학습에주로이용되고후자는새로운지식습득과같이주로선언적인 (declarative) 표상을학습할때사용된다. 현재실용적으로사용되는대부분의기계학습방법들은암묵적인모델에기반해있다. 일부기호적인표현을사용하는학습방식들이명시적, 선언적인학습을하고있다. 역사적으로볼때 1980 년대까지는기호적인방법의학습연구가많았으나신경망등장이후에는많은연구가암묵적인학습에초점이맞추어졌다. 정적 / 동적학습시스템. 데이터의획득방식은정적인방법과동적인방법이있다. 정적인학습 (static learning) 시스템은학습이시작될때이미모든학습데이터가주어지며학습자는수동적으로이고정된데이터를처리한다. 반면, 동적인학습 (dynamic learning) 시스템은학습데이터를시행착오를통해서생성하거나주어진데이터에서선별적으로선택함으로써점진적능동적으로학습한다. 고전적인감독및무감독학습은주로정적인학습방식으로훈련되며강화학습은보통동적인학습요소를기본적인특성으로가지고있다. 표 9 기계학습모델의분류방식분류모델특성방식 모델구축방식 모델표현방식 데이터획득방식 변별모델 생성모델 차이점위주로학습. 차별적, 분류적, 인식, 대부분의감독학습이이에속함. 유사점위주로학습. 묘사적, 설명적, 요인분석, 밀도추정, 주로무감독학습이이에속함. 무의식적, 절차적인과정에의해기억됨. 주암묵적로반복적인훈련과정을거침. 수치적표상. 학습모델파라메터습득명시적의식적, 선언적표현으로기억됨. 일회적학학습습이가능. 기호적표상. 모델구조습득. 정적학습 동적학습 학습데이터가고정됨, 일시적반복학습, 수동적학습, 고전적인감독학습과무감독학습. 학습데이터가시간에따라변함, 강화학습, 온라인학습, 점진적학습, 능동학습. 지금까지의기계학습분류방식논의에기반하여차세대기계학습기술연구는크게다음과같이세가지방향으로나누어생각할수있다. * 기존모델의개선 * 통합모델의연구 * 새로운모델의탐색아래에서는이들각각에대하여구체적인연구주제를기술하고논의한다. 표 10은이를전체적으로요약하여정리한것이다. 5.4 기존모델의개선차세대기계학습의발전을위해서단기적으로는기존모델내에서의문제점을개선하고성능을향상시키는노력을해야할것이다. 앞절에서살펴본바와같이현재가장많이활용되고있는기계학습모델들도아직문제점들을지니고있다. 예를들어서, 커널머신의경우두개이상의분류문제를학습하는다중클래스학습알고리즘이필요하며, 도메인에따라서적합한커널을자동으로설계하는방법에관한연구도필요하다. 그리고대규모의학습데이터집합을효율적으로학습하기위한알고리즘도연구되어야한다. 확률그래프모델의경우대규모그래프구조즉변수의수가많은문제를효율적으로학습하는알고리즘이존재하지않는다. 대규모의확률그래프모델을학습하기위한고성능의학습알고리즘이필요하다. 한편, 지금까지제안된확률그래프모델은단순한층구조나제한된 DAG 구조에기반하고있다. 그러나보다일반적인지식을발굴하기위해서는그래프구조의표현력을증가하여고차의상호작용을나타내는랜덤그래프구조등을연구할필요가있다. 이러한연구는특히바이오네트워크등에서많은분자들간의상호작용에관여하는네트워크모듈등을발굴하는데유용할것이다. 5.5 통합모델연구앞에서여러번논의된바와같이현재기계학습연구에서의큰과제중하나는생성모델의장점과변별모델의장점을결합한새로운통합된학습모델을개발하는것이다. 생성모델의대표적인예가확률그래프모델이고변별모델의대표적인예가커널머신계열이므로이러한연구는커널머신과확률그래프모델의장점을모두살리는새로운커널기반확률그래프모델과같은통합을시도하는것으로부터출발할수있다. 차세대기계학습기술 103

표 10 차세대기계학습기술의연구방향 연구방향 기존모델의개선 통합모델연구 새로운학습모델탐색 연구내용의예 대규모확률그래프모델의효율적구조학습알고리즘 고차의상호작용을학습하는확률그래프모델 대규모학습데이터에대한커널머신학습알고리즘 다중클래스분류문제해결을위한커널기법 커널머신과그래프모델의통합학습구조연구 변별모델과생성모델의장점을살린새로운학습모델 수치적모델과기호적모델의통합표현모델연구 모델파라메터와모델구조학습의균형적통합이론 Life-Long Learning 상황에서동작하는학습기술연구 학습자가스스로학습데이터를획득하는능동적학습 효율적인학습과효과적인학습을위한학습력과표현력의균형 동적목표함수환경에서단기적적응과장기적생존의균형유지 내재적학습능력을보유한새로운정보매체와계산모형연구 또다른통합의시도는수치적표상을사용하는암묵적모델과기호적표상을사용하는명시적모델의장점을살리는방법에관한연구이다. 커널머신이나확률그래프모델은수치적인학습에상당히의존하는학습모델들이다. 그러나최근에기계학습의응용범위가넓어지면서정형화된벡터형태의데이터외에도다양한종류의비정형화된 (semi-structured) 데이터가등장하고또한그해석의중요성도증가하고있다. 이경우기호적인데이터를다루거나아니면학습결과를기호적인표현으로변환하여제시할수있는능력도중요한요건중의하나로등장하였다. 특히바이오데이터와같이과학적인데이터의경우과학자들이결과를이해하고이를검증하기위한실험을수행하기를원하기때문에모델의설명력은아주중요한이슈로등장하였다. 이관점에서커널머신보다는확률그래프모델이우수하다고볼수있다. 그러나확률그래프모델도귀납적논리프로그래밍과같은기호적표현에비하면표현능력이제한되어있다. 따라서확률그래프모델에기호적표현의표현능력을부여하는연구는앞으로기계학습에있어서아주중요한주제가될것이다. 모델의복잡도는학습의일반화능력에많은영향을준다. 학습모델은모델구조와파라메터로구성 되어있으므로일반화능력의향상을위해서는학습알고리즘이두가지의요인의균형을필요로한다. 기호적표상이나그래프모델의경우는구조학습이특히중요하다. 반면신경망이나커널머신계열의모델들은구조보다는파라메터학습에치중하는경향이강하다. 그중간에있는방식들이결정트리와같은모델들이다. 앞의학습원리에서살펴본바와같이구조학습을통해서시간은더걸리지만좋은결과를얻을수있는방법과파라메터만의조정을통해서적당한결과를빨리획득하는방식간에서로득실이있으며이들은서로양보해야하는관계에있다. 5.6 새로운모델의탐색차세대기계학습연구의또다른방향은모델이나이론또는응용관점에서새로운길을모색하는연구를하는것이다. 점차현실적인문제를다루게됨으로써예전에생각하지못했던기계학습문제들이대두되며이의해결을위해서는지금까지와는전혀다른모델이나이론이필요하게된다. 이러한예중의하나는부분감독학습 (semi-supervised learning) 이다. 웹정보검색도메인에서는일부학습데이터는목표표지값을가지고있으나대부분의데이터는표지가되어있지않다. 이경우표지된데이터를이용하여표지없는데이터를학습에활용하기위한방법이중요하다. Life-Long Learning. 아주중요한이슈중의하나는평생학습 (Life-Long Learning) 환경이다. 사람의경우학습은일생동안계속된다. 앞에서도언급하였듯이학습은시간에관한함수이며환경과의상호작용에서오랜시간에따른변화에적응해나갈수있는능력은기계학습의가장중요한요소이다. 많은소프트웨어와서비스가개인화된맞춤식으로변화하고있다. 이경우학습시스템이평생학습의개념즉고정된학습데이터가주어졌다고가정하기보다는학습데이터가수행되는동안계속하여발생하는것을가정하고학습해야할것이다. 현재플래쉬메모리기술등메모리용량과성능의향상에따라서실제로 Microsoft 에서는 SenseCam 카메라를이용하여일상생활중의모든센서데이터를수집한후이들을궁극적으로모두데이터베이스화하고검색하려는 MyLifeBits 프로젝트가진행중이다 [14]. 이러한환경에서문맥에기반한연상작용을이용한정보의저장과검색이필요할것이며기계학습기술은여기에아주중요한역할을할것이다. Active Learning. 사람의경우주변에서습득하는모든데이터를그대로받아들이지않는다. 선택적주의 104 2007. 3. 정보과학회지제25권제3호

집중 (selective attention) 에의하여필요한데이터만을능동적으로선별하여학습한다. 기계학습에있어서도데이터를점진적으로선택하며능동적으로학습하는것이주어진학습데이터를모두그대로사용하는것보다효율적이라는것이보고된바있다 [15]. 특히평생학습시스템과같이장기적인온라인스트림데이터를다루는경우능동적인데이터선별능력은중요하다. 산업적으로도능동형학습은맞춤식서비스분야등에서아주중요하다. 예를들어서, 현재는정해진곳에가서데이터나문헌을검색해와서이를학습데이터로해서모델을학습하고예측하지만, 맞춤식정보서비스가보편화된환경이되는차세대의정보서비스시스템에서는사용자의검색패턴을학습해서자동으로그리고시스템이능동적으로필요한데이터와문헌을검색해서사용자에게맞춤식으로제공해주고그결과에대한사용자의반응을감지해서이를다시학습데이터로사용하여다음번에정보를제공할때참고하게될것이다. 이러한시스템은데이터제공 ( 행동 ), 반응감지 ( 보상 ), 적응의학습사이클을계속반복됨으로써전체적으로는시행착오를통해서학습하는강화학습의형태를취하게된다. Learnability and Representational Power. 기계학습에서의근본적인딜레마중의하나는표현력과학습력의균형문제이다. 즉학습모델구조의표현력을증가하면어떤복잡한문제도원리적으로는잘학습할수있다. 반면에표현력이증가하면모델구조의공간이커져서제한된학습데이터로부터올바른학습모델을찾아내는것은더욱어려워진다. 기계학습이기술적으로성공한요인중의하나는대상으로하는모델구조의탐색공간의크기즉표현력을극도로제한한다음이모델의계열내에서탐색함으로써그표현력의범위내에서는아주유용한모델들을효율적으로찾아내는데성공한것이다. 이는고전적인인공지능에서표현력이뛰어난기호적표현을사용한학습방법들이실제적응용에는실패한것과대조적이다. 그러나이제많은문제들이잘해결되고있는시점에서다시표현력을향상하는연구가필요하다. 이러한시각에서보면현재의커널머신과확률그래프모델도기존의퍼셉트론의표현력을증가시키려는여러가지시도중의하나로볼수있다. 앞으로는여기서한단계더나아가확률그래프모델에 ILP 의기호적표상능력을부여하는것과같은새로운모델들이연구되어야할것이다. Learning and Evolution. MyLifeBits 와같이목표함수가시간이감에따라서동적으로변할수있는환 경에서는단기적인적응 ( 학습 ) 과장기적인생존 ( 진화 ) 간의균형이중요하다. 즉너무단기적인적응에치중하면변화하는환경에서장기적으로살아남기어렵고그렇다고단기적인것을무시하면당장의수행능력에문제가생긴다. 특히앞에서논의한표현력과관련하여, 학습시스템이지속되는동안에고정된복잡도의모델을사용하는것이아니고변화하는복잡도의모델구조를사용할경우이문제는더욱잘해결될수있다. 단기적으로는고정된모델구조상에서파라메터학습에치중하고장기적으로는모델구조를진화시키면서학습하는이중학습전략을사용하는것을생각해볼수있다. Learnable Matter. 사람이나동물이현재의실리콘컴퓨터보다학습을더잘하는것은누구나부인하기어려운사실이다. 그이유는여러가지가있을수있으나한가지는매체의차이에서찾을수있다. 즉인간의뇌에서의기억과학습은현재분자생물학과생화학이밝힌메카니즘에의하면단백질과같은분자들의합성과축적및반응기작의변화에기인한다. 생체내에서의정보처리활동은지금의디지털컴퓨터상에서의정보처리활동과는물리적으로많이다르다. 실리콘보다는탄소매체의물질들이학습하는데더욱유리하다. 이것은생명체의오랜진화에기인한다. 따라서학습관점에서유기체의학습메카니즘을자연스럽게모사할수있는새로운물질또는매체에대한연구를할필요가있다. Learning-Friendly Computational Paradigms. 양보의원리 (The Principle of No Free Lunch) 에의하면학습 ( 예측력 ) 을잘하는것과계산 ( 정확도 ) 을잘하는것은서로양보해야하는관계일수있다. 현재의디지털계산기술은정확도를추구해온반면기계학습기술은어느정도의정확도는중요하지만이것이전부는아니다. 오히려학습을잘하기위해서는오류에의한새로운발견이나망각에의한잡음제거효과등의부정확성이필요하다. 사람의정보처리능력을모사하는것이인공지능의중요목표중의하나라면지능적인시스템을만들기위한기계학습기술도사람의학습과기억에관한이해를바탕으로학습이용이한새로운계산모형을고안해볼수있을것이다. 이는앞의 Learning Matter 의발견과관련하여이에대한이론적인모델을제시하는연구가될것이다. 또한이러한계산학적인학습연구는반대로인간의학습과기억구조및기작에기반한정보처리과정및지능현상을더잘이해하게하는새로운실마리를제공해줄수있을것이다. 차세대기계학습기술 105

6. 결론기계학습모델의전반적인분류와특성을포괄적으로살펴보았다. 또한이를기반으로앞으로기계학습연구가어느방향으로발전될필요가있는지도논의하였다. 많은논의가현재의연구동향을분석한자료에근거한것이기는하나그선택에있어서저자의견해가반영된것임은부인할수없다. 이점을염두에두고다시한번본고의내용을정리하자면다음과같다. 최근기계학습연구는커널머신계열과확률그래프모델계열에서특히활발한데이들은그장단점이대조적이다. 커널계열은변별모델로서예측능력이우수하나설명능력이부족하고반면에확률그래프모델은생성모델로서분류문제에대한예측능력은좀부족하나설명능력이뛰어난특징을지닌다. 이두계열의모델모두기존의기계학습모델들에비하면표현력을증가하는경향이있으며이점에서귀납적논리프로그래밍과같은기호적표현모델의표현력을커널머신이나확률그래프모델에접목하려는시도는중요한연구일것이다. 또한생성모델과변별모델의장점을모두살릴수있는통합모델에대한연구는이론적으로그리고실제적으로도아주중요한연구주제일것으로보인다. 또한현재의성능이우수한기계학습모델들이기반하고있는수치적인표현위주의암묵적모델구조와전통적인인공지능분야에서연구되었던기계학습모델이가지고있는이산적인기호표현에의한명시적인모델을통합할수있는기계학습모델이연구될필요가있을것이다. 특히이러한통합된학습모델은인간의학습이현재의기계학습모델이가정하는것처럼주어진학습데이터집합에대해서고정된목적함수를최적화하는형태의정적인모델보다는 Life- Long Learning 상황과같이환경과의상호작용에의해서시간적으로변할수있는동적인환경하에서단기적으로빠른적응과장기적으로안정된기억유지에의한생존력을고려할때기계학습이궁극적으로해결을시도해야할핵심문제중의하나이다. 비유해보자면, 물리학에서만유인력과양자역학을모두설명할수있는통일장이론또는 Grand Unified Theory(GUT) 를찾으려시도하듯이, 실세계학습환경을잘설명할수있는통합학습이론에대한연구는기계학습에대한 GUT 가있을것인지그리고있다면어떠한모양이될것인지에대한탐구이다. 궁극적인 Grand Unified Theory of Machine Learning 에도달하기위해서는 Learning-Friendly 한물질과계산모형을 찾으려는시도를계속하여야할것이다. 이를통해서기계의학습능력과지능을향상시키는기술을발전시킬뿐만아니라인간의학습과인지과정에대한이해를더욱심화시킬수있게될것이다. 참고문헌 [1] Samuel, A.L., Some Studies in Machine Learning Using the Game of Checkers, IBM Journal of Research and Development, 3(3):210-219, July 1959. [2] Winston, P.H., Learning Structural Descriptions from Examples. In P. H. Winston(Ed.), The Psychology of Computer Vision, New York: McGraw-Hill, pp. 157-209, 1975. [3] Michalski, R.S., J.G. Carbonell, T.M. Mitchell, Machine Learning: An Artificial Intelligence Approach, Tioga Publishing Company, 1983. [4] Michalski, R.S., J.G. Carbonell, T.M. Mitchell, Machine Learning: An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, 1986. [5] Rumelhart, D.E., J.L., McClleland, and the PDP Research Group, Parallel Distributed Processing-Vols. 1 & 2, MIT Press, 1986. [6] Bishop, C., Pattern Recognition and Machine Learning, Springer, 2006. [7] Duda, R.O., P.E. Hart and D. G. Stork, Pattern Classification, New York: Wiley, 2001. [8] MacKay, D.J.C., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003. [9] Mitchell, T., Machine Learning, McGraw Hill, 1997. [10] Cowell, R.G., S.L. Lauritzen, and D.J. Spiegelhalter, Probabilistic Networks and Expert Systems, 2005. [11] Jordan, M.(Ed.), Learning in Graphical Models, MIT Press, Cambridge, MA, 1998. [12]Schoelkopf, B., C.J.C. Burges, and A.J. Smola, Advances in Kernel Methods: Support Vector Learning, MIT Press, Cambridge, MA, 1999. [13] Shawe-Taylor, J. and N. Cristianini, Kernel Methods for Pattern Analysis, Cambridge University Press, 2004. [14] Gemmel, J., Bell, G., and Lueder, R., My- 106 2007. 3. 정보과학회지제25권제3호

LifeBits: Personal Database Everything, Communications of the ACM, 49(1) : 89-95, January 2006. [15] Zhang, B.-T., Accelerated Learning by Active Example Selection, International Journal of Neural Systems, 5(1):67-75, 1994. 장병탁 1986.2: 서울대학교컴퓨터공학학사 1988.2: 서울대학교컴퓨터공학석사 1992.7: 독일 Bonn 대학교컴퓨터과학박사 1992.8~1995.8: 독일국립정보기술연구소 (GMD) 연구원 1995.9~1997.2: 건국대학교컴퓨터공학과조교수 1997.3~ 현재 : 서울대학교컴퓨터공학부교수, 생물정보학, 뇌과학, 인지과학협동과정겸임교수. 2001.1~ 현재 : 바이오정보기술연구센터 (CBIT) 센터장 2002.6~ 현재 : 과학기술부바이오지능국가지정연구실실장 2003.8~2004.8: MIT Computer Science and Artificial Intelligence Laboratory(CSAIL) 방문교수 2005.12~2006.2: Bernstein Center Berlin 과학재단방문교수관심분야 : Biointelligence, Probabilistic Models of Learning and Evolution, Molecular/DNA Computation E-mail : btzhang@snu.ac.kr 제 17 회통신정보합동학술대회 (JCCI 2007) 일 자 : 2007년 5월 2일 ~4일 장 소 : 휘닉스파크 내 용 : 학술발표등 주 최 : 정보통신연구회 상세안내 : http://mobile.ajou.ac.kr/jcci2007 차세대기계학습기술 107