특집 2 부 3 신경회로망 신경회로망에대한연구는뇌신경생리학으로부터유래되어패턴인식이나연산기억장치, 최적화, 로봇제어, 문자인식, 음성인식, 신호처리등의분야로확대됐을뿐아니라경제, 경영분야의의사결정시스템에도응용되기에이르렀다. 최근에는데이터마이닝의주요기법으로손꼽히고있다. 신현

3 신경회로망 신경회로망에대한연구는뇌신경생리학으로부터유래되어패턴인식이나연산기억장치, 최적화, 로봇제어, 문자인식, 음성인식, 신호처리등의분야로확대됐을뿐아니라경제, 경영분야의의사결정시스템에도응용되기에이르렀다. 최근에는데이터마이닝의주요기법으로손꼽히고있다. 신현정서울대학교산업공학과 hjshin72@snu.ac.kr 조성준서울대학교산업공학과교수 zoon@snu.ac.kr 인 공신경회로망 (artificial neural network, 이하신 경망 ) 에대한연구는뇌신경생리학 (neurophysiology) 으로부터유래됐다. 인공신경망은예측 (prediction), 분류 (classi fication) 등의문제에적용되는비선형모델 (nonlinear model) 로뇌신경생리학에서연구하는인간의두뇌활동을수리모델에모방한흥미로운구조때문에일반적인통계분석방법과는구별된다. < 그림 1> 뉴런과시냅스 Axon Dendrite synapse 신경망의모델이된신경세포와대뇌피질먼저, 인공신경망의모델이된생물학적신경시스템, 즉신경세포 (neuron) 와대뇌피질에대해살펴보자. 인간의대뇌피질 (primary cortex 또는 neo-cortex) 은약 1000억개의뉴런과이들을연결하는시냅스 (synapse) 의망 (network) 으로구성되어있다. 신경시스템의가장기본적인단위인뉴런은신경시스템에서정보수용, 연산처리, 출력전송등의기능을한다. < 그림 1> 은뉴런의생물학적구조다. 뉴런의생물학적작동형태는다음과같다. < 그림 1> 에서보듯이축색 (axon) 은세포체 (cellbody) 에붙어있으며, 전기신호 (pulse) 에의해활성화되고이를연결된다른뉴런에전달하는역할을한다. 수상돌기 (dendrite) 는연결된다른뉴런으로부터입력신호를받아연산을수행한후이를세포체에보낸다. 세포체는수상돌기로부터받은신호를펄스로변환하고, 축색돌기는이펄스정보를다시다른뉴런에전달하는역할을한다. 축색돌기의끝부분은가느다랗게나누어진가지모양을하고있는데, 이부분을통해다른뉴런의수상돌기와접속하게된다. 이특별한연결을시냅스라고부른다. 보통뉴런하나는평균적으로약 100개또는 1000개의다른뉴런과시냅스를통해연결되어있다. 뉴런간정보교환은모두이시냅스를통해이뤄지게되는데, 시냅스에서는수상돌기의국부적인전위를펄스에따라양또는음으로바꿀수있다. 양의전위변화는뉴런을흥분시키고반대로음의전위변화는흥분을억제하게된다. 시냅스가흥분성인지억제성인지는방출되는화학전달물질과그것을수용하는뉴런의시냅스후막의성질에따라좌우된다. 2001.5 237

< 그림 2> 인간의대뇌피질 < 그림 3> 인공신경망의역사 1943 McCulloch&Pitts Paper on neurons 1957 Rosenblatt Perceptron 1969 Minsky&Papert Perceptrons 1982 Hopfield 1986 Rumelhart Backpropagation < 그림 2> 는인간의대뇌지도 (cortex map) 다. 인간대뇌의신경시스템은다수의뉴런으로그기능을수행한다. 인간의대뇌는뉴런가운데세포가몇개정도손상돼도전체기능에커다란영향을받지않는데이를결함포용이라한다. 컴퓨터에비교하면대량의병렬컴퓨팅 (massively parallel computing) 과대응할수있는특성이라할수있다. 대뇌피질의기능적특징으로는병렬처리와분산처리를들수있다. 병렬처리는여러가지기능이동시에수행된다는의미다. 인간이사물을보고, 들으며동시에걸어다닐수있는것은대뇌가이같은행위들을병렬로처리한다는것을뜻한다. 분산처리란대뇌의각부위가서로다른기능을수행한다는것이다. 예를들어, 시각처리는우리대뇌의뒷부분 (< 그림 2> 의 17, 18, 19 영역 ) 에서, 청각은가운데부분 (< 그림 2> 의 41, 42 영역 ) 에서, 추론등은앞부분에서수행되는것을말한다. 인공신경망모델은, 지금까지설명한인간의대뇌기능을모방한, 특히학습능력이있는단순화한수리모델이다. 생물학적뉴런의세포체, 수상돌기, 시냅스는인공신경망에서각각노드 (node), 연결가중치 (weight), 입력부위 (input node) 로구현된다. 인공신경망의역사초기의인공신경망모델은 1943년 McCul loch과 Pitts에의해최초로시도됐다 (< 그림 3>). 1949년에는캐나다의심리학자인 Hebb 이연결가중치조정을위한학습규칙을최초로기술했다. 이러한신경망이론은 1957 년미국의 Rosenblatt이발표한 Perceptron 으로상당한기대를모으지만, Minsky와 Papert가 Perceptrons 란저서에서퍼셉트론의단점을밝힘으로써, 그후약20년간침체의길을걷게됐다. 그러나 1982년 Hopfield가에너지개념을이용해신경망의행위를분석하고학습시키는것이가능하다는것을증명했다. 이 Hopfield 네트워크는연상기억장치로사용하거나최적화문제를푸는데이용할수있었다. Hopfield 네트워크는 Rosenblatt의단층퍼셉트론과는달리여러계층을가진다층퍼셉트론 (MLP, Multilayer Percept ron) 이었다. 1986년 Rumelhart 등에의해이를학습시킬수있는백프로퍼게이션 (back propagation) 알고리즘이발견됨으로써신경망에대한연구가다시활발히진행됐다. 신경망의응용분야도패턴인식이나연산기억장치의범주에서벗어나최적화, 로봇제어, 문자인식, 음성인식, 신호처리등의분야로확대됐을뿐아니라경제, 경영분야의의사결정시스템에도응용되기에이르렀다. 최근에는데이터마이닝의주요기법으로손꼽히고있다. 인공신경망모델, 다층퍼셉트론신경망을수리적으로단순화한모델이인공신경망이다. 신경망 (neural network) 은망 (network) 의특성이있다. 즉, 가중치와방향성이있는에지 (edge) 로구성된그래프 (weighted directed graph) 다. 신경망의각노드는뉴런을모델링한것으로활성값 (acti vation level) 과출력값 (output) 이있다. 활성값은세포가흥분한정도를나타내며, 출력값은흥분한정도에비례해비선형적으로결정된다. 각에지는시냅스라고부르며각 시냅스에는가중치가있다. 네트워크의구조는각노드가서로어떻게연결되어있느냐에따라결정된다. 여기에서학습이란외부의자극 ( 입출력 ) 에의해시냅스의가중치가어떻게결정되느냐의문제가된다. 하나의노드에서는다른노드들의출력값을해당시냅스의가중치에비례해접수한다. 따라서노드의활성값은다른노드들의출력값으로구성된입력벡터와해당시냅스들의가중치로구성된가중치벡터의내적 (inner-product) 으로계산된다. 각노드에서는이값을비선형함수인활성화함수 (activation function 또는 transfer function) 를통해변환해출력한다. 이를수식으로살펴보면다음과같다. a x i = j w x 1 = f( a ) = 1 + e 여기서, a는활성화값, w는시냅스의가중치, x는다른노드의출력 ( 즉, 해당노드의입력 ), f는활성화함수이고 x는해당노드의출력이다. 다층퍼셉트론은층구조를가진신경망으로입력층, 은닉층, 출력층으로구성된다 (< 그림 4>). 입력층으로들어가는입력 x가은닉층에서 z로, 출력층에서 y로변환된다. 이를수식으로표현하면다음과같다. 여기서 x, y는각각입력과출력이며, w는시냅스의가중치, g와 g는각각은닉층과출력층에서사용하는활성화함수다. < 그림 4> 의경우, 입력층의노드의개수 (bias 노드 ij i i a i m D yk = g wkj g wjixi ( 2) j = 0 i= o j 238 m i c r o s o f t w a r e

신경회로망특집 2-3 < 그림 4> 다층퍼셉트론의구조 < 그림 6> 일반화에러 input bias x 1 x 0 w ij hidden bias z 0 1.0 1.0 y y 0.5 0.5 w jk z 1 y 1 0.0 0.0 0.0 0.5 x 1.0 0.0 0.5 x 1.0 y 2 z 2 y 3 x 5 z 3 input layer hidden layer output layer 면서웬만한규모의네트워크와학습데이터의경우에도수분또는수시간내에학습할수있게됐다. 또한효율적인소프트웨어가구현된패키지가다수출시돼사용자편의성이크게향상됐다. < 그림 5> 선형회귀모형의그래프표현 x 0 b 0 x 1 b 1 x 2 y 1 x 3 x 4 b 5 x 5 제외 ) D=5, 은닉층의노드의개수 M=3, 출력층의노드의개수 k=3이다. 선형회귀모델을그래프로표현하면 < 그림5> 와같이은닉층이없고대신입력층의모든 x 노드가출력층의 y 1 과직접연결된것으로표현된다. x 노드와 y 노드를연결하는각회귀계수를 b로표현한다면, 선형회귀모델은데이터로부터이 b들을추정하는문제가된다. < 그림 4> 와비교해볼때 < 그림 5> 의회귀계수 b들은 MLP의시냅스가중치 w들과동등하다. 따라서다층퍼셉트론이선형회귀분석모델을포함하고있다는것을알수있다. 이론적으로다층퍼셉트론은프로젝션퍼수트회귀분석 (projection pursuit regres sion) 과동등하다는것과임의의연속함수를원하는정도만큼근사할수있다고증명됐다. 이성질로말미암아다층퍼셉트론은다양한분야에적용되고있다. 그리고은닉 노드만충분하다면은닉층은둘이상필요없다는것이증명됐다. 학습 (Learning, Training) 앞서살펴보았듯이, 다층퍼셉트론은하나의비선형회귀분석모델이라고볼수있다. 한편, 신경망의모수인시냅스가중치를데이터로부터추정하는작업을학습이라고한다. 1970~80년대에이미이와유사한모델의추정알고리즘이발표됐지만, 가장많은주목을받은연구는 1986년심리학자와컴퓨터과학자들이발표한백프로퍼게이션알고리즘이다. 이알고리즘은데이터로주어진출력값과네트워크의출력값과의잔차제곱합을에러함수로정의해구한비선형최적화문제를기울기강하 (gradient des cent) 로푸는방법이다. 다층퍼셉트론의독특한구조로말미암아, 최종적으로얻어지는알고리즘은계산적으로매우효율적이며, 특히각시냅스의주변노드의정보만으로학습이가능한국소적학습 (local learn ing) 알고리즘이다. 이는수학적으로는별의미가없으나, 계산학적으로병렬처리를가능하게하므로매우중요한의의가있다. 초기의알고리즘은속도가매우느려서신경망학습을하는데며칠씩소요됐으나, 1990년대들어서수렴속도가매우뛰어난 Conjugate Gradient나 Newton 알고리즘의변형인 Levenberg Marquardt가개발되고, 컴퓨터수행속도가혁신적으로빨라지 일반화 (Generalization) 일반화란심리학용어로학습에서사용하지않은데이터에대한네트워크의정확도를뜻한다. 즉, 모수추정에사용되지않았던데이터에대해서도네트워크가정확하게예측하는경우, 네트워크의일반화성능이높다고한다. 신경망의용도가주어진학습데이터를이용해미래의상황에적응하는것이라면일반화는가장중요한기준이라고할수있다. 필요조건은주어진학습데이터를정확히예측할수있어야한다. 그러나주어진학습데이터에는일반적으로잡음이많이섞여있으므로, 데이터그자체보다는잡음을제거한나머지부분에대한정확한예측이더중요하다. < 그림 6> 의 는신경망학습시주어지는입출력데이터 ( 점으로표시 ) 와이들사이의함수관계 ( 점선으로표시 ) 를나타낸다. 각점들이점선위에정확하게위치하지않은것은바로데이터자체의잡음때문이다. 이러한데이터에대해좋은모델은실제데이터의함수관계와유사한, 의실선을산출하는모수를추정한다. 그러나모델이학습데이터의잡음까지도지나치게학습한 의실선과같은경우에는학습에사용되지않은새로운데이터에대해좋은예측값을주지못한다. 이러한현상을방지하기위해적절한크기의모델을선정해야한다. 즉, 모수의개수가너무작지도크지도않은모델이필요하다. 데이터가충분한경우에는학습데이터의일부를학습에사용하지않고떼어놓 2001.5 239

았다가이를나중에검증용으로사용하는방법이있다. 데이터가충분하지않은경우에는통계적인기법인 cross validation 등을사용한다. 또한, 최소크기의네트워크로시작해학습하면서점차적으로네트워크의크기를증가시키거나, 최대크기의네트워크로학습한후, 필요없는시냅스를하나씩제거해네트워크의크기를감소시키는등동적인학습 (dynamic learning) 방법도개발됐다. 최근에는일반화성능을향상시키기위해여러개의신경망을사용하는앙상블기법이많이사용되고있다. 개별네트워크를약간씩다르게학습한후, 이들의출력치를평균하거나최빈치를사용한다. 앙상블방법에서는 N개의신경망의에러가서로상관관계가없을때, 전체의에러가 N배까지감소할수있다. 따라서어떻게개별신경망을서로다르게학습시킬수있는가가관건이된다. 통계학에서개발된 Bagging과기계학습분야에서개발된 Boosting과관찰학습 (observational learning) 등의기법이사용되고있다. 신경망응용분야와사례신경망의응용은모델의보편근사기 (univer sal approximator) 성질만큼이나다양하다. 먼저, 심리학자들이개발함으로써많은종류의심리학적현상에대한모델링에사용됐고, 뇌과학자들에의해신경계의현상연구를위한모델링도구로도사용되고있다. 또한, 공학자들에의해문자인식, 음성인식등에사용됐다. 특히, 문자인식에서는다른기법에비해성능이월등해가장많이사용되고있다. 또한, 주가예측이나신용도예측등과같은금융문제에도적용되고있으며, 최근에는데이터마이닝의주요방법론으로이탈고객예측과같은마케팅, 고객관계관리에도활발히사용되고있다. 이중에서몇가지사례를살펴보자. 도쿄주식시장예측신경망은주식시장예측시스템으로자주활용되고있다. 주식, 금융관련데이터는잡음이많고입출력관계가복잡하며비선형 관계일뿐아니라, 시간이지남에따라함수관계가변형되는특성이있으므로, 이를포용할수있는모델이요구되기때문이다. 여기서는도쿄주식거래소의주가지수인 TO PIX(Tokyo Sto ck Exch ange Price Index) 를예측하는시스템의예를통해이러한종류의시스템 < 그림 7> TOPIX 예측시스템의구조 에서신경망활용방법을살펴본다. 도하는전략이다. < 그림 9> 는 1989년후반 TOPIX 예측시스템에서사용한입력변수부터 1992년후반까지의데이터에대해헷는주단위다우존스지수 (DJI : Dow Jones 징비율 (hedging ratio) 을묘사한것이다. 실 Index) 의벡터커브값, JGB(Japanese Go 제로이시스템은 1989년 9월부터실사용 vernment Bond) 의장기채권이율이동평에투입됐다. 그림하단부에서헷징비율을균값, JGB의벡터커브값, 기술적지표와살펴보면 TOPIX가하강하는기간 (first 더불어여러경제지표, 즉이자율, 외환율, fall, second fall 등으로표시 ) 에예측시스템주식거래량등으로구성됐다. 각지표는사에의한헷징비율이높음을알수있다. 전처리과정을거쳐표준화 (standardiza 이신경망을이용한예측시스템은해당기 tion) 했으며, 일별데이터를주단위로평균간 (1989.9~1992.9) 동안 62.1% 의정확도를해사용했다. 예측시스템의출력값은다음보였다. 이는기존기법의정확도와비교해볼주의 TOPIX 수익률로설정됐다. 이시스템때, 높은결과라할수있다. 수익률측면에서에서는단기예측용 (8주), 중기예측용 (10 도, 이시스템은기존트레이딩시스템과비슷주 ), 장기예측용 (12주) 으로세가지신경망한수익률을올렸으나거래횟수가상대적으로모듈을구현하고각모듈이산출하는수익적어효율적인시스템으로평가됐다. 률을평균한값이최종출력값으로산출됐다. 각신경망모듈은앞서소개한 3-layer- DM 마케팅 MLP로구현됐다. 다음 < 그림 7> 은 TOPIX (Direct Mailing Marketing) 예측시스템의개괄도다. 다음은 KDD 99 competition에게재된문 TOPIX 시스템의데이터로는 1983년부제로기부자들의인적정보로부터기부금을터 1989년까지의과거데이터가사용됐다. 예측하는문제다. 즉, 모델의예측값이일정학습데이터셋과검증데이터셋은다음과금액 (68센트) 이상인기부자에게메일을발같이 moving window 방법을사용해결정송했을때, 돌아오는총기부금이최대가되됐다. 즉, M 기간동안을학습한각신경망면해당모델이승리하게된다. 제시되는데모듈은다음의 L 기간에대해검증된다. 이이터로는 1994년부터 1996년까지의기부러한 [M+L] 기간의 time window가일정캠페인에대한 9만 5412개사례건수들이간격만큼이동하면서동일과정이반복되는고, 각모델을평가 (test, score) 하는데이터것이다 (< 그림 8>). 로는 1997년캠페인에대한데이터가주어주가예측에적용된시스템들은단순한진다. 각사례는직업, 성별, 나이, 주소, 기모델의정확도뿐만아니라, 실제수익률이부금액, 경제수준, 이전기부횟수, 이전기더중요하게평가된다. 따라서 TOPIX 예측부금액, 기부여부등총 481개필드로구성시스템의신경망모듈이산출한값들은헷돼있다. 단, 1997년캠페인데이터에대해징 (hedging) 전략에포함되어수익률로평서는모델의예측출력값으로제시돼야하가됐다. 헷징전략은 TOPIX가상승하면선는기부여부와기부금액이제외됐다. 물을매수하고반대로하강하면선물을매이사례는신경망이다른주요분석기법 240 m i c r o s o f t w a r e

신경회로망특집 2-3 < 그림 8> 데이터셋의구성 학습기간 (M 개월 ) 학습기간 (M 개월 ) < 그림 9> TOPIX 예측시스템에의한헷징 예측기간 (L 개월 ) 과어떻게연계돼데이터마이닝에적용되는지를보여준다. 여기서는 3-layer-MLP 신경망과결정트리 (decision tree) 가함께사용됐다. 이문제에대한해결방법은 2단계로구성됐다. 첫번째단계에서는우선얼마나기부를할것인지의기부금액을예측하는모델이만들어졌고, 다음단계에서는기부여부를결정하는기부확률예측모델이만들어졌다. 예측된두값, 즉기부금액예측값과기부확률예측값을곱의형태로계산해해당기부자에대한평가점수 (score) 가되는것이다. 첫단계의 MLP 모델에서는입력노드다섯개, 은닉노드스무개, 출력노드한개가있고, 은닉층의활성화함수로는 hyperbolic tangent 함수를, 출력층의활성화함수로는선형함수를사용했다. 모델을만들기에앞서입력변수를선정하는과정이선행됐다. 이때결정트리를이용해트리에서유의하게사용된입력변수들만을신경망의입력으로사용했다. 선택된입력변수는평균기부금액, 최근기부일과변환된입력변수세개를사용했다. 즉, 479개의입력필드를기초적인전처리과정과결정트리를사용해다섯가지입력변수로축소했다. 이단계에서는기부를한사람들에대한데이터만사용됐고, 모델의출력값은그금액이얼마인지에대한예측값이다. 두번째 MLP 모델에서는입력노드여 예측기간 (L 개월 ) 덟개, 은닉노드스무개, 출력노드한개가있고, 은닉층의활성화함수는첫단계의 MLP와동일하고, 출력층에서는 sigmoid 함수를활성화함수로사용했다. 이모델에서사용한입력변수중, 최근기부일, 최초기부일, 수입등은원래주어진변수이고나머지네가지변수는전처리과정에서조합되거나변환된변수들이다. 주어진출력값은기부여부에대한이진값이고모델의예측값은기부를할것인지에대한확률값이다. 상기한두모델의출력결과를병합해평가금액이 68센트이상인기부자들에게메일을발송했을경우 (97년데이터에대한테스트결과 ), 모금되는총기부금액은 1만 4877달러 77센트였다. 이는동일문제에대한 KDD 98의금상수상모델보다 165달러 53센트가많은금액이었다. 여기서소개한기부금모금을위한 DM 발송사례는마케팅의판촉이나 CRM을위한 DM 발송에도직접적으로활용할수있다. 신경망모델의전제조건과장단점신경망모델을사용하기위한전제조건과신경망모델의장단점을살펴보면다음과같다. 신경망의적용기준다층퍼셉트론신경망을적용하기위한조건은세가지가있다. 첫째, 입력변수와출력변수사이에분명한함수관계가있어야한다. 이때의함수관계란비선형관계까지도포함하므로입출력변수간의단순선형상관계수만을기준으로선택해서는안된다. 즉, 선형상관관계가적더라도비선형관계가존재할수있고, 다른입력변수와의비선형적관계를통해출력변수에영향을미칠수있기때문이다. 둘째, 다량의양질의데이터가필요하다. 특히, 신경망은복잡도가큰모델이므로과적합 (overfitting) 을방지하기위해서도다량의데이터가필수적이다. 마지막으로문제를해결하는공식이나알고리즘이없는경우에적합하다. 또는정확한이론적모델이 없는경우에사용해야한다. 신경망모델의장단점 신경망모델의장점은다양한문제에적용할수있다는점, 일반화성능이의사결정트리모델등과비교해우수하다는점, 데이터의잡음에대해비교적견고 (robust) 하다는점, 다양한소프트웨어패키지가개발되어있다는점이있다. 단점으로는결과에대한설명을하기가어렵다는점이있다. 근래에는신경망이전통적인응용분야인인공지능문제 ( 문자음성인식, 로봇제어등 ) 뿐아니라, 금융과마케팅분야에서도자주사용되고있다. 특히, 데이터마이닝의주요기법으로서유수의관련패키지 (SAS E-miner, SGI Mineset, SPSS Clemen time, IBM I-Miner, 오라클 Darwin 등 ) 에구현돼있을뿐만아니라, 신경망전용패키지와프리웨어로도많이공급되고있다. 데이터마이닝에서주로언급되는신경망모델로는앞서기술한다층퍼셉트론 (MLP) 외에도 RBF(radial basis function), SOFM (self orginazing feature map) 등이있으며대부분의데이터마이닝패키지에포함돼있다. m a s o 정리 : 송우일 wooil@sbmedia.co.k C. Bishop, Neural networks for pattern recognition, Oxford Press, 1995. S. Haykin, Neural Networks, Prentice Hall, 1994. D. Rumelhart, G. Hinton and R. Williams, Learning Internal Representations by Error Propagation, in Parallel Distributed Processing Vol. 1, Ed. D. Rumel hart and J. McClelland, MIT Press, 1986. L. Tarassenko, A Guide to Neural Computing Applications, John Wiley & Sons. 1998. G. J. Deboeck, Trading on the edge, Neural, Genetic, and Fuzzy system for Chaotic Financial Markets, John Wiley & Sons. 1994. J. Georges & A. H. Milley, A SAS White Paper, KDD 99 Competition : Knowledge Discovery Contest, http:// www.sas.com/software/whitepaper/cbi/kdd99.pdf 2001.5 241