대한조선학회논문집 Journal of the Society of Naval Architects of Korea 제4권제5호5년 월 ii. Vol. 4, No. 5, pp. 54-54, October 5 조선분야의축적된데이터활용을위한유전적프로그래밍에서의선형 (Linear) 모델개발 이경호 *, 연윤석 **, 양영순 *** 인하대학교선박해양공학과 *, 대진대학교컴퓨터응용기계설계공학과 ** 서울대학교조선해양공학과 *** Implementing Linear Models in Genetic Programming to Utilize Accumulated Data in Shipbuilding Kyung-Ho Lee *, Yun-Seog Yeun ** and Young-Soon Yang *** Dept. of Naval Architecture and Ocean Engineering, INHA University * Dept. of Mechanical Design Engineering, DaeJin University ** Dept. of Naval Architecture and Ocean Engineering,, Seoul National University *** Abstract Until now, Korean shipyards have accumulated a great amount of data. But they do not have appropriate tools to utilize the data in practical works. Engineering data contains experts experience and know-how in its own. It is very useful to extract knowledge or information from the accumulated existing data by using data mining technique. This paper treats an evolutionary computation based on genetic programming (GP), which can be one of the components to realize data mining. The paper deals with linear models of GP for the regression or approximation problem when given learning samples are not sufficient. The linear model, which is a function of unknown parameters, is built through extracting all possible base functions from the standard GP tree by utilizing the symbolic processing algorithm. In addition to a standard linear model consisting of mathematic functions, one variant form of a linear model, which can be built using low order Taylor series and can be converted into the standard form of a polynomial, is considered in this paper. The suggested model can be utilized as a designing tool to predict design parameters with small accumulated data. Keywords: Genetic programming( 유전적프로그래밍 ), Datamining( 데이터마이닝 ), Data analysis & prediction( 데이터해석및성능예측 ), Linear model( 선형모델 ) 접수일 : 4 년 월 5 일, 승인일 : 5 년 7 월 일 주저자, E-mail : kyungho@inha.ac.kr 주저자, 주 주저자, Tel : -86-74
이경호, 연윤석, 양영순 55. 서론최근들어, 조선분야뿐만아니라산업전분야에서지식의중요성이부각되고있다. 기업이어떤지식을보유하고있으며, 이지식이어떻게조직내에서공유되며활용을극대화할수있느냐가기업의경쟁력이되고있다. 이를위하여지식관리도이야기하고있으며, 전사적인 ERP(Enterprise Resource Planning) 구축에총력을다하고있다. 그러나이것이성공하기위해서는무엇보다도축적된공학데이터의활용측면을간과해서는안된다. 전문가의경험이나노하우로부터만들어진축적된데이터로부터유용한정보나지식을얻고자하는연구분야가데이터마이닝 (Data Mining) 이며, 데이터마이닝의구성요소중에서데이터의분석 (Analysis) 및이를통한성능예측 (Prediction) 을위한학습시스템의구축은반드시선행되어야할문제라고할수있다. 조선 등국인우리나라의조선현장에서는그동안의축적된많은양의데이터를가지고있지만이들데이터를활용하기위한도구를보유하고있지못한것이현실이다. 따라서데이터의적극적인활용방법론을확보하는것이어느때보다필요한시기이다. 본논문은축적된데이터의활용을위한데이터분석및성능예측방법론을개발하는것이다. 여기에서는유전적프로그래밍 (Genetic Programming: 이하 GP 라함 ) 기법을도입한방법론을다루고있는데, GP 는통계학에서의 Regression 방법과같은결정론적방법이아니라함수, 즉트리의구조가적합도를최적화하기위해동적으로변함으로써새로운경험식을생성할수있다. 특히본논문에서는이러한특징을가진 GP 를활용하여축적된데이터의수가학습 (Learning) 을수행하기에부족할경우사용할수있는방법론을제시하기위한것이다. 이경호와연윤석 (4) 에서는이미유전적프로그래밍기법이데이터의비선형영역에서탁월한학습능력을가지고있으며, GP 트리의함수집합으로수학함수대신간단하고다루기쉬운다항식 (Polynomial) 을도입함으로써학습성능을향상시킬수있음을제시하였다. 그러나여기 에서는트리구조를사용하고, 좋은트리구조를찾기위한적합도함수에대한비선형최적화과정을거침으로써많은계산시간이필요하게된다. 본논문은근사모델이간단하면서도학습시스템의일반화성능을향상시킬수있는선형모델 (Linear Model) 을개발하는것이목적이라할수있다. 이를위하여 MDL(Minimum Description Length) 방법 (Hansen & Bin ) 과적은양의학습데이터로부터학습시스템의일반화성능을높이기위하여 DDBS(Directional Derivative Based Smoothing) 을도입하였다. 이를통해비선형성이강하고학습데이터의수가비교적적은영역에서학습성능이우수한근사모델을찾기위한선형모델에의한방법론을제시하였으며, 이를선박설계에적용한예를통해그효용성을검증하였다.. 유전적프로그래밍개요 GP 는유전적알고리즘 (GA) 의확장으로써그개체 (Individual) 가트리 (Tree) 형태의컴퓨터프로그램이된다 ( 이경호등 998). 여기서의컴퓨터프로그램은터미널집합 (Terminal set) 과함수집합 (Function set) 의조합으로생성된문법적으로올바른 GP 트리를뜻한다. 진화과정을통하여 GP 트리는적합도 (Fitness) 를최적화하기위해서그구조자체가동적으로변화하는데, 적합도계산을위해서트리의학습오차 (Learning error) 를계산할수있는함수가사용된다. 기저함수바탕의근사화기법은그함수의형태가이미결정되어있는반면, GP 에서는함수즉 GP 트리의구조차제가적합도를최적화하기위하여변화된다. 이러한특징을고려할때, GP 는함수근사화및데이터마이닝의유용한도구로활용될가능성이크다 ( 이경호와연윤석 4). 그러나 GP 의가장큰단점중의하나가진화의과정을통하여학습을하는과정에서많은양의데이터와복잡한트리구조를최적화해나감으로인해계산시간이많이소요된다는것이다. 또한대부분의공학문제에서 GP 의학습에이용할만큼의일관성있는많은양의실적데이터를얻는다는것도쉽지는않다. 이러한 Journal of SNAK, Vol. 4, No. 5, October 5
56 조선분야의축적된데이터활용을위한유전적프로그래밍에서의선형 (Linear) 모델개발 문제를해결하기위한방법으로 GP 의복잡한트리구조대신선형모델을도입하고, 이를통해학습오류가적으면서간단한근사모델로서좋은일반화성능을보이는모델을찾음으로써계산시간을줄이고적은양의학습데이터를가지더라도우수한성능을나타내는함수근사방법론을제시하고자한다.. 유전적프로그래밍에서의선형모델구현 일반적으로회귀분석이나함수근사의문제는주어진샘플데이터를바탕으로일반적성능을가진우수한모델을찾는것이다. 이를위해서가장중요한문제는생성할모델에사용될적절한기저함수의형식을선택하는것이다. 기저함수가선택되면이들의조합을통해서적절한모델을생성해간다. 여기에서는근사모델의구조가고정되어있다. 이와는달리 GP 를이용하게되면 GP 트리의구조자체가점진적진화연산에의해개선되고최적화되어더적절하고정교한근사모델을얻을수있는확률을높일수있다. 이러한이유로 GP 는회귀분석이나시스템인식 (System Identification) 분야에서활발하게적용되고있다 (Gray et al. 996).. MDL 에의한최적선형모델생성 GP 가유전적진화연산에의해생성되는트리구조를사용함으로써매우잠재능력을가진도구로서평가되지만또한이것이 GP 의큰단점이될수도있다. 예를들어, θ ( + θ x θ(* θ 4x θ5(sin θ6( + θ7x θ8x4)))) 와같은트리를생각하면, 여기서 θi 는각노드에붙어진가중치 (Weight) 이고 xi 는변수 (Variable) 또는상수 (Constant) 임, 이트리는비선형함수로서 θi 를구하기위해서는복잡하고많은양의계산을요하는비선형최적화방법을사용해야한다. 일반적으로좋은모델을생성하는데는모델의일반화성능이우수해야한다. 또한이것은모델의복잡도와연관되어있다. 보통모델이복잡하면학습성능은뛰어나지만 ( 학습오차가적음 ) 테 스트오차가매우크게되는 Overfitting 경향을나타낸다. 이러한현상은학습데이터의수가적을때발생하기쉽다. 이러한문제를해결하기위한방법으로본논문에서는일반적인 GP 트리구조로부터 Symbolic Processing 알고리즘을활용하여선형모델을생성하였으며, 가장성능이뛰어난모델을선정하기위하여 GP 의적합도함수로서 MDL 방법을도입하였다. 여기서, MDL 은 Ockham s Razor(Barron et al. 998) 와밀접하게관련되어있는데, 즉학습데이터를잘근사하면서가장단순한모델이가장좋은일반화성능을나타내는모델이라는것이다. 일반적인선형모델은식 () 과같이표현된다. T y = θ i xi = θ x () i 여기서, θ 는구하고자하는파라메터 θi 의벡터이고, x 는 d 차원의설계변수이다. y 는 θi 의선형함수로서선형모델이라한다. 식 () 은식 () 와같이확장될수있다. κ T () y = i= θ b i i = θ b 여기서, κ 은기저함수 (Base Function) 의 κ 수이고, b = ( b i ) i= 는 d 차원벡터 x 로부터선택된변수들의임의의연속함수의벡터이다. 식 () 도여전히선형모델이고, bi 는표준기저함수가아니며, bi 와 b j ( i j ) 는같은함수형태가아니다. 만일학습데이터세트가 n L = {( z i, t i )} i= 이라고할때, 여기서 zi 는 d i i 차원벡터 ( z,..., zd ) 이고, ti 는목표치 (Target Value) 임, GP 의임무는 L 에담겨진정보로부터 b 를찾아내는것이다. 간단한예를들어설명하면다음과같다. 전형적인 GP 트리로부터선형모델을만들기위해서는먼저식 () 에서의기저함수 bi 를먼저추출해야한다. 만일다음과같이생성된 GP 트리하나를생각해보자. ( (*.7 (*.5 (sin ( + x (*. (exp x)))))) (* (*. (* x x))(* x (cos ( x ))))) 대한조선학회논문집제 4 권제 5 호 5 년 월
이경호, 연윤석, 양영순 57 Table Mathematic functions used for GP functions cos, acos, sec, asec, sin, asin, csc, acsc, tan, atan, cot, acot, cosh, acosh, sech, asech, sinh, asinh, csch, tanh, atanh, coth, acoth, sqrt, exp, log(ln), iexp(/exp) Table Taylor series used for GP functions Symbol Math. function Taylor series Symbol Math. function Taylor series tcos cos(x ) / x tsqrt / ( + x) + / x /8x + /6x tsec sec(x ) + / x tsin sin(x ) x / 6x ttan tan(x ) x + / x tcosh cosh(x ) + / x tsinh sinh(x ) x + / 6x ttanh tanh(x ) x / x tlogcos log(cos(x )) / x tisqrt / ( + x ) / x + /8x 5/6x texp exp(x ) + x + / x + / 6x tlog log( + x) x / x + / x tipx ( + x ) x + x x tipx ( + x ) x + x 4x texpsin exp(sin(x )) + x + / x texptan exp(tan(x )) + x + / x + / x 이렇게 GP 에서생성된트리구조를표준수학함수형태로고쳐보면다음과같다..5sin( x +.exp( x )) + (.) x x cos( x 이식으로부터우리는다음과같은 개의기저함수를찾아낼수있다. b =, b = sin( x +.exp( x )), b = x x cos( x ) 그러면 θi 는 OLS (Ordinary Least Square Method) 에의해쉽게구해진다. 이러한변환은궁극적으로 GP 트리로부터가능한모든기저함수를모으기위한것이다. GP 에서사용되는터미널노드와함수세트는다음과같다. TGP = { x,..., xd, R, one} F GP = { g, g..., +,,*} 여기서, R 은 R < 인난수 (Random Number) 이고, one 은 이며, gi 는임의의연속함수이다. gi 로서본논문에서는 Table 과같은다양한수학함수를사용하고있다. 또한 gi 로서수학함수대신 Table 에정의한함수에해당하는 Low order Taylor Series 를사용하게되면이경호 (4) 에서사용한다항식기반의 GP 가된다. 본 ) z j i, j l z i k,i l Fig. Generation of Virtual Data by DDBS 논문에서는이러한다항식을이용한 GP 트리로부터의선형모델생성 ( 이를 LM-GP 라함 ) 을다루고있는데, 이것을특별히 PLM-GP (LM-GP with Polynomial) 이라한다.. DDBS 에의한가상데이터생성일반적으로 MDL 에의한선형모델생성은계산양을줄여준다는장점을가지고있지만일반적으로데이터의양이많은때좋은결과를보여준다. i,l l z k z l Journal of SNAK, Vol. 4, No. 5, October 5
58 조선분야의축적된데이터활용을위한유전적프로그래밍에서의선형 (Linear) 모델개발 본논문에서와같이데이터의수가제한되어있는경우에대해서는좋은모델을만들어준다는보장을할수가없게된다. 더구나이렇게데이터의수가적고, 선형모델의기저함수자체가진화연산과정에서비선형성을보일때, 이렇게생성된모델은과도한 Overfitting 경향을보이게된다. 이러한문제를해결하기위하여 MDL 과병행하여방향성을가지고가상데이터를생성시킬수있는 DDBS (Directional Derivative based Smoothing) 방법의도입이요구된다. Fig. 에서와같이선형모델 y 가주어지면, y 의거동은가장인접한두샘플포인트인 zi 과 z j 로부터이두점을연결하는 i, j l 선을따라탐색을하면서원치않는급격한 Peak 나 Valley 가발생한곳에서 y 의방향도함수를사용하여 새로운점들을찾게된다. DDBS 를사용하면 y 의부드러운결과를효과적으로얻을수있을뿐만아니라샘플데이터의추가없이도효과적인학습을수행할수있게된다. 4. 검증예본논문에서개발된 GP 의선형모델을검증하기위해수학적함수의근사를수행하였다. 이것은일반적인표준 GP 가학습데이터의수가적을경우비정상적인현상을나타낼수있으며, LM- GP 또는 PLM-GP 의도입을통해이문제를해결할수있음을보이기위한것이다. x.8.6.4. y x.5.5 x a. The original function. b. Generated lines for creating virtual samples. x.8.8.6.6.4 y.4 y.. x.5.5 x c. The best result of LM-GP. d. The best result of PLM-GP. Fig. Fitting results of the Rosen Brock s function with noiseless samples. x.5.5 x 대한조선학회논문집제 4 권제 5 호 5 년 월
이경호, 연윤석, 양영순 59.995 -.44x -.859x + 6.88E-x^ +.7xx -.47Ex^ - 4.78E-xx^ -.667E-x^ +.8Ex^ -.48x^x + 6.665E-xx^ - 7.959E-x^x -.957E-x^x^ - 4.Ex^4 +.65E-xx^4-9.6E-x^4x + 9.56Ex^5 + 7.688E-x^x^ -.7x^x^ -.66Ex^6 -.5x^4x^ -.94x^5x -.75Eex^x^4.. -.7E-x^7x^7 -.5Ex^4 +.86E-x^x^ -.9E-x^8x^7 + 6.746E-x^x^4 -.79E-x^x^5 -.74E-x^x^ - 5.48E-x^9x^6 +.89E-x^9x^7 +.8E-x^x^6 -.858E-x^x^4-7.6E- x^x^5 +.64E-x^x^5 +.455E-x^x^7 + 6.4E-x^x^6 -.8E-x^x^6 -.765E-x^x^7 Fig. The polynomial transformed from the best linear model of PLM-GP 검증을위해사용한함수는 Rosen Brock 함수 (Rosenbrock 96) 이며, 단지 6x6 개의학습데이터와 5x5 개의테스트데이터를그리드로생성하여사용하였다. Rosen Brock 함수는다음과같으며, GP 에사용된파라메터값들은 Table 과같다. y = ( x x ) + ( x ) x i, i =, 또한 Fig. 는그결과이다. 예상대로적은수의데이터에서도 LM-GP 와 PLM-GP 는우수한학습성능을나타내고있음을알수있다. Fig. 은 PLM-GP 의선형모델로부터변환된다항식의결과이다. Table The default parameters used for GP Population size Max. generation Selection method Tournament with trees Reproduction.5 probability Crossover probability.7 Mutation probability.5 Table 4 The estimation of the principal dimensions of bulk carriers. L BP B D Learning error Test error Learning error Test error Learning error Test error LM-GP 5.64 PLM-GP 5.6665 NN 5.64 MARS 5.958 LM-GP 5.45 PLM-GP 5.597 NN 6.957 MARS 5.6684 LM-GP.9648 PLM-GP.786 NN.98 MARS.6696 LM-GP.98 PLM-GP.968 NN.97 MARS.695 LM-GP.55795 PLM-GP.557 NN.594 MARS.4884 LM-GP.5869 PLM-GP.5884 NN.6698 MARS.6974 5. 선박설계적용예개발된시스템의실세계적용을위하여산적화물선 (Bulk Carrier) 의주요치수추정문제를다루었다. 현실적으로실적데이터의수집이어렵고, 데이터자체도일부일관성이결여되어있지만학습경향은파악할수있다. 여기서는선주의요구조건 (DWT, Vs) 에따라주요치수별학습을수행하였다. 학습데이터로는 8 개의실적데이터를사용하였으며, 일부노이지를포함하고있다. Fig. 4 는주요치수중선박의길이 (LBP) 추정의결과만을실었다. Table 4 에서는주요치수 LBP, B, D 에대한추정결과를타학습시스템과비교를수행한것이다. PLM-GP 의경우타시스템보다성능이우수하였고, 본학습에서사용한실적데이터자체가자체의노이지를가지고있고그런데이터를학습의검증을위한테스트데이터로사용함으로써약 Journal of SNAK, Vol. 4, No. 5, October 5
54 조선분야의축적된데이터활용을위한유전적프로그래밍에서의선형 (Linear) 모델개발 간의차이를보이고있다. 그러나 Fig. 4 에서볼수있듯이 LM-GP 나 PLM-GP 에의해 Fitting 된함수는나름대로만족할만한결과라고판단된다. 6. 결론본논문은조선현장의축적된데이터를효율적으로활용할수있도록데이터분석및성능예측을위한조선분야에적합한도구를개발하는데그목적이있다. 지금까지공학데이터의축적을위한도구에대한노력과연구는많이되어왔다. 그러나이것의활용측면에서는많은연구가없었던것이사실이다. 본연구를통하여축적된데이터 활용을위한유전적프로그래밍방법의접근에대해소개하였으며, 특히유전적프로그래밍방법의진화적성능향상을도모하면서간단하고효율적인선형 (Linear) 모델의개발을통해데이터의일반화된학습성능을높이고, 학습데이터의수가적은경우에도뛰어난학습성능을발휘하는시스템을개발하였다. 이러한방법론은조선현장의데이터를효과적으로활용할수있는도구로사용될것으로기대하며, 궁극적으로는데이터로부터유용한정보및지식을추출해내는데이터마이닝의도구로사용될것이다. 4 4 8 Learning samples LM-GP 8 Learning samples PLM-GP LBP(m) 6 4 LBP(m) 6 4 8 8 6 6 4 4 5.e+4.e+5.5e+5.e+5.5e+5 5.e+4.e+5.5e+5.e+5.5e+5 Deadweight(ton) Deadweight(ton) a. The learning results of LM-GP. b. The learning results of PLM-GP. 8 8 6 6 LBP(m) 4 Test samples LM-GP LBP(m) 4 Test samples PLM-GP 8 8 6 6 5.e+4.e+5.5e+5.e+5.5e+5 5.e+4.e+5.5e+5.e+5.5e+5 Deadweight(ton) Deadweight(ton) c. The test results of LM-GP. d. The test results of PLM-GP. Fig. 4 The results of two linear models for estimating L BP 대한조선학회논문집제 4 권제 5 호 5 년 월
이경호, 연윤석, 양영순 54 후기이논문은 4 년도한국학술진흥재단의지원에의해연구되었음 (KRF-4-4-D87) 참고문헌 이경호, 연윤석, 양영순, 998, 개선된유전적프로그래밍기법을이용한설계파라메터추정, 대한조선학회설계연구회하계발표회. 이경호, 연윤석, 4, " 데이터마이닝을위한다항식기반의유전적프로그래밍기법과조선분야응용," 대한조선학회춘계학술대회논문집. pp. 845-85 Barron A., Rissanen J. and Yu B., 998, The Minimum Description Length Principle in Coding and Modeling, IEEE Trans. Information Theory, Vol. 44, No. 6, pp. 74-76. Gray G.J., Murray D.J. and Sharman K.C., 996, Structural System Identification using Genetic Programming and a Block Diagram oriented Simulation Tool, Electronics Letters, Vol., pp. 4-44. Hansen, M.H. and Bin, Y.,, Model selection and the principle of minimum description length, J. of American Statistical Association, Vol. 96, No. 454, pp. 746-774. Rosenbrock, H.H., 96, An automatic method for finding the greatest or least value of a function, Computer Journal, Vol., pp. 75-84. < 이경호 > < 연윤석 > < 양영순 > Journal of SNAK, Vol. 4, No. 5, October 5