Journal of the Korean Data & Information Science Society 2019, 30(2), 429 444 http://dx.doi.org/10.7465/jkdi.2019.30.2.429 한국데이터정보과학회지 데이터마이닝기반육군수리부속수요예측 김형태 1 김수환 2 1 합동참모본부 전략기획본부 2국방대학교 국방과학학과 접수 2019년 1월 11일, 수정 2019년 3월 12일, 게재확정 2019년 3월 16일 요약 우리 군에서 사용하고 있는 수리부속은 약72만 종으로, 연간 예산은 전체 국방예산의 3% (약1.3조원)을 차지하고 있다. 이와 같은 예산이 집행됨에도 불구하고 현재 우리 육군의 수리부속 예측정확도는 품목기준 70%, 수량기준 60%를 보이고 있으며, 이는 목표 장비가동률 저하에 악영향 을 미친다. 따라서 본 연구에서는 수리부속 수요예측 정확도 제고를 위해 현재 육군에서 운용중인 장비정비정보체계 시스템의 에이타킴스 (ATCMS), K-9자주포, ARTHUR-K 총 3개 장비에 대한 2012 2016년까지의 ASL (authorized storage list) 598개 수리부속 품목의 연도별 소모개수, 표 준단가의 데이터 수집을 통해 데이터마이닝 예측모형 (회귀나무, random forest, 인공신경망, 다중 선형회귀)을 활용하여 2017년 수요 (Y)를 예측하였으며, 예측력척도는 RMSE (평균제곱근오차)와 MAE (평균절대오차)를 사용하였다. 연구결과 데이터마이닝 예측모형이 현재 육군에서 활용중인 시 계열 예측 모형에 비해 예측정확도가 높았으며, 이어서 K-means 군집분석을 통해서 예측정확도를 더 욱 높일 수 있는 군집을 찾을 수 있었다. 주요용어: 다중선형회귀, 데이터마이닝, 육군 수리부속, 회귀나무, random forest. 1. 서론 우리 軍 에서 수리부속 (repair part)이란 수리부속품의 약칭으로 무기체계 (weapon system) 또는 장 비 (equipment)의 부분품, 결합체, 구성품, 모듈, 키트 (kit)를 통칭하며, 품목수란 나사로부터 엔진에 이르기까지 군에서 사용하는 모든 수리부속의 수를 말한다. 이는 군수품의 종별 세부 분류시 공구와 함 께 9종에 해당되며 장비에 있어서 사람의 장기와 같은 역할을 담당하는 핵심품목으로, 현재 군에서 운영 하는 수리부속은 아래와 같이 여러 가지 특징이 있다. 첫째, 육군을 비롯한 전군에서 사용 중인 수리부속은 약 72만여 종에 이르며 다양한 종류와 크기를 가 지고 있는 다품종 군수품이며 둘째, 수리부속은 그 특성상 소요발생이 일정하지 않고 불규칙적이라 장차 수요를 정확하게 예측하기 어렵다. 이는 경제적 군 운영과 전투력 발휘에도 큰 영향을 미치게 된다. 셋 째, 수리부속의 원가산정이 지연되거나, 소액 품목의 경우는 생산업체와의 계약지연이 빈번하게 발생되 며, 해외 도입장비는 부품이 단종 되는 경우와 같이 확보의 어려움이 발생하기 때문에 조달기간이 장기 간 소요된다. 끝으로, 재고고갈 발생으로 수리부속은 전투력 발휘의 핵심 품목임에도 제한된 국방자원 의 효율적인 배분 우선순위에 밀려 예산이 부족하게 배정됨으로써 재고고갈 (stock depletion)을 유발하 기도 한다. 이에 따른 현재 우리 육군에서는 아래의 Table 1.1과 같이 산술평균법, 이동평균법, 최소자승법 등 민 간에 비해 비교적 단순한 수요예측 모형을 활용하고 있다. 1 (04383)서울특별시 용산구 이태원로 22, 합동참모본부, 전략기획본부 탄약전력담당. 2 교신저자: (33021) 충남 논산시 양촌면 황산벌로 1040, 국방대학교 국방과학학과, 교수. E-mail: ksuhwan@kndu.ac.kr
430 Hyung-tae Kim Su-hwan Kim Table 1.1 Army Demand Forecasting Models Methodology Arithmetic mean Moving average Least square method Application trend Items with similar annual demand If the demand trend is increasing or decreasing or is irregular Demand trends are increasing or decreasing regularly 산술평균법 (arithmetic mean)은 수요예측의 가장 단순한 형태로 과거기간 중 발생한 수요를 모두 평 균하여 수요를 예측하는 것으로 과거자료가 충분히 많고, 균등하게 형성될 경우 활용되는 방법으로 아래 수식 (1.1)과 같이 표현된다. 여기서 Ŷt은 예측수요, Yi은 i기간의 수요, n은 최초 발생 시점부터 현재 까지의 기간 수이다. Ŷ t = n i=1 Yi n. (1.1) 이동평균법 (moving average)의 경우는 일정기간의 시계열 자료를 대상으로 산술평균 또는 가중평균 을 구하여 계절적 및 불규칙 요인을 제거하는 방법으로 기간을 이동하면서 예측값을 산출하는 방법이다. 항상 낡은 제원에서 하나를 삭제하는 대신 새로운 제원 하나를 포함시켜 산출하는 방법으로 기간을 계 속적으로 이동하면서 산술평균치를 구하기 때문에 이동평균법이라고 한다. 예측정확도는 타 방법에 비 하여 미흡하지만 예측방법이 용이하다는 점에서 널리 활용되고 있다. 이동평균법에 의한 예측값은 아래 수식 (1.2)과 같이 표현되며, 여기서 F t은 t기간의 예측치, A t i은 t i의 관측치, n은 대상기간이 된다. F t = 1 n n i=1 A t i = 1 (At 1 + At 2 + + At n). (1.2) n 최소자승법 (least square method)의 경우는 자료의 추세를 접합시키는데 가장 널리 이용되는 방법 중 하나이며, 관측치 및 추세치의 편차자승 총합계가 최소가 되도록 함으로서 수직 평균선이 가장 적합 하게 그려지도록 하는 것이다. 현재 육군에서는 선형의 직선추세에 의한 방법을 많이 사용하고 있으며, 최소자승법의 추세선이 직선일 경우 추세선 식은 Ŷt = axt + b로 표현할 수 있다. 여기서 Ŷt은 시점 t에서 예측값, a는 추세선의 기울기, X t은 시점 t에서의 설명변수값, b는 추세선의 y절편이 된다. 이와 같이 우리 육군은 비교적 단순한 수요예측 모형들을 활용하여 수리부속 수요예측을 진행 해 오고 있으며 특히, 과거 Y 1년 Y 5년의 소모개수만을 가지고 수요예측 정확도를 제고하기에는 한계가 있다. 그 결과 한국 국방연구원 Woo (2012)의 연구결과에 의하면 품목기준 70%, 수량기준 60%의 저 조한 수리부속 수요예측 정확도를 보이고 있다. 2. 기존연구고찰 2.1. 군분야의수요예측 현재 우리 군에서 제한된 예산의 효율적인 사용을 위한 정확한 수요예측 방법론 개발은 중요한 과제라 할 수 있으며, 육군에서는 기존자료를 바탕으로 다양한 예측기법을 활용하여 수리부속의 정확도제고에 많은 연구를 수행해 왔다. 관련 연구를 살펴보면, Ko (1992)는 해군의 함정 엔진의 수리부속 자료를 바탕으로 ARIMA 기법을 활용하여 예측하였으며, Lee (1994)는 차량 수리부속의 5년간 자료를 이용하여 품목별 최적기법을 선
Data mining based army repair parts demand forecast 431 정한 수요예측을 연구하였다. 또한 최근에는 Yoon (2012)이 K-9자주포의 6년간 자료를 바탕으로 월별 수요량 분포추정을 활용한 예측을 진행하였고, Nam (2013)이 최근린법을 활용하여 A무기체계의 6년간 자료를 규칙 불규칙적인 수요량 변화와 고 저단가 품목의 특성을 반영하여 수리부속 수요를 예측하였다. 2.2. 민간분야의수요예측 민간 분야 또한 각종 산업, 공공 서비스 분야에서 많은 연구들이 진행되어 왔으며 대표적인 사례는 다음과 같다. 2000년대 초반에는 Yang (2002)이 한국전력의 월 최대전력부하의 22년간 자료를 Winters의 승법 계절 모형으로 수요예측 했으며, Se (2003)는 냉장고의 판매량 예측을 위한 하이마트의 36개월간의 판매실적을 ARIMA 모형을 적용하여 예측하였다. Oh (2004)는 TV시청률 예측을 위해 12개월간 시계열데이터를 바탕으로 ARIMA 모형과 Winters 모형을 비교 분석하여 최적의 방법을 제 시하였다. 2010년대 연구를 살펴보면 Xiaoyan과 Yuqing (2010)은 자연재해 이후 수요예측 위하여 EMD와 ARIMA의 통합 예측방법을 제시하였고, Kim과 Hong (2011)은 국내 무역전시장의 수요예 측을 위하여 GDP, 무역규모 등 각종 경제관련 변수를 선정하여 추세적 및 중회귀분석을 연구하였다. 또한, Jun Jung (2016)이 정기선사의 컨테이너 재고 수요예측을 위하여 시스템 다이나믹스를 이용했 으며 최근에는 Bruno와 Edevar (2017)가 소비자에게 안정적으로 수도를 공급하기 위해 계절적 추세 (rend)를 사용하는 Fourier 시계열 분석을 활용하여 수도예측 실시하였다. 2.3. 데이터마이닝수요예측 데이터마이닝은 주로 사진 및 영상 분야에서 패턴을 추출하는 방법으로 주로 사용되어 왔으나, 최근 에는 대용량 데이터의 수집이 가능해지고, 이에 따른 데이터 분석에 관심이 증대됨에 따라 서비스, 금 융, 산업, 통신 분야 등 다양한 분야에서 많이 활용되고 있다. 최근에는 수요예측 분야에도 적용이 되고 있으며, 군의 경우 Kim과 Lee (2016)가 공군 항공기 수리부속 관련 데이터를 수집 및 변수를 추출하여 의사결정나무, 베이지안 네트워크 등의 기법을 사용하여 수리부속의 발생여부 예측 모델을 제시하였고, Kim (2018)은 공군에서 운용중인 항공통제기 (E-737)의 간헐적 수요 부품을 대상으로 비행시간, 비행 횟수, 기상자료 등의 변수를 수집하여 시계열 모형, 다중회귀 모형 등을 비교하여 최적의 수요예측 기법 을 제시하기도 했다. 또한, 민간분야에서는 Gorucu (2004)가 가격, 고객 수, 환율정보를 바탕으로 인공 신경망 모형을 적용하여 월별 가스 소비량을 예측하였고, Jalil (2010)이 부품공급에 있어서 소비자의 성 향, 수익률, 서비스 기간 등의 관련 정보를 활용하여 부품 수요예측 연구를 진행하기도 했다. 지금까지 살펴본 데이터마이닝 수요예측 관련 연구를 보면 대부분 목표변수가 있는 지도학습 유형의 데이터마이닝 기법을 활용하였으며, 현재까지 목표변수가 없는 비지도 학습 기법과 연계된 수리부속 수 요예측 연구는 없는 실정이다. 따라서 본 연구에서는 기존 연구들과의 차이점으로 설명변수로 12 16년도 연도별 소모개수 및 추 가적으로 표준단가 데이터 수집을 통해 데이터마이닝 예측모형과 시계열 예측모형의 예측값을 비교분석 하였다. 이어서 설명변수가 없을 때 활용하는 대표적인 비지도학습인 K-means 군집분석을 통해 유사 한 특성을 가진 수리부속을 2개의 그룹으로 군집하여 군집분석 전과 비교하여 예측정확도에 어떠한 차 이가 있는지 연구하였다. 3.1. 자료수집및모형구축 3. 수리부속수요예측모형 아래의 Figure 3.1과 같이 세부 연구절차를 살펴보면 첫째, 육군에서 2009년부터 현재까지 수리부속
432 Hyung-tae Kim Su-hwan Kim 의 보급 및 정비관련 사항을 과학적이고 체계적인 기법으로 관리하기 위해서 운용중인 장비정비정보체 계 (deliis, defense logistics integrated information system) 프로그램을 통해서 2012년 2017년까지 의 전술 지대지 미사일 에이타킴스 (ATCMS), K-9자주포, 2009년 스웨덴 사브사 (SAAB)에서 도입된 대포병레이더 (ARTHUR-K) 등 총 3개 장비의 ASL (authorized stockage list; 육군에서 인가저장품 목 이란 뜻으로 각급 보급지원부대에서 현 보급운영을 지속하고 장차 예측되는 소요를 충당하기 위하여 항상 저장/유지하도록 인가된 보급품을 말한다.) 이어서 변수선정에 있어서는 Table 3.1과 같이 12년 16년도 연도별 소모개수, 표준단가의 10개의 설명변수들을 가지고 C 17 (17년 소모개수) 관측값 (반응변수)을 예측하였으며, R의 Scale 함수를 사 용하여 단위 표준화를 진행하였다. 또한 시계열자료의 경우 변수선정 기간에 따라 모형의 예측력이 달 라질 수 있는데 아래 Table 3.2와 같이 데이터마이닝 모형 중 비교적 예측성능이 우수하다고 분석된 Random forest의 기간별 예측값 비교결과 5년간 데이터를 모두 적용한 결과값이 가장 성능이 우수하여 최종 모형 검증에 5년간의 모든 데이터를 적용하여 연구하였다. 이어서 검증 (verification)을 위한 노력 으로 훈련 및 테스트 데이터를 7:3 비율로 분할하여 연구진행 하였다. Figure 3.1 Research procedure 그리고 본 연구는 설명변수가 수리부속 소모개수로 연속형이기 때문에 최적의 수요예측 모형 구축을 위해 데이터마이닝 예측 모형 중 회귀나무, Random forest, 인공신경망, 다중선형회귀 모형을 활용하였 으며, 각 모델별 예측 결과값 비교를 통해 가장 성능이 우수한 모델을 최종모형으로 선정하였다. 모형구 축에는 공개 소프트웨어인 R (ver.3.4.2)을 활용하였다. Table 3.1 Each variable description Variable Meaning(j=12 17year) C j j year of consumption P j j year of standard unit price Table 3.2 Random forest results by period Methodology Result (Year) RMSE MAE 12 16 5.77 2.36 13 16 5.89 2.74 14 16 5.88 2.69 15 16 5.98 3.17
Data mining based army repair parts demand forecast 433 3.2. 예측력척도 각 모델의 정확성을 평가하는 예측력 척도로는 Yoon (2017) 및 Kim (2018)이 연구한 방법인 RMSE (평균제곱근오차) 및 추가적으로 MAE (평균절대오차)를 사용하였으며 RMSE와 MAE값은 관측값과 예측값의 차이이므로 적을수록 성능이 우수하다. 아래 식 (3.1 3.2)에서 t는 각각의 수리부속, 은 예측값, 은 실제 관측값을 의미한다. 4.1. 군집분석전결과분석 RMSE = MAE = 1 n n t=1 (Ŷt Yt)2, (3.1) n n Ŷt Yt. (3.2) t=1 4. 결과분석 우선, 본 연구에서는 군집분석을 실시하지 않고 데이터마이닝 예측모형 (회귀나무, 랜덤포레스트, 인공신경망, 다중회귀)과 시계열 예측 모형 (ARIMA, 산술평균, 이동평균)의 2017년 수리부속 수요 (Y)를 예측하였으며, 데이터마이닝 모형의 경우 장비정비정보체계에서 수집한 모든 설명변수들을 활용 하였으며, ARIMA 및 시계열 모형의 경우는 현재 육군 군수사령부에서 사용 중인 방법과 동일한 Y-1 Y-5년도까지의 5년간의 소모개수만을 가지고 연구를 진행하였다. 4.1.1. 회귀나무 회귀나무 모형 분석은 분석대상 자료를 Tree 구조로 표현하는 분석하는 방법으로 분류 또는 예측의 과정이 Tree 구조에 의한 추론규칙 (inference rules)으로 표현되기에 기존의 다변량자료분석 (회귀분 석, 인공신경망)에 비하여 쉽게 이해되고, 설명할 수 있다는 점에서 큰 장점을 지니고 있다. 본 연구에 서는 다양한 의사결정나무 알고리즘 중에서 CART (classification and regression tree) 방법을 사용하 였으며, 그 중에서도 반응변수가 연속형이므로 회귀나무 모형을 사용하였다. 모형 구성 후 오류를 줄이기 위해서 가지치기를 수행했으며 먼저, 최소 C P 값을 구한 후 Prune 함수 를 활용하여 가지치기를 수행하였다. 최종 회귀나무모형 트리 구성은 Figure 4.1과 같으며, 세부 분할 규칙은 Table 4.1과 같다. Table 4.1 Classification rule of regression tree model Classification rule Required quantity C 16<6, C 16<4 0.7 C 16<6, C 16 4 6 C 16 6, C 13<24, C 16<19, P 14<457 6 C 16 6, C 13<24, C 16<19, P 14 457, C 12<18 10 C 16 6, C 13<24, C 16<19, P 14 457, C 12 18 19 C 16 6, C 13<24, C 16 19 17 C 16 6, C 13 24 27 모형을 구성한 변수로는 C 16 (16년 소모), C 13 (13년 소모), P 14 (14년 표준단가), C 12 (12년 소모)이 며, 위 방법으로 연구한 결과 회귀나무 모형에 대한 RMSE (평균제곱근오차)값은 6.18, MAE (평균절 대오차)값은 3.07이였다.
434 Hyung-tae Kim Su-hwan Kim Figure 4.1 Regression tree model tree composition 4.1.2. Random forest Random forest 모형은 앙상블 (ensemble) 기법을 활용하여 의사결정나무 모형과는 달리 세부적인 구성 (composition)은 확인할 수 없으나, 종속변수에 영향을 미치는 설명변수들의 중요도를 알 수 있다 는 점에서 큰 장점을 지니고 있다. 또한, 일반적으로 다른 데이터마이닝 예측모형들에 비해 예측력이 상 당히 우수하다고 알려져 있다. 위와 동일한 방법으로 연구한 결과 RMSE (평균제곱근 오차)값이 5.77, MAE (평균절대오차)값은 2.39로 다른 모형과 비교해서 예측정확도가 가장 우수하였다. 아래의 Figure 4.2의 결과를 참고하면 수리부속 데이터에 대한 변수 중요도를 평가한 결과로서 %IncMSE (mean decrease accuracy) / IncNodePurity (mean decrease Gini) 값이 클수록 중요한 변수임 을 알 수 있다. 연구결과로서 %IncMSE는 C 16 (16년 소모) > C 14 (14년 소모) > C 13 (13년 소모) > P 16 (16년 표준단가) 순으로 나타났으며, IncNodePurity 지수는 C 16 (16년 소모) > C 14 (14년 소모) > P 16 (16년 표준단가) > C 13 (13년 소모) > C 15 (15년 소모) 순으로 중요하다고 평가되었다. 이 결과 를 바탕으로 공통적으로 C 17 (17년 소모)의 소요수량을 예측함에 있어서 C 16 (16년 소모) 가장 최근의 소모개수가 큰 영향을 미친다는 것을 알 수 있었다. 4.1.3. 인공신경망 인간의 뇌를 본 따서 만든 모형인 인공신경망 모형 또한 예측성능이 우수하다고 알려져 있으며 특히, 은닉 층에서 입력 값이 조합됨으로 비선형적인 문제를 해결 할 수 있다는 특징이 있다. 단점으로는 직관 적인 이해에 있어서 다른 모형에 비해 어려우며 연구자에 의한 수정이 제한되는 점 등이 있다. 연구에 앞서 위 모형의 경우 입력변수와 출력변수가 0과 1사이의 값일 때 최적의 결과를 산출함으로 최초 입력변수 데이터를 0과 1사이로 값으로 정규화 했고, 출력변수 결과값을 다시 최초 값으로 변환하 여 정확도를 계산하였다.
Data mining based army repair parts demand forecast 435 Figure 4.2 Result of variable importance evaluation 또한, Table 4.2와 같이 은닉층 및 은닉노드 수의 변화에 따라 예측값이 달라짐을 확인할 수 있었는데 아래의 Figure 4.3과 같이 은닉층을 하나로 하고, 은닉노드 수를 1,1로 입력했을 때 RMSE (평균제곱근 오차)값이 5.96, MAE (평균절대오차)값은 2.95로 RF 모형 다음으로 우수한 결과값을 얻을 수 있었다. Table 4.2 Results of changes in the number of hidden layers and nodes Hidden (RMSE) 5.98 Hidden 5.96 Hidden 5.98 Hidden 5.97 Layer(1) (MAE) 2.95 Layer(1,1) 2.95 Layer(1,2) 2.96 Layer(1,3) 2.96 Hidden (RMSE) 5.99 Hidden 6.74 Hidden 6.03 Hidden 6.45 Layer(2) (MAE) 2.97 Layer(2,1) 3.24 Layer(2,2) 3.05 Layer(2,3) 3.24 Hidden (RMSE) 11.06 Hidden 6.43 Hidden 6.76 Hidden 6.09 Layer(3) (MAE) 3.59 Layer(3,1) 3.06 Layer(3,2) 3.17 Layer(3,3) 2.96 Hidden (RMSE) 7.69 Hidden 8.91 Hidden 7.67 Hidden 8.32 Layer(4) (MAE) 3.86 Layer(4,1) 3.93 Layer(4,2) 3.42 Layer(4,3) 3.98 Hidden (RMSE) 6.94 Hidden 8.11 Hidden 10.01 Hidden 11.03 Layer(5) (MAE) 3.39 Layer(5,1) 3.49 Layer(5,2) 4.80 Layer(5,3) 4.58 Hidden (RMSE) 7.47 Hidden 9.24 Hidden 8.11 Hidden 8.19 Layer(6) (MAE) 3.58 Layer(6,1) 4.10 Layer(6,2) 3.55 Layer(6,3) 3.78 Hidden (RMSE) 14.88 Hidden 8.84 Hidden 9.19 Hidden 10.06 Layer(7) (MAE) 5.55 Layer(7,1) 3.76 Layer(7,2) 4.41 Layer(7,3) 4.27 Hidden (RMSE) 12.46 Hidden 10.72 Hidden 8.99 Hidden 12.25 Layer(8) (MAE) 4.87 Layer(8,1) 4.82 Layer(8,2) 3.98 Layer(8,3) 4.19 Hidden (RMSE) 7.92 Hidden 10.11 Hidden 8.59 Hidden 9.85 Layer(9) (MAE) 3.59 Layer(9,1) 3.61 Layer(9,2) 3.55 Layer(9,3) 3.65 Hidden (RMSE) 12.68 Hidden 12.17 Hidden 12.71 Hidden 11.04 Layer(10) (MAE) 4.52 Layer(10,1) 5.46 Layer(10,2) 4.24 Layer(10,3) 5.07
436 Hyung-tae Kim Su-hwan Kim Figure 4.3 Artificial neural network 4.1.4. 다중선형회귀 다중선형회귀 모형은 예측을 위하여 가장 많이 활용되는 모형으로 정량적인 종속변수 Y (출력 또는 반응변수로 불림)와 예측변수들 X 1, X 2,, X p (설명변수, 입력변수, 독립변수, 회귀변수 등으로 불 림)사이의 선형관계를 적합 시키기 위해서 사용되며, 아래 식 (4.1)과 같은 관계를 가진다. Ŷ = β o + β 1X 1 + β 2X 2 + β px P + ϵ, (4.1) 여기서 β 0,, β p은 회귀계수를 의미하고, ϵ은 잡음 (noise)으로서 모델에 의해 설명되지 않는 부분을 의미한다. 위 방법으로 연구결과 산출된 모형은 아래 식 (4.2)과 같다. Ŷ =0.888 + 0.28X 1 + 0.022X 2 + 0.164X 3 + 0.125X 4 (4.2) + 0.067X 5 + 0.001X 6 0.001X 7 0.001X 8 + 0.001X 9 + 0.001X 10, Ŷ = 17년 수리부속 소요수량 예측값, X 1 X 5 = 12 16년 연도별 소모수량, X 6 X 10 = 12 16년 연도별 표준단가. 연구결과 모든 설명변수를 활용한 모형의 유의확률 (P값)은 0.0003 으로 유의하다고 할 수 있으며, Adjusted R 2 값이 0.549로 위 모형이 설명변수 (17년 소모개수)를 예측함에 있어서 약54%의 설명력을 가지는 것으로 나타났다. 예측력을 더욱 높이기 위한 변수선택 방법으로 본 연구에서는 단계적 선택방 법 (stepwise)을 활용하였으며, 단계적 선택방법 후 산출된 모형은 아래 식 (4.3)과 같다.
Data mining based army repair parts demand forecast 437 Ŷ = 0.883 + 0.285X 1 + 0.172X 2 + 0.131X 3 + 0.071X 4 + 0.001X 5, (4.3) Ŷ = 17년 수리부속 소요수량 예측값, X 1 = 16년 소모수량, X 2 = 14년 소모수량, X 3 = 14년 소모수량, X 4 = 12년 소모수량, X 5 = 16년 표준단가. 단계적 선택방법 후 모형의 유의확률 (P값)은 0.0003 으로 모형이 유의하다고 할 수 있으며 Adjusted R 2 값이 0.553으로 단계적 선택방법 전과 비교시 두 모델 간의 설명력은 크게 차이 없었다. 다 중선형회귀모형의 연구결과 RMSE (평균제곱근오차)값은 6.81, MAE (평균절대오차)값은 3.12로 다른 모형에 비해 예측정확도가 낮았다. 4.1.5. 모형별예측결과비교 군집분석 전 각 모형별 예측값을 산출한 결과 Table 4.2와 같이 RMSE와 MAE 모두 앙상블 기법을 활용하는 Random Forest 모형이 5.77, 2.39로 예측 정확도가 가장 우수하였고, Figure 4.4의 산점도 그 래프에서도 Random Forest 모형이 45도 대각선을 중심으로 가장 잘 모여져 있음을 확인할 수 있었다. 그리고 데이터마이닝 예측모형과 현재 육군에서 운영 중인 시계열 예측모형을 비교 분석한 결과 데이터 마이닝 예측모형이 시계열 예측모형과 비교해서 예측성능이 더욱 성능이 우수함을 확인할 수 있었다. Table 4.3 The result of the forecasting power comparison (RMSE) Assortment Methodology RMSE MAE Regression tree 6.18 3.07 Data mining Random forest 5.77 2.39 forecast Neuralnet 5.96 2.95 Multi-Regression 6.81 3.12 ARIMA 7.41 2.98 Time series Arithmetical average 8.31 3.23 forecast Moving average 24.47 9.89
438 Hyung-tae Kim Su-hwan Kim Figure 4.4 Scatter plot results by model 4.2. 군집분석후결과분석 이어서 본 연구에서는 더욱 예측정확도를 높일 수 있는 방법을 찾고자 외적 기준이 없는 상태에서 서 로 다른 성질을 가진 구성요소들로 이루어진 집단에 대하여 비슷한 패턴을 보이는 구성요소들끼리 소 집단 (cluster)을 이루게 하는 K-means 군집분석을 진행하였다. 군집분석을 위한 변수선정으로는 현 재 육군에서 수요예측에 활용하고 있는 소모개수 만을 가지고 연구를 진행하였으며, 군집 수 (K)를 선 정하는 방법은 아래Figure 4.5와 같이 군집 수 변화에 따른 집단 내 제곱 합 (within-groups sum of squares)의 그래프 및 Nbcluster 활용을 통해 2개의 군집이 최적의 결과임을 알 수 있었다. Figure 4.5 Plot of within-groups sum of squares
Data mining based army repair parts demand forecast 439 군집분석 결과 총 598개 수리부속 품목 중 전체의 88%를 차지하는 1군집이 532개, 전체의 12%를 차 지하는 2군집 66개로 구성되었고, 군집별 중심 값 (특징)은 Table 4.3 및 Figure 4.6과 같이 1군집이 2군집과 비교해서 12 16년의 연도별 소모개수가 적음을 알 수 있었다. 다음으로 각 군집의 수리부속 품목을 자세히 살펴본 결과 1군집에는 ATCMS (에이타킴스)의 개스킷, 오링 등과 같이 5년간 수요가 없는 경우와 유체압력 여과기 등과 같이 연도별 소모가 10개 이하 범위에 서 일정한 수요를 보이는 품목들이었다. 그리고2군집에 속한 품목으로는 ATCMS (에이타킴스)의 어댑 터, AUTHUR-K의 증폭기, K-9자주포의 렌즈, 반사경, 와셔 등으로 연도별 소모개수가 15 100개 이 하의 범위에서 급격한 증가 또는 감소가 발생하는 품목 및 연도별 소모개수가 꾸준히 10개 이상 발생하 는 품목들 이였다. 이를 통해 1군집에 속한 품목의 경우 연도별 소모개수가 10개미만 또는 장기간 교체 및 고장이 발생 하지 않는 품목이며, 2군집의 경우 연도별 10개 이상 지속적으로 교체 및 고장이 발생하는 주기성 교환 품목임을 알 수 있었다. Table 4.4 Characteristics of each group (cluster) Cluster 16 Consume 15 Consume 14 Consume 13 Consume 12 Consume Mean 1-CL 2.61 1.39 1.49 1.90 1.65 1.8 (532) 2-CL 26.92 27.63 18.37 22.09 25.46 24.1 (66) Table 4.5 Comparison by model after cluster analysis (RMSE/MAE) Multi Regression tree Random forest Neuralnet Cluster Regression RMSE MAE RMSE MAE RMSE MAE RMSE MAE 1 4.71 2.53 3.79 1.93 4.55 2.02 4.92 2.12 2 10.24 11.55 6.69 5.83 9.63 9.02 11.37 10.15 군집분석 후 전체 품목의 88%를 차지하는 1군집의 경우 회귀나무 모형에서 RMSE (평균제곱근 오 차)값은 4.71, MAE (평균절대오차)값은 2.53으로 군집분석 전 결과값 6.18, 3.07과 비교해 예측정확도 가 더욱 향상됨을 알 수 있었으며, 전체품목의 12% 차지하는 2군집의 경우 10.24와 11.55로 군집분석 전과 비교해 비교적 높게 나타났다. 1군집 모형의 가지치기 이후 Tree 구성은 아래 Figure 4.7과 같으 며, 군집분석 전과 비교해 모델에 활용된 변수를 살펴보면 2개의 변수 (16년 소모개수), (13년 소모개 수)만을 가지고 Tree를 구성한 반면에 군집분석 전 활용되었던 2개의 변수 (13년 표준단가), (12년 소모 개수)는 포함되지 않았다. 다음으로 Random Forest 모형의 1군집에서도 RMSE (평균제곱근 오차)값이 3.79, MAE (평균절대 오차)값이 1.93으로 군집분석 전과 비교해 예측정확도가 높았으며, 2군집에서는 6.69, 5.84로 회귀나무 모형과 같이 군집분석 전에 비교해서 예측정확도가 낮았다. 아래 Figure 4.8과 같이 1군집의 변수중요도 평가결과를 살펴보면 %IncMSE는 C 16 > P 16 > P 12 > C 14 > P 15 순이며, IncNodePurity 지수는 C 16 > P 16 > C 12 > C 13 > C 14 순으로 나타났으며, 군집분 석 전과 비교시 C 16, P 16, C 14 변수들을 공통적으로 중요 우선순위에서 상위에 속했고, 그 밖의 나머지 변수들은 군집분석에 따른 변화된 값을 보였다.
440 Hyung-tae Kim Su-hwan Kim Figure 4.6 Plot of cluster result Figure 4.7 Regression tree composition for 1-cluster 이어서 인공신경망 모형의 경우에는 군집분석 전 가장 RMSE (평균제곱근 오차), MAE (평균절대 오차)의 결과값이 높았던 은닉노드 및 마디수를 (1,1) 선택하여 비교실험 했으며, 1군집의 경우 RMSE (평균제곱근 오차)값이 4.55, MAE (평균절대오차)값이 2.02, 2군집의 경우 RMSE, MAE 각각 9.63,
Data mining based army repair parts demand forecast 441 Figure 4.8 Result of variable importance evaluation for 1-cluster 9.02의 결과값을 보였다. 다중선형회귀 모형의 경우에는 1군집의 경우 RMSE (평균제곱근 오차)값이 4.92, MAE (평균절 대오차)값이 2.12, 2군집의 경우 RMSE (평균제곱근 오차)값이 11.37, MAE (평균절대오차)값이 10.15의 결과값을 보였다. 1군집의 산출된 모형식은 아래와 같으며 단계적 선택방법 전 Adjusted R 2 은 0.4259로 약 42%의 설명력을 가지는 모형이며, 단계적 선택방법 이후 Adjusted R 2 은 0.4339로 단계적 선택방법 이전과 비교해 큰 변화가 없었다. Ŷ =0.517 + 0.47X 1 0.01X 2 + 0.05X 3 + 0.08X 4 (4.4) + 0.13X 5 + 0.001X 6 0.001X 7 0.001X 8 0.001X 9 + 0.001X 10, Ŷ = 17년 수리부속 소요수량 예측값, X 1 X 5 = 12 16년 연도별 소모수량, X 6 X 10 = 12 16년 연도별 표준단가. Ŷ = 0.469 + 0.404X 1 + 0.177X 2 + 0.162X 3 + 0.001X 4, (4.5) Ŷ = 17년 수리부속 소요수량 예측값, X 1 = 16년 소모수량, X 2 = 14년 소모수량, X 3 = 12년 소모수량, X 4 = 16년 표준단가.
442 Hyung-tae Kim Su-hwan Kim 끝으로, 아래의 Figure 4.9와 같이 군집분석 후 1군집에 대한 각 모형별 RMSE (평균제곱근 오차) 값을 20회 반복 실험한 box-plot의 결과에서도 random Forest 모형의 성능이 가장 우수한 예측력을 보였고, 다음으로 인공신경망, 회귀나무 순을 보였다. 이를 통해 Random Forest 모형의 모델의 성능 (performance)은 물론 신뢰성 (reliability) 또한 우수함 (robust)을 확인할 수 있었다. Figure 4.9 Results of 20 replicates for each model in a 1-cluster 5. 결론 본 연구에서는 수리부속 수요예측 정확도 제고를 위해 현재 육군에서 운용중인 전술 지대지 미사일 에이타킴스 (ATCMS) 등 3개 장비를 대상으로 장비정비정보체계 (delis, defense logistics integrated information)에 축척된 12년 17년까지의 598개 수리부속 데이터 수집을 통해 시계열 및 데이터마이 닝 예측 모형을 비교분석하였다. 연구결과 현재 육군에서 운용중인 시계열 예측 모형에 비해 소모개수, 표준단가 등 다양한 변수를 활 용하는 데이터마이닝 예측 모형의 성능이 더욱 우수함 (robust)을 알 수 있었으며, 그 중에서도 예측함 에 있어서 변수중요도를 쉽게 알 수 있는 Random Forest 모형의 성능이 가장 우수하였다. 이어서 더 욱 예측 정확도를 높이기 위한 노력으로 K-means 군집분석을 진행했으며, 최근 5년간 (12 16소모) 의 소모개수가 1군집 (중심 값 1.8)의 특성을 가지는 경우 군집분석 전과 비교해서 예측정확도가 더욱 향상됨을 알 수 있었다. 따라서 본 연구결과와 같이 앞으로 우리 군이 각종 군수품의 수요예측에 데이터마이닝의 Random Forest 모형을 활용한다면 예측정확도 향상은 물론 및 경제적 군 운영에 크게 기여할 것으로 판단된다. 다만, 연도별 소모실적이 10개 이상이거나, 급격히 상승 또는 하강하는 추세 (trend)를 보인 2군집의 경우는 군집분석 전과 비교해서 예측정확도가 감소하였는데 이와 같은 경우에는 불규칙 및 계절적 요인 을 제거하기 위해 유용하게 활용되는 이동평균법 등을 적용하는 것이 타당할 것으로 판단된다. 끝으로, 본 연구에서는 현재 육군에서 운용중인 ATCMS 등 3개 장비에 대해서만 연구를 진행했기 때 문에 육군 전체 수리부속에 적용하기에는 한계가 있다고 판단되며 향후에는 군에서 운영하는 모든 데이 터를 수집하여 더욱 신뢰성과 다양성을 갖춘 연구가 되도록 기여하겠다.
Data mining based army repair parts demand forecast 443 References Army Headquarters (2014).Field manual 42-0-5. repair parts, Gyeryong. Brentan, B. M. and Luvizotto, E. Jr. (2017). Manuel Herrera, Joaquin Izqierdo, Rafael Perez-Garcia, Hybrid regression model for near real-time urban water demand forecasting. Journal of Computational and Applied Mathematics, 309, 532-541. Gurucu, F. (2004). Artificial neural network modeling for forecasting gas consumption. Energy Sources, 26, 299-307. Jun, J. U. and Jung, K. S. (2016). A study on the construction of container stock demand prediction model for periodic warriors. Journal of Korea Port Economics, 32. Kim, J. D. and Lee, H. J. (2017). Data mining based repair demand forecasting study. Journal of the Internet Society of Korea, 18, 121-129. Kim, T. K. and Ma, J. M. (2018). Data mining based forecasting method for intermittent demand of aircraft repair parts. Korea Aviation Management Association, 16, 155-164. Kim, Y. S. and Hong, S. E. (2011). A study on demand prediction of Korea trade exhibition center. International e-business Society, 12, 443-459. Ko, Y. B. (1992). A study on the economic replacement period of trap assisted engines using Box-Jenkins model, National Defense University, Seoul. Lee, K. Y. (1994). A study on demand prediction of maneuvering equipment repair parts, National Defense University, Seoul. Lee, S. A. and Jang, N. S. (2015). A false deal prediction model using data mining. Intelligent Information Society, 18, 161-177. Nam, G. H. (2013). A study on demand prediction of air defense arms system repair parts, National Defense University, Seoul. Oh, H. J. (2004). A study on the prediction of TV viewing rate using time series model, Segang University, Seoul. Peter, H. G. and Min, Q. (2005). Neural network forecasting for seasonal and trend time series. European Journal of Operational Research, 60, 501-514. Se, M. Y. and Lee, J. T. (2003). A study on the effect of short-term time series products on demand forecasting and marketing policy using transfer function. Industrial Engineering Society, 16, 400-410. Woo, J. W. (2012). Development of demand forecasting model for repair parts, Korea Institute for Defense Analyzes, Seoul. Yang, M. H. (2002). Short-term prediction of monthly maximum power load by the winters multiplicative seasonal model. Journal of the Korean Institute of Industrial Engineers, 28, 64-75. Yang, M. H. and Lim, S. K. (2002). Short-term prediction of monthly maximum power load by the winters multiplicative seasonal model. Journal of the Korean Institute of Industrial Engineers, 28, 63-45. Yoon, H. M. (2017). A study on the demand forecast of repair parts utilizing data mining, National Defense University, Non-san. Yoon, S. R. (2012). A study on demand prediction technique for repair attachment characteristics, National Defense University, Seoul.
Journal of the Korean Data & Information Science Society 2019, 30(2), 429 444 http://dx.doi.org/10.7465/jkdi.2019.30.2.429 한국데이터정보과학회지 Data mining based army repair parts demand forecast HyungTae Kim 1 SuHwan Kim 2 1 Joint Chiefs of Staff Strategic Planning Headquarters 2 Department of Defense Science, National Defense University Received 11 January 2019, revised 12 March 2019, accepted 16 March 2019 Abstract Recent the development of science and technology, weapon systems have been upgraded and the cost of introducing, operating and maintaining the weapon systems has greatly increased. However, defense spending is limited, and the operational burden of army equipment is continuously increasing in order to cope with North Korea s constant threats. Therefore, the ARMY needs precise demand forecasts for the spare parts in order to maintain proper operational availability under budget constraints. This is a study to develop a model for predicting of the 3-equipment including k-9. In order to do this, we collected the data that affected the demand for the spare parts using DELIIS (defense logistics integrated information system). The objective variable is the quantity of spare parts in 2017 and RMSE (root mean squared error), MAE (mean absolute error) are used as the predictive power measure. To construct an optimal demand forecasting model, regression tree, random forest, neural network and linear regression model were used an data mining techniques. The model construction results showed that RMSE, MAE value was the best in the random forest model and the predicted quantity was also highest in the scatter plot. Keywords: data mining, repair parts, random forest, multiple regression 1 (04383) 22 Itaewon-ro, Yongsan-gu, Seoul, in charge of ammunition power at the Joint Chiefs of Staff and the Strategic Planning Headquarters. 2 Corresponding author: Professor, Department of Defense Science, National Defense University, Nonsan 33021, Korea. E-mail: ksuhwan@kndu.ac.kr