한국통계학회논문집 2012, 19 권, 6 호, 849 858 DOI: http://dxdoiorg/105351/ckss2012196849 Sales Forecasting Model Considering the Local Environment Chul Soo Kim 1,a, Su Min Oh a, So Yeon Park a a Department of Computer Science and Statistics, Jeju National University Abstract Today, local environmental factors has an influence on our society Local enviromental factors, as well as weather-related natural phenomena, social phenomena are also included In this paper, numeric factors and categorical factors were analyzed, looking for a local environmental factors affecting the company s salessales model by performing a regression analysis based on this was implementedsales model considering the local environment had an accuracy of 8889% Keywords: Sales forecasting model, local environmental factor, clustering analysis, k-means algorithms 1 서론 오늘날기업에서매출을예측하는것은매우중요한관심사이며, 다양한방법을통해제안되고있다 일반적으로기업에서는과거의정보와경험을기반으로예측하거나경영자의의도적인전략에의하여제안되고있다 기업에서는과거의정보를기반으로미래의매출을전망하며, 대부분의예측모형에서는이러한정보를모형의요인으로활용하고있다 또한, 경영자의경험및전략에의해의도적으로기업의상황을조절할수있다 즉, 제어가가능한요인을기반으로제안된다고할수있으며, 이는신뢰할수있는예측을가능하게한다 하지만기존의방법들은제어가불가능한요인에대한논의는다소미흡한편이다 본논문에서는제어가불가능한요인들을지역환경요인으로판단하고이를적극적으로활용하는방법을제안하고자한다 WMO (1964) 에의하면기상에대한투자는투자액대비 10 배이상의효과가있다고보고했다 또한, 기상정보는국가마다차이가있을뿐만아니라국가내에서도지역에따라큰차이를보이고있다 Jung (2006) 는모든사업분야의 70% 이상이날씨로부터직간접적인영향을받고있으며국가 GDP 의약 20 30% 가직간접적으로연결돼있어날씨정보는기업경영에매우중요한요소라고하였다 최근날씨와같은환경요인을적극적으로활용하는기업의수가증가하고있다 예를들어, Lotte-World (2002), Pineresort (2010), CJ Home Shopping (2003) 등의기업에서는날씨정보를적극적으로활용하여매출을향상시키고있다 Agn (2002) 는회귀모형을이용해원가예측을시도하였으며, 수식 (11) 에서는내부적으로발생하는다양한요인을독립변수로하고, 원가를종속변수로하는회귀모형을설정하였다 Y j = B 0 + B 1 X 1 + B 2 CPI + B 3 MO, (11) Y j = 각영업부문의원가예측치, B 0 = 회귀상수, B n = 회귀계수 (n = 1, 2, 3), X 1 = 각영업부문의매출액, CPI = 연도별월별소비자물가지수, MO = 계절효과더미변수 1 Corresponding author: Professor, Department of Computer Science and Statistics, Jeju University, 102 Jejudaehakno, Jeju Special Self-Governing 690-756, Korea E-mail: kimcs@jejunuackr
850 Chul Soo Kim, Su Min Oh, So Yeon Park Table 1: The measuring process of the local environmental factors s influence Input: 기업의매출데이터, 지역의환경요인 1 단계 해당지역의환경요인 1-1 각요인별상관분석을통한요인선정 2 단계 선정된요인검정 2-1 ANOVA 분석 3 단계 선정된요인에대한 k-means 군집화 3-1 각군집을이용한회귀분석 3-2 모형분석 4 단계 모형 4-1 지역환경요인의영향력 4-2 지역환경요인을고려한매출모형구현 Output: 지역환경요인의영향력을이용한매출예측 이모형은기업에서발생하는여러요인을이용하여매출을예측하는데용이하다 하지만, 기업의내부적요인으로설계되어있기때문에지역적으로발생할수있는다양한요인들의영향력을설명하기에는부족하다 지역환경요인으로는날씨가대표적이라할수있으며, 현재날씨와관련하여많은연구가이루어지고있고, 실제날씨를기업경영에적극활용하는사례가많아지고있다 Lee 등 (2005) 는국내에서측정된기후데이터를저장및관리하기위한데이터를모델링하고, k-means 알고리즘을이용하여국내기후데이터를지역적특성에따라군집함으로써체계적인데이터정보를제공하였다 Ahn (2007) 은날씨가기업의매출에미치는영향에대하여연구하였으며, Song (2007) 은제주지역의관광발전을위한기상요인에대한연구를진행하였다 Lee 등 (2005) 는마케팅분야에대한날씨효과를연구하였고, Jang (2010) 은호텔산업의활성화를위한데이터마이닝기법활용에대한연구를진행하는등많은연구가이루어지고있다 본논문에서는기업매출에영향을주는지역환경요인을찾고, 이에대한다양한분석을통해지역환경요인의영향력을합리적으로평가하는방법을제안함으로서미래의지역경제활성화에도움이되고자한다 매출과관련된다양한요인들은교차분석, ANOVA 분석, 군집분석기법을이용하였으며, 제안하는매출예측모형에서는교차분석과 ANOVA 검정을이용하여범주형데이터를분석하였다 수치형데이터의분석은 Bradley (1998) 가제안한 k-means 알고리즘의군집분석기법을이용하여분석하였고, 이를회귀분석하여모형을구현하였다 2 본론 본논문에서는지역환경요인이매출에미치는영향력을측정하고이를이용하여매출을예측할수있는모형을제안한다 먼저, 지역환경요인이라는것은어느지역에서발생할수있는공통적요인과더불어타지역과구별되는해당지역만의고유한요인을포함한다 예를들어, 주말이매출에미치는영향, 시간대별매출의변화 는주말과시간이매출의요인이되며, 이러한요인들은지역에상관없이어느지역에나해당되는공통된요인이라고할수있다 하지만날씨나오일장과같은환경요인들은그지역의고유한특성으로서해당지역에만영향을보인다고할수있다 제주도의오일장과같은요인들은지역의고유한특성이며, 이요인들은그지역의기업및외식업체등에영향을미칠것이다 본논문에서는지역환경요인을선정하는방법과이를이용하여요인의영향력을측정하고, 매출을예측하는모형을구현하였다 Table 1 은지역환경요인의영향력을측정하는과정을보여준다 1 단계에서는기업의매출데이터를수집하고매출에영향을줄것으로예측되는다양한지역환경요인변수를조사한다 예를들어날
Sales Forecasting Model Considering the Local Environment 851 씨데이터의경우해당업체가위치한지역의기온, 강수량과같은수치형변수와날씨정보 ( 맑음, 흐림, 비 ) 와같은범주형변수를포함한다 또한, 오일장데이터의경우해당업체가위치한지역의날짜를이용하였으며, 이후분석을용이하게하기위하여오일장인날과오일장이아닌날로간소화하였다 지역환경요인은매출과의상관분석을통하여선정한다 선정된지역환경요인들은요인의속성에따라분석방법을구분한다 2 단계에서는선정된요인중범주형요인에대하여 ANOVA 분석을한다 오일장유무에따른매출의유의성, 날씨환경 ( 맑음, 흐림, 비 ) 에따른매출의유의성, 주말유무에따른매출의유의성등을검정한다 또한, 이러한요인들이독립적으로발생하므로범주속성의영향력은각각의곱으로표현할수있다 본논문에서는지역환경요인들중기온요인을주요한요인으로고려하고있으며, 기온데이터는수치형데이터로이루어져있다 3 단계에서는수치형데이터의분석에잘알려진 k-means 알고리즘을이용하여군집분석을수행한다 k-means 알고리즘은데이터의 outlier 와군집수에따라분석의결과가다르게나타나며, k-means 알고리즘을적용하기위해 outlier 제거및최적의군집수를결정해야한다 Outlier 는분석결과를왜곡시키며, 데이터의분산을증가시키는주요한요인이된다 Hautamaki 등 (2005) 는 Outlier 제거방법을소개하였으며, i) distribution based, ii) depth based, iii) distance based, iv) clustering based, v) density based 로구분하였다 먼저, Distribution based 는데이터가통계적인분포를따른다는것을이용하여 outlier 를제거하는방법이다 예를들어, 데이터가정규분포를따른다면, 데이터의 ±3σ 범위밖의데이터는 outlier 로간주한다 Depth based 는 convex hull 를이용하여 hull 에해당하는데이터를 outlier 로간주한다 Distance based 는데이터간의유클리드거리를기반으로자신을제외한데이터들로부터거리가가장멀리있는데이터를 outlier 로한다 Clustering based 는데이터의패턴이상이한데이터를 outlier 로판단하는기법이며, 수치형데이터뿐만아니라범주형데이터의분석에유용하다 Density based 는데이터를연결하는그래프를이용하는방법으로 Mutual k-nearest Neighbor(MkNN) 에의한 Brito 등이알려져있다 본연구에서는기업의매출은특정요인을독립변수로하는회귀모형으로표현할수있으며, 이는특정요인에서관측된매출의분포는정규분포를따른다고가정한다 본논문에서는 distribution based 방법을이용하여 outlier 를제거하고 k-means 알고리즘을적용하였다 Ŷ K = Y i C r + Ỹ (21) ( Y K = β 2 E 2 + β 1 E + β 0 = β 2 E + β ) 2 1 + 4β 0β 2 β 2 1, 2β 2 4β 2 Ỹ = β 2 E 2, (22) Ŷ K : 군집수가 K 일때의예상매출, Y i : 군집분석결과 K i 번째군집의평균, (23) C r : r 번째범주형요인들의비율, Y K : 군집분석결과에대한회귀식, (24) E : 지역환경요인의대표요인, Ỹ : 지역환경요인으로인해발생하는영향 (25) 수식 (21) 는과거의매출정보로부터예측된 Y i 에대하여제어할수없는지역환경요인 (Ỹ) 을고려한모형이다 Y i 는과거의매출정보로부터예측된군집 (K i ) 의평균이며, 지역환경요인의대표요인을독립변수로하게된다 결국, 대표요인의특성에따라회귀모형은다양하게나타날수있다 본논문에서는기온을대표요인으로하였으며, 기온이겨울에는내려가고여름에는상승한다는것을고려하여 2차식으로구현하였다 즉, 수식 (21) 에서지역환경요인 (E) 이주어질경우, β 2 만큼기존에알려진매출 Y i 에영향을주게되고, 이영향력은회귀식을원점에대하여표현하면지역환경요인의영향력 (Ỹ) 이된다 결국, 지역환경요인을고려한 Ŷ k 예상매출의범위는다음과같다 [( Yi C r Ỹ ) ( θ, Y K C r + Ỹ ) θ ] (26) 수식 (26) 은매출의추정범위이다 과거매출데이터를기반으로하는군집의평균매출 Y i 에대하여
852 Chul Soo Kim, Su Min Oh, So Yeon Park Table 2: Classification according to the characteristics of factors 매출요인 일반요인 지역환경요인 건당주문금액 월구분 기온, 강수량 주문건수 일구분 날씨정보 일매출 요일구분 오일장정보 LN( 일매출 ) 주말구분 절대기온편차 Figure 1: The relation between temperature and daily sales 범주형요인으로구성된비율 C r 를적용하며, 이에대하여지역환경요인의영향력과경영자의매출변화예측치를가중치 (weight θ) 를기반으로하는매출범위를예측한다 3 실험 31 자료 본논문에서는환경요인의영향력평가를위하여 2010 년 7 월 1 일부터 2011 년 6 월 30 일까지 1 년동안의제주특별자치도서귀포시지역에위치한소규모피자외식업체를선정하여매출데이터를조사하였으며, 2011 년 7 월 1 일부터 2011 년 8 월 31 일까지의 2 달간데이터를모형의검증에이용하였다 기온, 강수량, 날씨정보는기상청자료를활용하였으며, 오일장과, 주말에대한구분은날짜만으로구분할수있다 Table 2 는조사된매출데이터의요인별구분을보여주고있다 매출요인으로는건당주문금액, 주문건수, 일매출이있다 지역환경요인중공통적인요인으로는월구분, 일구분, 요일구분, 주말구분으로하였으며고유한요인으로는조사된지역의기온, 강수량, 날씨정보, 오일장정보를사용하였다 기온에대해서는기온편차의절댓값 ( 평균기온 기온 ) 을 절대기온편차 로변수를추가하였으며, 매출에관련된요인에대해서는일매출을로그변환한변수를추가하였다 일매출에대한로그변환변수는데이터의 outlier 를제거하고, k-means 알고리즘의군집분석에활용된다 Figure 1 은기온과일매출의관계를보여주고있다 기온은일매출과단순회귀분석에서는유의하지않으며, 기온의특성상 2 차회귀식으로잘적합한다 32 범주형데이터 321 범주형요인에대한분석 선정된지역환경요인들중범주형데이터는오일장변수 ( 오일장, 평일 ), 주말변수 ( 월 금, 토일 ), 날씨변수 ( 맑음, 흐림, 비 ) 이다 이요인들에대하여 ANOVA 분석을수행한다 Table 3 은요인별일매출의평균과 ANOVA 검정결과이다 오일장변수와주말변수는매출에대하여유의하게나타났다 하지만, 날씨변수는매출에대하여유의하다고할수없다 본논문에서는각
Sales Forecasting Model Considering the Local Environment 853 Table 3: The Results of the ANOVA between the local environmental factors and sales 요인 구분 매출평균 표준편차 df F p-value 오일장변수 평일 138377 55712 오일장 123082 59208 1 454 00338 주말변수 월 금 122674 50822 토, 일 165630 58546 1 4749 000001 맑음 1333600 54156 날씨변수 흐림 136857 56514 2 012 08876 비 135855 60011 Table 4: The influence(c r ) of the local environmental factors 구분오일장변수주말변수날씨변수 (r) 구분상대비율구분상대비율구분상대비율 일매출 (C r ) Figure 2: Sales comparisons before and after removing outliers 변수에대하여수준에대한매출비를활용하게되며, 오일장변수와주말변수는각수준에대하여매출비율이날씨변수의수준에따른변화보다크게나타나게된다 322 범주형요인의영향력 (C r ) Table 4 는범주형요인에대한영향력 (C r ) 을보여주고있다 오일장변수의상대비율은평일과오일장의매출의비로계산하였으며, 주말변수의상대비율은월 금 ( 평일 ) 과토, 일 ( 주말 ) 로구분했을경우의매출비가된다 날씨변수의경우날씨의구분을맑음, 흐림, 비로구분하여각각의날씨에대한매출의비로하였다 이는 Table 3 에서의 ANOVA 분석결과와연관이있으며, 유의한요인일수록상대비율의차이가크게나타나고있음을알수있다
854 Chul Soo Kim, Su Min Oh, So Yeon Park Table 5: (R 2 ) and p-value by the number of clusters 기온, LN( 일매출 ), 주말변수, 오일장변수 K 단순회귀모형 2차다항회귀모형 R 2 K p-value R 2 K p-value 6 0141 0463 0704 0161 7 0152 0388 0633 0134 8 0261 0196 0850 0009 9 0181 0254 0815 0006 10 0172 0234 0756 0007 12 0080 0373 0160 0455 15 0080 0307 0138 0409 20 0072 0054 0153 0243 Figure 3: R 2 by the number of cluster 33 수치형데이터 331 수치형데이터의영향력 수치형데이터의지역환경요인들중수치형데이터의영향력을측정하기위하여 k-means 알고리즘을수행하였다 알고리즘을적용하기위하여매출데이터의 outlier 를제거하였다 본논문에서는건당주문금액에대해평균주문금액의 ±2σ (955%) 범위밖의매출에대해서는정상적이지않은매출로판단하였다 Figure 2 는매출에대한 outlier 를제거한전후매출평균의비교그래프이다 332 k-means 알고리즘을이용한군집분석 k-means 알고리즘에서군집의개수 (K) 를정하는것은매우중요하다 본연구에서는최적의군집개수를결정하기위하여군집수에따른회귀분석의결정계수값을활용하였다 즉, K 개로군집으로이루어진군집의대푯값에대한회귀분석으로구한결정계수를이용한다 Table 5 는군집의개수별지역환경요인의변화에따른군집과매출간의단순회귀모형의결정계수와 2 차다항회귀모형의결정계수이다 군집의개수를 8 개로하였을때, 2 차다항회귀모형에서결정계수가 0850 으로가장높으며유의하게나타났다 Figure 3 의그래프는매출에대한지역환경요인의군집개수별단순선형회귀모형과 2 차다항회귀모형의결정계수를비교하고있다 Table 6 은군집의수를 8 개로하였을때의군집의평균매출과빈도를보여주고있으며, Figure 4 는실제데이터의기온과매출간의산점도와군집분석결과에따른산점도를보여주고있다 Table 7 은군집분석결과 (k = 8) 에대한회귀분석결과이다 실험대상업체의지역환경요인과매출과의회귀모형은유의하게나타나고있으며, 군집분석결과에대한회귀식
Sales Forecasting Model Considering the Local Environment 855 Table 6: The average temperature and frequency on cluster analysis K i 평균기온 매출 빈도 1 09 2079333 12 2 44 1695917 36 3 101 1350531 49 4 143 1497048 63 5 185 1501757 37 6 224 1314537 54 7 261 1468667 33 8 297 1562082 49 Figure 4: Plot of temperature vs daily sales and the cluster analysis result plot Table 7: Regression analysis results table on the cluster analysis Dependent Mth Rsq df F p β 0 β 1 β 2 평균매출 LIN 418 6 430 083 178697 14654 평균매출 QUA 860 5 1535 007 197429 64077 170433 은다음과같다 Y K = β 2 E 2 + β 1 E 2 + β 0 170(E 1884) 2 + 137062, (31) Ŷ K = Y i C r + 170E 2 (32) 수식 (31) 는내부요인에의한매출에대한군집분석결과를이용하여구현한예측모형이며, 모형을이용한매출의최대기대치와최저기대치는 Y i C r ± Ỹ이다 Figure 5는군집에대한회귀그래프와잔차도표이다 왼쪽그래프는단순선형회귀모형과 2차다항회귀모형의그래프를보여주고있으며, 오른쪽산점도도표는 2차다항회귀모형에대한잔차도표이다 결론적으로, 예상매출 (Ŷ K ) 의범위는다음과같다 [( Yi C r 170E 2) ( θ, Yi C r + 170E 2) θ ] (33) 333 모형검증을위한 weight θ 본논문에서는제안하는예측모형의정확도를검증하기위해해당업체의최근데이터를조사하여검증하였다 조사데이터중나타나고있지않는날짜는영업을하지않거나, 정상적인영업이이루어지지않은날이다 이에대한제거방법은일매출이정규분포를따르는지여부와실제업체로부터조사된결과를이용하였다 또한, 경영자는전년도대비직원의감축및경기하락으로인해 θ = 40% 정
856 Chul Soo Kim, Su Min Oh, So Yeon Park Figure 5: Estimated regression models and residual plot of the linear regression model Table 8: Sales predictions results by the proposed model 날씨 구분 (Y i C r ) 실제매출 (y i ) Ŷ K 하한 Ŷ K 상한 1 = 성공, 0 = 실패 7/2 011 202,2345 134,700 116,988 206,587 1 7/6 002 148,3347 100,200 85,769 151,566 1 7/8 002 148,3347 163,700 82,339 154,997 0 8/20 012 200,2518 96,100 113,489 206,914 0 8/23 002 148,3347 108,300 84,297 153,038 1 8/25 000 146,866 117,700 80,351 154,635 1 Table 9: Accuracy(%) of prediction model according to the weight(θ) weight 정확도 weight 정확도 weight 정확도 θ % θ % θ % 100 741 065 6667 030 8889 095 1852 060 7778 025 8889 090 2963 055 8519 020 8889 085 2963 050 8889 015 8889 080 4074 045 8889 010 8889 075 4815 040 8889 005 8889 070 5925 035 8889 000 8889 도의매출하락을예상하고있으며, 이를경영자의예측 (weight) 으로적용하였다 즉, weight(θ) 는기업의경영자가예상하는매출의변화이다 또한, 업체의특성상피자판매는하루에만들수있는수가고정적이므로예측매출의상한에는 weight 를적용하지않고, 예측매출의하한에대해서는 weight 를적용하였다 Table 8 은제안하는예측모형을통해예측한결과이다 모형을통해매출을예측이성공한경우는 1 로표시하였으며, 실패한경우는 0 으로표현하였다 Table 9 는 θ 에따른예측모형의정확도 (%) 이며, Figure 6 은정확도의변화추이이다 θ = 050 일때가장높은정확도를보이고있으며, 경영자가 40% 의매출하락을예상하였을때 7778% 의정확도를보였다 Table 9 는 θ 가 05 일때제안하는모형의정확도가가장높게나타났으며, 이는실제매출이 40% 가아닌 50% 의매출하락을의미한다 본연구에서는실제매출의 8889% 를예측하였다
Sales Forecasting Model Considering the Local Environment 857 4 결론및제안 Figure 6: The accruacy of prediction model 기업에서는다양한요인과방법을통해매출을예측하고있다 미래에대한예측은과거의경험적정보를통해결정되고있다 이는매우신뢰할수있는방법이며지금까지우수한결과를보여주고있으나, 기후의변화, 지역내에서발생하는외부현상들에대한활용은아직미흡한편이다 최근날씨와같은외부적인환경요인들이기업경영에큰영향을주고있다 본논문에서는날씨와같은자연현상과지역내에서발생하는다양한현상을지역환경요인으로판단하고, 이를이용하여매출을예측할수있는방법을제안하였다 지역환경요인들은범주형데이터와수치형데이터로구분하여 ANOVA 분석과 k-means 알고리즘을통해분석하고, 모형을제안하였다 지역환경요인들중오일장과같은경제현상, 주말에대한구분, 날씨구분은범주형데이터로판단하고, 각요인의비율을적용하였으며, 기온과기업의일매출은수치형변수로판단하여군집분석하였으며, 이를기반으로회귀분석을수행하였다 이논문에서제안하는모형에서는경영자의예측과지역환경요인을이용하여 8889% 의매출을예측하였다 하지만매출에영향을주는가중치 (weight) 를경영자의주관적예측으로적용하였고, 이는차후연구를통해경제활동지표등을활용하는, 좀더객관적인방법이필요할것이다 지역환경요인의변화로인한매출의영향력에대한연구는아직미흡하지만, 향후미래사회에서는예측모형의주요한요인으로자리잡을것으로기대된다 그러므로우리는지역적으로발생하는환경요인에보다다양한관심과연구가필요하며이를적극적으로활용할수있는많은연구가있어야할것이다 References Ahn, K-H (2007) The Effect of Weather on Firm s Sales, Sejong university An, K-H (2002) An empirical study on formulating hotel sales forecasting models, Korea Journal of Tourism Research, 17, 43 57 Bradley (1998) Refining initial points for clustering, Proc, 15th InternatConfon Machine Learning, Morgan Kaufmann, Los Altos, CA CJ Home Shopping (2003) Surplus achieved eight years by Weather, seasonal specialized products Korea Meteorological Agency, 2002, weather management Grand prize Hautamaki, V, Cherednichenko, S, Karkkainen, I, Kinnunen, T and Franti, P (2005) Improving K- Means by Outlier Removal, Spring-Verlag Berlin Heidelberg Hotel-Lotte Lotte-World (2002) Weather Management- Success factors of the management of the world s largest indoor theme park, Lotte World Korea Meteorological Agency, 2002, weather management Grand prize
858 Chul Soo Kim, Su Min Oh, So Yeon Park Jang, Y-W (2010) A study of weather marketing a hotel industry through data mining technique, Sejong university Jung, Y-M (2006) Weather information is money; This practics Samsung Global Environment Research Center Lee, Y-K, Kim, W-T, Jung, Y-J, Kim, K-D and Ryu, K-H (2005) Cluster analysis of climate data for applying weather marketing, Korea Spatial Information Society, 7, 33 44 Pineresort (2010) Expanding the utilization rate of Condo and Sky resort by the prior notification of weather information Korea Meteorological Agency, 2004, weather revenue award Song, S-S (2007) The Impact of Weather Factors on Touism-With Focus on Jeju Island, Kyonggi university WMO (1964) Weather and man, WMO-No 143 TP 67 (Geneva: World Meteorological Organization) 2012 년 8 월 27 일접수 ; 2012 년 10 월 6 일수정 ; 2012 년 11 월 5 일채택