The Korean Journal of Applied Statistics (2015) 28(5), 977 990 DOI: http://dx.doi.org/10.5351/kjas.2015.28.5.977 A Study on the Number of Domestic Food Delivery Services Jaeyoung Kwon a Sinae Kim a Eungee Park a Jongwoo Song a,1 a Department of Statistics, Ewha Womans University (Received July 29, 2015; Revised August 23, 2015; Accepted September 23, 2015) Abstract Food delivery services are well developed in the Republic of Korea, The increase of one person households and the success of app applications influence delivery services these days. We consider a prediction model for the food delivery service based on weather and dates to predict the number of food delivery services in 2014 using various data mining techniques. We use linear regression, random forest, gradient boosting, support vector machines, neural networks, and logistic regression to find the best prediction model. There are four categories of food delivery services and we consider two methods. For the first method, we estimate the total number of delivery services and the posterior probabilities of each delivery service. For the second method, we use different models for each category and combine them to estimate the total number of delivery services. The neural network and linear regression model perform best in the first method, this is followed by the neural network which is the best for the second method. The result shows that we can estimate the number of deliveries accurately based on dates and weather information. Keywords: delivery services, linear regression, random forest, gradient boosting, support vector machines, neural network, logistic regression 1. 서론 우리나라는세계적으로배달문화가발달한나라로다양한종류의음식에대해서배달이가능하고배달 가능시간또한상당히긴편이다. 또한최근에는혼자사는일인가구가늘어나고맞벌이부모들이늘면 서간편하고편리한배달음식에대한수요가증가하고있고, 따라서배달시장이더욱상승세로접어들 고있다. 이와더불어, 배달음식의종류또한매우다양해지고있어서가장대표적으로는치킨부터심지 어는회를배달해주는배달시스템까지갖추고있을정도로배달가능한음식의범위가점점확대되고 있다. 이러한상승세를틈타배달앱시장도매우활발하게발전하고있다. 스마트폰을이용하여다양 한업종별, 점포별비교를통해서가장합리적인소비와가장신속한배달을할수있으며, 또한음식점 의입장에서도전화로주문을받는시간과비용의불편함을줄일수있고, 앱을이용한주문수요가증 This research was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the ministry of Education, Science and Technology (No. NRF-2013R1 A1A2012817). 1 Corresponding author: Department of Statistics, Ewha Womans University, Seoul 120-750, Korea. E-mail: josong@ewha.ac.kr
978 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song Table 1.1. Description of the regression models 선형회귀모형 랜덤포레스트 설명변수와반응변수간의선형관계를가정하고결과해석이용이. Stepwise regression, LASSO, Ridge regression 등과같은변수선택법사용가능. Bagging 방법론중의하나로많은수의 bootstrap sample을이용하여다수의의사결정나무의적합결과를이용하는예측모형 (Brieman 등, 1984). 변수선택시랜덤한일부분의변수만을이용하여 de-correlated tree를구축하여추정치의분산을줄여주는방법론. 손실함수의경사도를바탕으로다수의약한예측모형들을단계적으로생성하여결합함 그래디언트부스팅 으로써강한예측모형을생성 (Thomas, 2000). 일반적으로아주간단한의사결정나무 를예측모형으로사용. 서포트벡터기계 데이터를분리하는초평면중에서마진이큰초평면을선택하여분리하는방법으로서, 예측이정확하고여러가지형태의자료에대하여적용이용이 (Karatzoglou 등, 2006). 회귀모형에서는가장많은자료점들을포함하는참회귀함수둘레의튜브를이용하는방법론. 인간의두뇌구조를모방한모형으로서, 독립변수와반응변수간의관계를은닉층 (hidden 신경망모형 layer) 이있다고가정함. 예측력이좋은반면해석이어렵다는단점이있음. 단층은닉신경망 (single hidden layer) 이많이사용됨. 반응변수가범주형자료의경우에사용되며 log odds ratio가설명변수와선형관계에있 로지스틱회귀모형 다고가정함. 선형회귀모형과같이결과해석이용이하고 stepwise같은변수선택방법론 적용가능. 가하고있기때문에경쟁력을위해서높은수수료임에도배달앱에가입하는것이불가피하다. 이들앱에서는이용가능지역을설정하면그지역에서이용가능한음식점들을보여주며, 이용시간또한제공해준다. 그리고이음식점을이용해본사람들의후기와평점을볼수있어서이용에참고할수있다. 마지막으로배달시킬음식을선택한후에는결제를앱을통하여할수도있고, 평소와같이배달음식을받으면서결제를할수도있다. 하지만아직도많은배달이전화를통해이루어지고있으며, 따라서우리는 SKT에서제공하는배달통화건수자료를이용하여분석을진행하였다. 우리는이논문을통해서배달음식의이용건수를시간과날씨에따라예측해봄으로써판매자측에서는판매량을예측하여하루에필요한물량을예측하고, 효율적인시간관리와운영에이익을줄것이다. 주문자입장에서는주문량이많은시간대를피해서주문을하면더신속하게배달음식을이용할수있을것이다. 또한앱개발자입장에서는평균통화량과평균대기시간을알려주어이용자들이더편리한선택을할수있도록도와주는역할을할수있다. 본논문의구성은다음과같다. 2장에서는분석에사용된자료에대한설명으로자료수집과정과총배달건수에대한간단한요약및설명을한후변수설명및데이터전처리과정에대한설명을할것이다. 3장에서는통계프로그래밍 R (R Development Core Team, 2010) 을통하여회귀분석한결과를보여준다. 분석에사용한모형은선형회귀모형, 랜덤포레스트 (Breiman, 2001), 그래디언트부스팅 (Friedman, 2002; Ridgeway, 2012), 서포트벡터기계 (Cortes와 Vapnik, 1995; Karatzoglou, 2006), 신경망 (Hastie 등, 2009; Park 등, 2011), 로지스틱회귀모형 (James 등, 2013) 총여섯가지모형으로, 많이사용되는회귀모형이므로따로설명하지않고 Table 1.1에서간략히소개한다. 각각의회귀모형은다양한 tuning parameters가있으나이를여기서모두소개하기에는지면의부족함이있으므로 (Park 등, 2011) 을참조하기바란다. 4장은결론부분으로최종예측모형을통하여총배달이용건수와각업종별배달이용건수를예측하여실제값과비교한다. 마지막으로이논문이가지는시사점을요약한다.
A Study on the Number of Domestic Food Delivery Services 979 2. 분석자료설명 2.1. 자료수집과정분석에사용된자료는 SKtelecom Bigdatahub 사이트 (http://www.bigdatahub.co.kr) 에서제공하는오픈소스데이터인 배달업종이용현황분석 (2014년도) 를기본데이터로하고, 기상청 (http://www. kma.go.kr) 에서제공하는일별, 시간대별자료를취합하여만들었다. 배달업종이용현황분석데이터는서울지역배달업종에대한한달간요일 / 시간대별이용현황데이터로, 제공되는변수는기준일, 요일, 시간대, 업종, 통화량이다. 통화량은 T고객 ( 발신 ) 기준이용자의배달업종통화건수로통화량 5건미만은 5건으로표시된데이터이다. 제공되는데이터중 2014년 1월 1일부터 12월 31일까지총 1년 365일의자료를분석에이용하였다. 기상청에서제공되는날씨데이터중에서시간대별로제공되는시간별기온, 풍향, 풍속, 습도, 미세먼지를이용하였고, 일별로제공되는일별평균기온, 최저기온, 최고기온, 운량, 강수량, 일조시간, 일출, 일몰과같은날씨타입자료를이용하였다. 운량에따라서 0 2는맑음, 3 5는구름조금, 6 8은구름많음, 9 10이상은흐림으로날씨를분류하였고, 이를순서형변수인 1, 2, 3, 4로정의하였다. 기상청에서제공되는날씨타입중에눈, 비가있는경우를 1로아닌경우를 0으로하여눈, 비여부를표시하였다. 날짜에따라서파생되는변수는봄 (3 5월), 여름 (6 8월), 가을 (9 11월), 겨울 (12 2월) 계절변수와, 공휴일, 기념일변수이다. 2014년공휴일은네이버에검색을통해확인한결과총 67일이였고, 6월4일지방선거를포함하면총 68일이다. 공휴일여부는공휴일전날을 2로, 공휴일을 1, 나머지를 0으로하여표시하였다. 기념일의경우는동계올림픽 (2월 7일 2월 23일 ), 아시안게임 (9월 19일 10월 4일 ), FIFA월드컵 (6월 13일 7월 14일 ), 블랙데이 (4월 14일 ), 복날 (7월 18일, 7월 28일, 8월 7일 ), 삼겹살데이 (3월 3일 ), SKT 피자멤버십할인데이 (1월 4월마지막주수요일, 4월 14일 5월 31일매주금요일 ), 황금연휴 (5월 1 6일, 6월 4 8일, 9월 6 10일 ) 등을고려하여 1과 0의범주형변수로포함시켰다. 본논문에서는시간대별자료를이용하여분석할것이다. 여기서총관측치의개수는 33,281개이며, 2014년 1월 1일부터 2014년 12월 31일까지서울의배달음식 ( 치킨, 피자, 족발 / 보쌈, 중국음식 ) 데이터를사용하였다. 일년 365일동안 0 23시간대에얻어지는 4가지배달업종에대한자료이므로총 35,040개여야하는데데이터로확인해본결과배달이용이없는시간대이였기때문에결측치인경우 1759개를통화량 0건으로처리하였다. 관측치를주어진시간대별로묶어서자료를다시정리하면총 8,758개행의자료가얻어지는데이를우리의분석자료로이용하였다. 여기서는 1월 31일 6과 7시간대에 4업종모두결측값을가지는것으로나타났기때문에두건을제외한 8,758개의자료로분석하였다. 2.2. 총배달건수요약총배달이용건수를보면시간대별최대이용건수 17,752건 (10월 26일오후 18시 ), 시간대별최소이용건수 5건 (9월 8일오전 6시 ), 시간대별평균이용건수 2,226건으로변동성이매우큰변수이다. 하루최대이용건수 101,941건 (10월 26일 ), 하루최소이용건수 9,383건 (5월 8일 ), 하루평균이용건수 37,388.46건으로일별이용건수에도변동성이큰것을알수있다. 또한총배달이용건수의월별합을구한결과월별합이가장높은달은 10월 ( 총 1,897,206건 ) 로가장작은달인 2월 ( 총 912,905건 ) 의 2배에달한다. 업종별로하루평균이용건수를비교해보면치킨 (16712.1건), 중국음식 (13947.5건), 피자 (4740.8건), 족발 / 보쌈정식 (1988.1건) 순으로많았다. 업종별로월별합의평균을구한결과역시치킨 (508,326.8 건 ), 중국음식 (424,235.9건), 피자 (144,199.7건), 족발 / 보쌈정식 (60,469.92건) 순이다. 4가지업종모두 10월에총이용건수월별합이가장많았으며, 치킨 (2월) 을제외한세업종이 11월에가장적었지만
980 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song Table 2.1. Description of variables X ( 설명변수 ) 변수설명타입 month 월 (m2: 9 10월, m1: 나머지 ) 범주형변수 day 요일 (mon, tue, wed, thur, fri, sat, sun) 범주형변수 time 시간대 (0, 1,..., 24) 범주형변수 season 계절 ( 봄, 여름, 가을, 겨울 ) 범주형변수 holiday 공휴일 (2: 공휴일전날, 1: 공휴일, 0: 나머지 ) 범주형변수 holiday2 기념일 (1: 아시안게임, 복날, 블랙데이등, 0: 나머지 ) 범주형변수 temp 기온 연속변수 wind dir 풍향 연속변수 wind spe 풍속 연속변수 hum 습도 연속변수 dust 미세먼지 연속변수 temp aver 평균기온 연속변수 temp min 최저기온 연속변수 temp max 최고기온 연속변수 cloud 운량 연속변수 climate 날씨 (1: 맑음, 2: 구름조금, 3: 구름많음, 4: 흐림 ) 순서변수 rain snow 눈비 (1: 눈또는비, 0 : 나머지 ) 범주형변수 rain amount 강수량 연속변수 suntime 일조시간 연속변수 sunrise 일출 연속변수 sunset 일몰 연속변수 Y ( 반응변수 ) 변수설명타입 A 족발 / 보쌈정식에대한배달이용건수 연속변수 B 중국음식에대한배달이용건수 연속변수 C 치킨에대한배달이용건수 연속변수 D 피자에대한배달이용건수 연속변수 SUM call 4가지업종에대한총배달이용건수 연속변수 치킨의이용건수가많으므로전체데이터에서는 2월에월별합이가장작았다. 시간대별총이용건수가만4천건이상인이상점들이있었다. 이값은총이용건수의평균값인 2,226건에비해매우큰값이며따라서총이용건수가가장높은 8개의이상점에대해서알아보도록한다. 이이상점들의특징으로는 9월, 10월로계절이가을이며, 요일은토, 일요일로주말이며시간대는저녁시간인 18시가대부분이다. 그밖에다른특징은보이지않았다. 따라서총이용건수의극대값에관해서는시간변수에큰영향을받고있다고생각할수있다. 2.3. 변수설명및데이터전처리과정본논문에사용된변수들의설명은 Table 2.1에나와있다. 특히반응변수는 A( 족발 / 보쌈이용건수 ), B( 중국음식이용건수 ), C( 치킨이용건수 ), D( 피자이용건수 ) 이고전체이용건수는 SUM call로정의하였다. 결측치가존재하는미세먼지 (dust) 변수의경우, KNN(K-nearest neighbor) 방법을이용하여값을채워주었다. 결측치를처리하는많은방법론중에 KNN방법론을사용한이유는, 우선결측치의숫자가많지않은경우에가장빠르면서효과적으로결측치를해결할수있는방법론이기때문이다. 또한 month, day, time 변수는범주형변수로서, 범주의수가많아용이한해석을위하여상자그림과 GMM(Gaussian Mixture Model) 을이용하여군집분석을수행하고그결과를이용하여그룹화를시도
A Study on the Number of Domestic Food Delivery Services 981 Figure 2.1. Boxplot of month variable after grouping. 해보았다. 그결과, day, time 변수의경우그룹화후의예측력이급격히감소하여그룹화전의원범주를그대로사용한다. 하지만 month 변수는 9월 10월을 m2로, 나머지월을 m1로한범주형변수로그룹화한결과, 원범주를사용했을때와예측력이크게차이나지않아그룹화후의범주를사용하였다. 그에따른상자그림은 Figure 2.1과같다. 그림상에서각변수별로차이가있는것을확인할수있다. 분석을위해 8,758개의자료를 7 : 3 비율로 train과 test로나누어각각 train 6,130개, test 2,628개의자료로분석을진행하였다. 설명변수중에서범주형변수인 month, day, time, season, holiday, holiday2, rain snow 총 7개에대하여 factor 변환하였다. 순서형변수인 climate는연속변수로간주하여분석에사용하였다. 최종모형에사용된독립변수및설명변수는 Table 2.1과같다. 3. 분석결과이번장에서는두가지방법을이용하여각배달업종별이용건수를예측해보도록한다. 3.1절에서는 4가지업종의총이용건수인 SUM call을예측하고, A, B, C, D 변수를묶은행렬을반응변수로하여시간대별각배달업종의이용비율을예측하여최종적으로각배달업종별이용건수를예측해본다 ( 방법1). 3.2절에서는각업종별로최적의모형을구축하여각배달업종별이용건수를예측하고총이용건수는개별업종별이용건수의합을이용하여예측해본다 ( 방법2). 3.1. 전체모형 ( 방법 1) 위에서설명한바와같이이번절에서는우선총이용건수를예측한후에업종별이용건수를예측하는 방법이다. 3.1.1. 총이용건수예측 5 가지회귀모형 ( 선형회귀모형, 랜덤포레스트, 그래디언트부스팅, 서포트 벡터기계, 신경망모형 ) 을이용하여, 4 가지업종의총이용건수인 SUM call 을예측해보았다.
982 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song Table 3.1. The result of linear regression (significant level = 0.05) 변수회귀계수 p-value 변수회귀계수 p-value Intercept 10.697 <2.00E-16 time 15 0.843 <2.00E-16 month m2 0.693 <2.00E-16 time 16 1.021 <2.00E-16 day mon 0.246 <2.00E-16 time 17 1.396 <2.00E-16 day sat 0.260 <2.00E-16 time 18 1.822 <2.00E-16 day sun 0.203 <2.00E-16 time 19 1.888 <2.00E-16 day thur 0.077 3.87E-12 time 20 1.668 <2.00E-16 day tue 0.154 <2.00E-16 time 21 1.473 <2.00E-16 day wed 0.089 4.90E-16 time 22 1.319 <2.00E-16 time 1 0.845 <2.00E-16 time 23 0.810 <2.00E-16 time 2 1.526 <2.00E-16 season spring 0.138 2.20E-10 time 3 1.968 <2.00E-16 season summer 0.235 <2.00E-16 time 4 2.299 <2.00E-16 season winter 0.127 2.60E-12 time 5 2.604 <2.00E-16 holiday 1 0.109 6.50E-14 time 6 2.758 <2.00E-16 holiday2 1 0.052 3.94E-10 time 7 2.748 <2.00E-16 wind spe 0.007 0.003077 time 8 2.460 <2.00E-16 hum 0.001 1.95E-08 time 9 1.481 <2.00E-16 temp max 0.006 9.52E-11 time 10 0.296 <2.00E-16 cloud 0.017 2.05E-07 time 11 0.878 <2.00E-16 climate 0.044 2.32E-05 time 12 1.290 <2.00E-16 rain amount 0.002 0.000212 time 13 1.127 <2.00E-16 sunrise 0.003 <2.00E-16 time 14 0.892 <2.00E-16 sunset 0.003 <2.00E-16 먼저단계적선택법 (stepwise selection) 을실시하여최적의선형회귀모형을구해본결과, adjusted- R 2 가 0.982로선형회귀모형이데이터를충분히설명하고있다고판단된다. 유의수준 0.05 하에서유의한변수들의회귀계수와 p-value는 Table 3.1과같다. 최적선형회귀모형의중요변수에대한설명은다음과같다. 먼저날짜변수들을살펴보면, 9월과 10월이다른달에비해배달이용건수가많으며 (month), 가을에비해봄, 여름, 겨울에배달이용건수가많다 (season). 이둘은상충되는결과이지만, month의효과로인하여 season의회귀계수가영향을받은것으로보인다. 또한, 금요일에비해주말 ( 토, 일 ) 은배달건수가더많고평일 ( 월, 화, 수, 목 ) 에는더적으며 (day), 새벽 12시를기준으로오전시간대 (1시 10시) 에는배달건수가적고오후시간대 (11시 23시 ) 에는더많다 (time). 휴일관련변수의경우, 공휴일이아닌날에비해공휴일전날에배달건수가증가하며 (holiday), 기념일당일에배달건수가증가한다 (holiday2). 다음으로날씨변수들을살펴보면, 습도가높고 (hum), 흐리며 (climate), 강수량이많을때 (rain amount), 배달건수가증가한다. Figure 3.1은변수들의상대적인중요도를알아보기위하여그려본랜덤포레스트의 Variable Importance Plot이다. 이를살펴보면, time, day, month, hum 변수순으로중요하며, 그중 time변수가가장큰영향을미치는변수임을확인할수있다. 다음으로, 위에서언급한 5가지회귀모형을이용하여모형을적합시키고각모형의예측력을비교해보고자한다. 튜닝모수가필요한모형에대해서는, 10-fold cross validation을이용하여구한최적의튜닝모수를이용하였다. 최적의튜닝모수들을살펴보면, 랜덤포레스트의경우 mtry = 17, 그래디언트부스팅의경우 shrinkage = 0.05, 서포트벡터기계의경우 gamma = 2 6, cost = 60, 신경망모형의경우 size = 8, decay = 0.1이다. 모형의적합도및예측력평가척도는평균제곱근오차 (RMSE) 를이
A Study on the Number of Domestic Food Delivery Services 983 Figure 3.1. Relative importance of the independent variables using random forest. Table 3.2. Train and test error of the models (Total number of delivery) Train error Test error 선형회귀모형 644.2067 640.9477 랜덤포레스트 437.6746 432.9345 그래디언트부스팅 595.0497 611.5478 서포트벡터기계 360.2602 445.7141 신경망모형 296.9019 297.0031 용하였다. 각모형을비교해본결과는 Table 3.2와같다. 신경망모형이다른모형에비해적합도와예측력모두에서월등히좋은결과를보이고있으며, 랜덤포레스트와서포트벡터기계의경우에도나쁘지않은적합도와예측력을보임을확인할수있다. 이는 Figure 3.2에서도확인가능하다. 따라서세가지모형 ( 신경망모형, 랜덤포레스트, 서포트벡터기계 ) 을총배달이용건수예측을위한최종모형으로선택하여 3.1.3장에서각배달음식별이용건수를예측해보도록한다. 3.1.2. 각배달업종의이용비율예측각배달업종의이용비율은반응변수를행렬형태로넣을수있는다차원선형회귀모형 (Multivarite Linear Regression Model), 일반화선형모형 (Generalized Linear Model) 을이용하여예측했다. 1) 다차원선형회귀모형 (Multivariate linear regression model) 단계적선택법을실시하여최적의선형회귀모형을구하였다. 선형회귀모형에서는 4종류배달음식의이용비율 (posterior probability) 을예측하기위해서반응변수를이용건수의 weight 값으로적합한다 (weight 값 = 이용건수 / 네업종총이용건수 ). 최종적으로선택된변수는 month, day, time, season, holiday, temp, wind dir, wind spe, hum, dust, temp aver, temp max, cloud, climate, suntime, sunrise, sunset이다. adjusted-r 2 은 A( 족발 / 보쌈정식 ) 0.488, B( 중국음식 ) 0.959, C( 치킨 ) 0.973, D( 피자 ) 0.729로대체로높았으나중국음식, 치킨업종모형에서적합도가특히높았다. 각업종별유의한변수들의회귀계수는 (http://home.ewha.ac.kr/ josong/delivery/) 에서확인할수있다 ( 유의수준 0.05 기준 ).
984 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song (a) 신경망모형 (b) 랜덤포레스 (c) 서포트벡터기계 Figure 3.2. Predicted values VS True values (Total number of delivery). Table 3.3. The influential variables for each delivery service 족발 / 보쌈정식 중국음식 치킨 증가 감소 기온별최고기온월별 9, 10월요일별토, 일요일 1시 8시, 시간별 10시 16시 18시 19시시간별 22시 23시 요일별월 목요일요일별 시간별 1시 20시, 일출시, 일몰시 계절별기온별시간별 토요일, 공휴일, 공휴일전날여름, 겨울최저기온 21시 23시 요일별 토, 일요일 요일별 월 목요일 기온별 최저기온 기온별 최고기온 계절별 봄, 여름, 겨울 월별 9, 10월 1시 21시, 시간별날씨별미세먼지양일출시, 일몰시 시간별 23시 요일별 일요일, 공휴일 요일별 월 목요일 기온별 시간별기온, 최저기온 기온별 최고기온 피자 날씨별 날씨맑음 날씨별 운량 시간별 2시 23시, 일출시 계절별여름월별 9, 10월 Table 3.3은선형회귀모형의회귀계수에대하여유의수준 0.05를기준으로배달업종별회귀계수가양수인변수들을증가항목으로, 음수인변수를감소항목으로정리한결과표이다. 증가변수이거나증가변수의값이커질수록각업종별배달이용비율이증가하며, 감소변수이거나감소변수값이커질수록배달이용비율이감소한다. 결과를보면배달업종별로증가, 감소하는변수가각각다른것을알수있다. 또한모든업종에대해서대체로시간과관련한변수가유의하다. 범주형변수의 baseline 값은각각오전 0시 (time), 금요일 (day), 1월 (month), 가을 (season) 이다. 2) 일반화선형모형 (Generalized linear model) Stepwise를실시하여최적의일반화선형모형을구하였다. 다항로지스틱회귀모형 (Multinomial Logistic regression model) 을이용했으며반응변수는 weight값이아닌각업종별이용건수의행렬을이용
A Study on the Number of Domestic Food Delivery Services 985 Table 3.4. Test error of the models 족발 / 보쌈정식중국음식치킨피자 선형회귀모형 0.02689662 0.05835995 0.04476176 0.02646191 일반화선형모형 0.05839920 0.11337370 0.07222395 0.07370148 Table 3.5. Test error using linear regression (Number of each delivery service) 족발 / 보쌈정식중국음식치킨피자전체데이터 신경망모형 37.71563 151.7389 210.7867 61.11236 134.7339 랜덤포레스트 43.68084 157.6834 288.7749 69.48777 169.5520 서포트벡터기계 44.10318 170.7989 293.6540 76.80266 175.5340 Table 3.6. Test error using logistic regression (Number of each delivery service) 족발 / 보쌈정식중국음식치킨피자전체데이터 신경망모형 52.45214 175.5646 217.7885 65.15830 145.9894 랜덤포레스트 58.25157 179.2984 290.5880 76.34362 177.3491 서포트벡터기계 56.90918 192.4844 299.1761 79.66012 184.4864 했다. baseline 반응변수로는 A( 족발 / 보쌈정식 ) 가사용되었다. 최종적으로선택된변수는 time, holiday, wind dir, wind spe, hum, dust, temp aver, temp max, cloud, sunrise, sunset이다. 예측한이용비율의 test error를구한 Table 3.4를살펴보면, 일반화선형모형보다는선형회귀모형에서대체로작은값이나온것을알수있다. 따라서선형회귀모형이이용비율을예측하는데더적합한모형이라고할수있다. 각업종별로보면대체로족발 / 보쌈정식, 피자, 치킨, 중국음식순으로 test error가작았다. 3.1.3. 각배달업종의이용건수예측 3.1.1장의최적의모형 3가지 (Neural Network Model, Random Forest, Support Vector Machine) 로예측한총이용건수와 3.1.2장의모형 2가지 (Linear model, Generalized linear model) 로예측한각배달업종의이용비율을곱하여각배달업종의이용건수를예측해본다. 예상했던대로선형회귀모형을이용했을때, 일반화선형모형에비해서모든경우에서 test error가작았다. 각배달업종별이용건수를예측해본결과, 가장좋은결과를보여주는것은 3.1.1장에서신경망모형을, 3.1.2장에서선형회귀모형을선택했을때이고이때 test error가가장작았다 (Table 3.5 첫번째행 ). 따라서위데이터에대한최종모형으로신경망모형 & 선형회귀모형을선택한다. 각업종별이용건수의실제값과예측값을비교한 Figure 3.3을살펴보면, 모든업종에대하여충분이예측이잘되었음을알수있다. 또한, 이용건수가많은중국음식, 치킨, 피자, 족발 / 보쌈정식순으로예측이잘되었다. 3.2. 개별모형 ( 방법 2) 방법 1에서총이용건수를예측한후에개별업종의배달비율을예측하였다. 방법 2에서는각배달음식별로모형을구축해보고이를이용하여개별업종과총이용건수를예측해보고자한다. 분석에는독립변수와종속변수간관계해석을위한선형회귀모형과 3.1장에서가장좋은예측력을보였던신경망모형만을이용하였다. 3.2.1. 4 가지업종별모형예측각배달음식에대하여단계적선택법 (stepwise selection) 을실시하 여최적의선형회귀모형을구해보았다. 그결과, adjusted-r 2 가각각 0.9192, 0.9708, 0.9657, 0.9558 로
986 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song (a) 족발 / 보쌈정식 (b) 중국음식 (c) 치킨 (d) 피자 Figure 3.3. Predicted values VS True values (Number of each delivery service). 네가지배달음식모두에서높은모형적합도를보이고있다. 따라서선형회귀모형이데이터를잘설명하고있다고판단된다. 배달음식별선형회귀모형의결과유의수준 0.05하에서유의한변수들의회귀계수는홈페이지 (http://home.ewha.ac.kr/ josong/) 에서확인할수있다. Figure 3.4는선형회귀모형을이용하여각배달업종별 2014년 1월 1일부터 12월 31일까지 365일의이용건수를예측하고, 하루당평균이용건수나타내어본그래프이다. 주말이평일에비해이용건수가높기때문에 7일단위로주기성을보인다. 또한 2.2장에서언급했던바와같이 9월과 10월이다른달에비해배달음식이용건수가증가함 (Figure 3.4 검은색점선 ) 을확인할수있다. Figure 3.5는선형회귀모형의회귀계수들을살펴본결과, time변수에따라각배달음식별이용건수의패턴이다름을확인하고, 각배달음식이용건수예측치의 time별평균을나타낸그래프이다. 전체적으로모든업종에서점심시간대 (11시 13시) 와저녁시간대 (17시 20시) 에이용건수가증가함을확인할수있다. 또한중국음식의경우점심시간대에다른업종에비해월등히이용건수가많으며, 치킨업종의경우점심시간부터꾸준히이용건수가증가하여저녁시간대에가장이용건수가많고, 다른업종과는달리밤시간대 (21시 24시) 까지도꾸준히많은배달이이루어지는것이특징이라할수있다. 다음으로신경망모형을이용하여네가지배달음식이용건수를분석해보았다. 신경망모형의적합에필요한튜닝모수 (size, decay) 의경우, 각배달음식별 10-fold cross validation 결과얻은최적의튜닝모수를이용했을때와 3.1장에서이용한튜닝모수 (size = 8, decay = 0.1) 을이용했을때의적합도와예측력모두크게다르지않아 3.1장에서이용한튜닝모수를그대로사용하도록한다.
A Study on the Number of Domestic Food Delivery Services 987 Figure 3.4. Predicted average number of each delivery service per day. Figure 3.5. Predicted average number of each delivery service per time. Table 3.7은선형회귀모델과신경망모형을이용해구한적합도및예측력을나타낸것이다. 이용건수가많은치킨 (C), 중국음식 (B), 피자 (D), 족발 / 보쌈정식 (A) 순으로 RMSE값이높으며, 신경망모형이선형회귀모형에비해좋은예측력을보이는것을확인할수있다. 따라서 3.2장의최종모형은신경망모형으로결정한다. 3.3. 모형비교 Table 3.8은앞에서분석한두가지방법론을비교해본것이다. 방법 1과방법 2에서최종선택된모형의 test error를비교하면다음과같다. 방법 1의경우총이용건수를신경망모형으로, 업종별이용비율을선형회귀모형으로선택하였으며, 방법 2의경우신경망모형을최종모형으로선택하였다. 두방법
988 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song Table 3.7. Train and test error of the models (each delivery service) Train error Test error 선형회귀모형신경망모형선형회귀모형신경망모형 족발 / 보쌈정식 (A) 45.80322 29.62474 48.25828 33.95777 중국음식 (B) 260.02860 120.32880 240.21160 139.37720 치킨 (C) 390.90930 248.83660 399.66450 264.47310 피자 (D) 97.32933 64.64778 94.54840 68.81949 전체데이터 240.82980 142.70220 239.11380 154.32210 Table 3.8. Test error of first and second methods 방법 1 방법 2 족발 / 보쌈정식 (A) 37.71563 33.95777 중국음식 (B) 151.73890 139.37720 치킨 (C) 210.78670 264.47310 피자 (D) 61.11236 68.81949 전체데이터 134.73390 154.32210 론의최종선택모형을비교하면, 족발 / 보쌈정식, 중국음식업종의경우방법 2에서, 치킨, 피자업종의경우방법 1에서 test error가작았다. 전체데이터의 test error를비교해보면방법 1에서더작고, 개별데이터에서는방법 1이 A, B에서성능이조금떨어지지만방법 2의값과그차이가크지않으므로, 방법 1을최적모형으로선택한다. 4. 결론우리는다양한회귀모형을사용해서배달음식건수를예측해보았다. 우선하나의모형으로전체배달건수를예측한후에업종별배달음식건수를예측하는방법을제시하였다 ( 방법 1). 그리고업종별배달음식을개개의다른모형으로예측한후에전체배달건수를예측하는모형을제시하였다 ( 방법 2). 전체배달건수예측에서는방법 1이더우수하였고업종별배달음식건수예측에서는족발 / 보쌈정식과중국음식에서는방법 2가, 치킨과피자에서는방법 1이더나은성능을보여주었다. 아주흥미로운것은시간과날씨에관련된설명변수만을가지고분석을하였는데상당히정확한예측이가능하다는사실이다. 물론 1년치데이터만을이용해서분석했으므로연단위시간이지남에따른변화를분석할수는없었지만 1년시간단위안에서는배달음식건수는상당히안정된모형을따른다는것을알수있다. 최근의논문동향을보면랜덤포레스트나그래디언트부스팅같은앙상불방법론이예측력에서가장우수한성능을보여주는경우를많이볼수있는데본논문에서가장우수한예측력을보여준모형이신경망모형이라는사실도특이한점이라고할수있다. 본예측모형을이용하면배달음식점들이수요예측을어느정도정확하게할수있으므로유용할것이고, 배달음식이용추이와현황을파악함으로써배달업주들뿐만아니라배달이용고객들에게도유용한정보를알려줄수있을것이라고생각된다. References Breiman, L. (2001). Random forests, Machine Learning, 45, 5 32. Breiman, L., Friedman. J., Olshen, R. and Stone, C. (1984). Classification and Regression Trees, Chapman and Hall, New York.
A Study on the Number of Domestic Food Delivery Services 989 Cortes, C. and Vapnik, V. (1995). Support-vector networks, Machine Learning, 20, 273 297. Friedman, J. (2002). Stochastic gradient boosting, Computational Statistics & Data Analysis, 38, 367 378. Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning, Springer, New York, USA. James, G., Witten, D., Hastie, T. and Tibshirani, R. (2013). An Introduction to Statistical Learning, Springer, New York, USA. Karatzoglou, A., Meyer, D. and Hornik, K. (2006). Support Vector Machines in R Journal of Statistical Software, 15(9). Park, C., Kim, Y., Kim, J., Song, J. and Choi, H. (2011). Datamining using R, Kyowoo, Seoul. R Development Core Team (2010). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0. http://www.r-project.org. Ridgeway, G. (2012). Generalized Boosted Models: A guide to the gbm package. Thomas, D. (2000). An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization, Machine Learning, 40, 139 157.
990 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song 국내배달음식이용건수분석및예측 권재영 a 김시내 a 박은지 a 송종우 a,1 a 이화여자대학교통계학과 (2015 년 7 월 29 일접수, 2015 년 8 월 23 일수정, 2015 년 9 월 23 일채택 ) 요약우리나라는세계적으로배달음식문화가가장많이발달한나라중에하나로최근에는일인가구의증가와배달앱시장의발달과함께그성장속도또한눈부시게증가하고있다. 따라서배달음식이용에큰영향을미칠것으로예상되는날씨와날짜별변수를고려하여시간대별배달음식이용건수를예측함으로써소비자와생산자모두에게이익을주는예측모형을찾고자한다. 본연구의목적은다양한데이터마이닝기법을이용하여 2014 년도배달음식통화건수를예측하는데있다. 예측에사용되는회귀모형은선형회귀모형, 랜덤포레스트, 그래디언트부스팅, 서포트벡터기계, 신경망, 로지스틱회귀모형으로총 6 가지이다. 고려되는배달음식업종은총 4 가지 ( 족발 / 보쌈정식, 중국음식, 치킨, 피자 ) 로크게두가지방법을이용하여각업종별배달음식이용건수를예측하였다. 첫번째방법은총이용건수와각업종별배달음식이용비율을곱하여각업종별배달음식이용건수를예측하는것이고, 두번째방법은각업종별모형을세워각업종별배달음식이용건수를예측하는방법이다. 최종적으로선택된모형은방법 1 에서는신경망모형과선형회귀모형이며, 방법 2 에서는신경망모형이었다. 방법 2 보다는방법 1 로구한결과가더예측력이좋은것으로나타났다. 주요용어 : 배달음식이용건수, 선형회귀모형, 랜덤포레스트, 그래디언트부스팅, 서포트벡터기계, 신 경망, 로지스틱회귀모형 이논문은 2013 년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (No. NRF-2013R1A1A2012817). 1 교신저자 : (120-750) 서울특별시서대문구이화여대길 52, 이화여자대학교통계학과. E-mail: josong@ewha.ac.kr