J Intell Inform Syst 2017 December: 23(4): 111~126 ISSN 2288-4866 (Print) ISSN 2288-4882 (Online) http://www.jiisonline.org http://dx.doi.org/10.13088/jiis.2017.23.4.111 이동원한성대학교경영학부 (dongwonlee@hansung.ac.kr) 연관상품추천은수많은상품을다루는온라인상거래에서소비자의상품탐색시간을줄여주며판매자의매출증대에크게기여한다. 이는주문과같은거래의빈도를기반으로생성되므로, 통계적으로판매확률이높은상품을효과적으로선별할수있다. 하지만, 판매가능성이높은경우라도신상품처럼판매초기에거래건수가충분하지않은상품은추천에서누락될수있다. 연관추천에서누락된상품은이로인해노출기회를잃게되고, 이는거래건수감소로이어져, 또다시추천기회를잃는악순환을겪을수도한다. 따라서, 충분한거래건수가쌓이기전까지초기매출은일정기간동안정체되는현상을보이는데, 의류등과같이유행에민감하거나계절변화에영향을많이받는상품은이로인해매출에큰타격을입을수도있다. 본연구는이와같이거래초기의낮은거래빈도로인해잘드러나지않는상품간의잠재적인연관성을찾아추천기회를확보할수있도록연관규칙을확장하기위한목적으로수행되었다. 두상품간에직접적인연관성이나타나지않더라도다른상품을매개로두상품간의잠재적연관성을예측할수있을것이며, 이런연관성은주문에서나타나는상품간상호작용으로표현될수있으므로, 사회연결망분석을활용한분석을시도하였다. 사회연결망분석기법을통해각상품의속성과두상품간경로의특성을추출하고회귀분석을실시하여, 두상품간경로의최단거리및경로의개수, 각상품이얼마나많은상품과연관성을갖는지, 두상품의분류카테고리가어느정도일치하는지가두상품간의잠재적연관성에미친다는것을확인하였다. 모형의성능을평가하기위해, 일정기간의주문데이터로부터연결망을구성하고, 이후 10 일간생성될상품간연관성을예측하는실험을진행하였다. 실험결과는모형을적용하지않는경우보다제안모형을활용할때훨씬많은연관성을찾을수있음을보여준다. 주제어 : 추천시스템, 연관규칙마이닝, 사회연결망분석, 연관규칙확장, Cold Start Problem 논문접수일 : 2017년 7월 31일논문수정일 : 2017년 9월 17일게재확정일 : 2017년 9월 20일원고유형 : 일반논문교신저자 : 이동원 수많은상품을다루는온라인상거래에서소비자가원하는상품을빠르게찾고이를구매하도록돕기위해추천시스템이활용되고있다. 웹페이지라는가상의진열공간의활용은물리적공간의제약을극복할수있게해줌으로써오프라인매장에서와는비교할수없는수많은상 품들을진열할수있게되었다. 이로인해, 소비자는많이팔리는대중적인상품이아니더라도자신만의취향에더잘맞는상품을구매할수있게되었다. 하지만, 온라인에진열된수많은상품중자신이원하는상품을찾기위해비교하는노력은크게증가하게되었다. 소비자의상품탐색을돕기위해온라인기업은상품추천기능을제공하고있는데, 이는대안의폭을줄여줌으
이동원 로써소비자가좀더쉽게상품을선택하도록돕는다. 연관상품추천기능은소비자가관심을보인특정한상품에밀접하게관련된상품들을보여줌으로써, 다른대안으로비교가능한유사상품또는추가적으로구매가능한상품을제공하는수단으로활용되고있다. 하지만, 이런연관상품추천기법은동시혹은순차적인주문과같이이미발생한거래를통해상품간의직접적인연관성이드러난상품만을대상으로한다는점에서, 연관성이높지만주문빈도가낮은상품간의연관성을찾기힘들다는문제를갖는다. 특히, 신규로등록된상품의경우에는누적된거래건수가작아다른상품에비해상대적으로노출기회를확보하기어렵다. 추천노출빈도의감소는다시거래의감소를야기시키는상황을야기시키는데, 이는어느정도거래의수가만들어지기전까지는해소되지않는소위콜드스타트 (Cold Start) 문제를발생시킨다. <Figure 1> 은신규상품이등록된날짜로부터주문건수와상품페이지방문건수의평균값이각각어떻게변화하는 지를보여준다. 이로부터상품이등록된날로부터평균적으로 10일정도가지난후에야주문과상품페이지방문이크게높아지며거래가활성화되는것을확인할수있다. 초기노출기회의상실은상품의판매주기에걸친매출의감소로이어질수있다. 특히, 유행에민감한상품이거나계절의변화가매출에민감하게영향을미치는상품의경우, 초기노출이원활하지않을경우실질적인판매기간이감소되는효과로인해매출에큰타격을입을수있다. 신상품의노출기회를상대적으로늘려주는방안도고려해볼수있으나, 실제로연관성이낮은상품도함께노출됨으로인해연관추천의신뢰성을떨어뜨리는역효과를일으킬수있다. 따라서, 거래빈도가낮은상품중잠재적으로연관성이높을상품을선별할수있는기법에관한연구가필요하다. 이에본연구는거래량이부족한경우에도연관상품추천이이루어질수있도록사회연결망을활용하는방안을제안한다. 사회연결망분석은노드로표현되는개체와개체간의상호작용 <Figure 1> Changes in the Average Number of Transactions
사회연결망분석을활용한연관규칙확장기법 을링크로표현하는데, 연관상품의경우에도한상품의주문이다른상품의주문에영향을미치는것을상품간상호작용으로이해할수있다. 따라서, 본연구는주문을기반으로사회연결망을구성하고, 연결망내에서서로연결된상품간연결속성을분석하며, 이를기반으로아직드러나지않은상품간연관성을발견하는방법을체계적으로제시하여, 기존의연관규칙마이닝기법의한계를극복하는방안을제시한다. 제안된모형의성능은특정시점을기준으로, 이시점이전의연결망에서상품간의연결특성으로부터이후에나타날잠재적연관성을예측하는방법으로평가하였다. 실험결과로, 모형에의해잠재적연관성을갖는것으로예측된상위 10% 에서평균예측치의 4배이상우수한성능을보이는것으로나타났다. 이후의구성은다음과같다. 2장에서는이론적배경을설명하고, 3장에서는연구모형의설계과정을살펴본다. 제안된모형의성능을평가한결과를 4장에서정리하고, 5장에서결론으로마무리한다. 온라인상거래에서추천시스템은상품에대해사용자가표현한선호도를기반으로서로다른상품간유사도나서로다른사용자간유사도를계산하고이를기반으로사용자가아직경험하지못한품목 ( 상품또는서비스 ) 을추천하는일종의의사결정지원시스템이다. 사용자의관점에서추천시스템은자신이원하는품목을찾 기위한탐색노력을줄여주는역할을수행하고, 기업에게는고객충성도와함께매출을증대하는효과를가져온다 (Ansari et al., 2000). 이와같은추천시스템에대해서는수많은연구가수행되고있다. 더많은추천이사용자로부터수용되도록하기위해추천기법의성능을높이기위한연구 (Balabanovic and Shoham, 1997; Ansari et al., 2000; Adomavicius and Tuzhilin, 2011; Choi et al., 2016) 가지속적으로이뤄지고있다. 또한편으로는, 추천시스템의성과를측정하기위한연구 (Bodapati, 2008; Fleder and Hosanagar, 2009), 그리고상거래이외의다양한분야에서활용하기위한연구 (Choi et al., 2015; Kim and Lee, 2013; Kim et al., 2010) 가활발히수행되고있다. 추천시스템의성능을높이기위한기법으로, 내용기반필터링 (content-based filtering) 과협업필터링 (collaborative filtering) 이주목받고있다. 내용기반필터링기법은서로다른품목간의유사성을기반으로적합한추천품목을찾기위해의사결정나무, 최근접이웃기법등다양한분류기법을활용한다 (Konstan et al., 1997; Ansari et al., 2000). 반면, 협업필터링은서로다른사용자간의유사성을기반으로, 유사사용자가선호한품목중추천대상사용자가아직경험하지않은상품을추천하는방식이다 (Konstan et al., 1997; Ansari et al., 2000). Agrawal et al. (1993) 이제시한연관규칙마이닝기법은주문과같이반복적으로발생하는거래에서반복적으로함께출현하는품목간의연관성을패턴으로표현하는방법을일컫는다. 이
이동원 런패턴은관련된서로다른품목간의연관성의강도를포함하는연관규칙의형태를갖는데, 연관성의척도로는두품목이동시에같은거래에등장하는빈도가사용된다. 주문에서나타난품목간의연관성은어떤품목의판매가또다른품목의판매가능성을암시한다고할수있다. 따라서, 이를정형화한연관규칙은온라인상거래에서개별상품페이지에추가로판매가될가능성이높은상품을추천하기위해활용되고있다 (Anand, 1998; Chen et al., 2006; Kim and Street, 2004; Lee et al., 2013; Kim and Kim, 2005). 연관규칙은아래와같이정형화된형태를갖는데, A와 C는각각선행품목 (antecedent item) 과후행품목 (consequent item) 을 sup와 conf는지지도 (support) 와신뢰도 (confidence) 를의미한다. 지지도와신뢰도는연관규칙에포함된선후행품목간연관성의강도를나타내는척도로서사용된다. 여기서, 지지도는전체거래의건수중선행품목과후행품목이동시에나타난거래건수의비율로측정되며, 신뢰도는선행품목이나타난거래건수중후행품목이함께포함된거래건수의비율, 즉조건부확률로계산된다. 선행품목을구매했거나이에관심을보인소비자는이와연관된여러후행품목중신뢰도가높은품목일수록더흥미를보일가능성이높을것으로기대될수있다. 현업에서는이런상품으로부터추천목록을작성하고이를선행품목의소개페이지에노출하는방법으로매출을높이기위해노력하고있다. 선행상품과후행상품이함께포함된거래가사전에충분히발생하지않게되면두품목간의낮은지지도로인해후행상품은선행상품의추 천목록에포함되지못한다. 하지만, 이런상황은후행품목이선행품목과함께주문될기회를감소시켜두품목을포함하는연관규칙의지지도를더낮추는결과로이어진다. 더욱이, 새로등록된품목의경우그자신의주문건수가낮아연관상품으로추천되기더욱힘들다는문제 (Cold Start Problem) 가제기된다. 사회연결망은개인이나조직과같은사회적개체와이들간의상호작용으로구성된사회적구조를일컫는다. 이는개체의개별속성이아닌개체간의관계를이해하려는시도를일컫는다 (Yun and Chae, 2005; Sohn, 2002; Kim, 2003). 이에대한연구는개체를노드 (Node), 이들간의관계를링크 (Link) 로표현하는연결망 (Network) 에서이들간의연결상태및연결구조를계량적으로측정하고시각적으로표현하는사회연결망분석 (Social Network Analysis) 기법을활용한다. 사회연결망분석에서는연결망의특성을파악하기위해, 밀도 (Density), 중심성 (Centrality), 중심화 (Centralization) 과같은척도를활용한다. 밀도는연결망내에서노드간에얼마나많은링크가연결되었는가를판단하는척도로서, 연결가능한링크의수에대해실제로연결된링크의수를계산한다. 중심성은각노드가연결망내에서얼마나중심적인역할을수행하는가를판단하는척도로서, 대표적으로연결정도중심성 (Degree Centrality), 근접중심성 (Closeness Centrality), 매개중심성 (Betweenness Centrality) 등이활용되고있다. 한노드가다른노드와연결된정도를판단하는척도로서, 그연결의수가많을수록높은값을갖는다. 근접중심성은한
사회연결망분석을활용한연관규칙확장기법 노드가다른노드와얼마나가깝게연결되어있는가를판단하는척도로서, 다른노드에이르는거리가짧을수록높은값을갖는다. 매개중심성은한노드가다른노드들간을연결하는역할을수행하는수준을판단하는척도로서, 노드간의최단경로에위치하는비율이높을수록높은값을갖는다. 중심화는연결망이특정노드를중심으로얼마나집중되어있는지를판단하는척도로서, 연결정도집중도 (Degree Centralization), 근접집중도 (Closeness Centralization), 매개집중도 (Betweenness Centralization) 가주로활용되고있다. 이들각각은연결정도, 근접도, 매개수준을근거로계산된다. 사회연결망을추천시스템에적용하고시도한연구 (Kim and Chang, 2010; Kim and Kim, 2014; Kim and Kim, 2016; Noh et al., 2017; Kang, 2010; Kim et al., 2010; Shin et al., 2012; Part et al., 2009) 는다양하게수행되었으나, 기존연구들은주로개인화추천에초점을맞추고있으며연관규칙을확장하고자한연구는찾아보기힘들다. 그러나, 현업에서는개인의특성을파악한맞춤형추천과더불어특정상품에관심을보인불특정다수를대상으로한연관추천이매출에크게기여하고있다는점에서, 연관추천을위한사회연결망활용방안에과한연구가진행되어야할필요가있다. 터의수집기간은 2016년 2월부터 4월까지 3개월이며, 분석의용이성을높이기위해잡화카테고리에한정하여분석을실시하였다. 분석에사용된잡화카테고리의상품의수는 932개이며, 이를구매한고객의수는모두 18,410명이었다. 이는네트워크의규모가너무크면분석의복잡성이높아지기때문이다. 사회연결망구성에필요한데이터를확보하기위하여, 각고객별로주문한상품을시간순으로나열하여선행상품 (A) 과후행상품 (C) 을포함하는 659개의고유한순서쌍 (pair) 을추출하였다. 고객중한개의상품만을구매한경우에는순서쌍을작성할수없어고객중 16,825명이제외되고 2건이상의거래가존재하는 1,585명에대해서만순서쌍을추출하여, 이들사이의링크 (A C) 를기반으로 <Figure 2> 와같이상품주문연관성네트워크를구성하였다. 두상품의주문은순차적으로발생하므로주문순서에따라링크는방향성을갖도록 (Directed) 설정하였으며, 가중치 (Weight) 는 1을부여하였다. 연결망의분석도구로는넷마이너4를활용하였다. 본연구에서는온라인상거래기업으로부터 수집한실제주문거래데이터를사용한다. 데이 <Figure 2> Social Network of Association Rules
이동원 거래빈도가낮아아직연관성이밝혀지지않은두개의품목간에연관성을찾기위해본연구는사회연결망분석기법을적용한모형을고안한다. 예를들어, 세개의품목 A, B, C에대해장바구니를분석한결과, A와 B는동일장바구니에서발견되어연관규칙 A B가생성되었고, 마찬가지로, B와 C에대해서도연관규칙 B C 가발견되었으나, A와 C는동일장바구니에서발견되지않아이들간의연관규칙은생성되지않은상황을가정한다. 이를연결망으로표현하면 <Figure 3> 의 (a) 와같다. 만약, 연관규칙을분석한결과 A와 B의연관 성이매우강하고, B와 C 또한강한연관성을띄게된다면, A와 C 간에도잠재적인연관성이있다고기대할수있을것이며, 이는 <Figure 3> (b) 와같이표현가능하다. 다음으로, 이렇게유도된잠재적연관성의강도에영향을미치는요소에대해고려해보도록하겠다. 우선 A와 C 사이에다른여러품목을거쳐야하는경우둘사이의연관성은낮을것으로기대할수있을것이다. <Figure 4> (a) 에서는 A에서 C에이르기까지두개의링크 A B, B D를거쳐야하므로 <Figure 3> (b) 보다 A, C 간의연결강도가약할것으로기대할수있을것이다. 그러나, <Figure 4> (b) 처럼, A B C와 A B D C라는두개의경로가존재하는경우, <Figure 3> (b), <Figure 4> (a) 어 <Figure 3> Social Network of Two Association Rules <Figure 4> Comparison of Association Rule Networks
사회연결망분석을활용한연관규칙확장기법 느쪽보다도더많은경로를가지므로 A C 간잠재적연관성은더욱강할것으로기대할수있을것이다. 이처럼, 두개의품목간잠재적연결강도는둘을간접적으로이어주는연결의수와둘사이의가장빠른경로를통해예측가능할것으로기대할수있으므로, 최단경로 (Shortest Path) 와노드연결성 (Node Connectivity) 를사용하고자한다. 각각은사회연결망분석에사용되는척도로서, 최단경로는두노드간의가장짧은경로에놓인링크의수를의미하며, 노드연결성은두노드간의연결이완전히끊어지게하기위해제거해야하는링크수로정의된다. 이값은경로의수가많을수록커지는특성을지니므로본연구에적합하다고판단된다. 또한, A, C가각각다른노드들과연결을얼마나잘맺는지의특성이둘사이의연결강도에영향을미친다고기대할수있으므로, 각노드의중심성 (Centrality) 을고려하기로한다. 링크가시작되는 A의경우 C까지연결되기위해서는가능한한많은진출차수 (Out-Degree) 를갖는것이유리할것이며, 반대로 C의경우에는진입차수 (In-Degree) 의영향을받을것으로기대되므로진출차수중심성 (Out-Degree Centrality) 과진입차수중심성 (In-Degree Centrality) 를예측변수에포함하기로한다. 또한, 두상품이속한카테고리는두상품간의유사성을보여준다는점에서예측변수에포함하였다. 온라인상품의카테고리는대분류, 중분류, 소분류, 세분류의 4단계를갖는계층적구조를갖는데, 낮은카테고리에속할수록상품간의유사성이높다. 이를고려한모형은다음과같다. 여기서, LinkWeight 는신규로생성된두상품간링크의수, Dist는두상품간최단거리 (Shortest Path), Conn는두상품간연결성 (Node Connectivity), OutDegCent 는선행상품의진출차수중심성 (Out-Degree Centrality), InDegCent 는후행상품의진입차수중심성 (In-Degree Centrality), GroupMatch 는두상품간카테고리일치수준 (1: 대분류일치, 2: 중분류일치, 3: 소분류일치, 4: 세분류일치 ) 을의미한다. 본연구에사용된변수는 Netminer4 를통해측정되었으며, <Table 1> 과 <Table 2> 는각각이들변수의기술통계량과변수간상관계수를보여준다. <Table 2> 에서볼수있듯이독립변수들간의상관관계가낮아이들을모형에사용하는데에는문제가없다고판단된다. <Table 3> 은상품과이들간의주문연관성으로구성된네트워크에서종속변수인두상품간연관성의강도를예측하는모형의회귀분석결과이다. 모형에사용된설명변수는모두유의한것으로확인되었다. 즉, 두상품노드간최단거리가짧을수록, 두노드간연결성이높을수록, 또한, 선행상품의진출차수중심성이높을수록, 후행상품진입중심성이높을수록, 두상품의분류카테고리가서로가까울수록더많은링크가맺어질가능성이높다는것으로나타났다. (1)
이동원 <Table 1> Descriptive Statistics LinkWeight 9840 0.0381633 0.2493492 0 4.219508 Dist 9840 8.542683 3.153009 1 11 Conn 9840 1.175813 0.8196343 0 9 OutDegCent 9840 0.0238897 0.03409 0 0.232332 InDegCent 9840 0.0242664 0.0212238 0 0.0903841 GroupMatch 9840 1.639634 1.016589 1 4 <Table 2> Correlation Coefficients LinkWeight 1 Dist -0.348 1 Conn 0.2437-0.3475 1 OutDegCent 0.206-0.3998 0.2846 1 InDegCent 0.123-0.1881 0.3344-0.0044 1 GroupMatch 0.2205-0.1689 0.1609 0.0659 0.0554 1 <Table 3> Regression Analysis of Experiment Data Dist -0.020112 0.0008378-24.01 0.000-0.0217543-0.0184697 NodeConn 0.0305911 0.0032138 9.52 0.000 0.0242915 0.0368908 OutDegCent 0.4798415 0.0754506 6.36 0.000 0.3319427 0.6277402 InDegCent 0.3907402 0.1165285 3.35 0.001 0.1623203 0.61916 GroupMatch 0.0380566 0.0023082 16.49 0.000 0.033532 0.0425812 Constant 0.0906602 0.0108173 8.38 0.000 0.0694562 0.1118643 3장에서분석한모형에의한성능은다음과같이평가한다. 연결망의노드중서로직접적으로연결되지않은링크중이후에연결될링크의수를예측하는것으로평가한다. 이를위해데이터수집기간중마지막 10일간주문데이터를제외하고연결망을구성한후, 제안모형이연결되어야할링크를얼마나찾아내는지를확인하 는것으로평가를실시한다. 마지막 10일이전 (t-10일) 에작성된연결망에서직접연결되지않은링크의수는 5,711개였으며, 이들중이후 10 일간새로연결된링크의수는 611개였다. t-10 일시점의네트워크에서연결망분석을통해 5,711개의각잠재링크별로설명변수를추출하고, 모형을통해이값으로부터이후 10일간실제로연결될링크수를예측한다. 이렇게계산된값중가장큰값으로부터가장작은값에이르
사회연결망분석을활용한연관규칙확장기법 <Table 4> Result of Performance Experiment 1 269 269 4.402618658 2 62 331 2.708674304 3 24 355 1.936715767 4 74 429 1.755319149 5 106 535 1.751227496 6 26 561 1.530278232 7 2 563 1.316343231 8 32 595 1.217266776 9 16 611 1.111111111 10 0 611 1 는순서대로실제로 10일간연결된 611개의링크와의일치여부를확인하였다. 예측된링크의개수에대해실제링크의개수를 10분위단위로 <Table 4> 에표기하였다. 모형에의해링크의개수가가장많을것으로예측된상위 10% 인 571개 (=5711*10%) 의잠재링크중 269개가실제링크로확인되었으며이 는모형없이평균적으로발견가능한개수인 61 개 (=611*10%) 에비해 4.4배인 269개를정확하게예측할수있고, 20% 인 1,142개를예측할경우에는평균개수 122개의 2.7배인 331개를예측할수있는것으로확인되었다. 이를 <Figure 5> 의십분위향상차트와 <Figure 6> 의향상차트로표현하였다. <Figure 5> Decile-Wise Lift Chart
이동원 <Figure 6> Lift Chart 성능평가의결과를통해알수있듯이, 제안된모형을통해상품간잠재적연관성을예측하는경우, 모형을사용하지않고임의로미연관상품간연관성을예측하는방법에비해월등히높은성과를얻을수있다. 이는제안모형을활용함으로써, 아직드러나지않은상품간의연관성을효과적으로찾아소비자에게제시할수있음을시사한다. 특히, 구매건수가충분히확보되지않은신규상품에대해효과적인추천목록을생성할것이며, 이로인한매출증가효과를기대할수있을것이다. 본연구는낮은거래빈도로인해잘드러나지않는상품간의잠재적인연관성을찾아연관규 칙을확장하기위한목적으로수행되었다. 상품간연관성에기반한연관상품추천은온라인상거래에서소비자의상품탐색시간을줄여줄뿐만아니라판매자의매출을증대하는데에도크게기여하고있다. 그러나, 연관상품을추천하는근거가되는연관규칙은주문과같은거래건수의빈도를기반으로생성되므로, 신규상품과같이초기에충분한거래건수가쌓이지않는상품은다른상품과연관상품으로연결되기어려운콜드스타트 (Cold Start) 문제가제기된다. 연관상품추천에서누락된상품은소비자에게노출될기회를잃어상대적으로거래건수를확보할기회를잃게되는악순환을겪을수도있다. 이와같이잠재된연관성은거래가지속되고해당상품들이함께출현하는거래의건수가늘어연관규칙에포함될정도의임계치를넘게되면많은경우자연스럽게드러날수있을것이
사회연결망분석을활용한연관규칙확장기법 다. 그러나, 이런임계치의거래건수에미치는기간이길어지면그기간동안해당상품의거래는정체될수밖에없다. 예를들어, 의류등과같이유행에민감하거나계절변화에영향을많이받는상품의경우에는상품출시초기에소비자에게노출되는지의여부가매출에매우큰영향을미칠수있다는점에서이런잠재적연관성을미리발견하고상품의노출기회를확보하는것이필요하다. 두상품간에직접적인연관성이발견되지않는다하더라도다른상품을매개로두상품간에간접적인연관성이존재한다면이를활용하여두상품간의잠재적연관성을예측할수있을것이며, 이런연관성은여러상품간에서로영향을미치는상호작용의형태로나타날것이므로사회연결망분석기법을활용한분석방법을시도하였다. 3장의연구모형에서보인것처럼미연관상품간연관성은두상품간을잇는경로의특성과각상품이사회연결망에서갖는특성에영향을받는다는것을보였다. 즉, 두상품간경로의최단거리및경로의개수, 각상품이얼마나많은상품과연관성을갖는지, 두상품의분류카테고리가어느정도일치하는지가두상품간의연관성에영향을미친다. 이모형으로부터미연관상품간연관성을예측할수있을것으로기대되어, 4장에서는모형의성능을평가하고자실험을실시했다. 구체적으로는, 전체거래중마지막 10일간의주문거래를제외한채로상품간주문연결망을구성하고, 이로부터제외된 10일간생성될상품간연관성을예측하는방법으로실험을진행하였다. 실험결과를통해, 모형을적용하지않고찾을수있는연관성의수에비해제안모형은훨씬많은수의연관성을찾을수있음을확인할수있었다. 본연구는노출시기가중요한상품의경우유 용하게활용될수있을것으로기대된다. 특히, 유행이나계절등의영향을많이받는상품이거 나, 스마트폰앱등과같이신상품의출시가빠 르게일어나며그수명주기가짧은상품일수록 더큰효과를보일것으로기대된다. 또한, 의료 분야에서발병빈도가낮아진단하기힘든희귀 병을조기에진단하는데에도활용할수있을것 이다. 사회연결망분석은연결망을구성하는노 드와링크의수에매우민감하게복잡도가높아 지는특성을갖고있기때문에전체주문을분석 대상으로다루는것은현실적인한계를갖는다. 이런이유로, 본연구는잡화라는특정한상품 분류카테고리에국한되어수행되어일반화의 한계를가질수있다. 이는서로다른분류카테 고리에속한상품간에존재할수있는의외의 연관성을발견하는기회를제약할수있다. Agrawal, R., T. Imielinski, A. Swami. Mining association rule between sets of items in large databases, Proc. 1993 ACM SIGMOD international conference on management of data, (1993), 207~216. Adomavicius, G., A. Tuzhilin. Context-Aware Recommender Systems. Recommender Systems Handbook, Springer US, (2011), 217~253. Anand, S.S., A.R. Patrick. A Data Mining methodology for cross-sales, Knowledge- Based Systems, Vol.10, No.7(1998), 449~461. Ansari, A., S. Essegaier, R. Kohli. Internet recommender systems, Journal of Marketing Research, Vol.37, No.3(2000), 363~375.
이동원 Balabanovic, M., Y. Shoham. Content-Based, Collaborative, Recommendation, Communications of the ACM, Vol.40, No.3 (1997), 66~72. Bodapati, A.V. Recommender systems with purchase data, Journal of Marketing Research, Vol.45, No.1(2008), 77~93. Chen, Y.L., J.M. Chen, C.W. Tung. A data mining approach for retail knowledge discovery with consideration of the effect of shelf-space adjacency on sales, Decision Support Systems, Vol.42, No.3(2006), 1503~1520. Choi, S., Hyun, Y., Kim, N. Improving Performance of Recommendation Systems Using Topic Modeling, Journal of Intelligence and Information Systems, Vol.21, No.3(2015), 101~116. Choi, S., Kwahk, K.-Y., Ahn, H. Enhancing Predictive Accuracy of Collaborative Filtering Algorithms using the Network Analysis of Trust Relationship among Users, Journal of Intelligence and Information Systems, Vol.22, No.3(2016), 113~127. Fleder, D., K. Hosanagar. Blockbuster culture's next rise or fall: The impact of recommender systems on sales diversity, Management Science, Vol.55, No.5(2009), 697~712. Kang, B. S., A Novel Web Recommendation Method for New Customers Using Structural Holes in Social Networks, Journal of Industrial Economics and Business, Vol.23, No.5(2010), 2371~2385. Kim, H. K., Choi, I. Y., Ha, K. M., Kim, J. K. Development of User Based Recommender System using Social Network for u-healthcare, Journal of Intelligence and Information Systems, Vol.16. No.3(2010), 181~199. Kim, B. K., S. Lee, S. Bang, J. Kim, and J. H. Lee, Personalized Recommendation System Using Social Network, Proceedings of the Conference on Intelligent Information Systems, Vol.20, No.1(2010), 48~49. Kim, J., Lee, S.-W. The Ontology Based, the Movie Contents Recommendation Scheme, Using Relations of Movie Metadata, Journal of Intelligence and Information Systems, Vol.19, No.3(2013), 25~44. Kim, K.-J., Kim, B.-G. Product Recommender System for Online Shopping Malls using Data Mining Techniques, Journal of Intelligence and Information Systems, Vol.11, No.1(2005), 191~205. Kim, M., and K. J. Kim, Recommender Systems using Structural Hole and Collaborative Filtering, Journal of Intelligence and Information Systems, Vol.20, No.4(2014), 107~120. Kim, M. G., and K. J. Kim, Recommender Systems using SVD with Social Network Information, Journal of Intelligence and Information Systems, Vol.22, No.4(2016), 1~18. Kim, S. H., and R. S. Chang, The Study on the Research Trend of Social Network Analysis and the its Applicability to Information Science, Journal of the Korean Society for Information Management, Vol.27, No.4 (2010), 71~87. Kim, Y., W.N. Street. An intelligent system for customer targeting: a data mining approach, Decision Support Systems, Vol.37, No.2 (2004), 215~228.
사회연결망분석을활용한연관규칙확장기법 Konstan, J.A., B.N. Miller, D. Maltz, J.L. Herlocker, L.R. Gordon, J. Riedl. GroupLens: applying collaborative filtering to Usenet news, Communications of the ACM, Vol.40, No.3(1997), 77~87. Lee, D., S. Park, S. Moon. Utility-based association rule mining: A marketing solution for cross-selling, Expert Systems with Applications. Vol.40, No.7(2013), 2715~25. Noh, H., S. Choi, and H. Ahn, Social Network-based Hybrid Collaborative Filtering using Genetic Algorithms, Journal of Intelligence and Information Systems, Vol.23, No.2(2017), 19~38. Park, J. H., Y. H. Cho, and J. K. Kim, Social Network:A Novel Approach to New Customer Recommendations, Journal of Intelligence and Information Systems, Vol.15, No.1(2009), 123~140. Shin, C. H., J. W. Lee, H. N. Yang, and I. Y. Choi, The Research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis, Journal of Intelligence and Information Systems, Vol.18, No.4(2012), 19~42. Yun, Y., and S. Chae, Introduction to Complex Systems, Samsung Economic Research Institute, 2005. Sohn D., Social Network Analysis, Kyungmoon Publications, 2002. Y. Kim, Social Network Analysis, Pakyoungsa, 2003.
이동원 Abstract 1) Dongwon Lee* Recommender systems based on association rule mining significantly contribute to seller s sales by reducing consumers time to search for products that they want. Recommendations based on the frequency of transactions such as orders can effectively screen out the products that are statistically marketable among multiple products. A product with a high possibility of sales, however, can be omitted from the recommendation if it records insufficient number of transactions at the beginning of the sale. Products missing from the associated recommendations may lose the chance of exposure to consumers, which leads to a decline in the number of transactions. In turn, diminished transactions may create a vicious circle of lost opportunity to be recommended. Thus, initial sales are likely to remain stagnant for a certain period of time. Products that are susceptible to fashion or seasonality, such as clothing, may be greatly affected. This study was aimed at expanding association rules to include into the list of recommendations those products whose initial trading frequency of transactions is low despite the possibility of high sales. The particular purpose is to predict the strength of the direct connection of two unconnected items through the properties of the paths located between them. An association between two items revealed in transactions can be interpreted as the interaction between them, which can be expressed as a link in a social network whose nodes are items. The first step calculates the centralities of the nodes in the middle of the paths that indirectly connect the two nodes without direct connection. The next step identifies the number of the paths and the shortest among them. These extracts are used as independent variables in the regression analysis to predict future connection strength between the nodes. The strength of the connection between the two nodes of the model, which is defined by the number of nodes between the two nodes, is measured after a certain period of time. The regression analysis results confirm that the number of paths between the two products, the distance of the shortest path, and the number of neighboring items connected to the products are significantly related to their potential strength. * Corresponding Author: Dongwon Lee School of Business Administration, College of Social Sciences, Hansung University 116 Samseongyoro-16gil, Seongbuk-gu, Seoul 02876, Korea Tel: +82-2-760-4250, Fax: +82-2-760-4482, E-mail: dongwonlee@hansung.ac.kr Bibliographic info: J Intell Inform Syst 2017 December: 23(4): 111~126
사회연결망분석을활용한연관규칙확장기법 This study used actual order transaction data collected for three months from February to April in 2016 from an online commerce company. To reduce the complexity of analytics as the scale of the network grows, the analysis was performed only on miscellaneous goods. Two consecutively purchased items were chosen from each customer's transactions to obtain a pair of antecedent and consequent, which secures a link needed for constituting a social network. The direction of the link was determined in the order in which the goods were purchased. Except for the last ten days of the data collection period, the social network of associated items was built for the extraction of independent variables. The model predicts the number of links to be connected in the next ten days from the explanatory variables. Of the 5,711 previously unconnected links, 611 were newly connected for the last ten days. Through experiments, the proposed model demonstrated excellent predictions. Of the 571 links that the proposed model predicts, 269 were confirmed to have been connected. This is 4.4 times more than the average of 61, which can be found without any prediction model. This study is expected to be useful regarding industries whose new products launch quickly with short life cycles, since their exposure time is critical. Also, it can be used to detect diseases that are rarely found in the early stages of medical treatment because of the low incidence of outbreaks. Since the complexity of the social networking analysis is sensitive to the number of nodes and links that make up the network, this study was conducted in a particular category of miscellaneous goods. Future research should consider that this condition may limit the opportunity to detect unexpected associations between products belonging to different categories of classification. Key Words : Recommendation system, Association rule mining, Social network analysis, Association rule extension, Cold start problem Received : July 31, 2017 Revised : September 17, 2017 Accepted : September 20, 2017 Publication Type : Regular Paper Corresponding Author : Dongwon Lee Bibliographic info: J Intell Inform Syst 2017 December: 23(4): 111~126
이동원 이동원 LG CNS 에서시스템엔지니어로근무하였으며, KAIST 경영대학원에서 MIS 전공으로석사 / 박사학위를취득하였다. 현재한성대학교경영학부조교수로재직중이다. 현재빅데이터에기반한연구를주로수행하고있으며, 주요관심분야는고객관계관리, 추천시스템, 데이터마이닝기법의정교화, 디지털콘텐츠마케팅등이다.