빅데이터와 NLP 를이용한 11 번가상품추천 황영숙 (Hwang Young-Sook) 2016. 10. 17
1. 들어가며 2. 추천시스템의배경 / 목적 3. 추천알고리즘고찰 4. 사용자소비성향 / 관심기반추천 5. 11번가에서의상품추천 ( 예 ) 6. 맺음말
추천시스템의배경과목적 파레토의법칙 vs. 롱테일법칙 파렛토의법칙 : 상위 20% 가 80% 의가치를창출한다 롱테일의법칙 : 하위 80% 의다수가상위 20% 보다뛰어난가치를창출한다. # users the long tail popular unpopular
추천시스템의배경과목적 온라인커머스에서개인의다양성을중시하는추천을통해롱테일을실현!!! # user rich get richer popularity
추천시스템의배경과목적 정보홍수의시대 즐길수있는다양한컨텐츠와구매할수있는온갖상품들 특히온라인쇼핑에서한카테고리내에서도아이템의수는갈수록방대해지고있는상황, 원하는아이템을선택하기위하여모든아이템을다본다는것은불가능. 기호에맞는취사선택환경제공이중요 적절한때, 적절한위치에서사용자에게적합한아이템들을제안, 사용자가필요한아이템을 Discovery 해가며선택하는 UX를제공, 사용자의서비스경험을개선하고향상시키는것이필요함
추천시스템정의 추천시스템정의 사용자의행동이력, 사용자간관계, 상품유사도, 사용자컨텍스트에 기반하여사용자의관심상품을자동으로예측하고제공하는시스템 Browsing 검색 클릭 User Behavior Activity Log 리뷰 / 평점 배송 지불 장바구니 구매
추천알고리즘고찰 협업필터링 (CF: Collaborative Filtering) 고객의행동이력을기반으로고객의소비패턴을마이닝, 고객 - 고객, 아이템 - 아이템, 고객 - 아이템간유사도를측정, 유사도에기반하여아이템을추천하는방식 Collaborative Filtering(CF) knn-based Model-based User-based Item-based Bayesian Model Clustering-based Model Matrix Factorization O 유사정도를측정하는척도이용, Matrix Factorization 기법을사용
Amazon 추천시스템 A9 ( 특허등록 ) Item Similarity DB 구축을통한개인화추천기능구현
추천알고리즘고찰 Item-to-Item CF 사용자의구매 / 방문 / 클릭이력에의존한추천으로 Cosine Similarity 사용 피구매기록을바탕으로모든아이템쌍사이의유사도를구하고, 사용자가구매한아이템들을바탕으로다른아이템을추천 item1 item2 item3 item1 x 0 0.71 item2 0 x 0.5 item3 0.71 0.5 x
추천알고리즘고찰 기존 CF 알고리즘의장단점 전체 User-Item Matrix 를사용하여추천 Item 을예측함 장점 최소한의기본정보만으로도구현가능 다양한적용사례에서적절한정확도를보장 단점 고차원저밀도 Vector Sparseness Issue 새로운사용자나아이템이추가되는데따르는확장성 (Scalability) 이떨어짐
추천알고리즘고찰 Model-based Collaborative Filtering 기존아이템간유사성을단순하게비교하는것에서벗어나데이터안에내재한패턴을이용하는기법 items factors items users R = X T. Y users factors 소비이력데이터클릭 / 구매횟수 Latent customer factors Latent Item factors 데이터에내재되어있는패턴 / 속성을알아내는것이핵심기술 LSA(Latent Semantic Analysis)/LDA(Latent Dirichlet Allocation) 사용 SVD 등의기법을사용하여 User 와 Item 을동일한차원의잠재속성공간으로투사, 차원축소를통해자료부족과확장성의문제를해소하고예측의적중율을높임
추천알고리즘고찰 Content-based Filtering 아이템의속성에기반하여유사속성아이템을추천협업필터링이사용자의행동이력을이용하는반면, 콘텐츠기반필터링은아이템자체를분석하여추천을구현함 아이템의상세내용또는속성정보를이용하여아이템을벡터로표현사용자의선호아이템 / 속성으로사용자프로파일을구축사용자의프로파일과아이템간의유사도측정하여아이템을추천 아이템의내용을분석해야하므로아이템분석및유사도측정이핵심, 이를위해자연어처리와정보검색 (tf-idf) 의기술을사용함
추천알고리즘고찰 추천알고리즘의장단점 CF(Collaborative Filtering) 장점 대부분의경우추천성과가좋음 잠재적인특징들을고려, 보다다양한범위의추천가능 Model-based CF 에서사용하는 SVD 등의 Dimensionality Reduction 기법은확장성제공 단점 아직평가되지않은항목은추천대상으로발견되기어려움 초기사용자에대해선믿을만한추천을하기어려움 Gray Sheep. 평가가일관적이지않은사용자는도움이안됨 CBF(Content-based Filtering) 사용자의명시적인기호정보를직접적으로반영 ( 다른사용자의정보나평가 / 행동이력이필요하지않음 새로추가된아이템에대해서도추천가능 명시적으로표현된특징만을다룰수있고, 질적 (Qualitative) 부분을포착해내지못함 사용자의선호도 / 취향을특정단어로표현하기어려움 추천하는항목이비슷한장르에머무르는한계가있음
사용자소비성향과관심사기반추천 Content-based Filtering Collaborative Filtering 아이템설명정보활용 적은데이터로추천가능, 좁은범위추천 다수사용자의평가정보활용 다양한범위의추천가능 사용자행동로그등빅데이터활용 새로추가된아이템도추천가능잠재적인특징들을고려, 보다다양한범위의추천가능 유사성, 잠재요소등을고려하여 CBF, CF 알고리즘과딥러닝의특징을결합한추천알고리즘을개발
사용자소비성향과관심사기반추천 11번가상품, 사용자등에대하여각각같은 semantic space 로 embedding하여, 서로연관성을확인할수있는 Distributional Semantic Model(DSM) 를구축하고이를이용하여다양한추천및응용기술을개발.
사용자소비성향과관심사기반추천 Distributional Semantic Models(DSM) Word Space Distributional Similarity Models(DSM) The assumption that the meaning of a word can be inferred from its usage, i.e. its distribution in text. DSMs approximate the meanings of words by studying the distribution of the word across different contexts in the given training data dynamically build semantic representations through a statistical analysis of the contexts in which words occur.
Word Embedding Word Embedding 이란? 단어의의미와맥락을고려하여단어를벡터로표현한것 Word2Vec 알고리즘 Neural Word Embedding 의한방법으로단어들이근접하여자주출현할수록두단어의 vector 값이유사하도록각단어에대한벡터값을학습하는알고리즘으로결과로는 Word Vector 를생성함.
DSM 기반데이터모델링 ( 사용자, 상품 ) items K factors items users R. = X T Y users K factors Consumed data 클릭 / 구매이력 M x N user model (M x K) Item model (K x N) 사용자행동데이터에내재되어있는 사용자의잠재적소비성향 / 관심사와상품의잠재적속성을 Word Embedding 을이용하여 K 차원키워드벡터로각각모델링함
DSM 기반데이터모델링 ( 상품, 사용자 ) Item DB User Behavior History User DB Item DSM Modeling Word Embedding User DSM Modeling Item DSM Vectors Word DSM Vectors User DSM Vectors
11 번가에서의상품추천 ( 예 ) 몰펀블럭종이접기 RC 카 바람막이점퍼 코베아아웃백골드텐트 창의력과학블록놀이두뇌발달캠핑나들이 창의블록아이링고 물감놀이 / 무독 다족보행거미로봇 캠핑의자 / 릴렉스체어
11 번가에서의상품추천 ( 예 ) 몰펀블럭종이접기 RC 카 바람막이점퍼 코베아아웃백골드텐트 창의력과학블록놀이두뇌발달캠핑나들이 장난감 > 블록 > 작동 / 조립완구 > 미술 / 점토 / 공작놀이 취미 > 키덜트 레저 > 캠핑 > 아웃도어
11 번가상품추천시스템구성 : 시스템구성 Data Analysis & Training Preparation Model Training Model Serving User DB User Action Logs Data Analysis & Ingestion NLP&TM on Training Data & Vocab Generator DSM Model Trainer Word DSM Model Item DSM Model Recommendation Engine Service Logs User DSM Model Product DB User Data Product Data
맺음말 사용자의관심 / 소비성향을키워드기반사용자벡터로표현하고, 서비스각영역별고객의니즈에맞추어사용자문맥에맞는추천방식을적용하여사용자에게적절한아이템을추천 새로운구매기회를제안하고상품탐색비용을최소화 사용자의관심사를정교하게마이닝, 적절한상품을추천 개인관심사에부합하는 Navigation 경로를추천 새로운상품을발견하는즐거움제공
추천알고리즘과시스템개발의주역들 홍금원 채수민 강남희 이지선