저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할"

Transcription

1 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우, 이저작물에적용된이용허락조건을명확하게나타내어야합니다. 저작권자로부터별도의허가를받으면이러한조건들은적용되지않습니다. 저작권법에따른이용자의권리는위의내용에의하여영향을받지않습니다. 이것은이용허락규약 (Legal Code) 을이해하기쉽게요약한것입니다. Disclaimer

2 공학석사학위논문 분산 표상을 활용한 브랜드 시각화 및 키워드 추출 Visualizing and Extracting Keywords from Reviews using Distributed Representation 2017 년 2 월 서울대학교 대학원 산업공학과 데이터마이닝 전공 양호성

3

4 분산 표상을 활용한 브랜드 시각화 및 키워드 추출 Visualizing and Extracting Keywords from Reviews using Distributed Representation 지도교수 조 성 준 이 논문을 공학석사 학위논문으로 제출함 2017 년 2 월 서울대학교 대학원 산업공학과 데이터마이닝 전공 양호성 양호성의 공학석사 학위논문을 인준함 2016 년 12 월 위 원 장 박종헌 (인) 부위원장 조성준 (인) 위 이재욱 (인) 원

5 초 록 소비자가 가진 브랜드에 대한 인식은 매출에 직접 영향을 주기 때문에 기업 입장에서 이를 파악하는 것은 매우 중요하다. 따라서 전통적으로 기업들은 설 문조사를 통해 소비자 인식을 정량적으로 파악하려고 했으나 설문조사 방법은 주관적이고, 설문 인원 및 질문이 제한되는 등 다양한 문제점이 존재한다. 이러 한 단점을 보완하기 위해 기업들은 User Generated Content(UGC)를 활용하기 시작하였다. 특히 UGC 중 가장 대표적인 소비자 리뷰는 적은 비용으로 소비 자들의 살아있는 의견을 파악할 수 있지만, 대부분 텍스트 데이터이기 때문에 정량적 분석이 어렵다. 따라서 특정 단어의 빈도만 살펴보거나, 단어 빈도의 추 이를 살펴보는 방법을 사용한다. 그러나 빈도 기반 방법은 전처리가 많아 분석 과정에서 주관이 많이 개입되므로 재현성과 객관성이 떨어진다. 또한, 문서와 단 어 간 유사도 계산이 불가능하기 때문에 각 브랜드의 특징을 나타내는 키워드를 추출하기 어렵다. 본 연구에서는 이러한 단점을 보완하기 위해 브랜드와 단어를 같은 공간에 분산 표상(Distributed representation)으로 표현하는 Brand2Vec 방 법을 제안한다. 브랜드 벡터를 활용해 소비자가 인식하는 브랜드의 계층적 관계를 Dendrogram으로 시각화하고, t-sne를 이용하여 여러 브랜드의 포지셔닝을 시 각화한다. 또한, Brand2Vec은 브랜드와 단어간 유사도 계산이 가능하기 때문에 다른 브랜드에 비해 상대적으로 자사 브랜드의 특징을 나타내는 키워드를 추출할 수 있다. 이러한 과정이 parameter에 강건하며, 최소한의 전처리를 사용하였기 때문에 객관성과 재현성을 확보하였다. 추후 UGC 데이터뿐만 아니라 뉴스 혹은 공시(Disclosure) 등 다양한 텍스트에 적용할 수 있을 것으로 기대한다. 주요어: 소비자 리뷰, 분산 표상, 키워드 추출, 브랜드 포지셔닝 학 번: i

6 목 차 초 록 i 목 차 ii 표 목차 iii 그림 목차 iv Chapter 1 서 론 1.1 연구 배경 연구 내용 Chapter 2 관련 연구 2.1 UGC를 활용한 브랜드 지각도 분상 표상 방법 Chapter 3 제안하는 방법 브랜드 분산 표상: Brand2Vec Parameter 탐색 시각화 방법 : 계층적 군집화 및 t-sne Chapter 4 실험 결과 및 활용방안 데이터 설명 Parameter 탐색 결과 활용 방안 브랜드 시각화 키워드 추출 결론 및 의의 참고문헌 32 Abstract 38 ii

7 표 목차 표 4.1 벡터 차원수와 window size에 따른 문서 분류 성능 표 4.2 Samsung, Canon 과 유사한 브랜드 표 4.3 Samsung, Canon, Apple 브랜드 벡터와 유사한 단어벡터 표 4.4 (pc + laptop)/2 와 유사한 브랜드 표 4.5 단어 벡터 평균값과 유사한 브랜드 표 4.6 제안한 방법으로 추출한 키워드 표 4.7 Samsung, Apple 브랜드 키워드 및 해당 원문 표 4.8 Canon, Microsoft 브랜드 키워드 및 해당 원문 iii

8 그림 목차 그림 2.1 CBOW 모델의 구조 그림 2.2 Skip-gram 모델의 구조 그림 2.3 Doc2Vec에서 제안한 PV-DM과 PV-DBOW 모델 구조... 9 그림 3.1 제안하는 Brand2Vec 모델 구조 그림 3.2 Dendrogram 예시 그림 4.1 Electronics 카테고리에 사용된 단어 분포 (상위50개) 그림 4.2 벡터 차원수와 window size에 따른 문서 분류 성능 그림 4.3 Training epoch에 따른 문서 분류 성능 그림 4.4 Ward 방법을 이용한 브랜드 간 계층적 관계 시각화 그림 4.5 그룹 1과 유사한 단어 목록 및 Word cloud 그림 4.6 그룹 2와 유사한 단어 목록 및 Word cloud 그림 4.7 t-sne 를 이용한 50개 브랜드 벡터 시각화 그림 8 그룹 3과 유사한 단어 목록 및 Word cloud 그림 9 그룹 4와 유사한 단어 목록 및 Word cloud 그림 10 그룹 5와 유사한 단어 목록 및 Word cloud 그림 11 그룹 6과 유사한 단어 목록 및 Word cloud 그림 12 그룹 7과 유사한 단어 목록 및 Word cloud iv

9 제1장서론 1.1 연구 배경 마케팅에서 브랜드 에 대한 소비자들의 인식을 파악하는 것은 매우 중요하 다. 특히 비슷한 성능의 제품이 다양하게 있을 때, 브랜드 이미지는 구매 의사에 중요한 영향을 끼친다. 또한 자사 브랜드에 대한 소비자들의 인식은 물론이고 타 사 브랜드와 자사 브랜드에 대한 상대적 인식의 차이를 파악하는 것도 중요하다. 이런 인식의 차이를 시각화한 도구가 지각도(Perceptual Map)이다. 지각도는 소 비자의 인식 속에 존재하는 제품이나 브랜드의 상대적 위치를 나타낸 것을 말하며 포지셔닝맵(Positioning Map)이라고도 불린다. 브랜드 지각도를 그리기 위해 많이 사용되는 방법은 분석자가 파악하고 싶은 속성에 대해 설문조사를 실시하여 데이터를 수집한 후, MDS(Multidimensional Scaling)나 대응분석(Correspondence Analysis)를 사용하여 2차원으로 시각화 하는 것이다(Kim et al., 2007; Chiang et al., 2008). 이러한 설문 조사 방식은 수치형 데이터이기 때문에 분석이 용이하고, 의사결정자가 원하는 속성을 데이터 에 반영할 수 있다는 장점이 있다. 그러나 시간적, 공간적, 금전적 한계로 인하여 제한된 표본과 주제를 대상으로 조사할 수밖에 없고, 설문자의 의도가 개입되기 때문에 객관적으로 사용자의 브랜드에 대한 인식을 파악할 수 없다. 이러한 단점을 보완하기 위해 User Generated Contents(UGC)를 활용하여 소비자의 상대적인 브랜드 인식을 시각화하려는 시도가 있었다(Dwyer, 2012; Reyneke et al., 2011). UGC는 사용자가 자발적으로 만든 블로그, 게시판, 채팅, 트위터, 이미지, 비디오, 음성, 광고 등 다양한 형태의 콘텐츠를 말한다(Moens et al., 2014). UGC는 적은 비용으로 다양한 공간에서 쉽게 데이터를 수집할 수 1

10 있고, 새로운 이슈에 대해서 지속적이며 자발적으로 업데이트 되기 때문에 소비자 들의 살아있는 의견을 들을 수 있다. 또한, 사용자가 작성한 UGC의 특성에 따라 시간, 평점, 작성한 위치 등 다양한 정보를 함께 수집할 수 있다. 무엇보다도 수 많은 사람들이 자신의 의견을 표현 및 공유하고, 공유한 콘텐츠를 많은 사람들이 소비하기 때문에 브랜드에 미치는 영향력이 크다(Zhu and Zhang, 2010). 기존에 지각도를 그리기 위해 주로 사용한 방법은 UGC의 텍스트 데이터에 서 브랜드가 등장한 횟수 정보를 활용하는 것이다. 그러나 브랜드가 언급된 횟수 데이터를 통해서는 브랜드 간의 유사성을 파악하기 어려울 뿐만 아니라 UGC의 장점인 브랜드에 관해 언급된 소비자들의 다양한 텍스트 정보를 활용하지 못하게 된다. 소비자들이 브랜드에 대해 언급한 다양한 단어 정보를 통해 자사 브랜드의 키워드를 추출할 수 있으면 보다 소비자 인식에 대해 풍부한 해석이 가능하여 의사결정에 도움을 줄 수 있을 것이다. 1.2 연구 내용 본 연구에서는 리뷰 데이터의 단어를 활용하여 브랜드를 벡터로 표현할 수 있는 Brand2Vec 방법을 제안한다. 기존의 방법과 달리 브랜드와 단어가 동시에 분산 표상(Distributed representation) 벡터로 표현되기 때문에 유사도 계산이 가능하다. 본 연구에서는 이러한 장점을 활용하여 먼저 브랜드 간의 유사도 계산 을 통해 브랜드의 계층적 관계와 브랜드 포지셔닝을 시각화하고, 브랜드와 단어 간의 유사도 계산을 통해 키워드를 추출하는 방법에 대해서 살펴본다. 이를 통하 여 브랜드 관리자의 의사결정에 도움이 되는 정보를 제공하는 것을 목표로 한다. 본 논문에서는 제안하는 Brand2Vec 방법은 Mikolov et al. (2013a)이 제안한 Word2Vec과 Le and Mikolov (2014)의 Doc2vec 방법을 확장한 것으로, 인공신 경망을 사용해 제품 리뷰 문서에 나와 있는 단어 벡터를 학습시킴과 동시에 브랜 드를 분산 표상 벡터로 표현하는 방법이다. 브랜드가 분산 표상 벡터로 표현되기 2

11 때문에 기존의 설문조사나 빈도기반 방법과 다르게 모든 텍스트 정보를 활용하 여 브랜드 간의 유사도를 계산할 수 있다. 이러한 성질을 활용하면 Dendrogram, t-sne를 이용하여 브랜드들 간의 계층적 관계 및 포지셔닝을 시각화할 수 있다. 또한, 브랜드의 경우 경쟁사와 두드러지는 특징을 찾아내는 것이 중요하다. Brand2Vec은 단어와 벡터 간의 유사도 계산이 가능하기 때문에 브랜드와 유사한 단어를 추출할 수 있다. 이러한 성질을 활용하여 경쟁 브랜드와 비교해 상대적 인 특징을 나타내는 키워드를 추출할 수 있다. 제안한 방법을 Samsung, Apple, Canon, Microsoft 네 브랜드에 적용해서 타 브랜드에 비해 상대적으로 특징적인 단어를 추출하고 실제 원문을 살펴봄으로써 정성적으로 검증하였다. 본 연구의 의의는 다음과 같다. 첫째, 브랜드를 벡터로 표현하여 브랜드 간 유사도 측정 및 계층적 관계와 포지셔닝을 시각화하여 비즈니스 의사결정에 도움 을 주었다. 둘째, 브랜드와 단어를 같은 공간에 표현하기 때문에 브랜드와 단어간 유사도 계산이 가능하다는 특징을 활용하여 각 브랜드의 키워드를 추출하여 브 랜드 간의 차이를 파악하는 데 해석력을 제공하였다. 셋째, Brand2Vec에 적합한 parameter 탐색 방법을 제안하였으며, 이를 통해 parameter에 강건함을 확인하 였다. 넷째, 최소한의 전처리를 사용하였기 때문에 객관성과 재현성을 확보하였 다. 다섯째, 자연어 처리 분야에서만 주로 사용되던 분산 표상 방법을 비즈니스 분야로 확장하였다. 마지막으로, 동일한 방법론으로 브랜드뿐만 아니라 공시를 활용한 기업, 법안을 활용한 정치인, 시나리오를 활용한 영화 등 다양한 대상을 표현하는 데 확장할 수 있다. 본 논문의 구성은 다음과 같다. 2장에서 UGC를 활용한 기존 연구와 Word2Vec 에 대한 설명을 하고, 3장에서 제안한 Brand2Vec 방법에 대한 설명과 함께 parameter 탐색 과정에 대해 설명한다. 4장에서는 parameter 탐색 결과와 함께 Brand2Vec 방법을 활용한 브랜드 시각화와 키워드 추출결과를 확인한다. 마지막 5장은 본 연구의 의의와 추가 발전 방향에 대해서 서술하는 것으로 구성하였다. 3

12 제 2 장 관련 연구 2.1 UGC를 활용한 브랜드 지각도 UGC는 설문조사 방법에 비해 자사 브랜드 뿐만 아니라 경쟁사 브랜드에 대한 데이터도 쉽게 수집할 수 있고, 소비자들의 살아있는 의견이 반영되어 있다 는 장점 때문에 브랜드 지각도로 시각화하려는 다양한 시도가 있었다. Reyneke et al. (2011)는 소셜 미디어에서 고급 와인 브랜드가 등장한 빈도를 가지고 대응 분석을 하여 와인 브랜드들을 시각화하였으며, Dwyer (2012)는 뉴스 사이트에 서 해당 브랜드가 언급된 횟수를 수집하고, MDS(Multidimensional scaling)와 Minimum spanning tree를 활용하여 브랜드들을 2차원으로 시각화하였다. 두 방법의 공통점은 온라인상에서 해당 브랜드가 언급된 횟수만을 고려하였다는 것이다. 즉, 사용자들이 브랜드의 제품이나 서비스에 대해 언급한 단어들을 고려 하지 않았다. 게다가 UGC 상에서 브랜드 언급 횟수가 비슷하다고 해서 비슷한 성격의 브랜드라고 볼 수 없으므로, 정보 손실이 크고 객관적인 방법이라 할 수 없다. Tirunillai and Tellis (2014)는 LDA(Latent Dirichlet Allocation)를 사용하 여 브랜드별로 각 토픽에 해당하는 단어 분포 정보를 비교하여 MDS로 시각화하 였다. 이 방법은 전체 텍스트 데이터는 활용하였으나, LDA 모델을 사용하였기 때문에 parameter에 매우 민감하고 계산 복잡도가 높아 많은 양의 데이터를 학습 하는데 부적절하다. 또한, LDA 역시 빈도 기반 방법이기 때문에 자주 등장하는 단어를 제거하고, stopwords를 제거하는 등 많은 전처리가 필요하므로 주관이 많이 개입되고 확률기반 모형이기 때문에 재현이 어렵다. 하지만 본 연구에서 제안하는 Brand2Vec 방법은 최소한의 전처리로 많은 4

13 양의 데이터도 빠르게 처리할 수 있으며, 소비자들이 브랜드에 대해 언급하는 모든 텍스트 정보를 반영하여 각 브랜드 간의 유사도 계산은 물론이고 브랜드와 단어 간 유사도 계산이 가능하여 각 브랜드의 특징을 나타내는 키워드 추출이 가 능하다. 이러한 과정에 사람의 개입을 최소화하였기 때문에 재현성과 객관성을 확보하였다. 2.2 분상 표상 방법 단어의 분산 표상 방법 텍스트 데이터를 기계학습 알고리즘에 적용하기 위해 서는 숫자로 변환하는 과정이 필요하다. 이 과정은 크게 이산(Discrete) 방법과 분산(Distributed) 방법이 있다. 이산 방법에서 대표적인 것은 One-hot encoding 으로, 총 V 개의 단어가 있다면 V 차원의 벡터에서 한 원소만 1이고 나머지는 0으 로 표현하는 방법이다. 그러나 이러한 방법은 단어 벡터가 단어의 의미(semantic) 정보나 구문(syntactic) 정보를 반영하지 못할 뿐만 아니라, 단어와 단어 사이의 유사도를 계산할 수 없다. 이러한 단점을 보완하고자 단어를 분산 표상으로 표현하는 방법이 제안되었 다. (Rumelhart et al., 1988). 이와 같은 분산 표상 방법은 이산 방법과 다르게 단어를 의미와 구문 정보를 반영한 벡터로 표현할 수 있다. 예를 들어, big 이란 단어와 biggest 라는 단어의 관계는 small, smallest 의 관계와 같다고 할 수 있다. 이러한 관계가 분산 표상 방법으로 표현한 단어 벡터 사이에 유지되므로 아래와 같은 식이 성립된다. vector( biggest ) vector( big ) vector( smallest ) vector( small ) Bengio et al. (2003)에서는 주어진 문맥 단어를 통해 다음 단어가 등장하는 확률을 최대화 하도록 학습하는 인공신경망을 활용하여 단어를 분산 표상으로 표 현하는 방법을 제안하였다. Bengio et al. (2003) 이후 다양한 분산 표상 방법이 등장하였다 (Collobert and Weston, 2008; Mikolov et al., 2011). 그러나 이러한 5

14 방법들은 계산 복잡도가 매우 높아서 많은 양의 텍스트를 표현하기에 부적절했 다. 최근에 Mikolov et al. (2013a)는 이러한 단점을 보완해 줄 수 있는 Word2Vec 모델을 제안하였다. Word2Vec은 간단한 인공신경망 모델을 활용하여 수억 개의 텍스트 데이터도 효율적으로 벡터로 표현할 수 있다. 또한, 전처리 과정이 거의 필요 없고 표현된 단어 벡터가 문맥 정보를 포함하고 있다는 장점 때문에 감성분 석(Sentiment analysis), 기계번역(Machine translation) 등 다양한 자연어 처리 분야 연구에서 활용되고 있다(Frome et al., 2013; Kiros et al., 2015). Word2Vec 모델은 주변 window size 만큼의 문맥 단어들로부터 다음 단어를 예측하는 모델인 CBOW(Continuous Bag-of-Word) 모델과 한 단어들로부터 주 변 문맥 단어들을 예측하는 Skip-gram 모델이 있다. 먼저, 그림 2.1 은 CBOW 모델을 시각화한 것이다. 그림 2.1: CBOW 모델의 구조 CBOW 모델은 window size C 만큼 입력 노드가 있고, 은닉층(hidden layer) 이 하나이면서 활성함수(Activation function)가 없는 인공신경망 모델이다. 입력 노드 xi 와 출력 노드 yj 는 각각 전체 V 개 중 i, j번째에 해당하는 단어를 Onehot encoding으로 표현한 값으로 V 차원 벡터이다. 은닉층 h는 N 차원으로 N 은 표현하고자 하는 단어 벡터의 차원 수와 같다. 입력층과 은닉층 사이의 가중치 메트릭스를 WV N, 은닉 노드와 출력 노드 0 사이의 가중치 메트릭스를 WN V 이라고 한다. 목적함수는 식 (2.1)과 같이 주 6

15 어진 C개의 단어가 있을 때 다음 단어가 나타날 확률을 최대화하는 것이다. T 1X T X log p(wt wt+j ) (2.1) t=1 c j c,j6=0 이 때 T 는 전체 단어 개수이며, c는 window size를 의미한다. p(wt wt+j )는 식 (2.2)와 같이 Softmax 함수를 이용하여 계산한다. 0 T exp(vwo ) h log p(wo wi ) = PV 0 j=1 exp(vwj T h) (2.2) 0 wi 와 wo 는 각각 입력, 출력 단어를 의미하며, vwo 은 출력 단어 벡터 값으로 0 WN V 메트릭스의 o번째 열을 의미한다. 은닉층 h는 입력 단어 벡터들의 평균 값이다. h= 1 T 1 W (x1 + x2 + + xc ) = (vw1 + vw2 + + vwc ) C C (2.3) vwi 는 입력 단어 벡터 값으로 WV N 메트릭스의 i 번째 행을 의미한다. Stochastic Gradient Descent와 Backpropagation (Rumelhart et al., 1988)을 이용하여 0 WV N 과 WN V 을 학습하며, 최종적으로 단어 wk 의 벡터는 WV N 의 k번째 행 0 벡터 혹은 WN V 의 k번째 열 벡터가 된다. 7

16 Skip-gram 모델은 그림 2.2와 같은 구조이며, CBOW 모델에서 입력층과 출 력층이 바뀐 것을 제외하고 흡사하다. 그림 2.2: Skip-gram 모델의 구조 목적함수는 식 2.4와 같이 주어진 한 단어로부터 문맥 단어들을 예측하는 확 률을 최대화 하는 것이다. T 1X T X log p(wt+j wt ) (2.4) t=1 c j c,j6=0 입력노드 개수가 바뀌었기 때문에 p(wt+j wt )은 아래와 같이 계산한다. log p(wo wi ) = 0 C Y T exp(vwo ) h c=1 PV 0 j=1 exp(vwj T h) (2.5) 그리고 CBOW와 달리, Skip-gram은 입력층 단어가 하나이므로 은닉노드의 값은 식 2.6과 같다. h = W T xk = Wk (2.6) 0 WV N 과 WN V 에 대한 학습은 CBOW 모델과 같이 Backpropagation을 통 해 이뤄진다. 그 밖에 두 모델의 학습 속도를 빠르게 하기 위해 Negative Sampling 이나 Hierarchical softmax등의 방법도 사용되고 있다 (Mikolov et al., 2013b). 8

17 문서의 분산 표상 방법: Doc2Vec Word2vec은 단어를 벡터로 표현하는 비교 사 방법이다. 단어뿐만 아니라, 문장 혹은 문서를 분산 표상 방법으로 표현하는 Doc2Vec (Le and Mikolov, 2014) 방법도 제안되었다. 기존에 문서를 표현하는 데 있어서 TF-IDF (Salton, 1989) 방법이 많이 활용되었지만, 이러한 빈도 기반 의 Bag-of-Words(BoW) (Harris, 1954) 방법은 문서와 단어 수가 늘어남에 따라 차원이 매우 커지고, 희소행렬(Spare matrix)로 문서를 표현하기 때문에 차원의 저주 문제가 발생하는 단점이 있다. Doc2Vec은 BoW 방법에 비해 적은 차원으로 문서를 표현하여 감성(Sentiment) 분류 문제에서 매우 높은 성능을 보여주었다. 또한, 유사한 문맥의 문서를 유사한 벡터로 표현하기 때문에 정보 검색(Information Retrieval)에도 높은 성 능을 보였다(Le and Mikolov, 2014). Doc2Vec 방법은 그림 2.3과 같이 단어를 학습함과 동시에 문장 혹은 문서의 고유한 벡터를 같이 학습하게 된다. 그림 2.3 의 좌측은 Word2vec의 CBOW와 같이 주변 문맥 단어와 문서 벡터를 통해 다음 단어를 예측하는 모델인 PV-DM(Paragraph Vector-Distributed Memory)이고, 우측은 Skip-gram 모델과 비슷하게 문서 벡터로부터 주변 단어를 예측하는 모델 인 PV-DBOW(Paragraph Vector-Distributed Bag-of-words)이다. 그림 2.3: Doc2Vec에서 제안한 PV-DM과 PV-DBOW 모델 구조 9

18 제 3 장 제안하는 방법 3.1 브랜드 분산 표상: Brand2Vec 본 연구에서는 문서를 벡터로 표현하는 Doc2Vec 방법을 발전시켜 브랜드를 벡터로 표현하는 Brand2Vec 방법을 제안한다. 기존의 Doc2Vec 방법이 각 문서 를 하나의 벡터로 표현하는 방법이었다면 Brand2Vec은 동일한 브랜드에 대한 리뷰들을 하나의 문서로 생각하고 학습하는 방법이다. Brand2Vec 모델 구조는 그림 3.1과 같다. 주어진 window size 단어들과 해당하는 브랜드 벡터를 통해 다음 단어를 예측하는 모델로서, 단어와 브랜드를 동시에 학습하는 구조이다. 그림 3.1: 제안하는 Brand2Vec 모델 구조 Brand2Vec 모델의 목적함수는 CBOW 모델의 목적함수 식 (2.1)과 같다. 다 만, 다음 단어를 예측하는데 있어서 문맥 단어 뿐만 아니라 브랜드 정보를 같이 사용하므로 은닉 노드 h 값이 식 (3.1)과 같이 달라진다. 1 T W (xt c + xt c xt+c ) + B T bi C 1 = (vwt c + vwt c vwt+c + vbi ) C +1 h= 10 (3.1)

19 W, xi, vwi 는 Word2Vec과 동일하며, Tb 를 전체 브랜드 개수, B는 Tb N 차원의 브랜드 메트릭스이다. bi 는 i번째 브랜드의 Tb 차원 One-hot encoding 벡터 를 의미한다. Doc2Vec과 마찬가지로 Backpropagation을 통해 리뷰에 등장하는 단어와 브랜드 벡터를 동시에 학습한다. 3.2 Parameter 탐색 Word2Vec 방법은 단어 벡터 차원 수, window size, training epoch, negative sample 수, 모델 구조 등 다양한 parameter가 존재한다. 처음 Doc2Vec을 제안한 연구에서는 단어 차원 수와 window size에 대해 parameter 탐색을 하였다 (Le and Mikolov, 2014). 또한 Word2Vec은 인공신경망을 활용한 방법이기 때문에 적당한 수의 training epoch이 중요하다. 따라서, 본 연구에서는 브랜드와 단어의 차원 수, window size, training epoch을 주요 parameter 탐색 대상으로 삼았다. 그러나, 문제는 Word2Vec은 기본적으로 비교사학습 방법이기 때문에 벡터 가 충분히 학습되었는지 정량적인 분석이 어렵다. 따라서, 다음과 같은 교사 학습 문제를 사용하여 정량적으로 평가할 수 있는 방법을 제안한다. 먼저, 각 문장을 하나의 벡터로 표현하는 Doc2vec 방법을 사용하여 각 리뷰를 벡터로 표현한다. 이렇게 표현한 벡터가 해당 문서의 특징을 잘 내포하고 있다면 이를 통해 해당 리뷰가 Electronics, Clothing 혹은 Beauty 관련 브랜드의 리뷰인지 분류할 수 있을 것이다. 따라서, 벡터 차원 수, window size, training epoch을 바꿔가면서 Logistic Regression으로 카테고리 분류 성능을 계산하는 방법으로 벡터 표현이 잘 됬는지 정량적으로 확인할 수 있다. 11

20 3.3 시각화 방법 : 계층적 군집화 및 t-sne 브랜드 간의 관계는 계층적이다. 예를 들어, 브랜드를 제조업, 서비스업, 건 설업과 같이 크게 분류할 수도 있지만, 제조업도 좀 더 세분화하여 자동차, 가구, 섬유 등 하위분류로 나눠서 묶을 수 있다. 본 연구에서는 이와 같은 계층적 구조를 시각화하기 위해 계층적 군집화 방법을 사용하였다. 계층적 군집화 방법은 크게 응집(agglomerative) 방법과 분할(divisive) 방법이 있다. 응집 방법은 bottom-up 방식으로 데이터 각각을 하나의 군집이라고 생각하고 합쳐가면서 군집 개수를 줄이는 방법이다. 반대로 분할 방법은 top-down 방식으로 전체 데이터를 하나의 군집으로 간주하고 작게 쪼개는 방식이다. 하지만 분할 방법은 총 n개의 데이 터가 있을 때, 2n 1가지 수로 나눌 수 있으므로, 경우의 수가 기하급수적으로 증가하는 문제가 있다. 따라서 본 연구에서는 응집 계층적 군집화를 실시하였다. 계층적 군집화에서 두 군집 간의 거리를 계산하는 방법은 군집 간의 데이터 중 최소 거리를 계산하는 단일연결(single linkage) 방법, 최대 거리를 계산하는 완 전연결(complete linkage) 방법, 평균값을 계산하는 평균연결(average linkage) 방법 등이 있다. 본 연구에서는 군집화하면서 생기는 정보의 손실을 고려하는 ward s variance minimization algorithm (Ward Jr, 1963)을 사용하였다. 새로운 데이터를 군집화할 때 오차제곱합(error sum of squares)을 최소화하도록 군집 화를 진행하는 방법이다. Ward 방법을 선택한 이유는 일반적으로 다른 계층적 군집화 방법 보다 성능이 좋다고 알려져 있으며, 특히 군집 크기의 비율이 일정할 때 적당한 방법이라고 한다 (Ferreira and Hitchcock, 2009; Hands and Everitt, 1987; Kuiper and Fisher, 1975). 이러한 계층적 군집화의 장점은 Dendrogram을 통해 계층적 관계를 시각적 으로 이해할 수 있다는 점이다. Dendrogram은 계층적 군집화 단계에서 어떤 군집끼리 합쳤는지 확인할 수 있는 나무 구조의 시각화 방법이다. 예를 들어, 그 림 3.2는 5개 지역의 상대적인 거리 정보 데이터를 이용하여 ward 방법을 적용한 12

21 Dendrogram이다. 이를 통해 Beijing, Seoul이 서로 가깝게 위치했을 뿐만 아니 라 두 도시가 Paris, London보다 Tokyo와 가깝다는 계층적 정보를 시각적으로 확인할 수 있다. 그림 3.2: Dendrogram 예시 그러나 계층적 군집화 방법을 통해 군집 간의 계층적 관계와 거리는 확인할 수 있지만, 다양한 브랜드의 상대적 유사도를 한눈에 파악하기 어렵다. 따라서 본 연 구에서는 여러 브랜드의 포지셔닝을 확인하기 위해 t-sne (Van der Maaten and Hinton, 2008)를 사용하였다. t-sne는 SNE(Stochastic Neighbor Embedding) (Hinton and Roweis, 2002)를 발전시킨 방법으로, PCA(Principal components analysis), LLE(Linear local embedding)등 기존의 차원축소 방법보다 고차원 데이터의 구조를 저차원에서 잘 표현한다. 따라서 딥러닝과 같이 고차원의 벡터 를 사용하는 문제에서 많이 적용되고 있다(Chen and Manning, 2014; Mohamed et al., 2012). 본 연구에서 제안하는 Brand2Vec 또한 브랜드를 500차원으로 표현 하기 때문에 t-sne를 사용하면 고차원의 브랜드 벡터를 2차원으로 시각화하여 포지셔닝을 확인할 수 있다. 13

22 제 4 장 실험 결과 및 활용방안 4.1 데이터 설명 본 연구에서는 미국의 대표적인 종합 온라인 쇼핑몰 의 리뷰 데이터를 활용하였다(McAuley et al., 2015). 데이터는 카테고리별로 리뷰 텍스트, 리뷰어 ID, 별점, 작성한 시간, 가격, 브랜드 등의 정보가 포함되어 있다. 분석에 활용한 데이터셋에 대해 소문자 변환, 특수문자 및 숫자 제거 등 최소한의 전처리만 실시하였다. 추가적으로 해석력을 높이기 위해 아래 4.1과 같이 score 를 계산하여 score가 높은 bigram을 추출하였다 (Mikolov et al., 2013b). score(wi, wj ) = count(wi, wj ) δ count(wi ) count(wj ) (4.1) wi 와 wj 는 i, j번째 단어를 의미하며 count(wi )는 wi 가 등장한 횟수, count(wi, wj ) 는 두 단어가 같이 등장한 횟수를 의미한다. δ는 co-occurrence가 낮은 단어는 제 외하도록 조정하는 parameter이다. score가 높은 두 단어는 같이 쓰일 때 의미가 있다고 생각하여 한 단어로 묶었다. 예를 들어, battery, life라는 단어는 battery life로, mac, book이라는 단어는 mac book 등으로 변환하였다. 이와 같은 bigram이 가능한 이유는 제안하는 Brand2Vec이 빈도 기반 방법이 아니기 때문 이다. battery, life라는 단어가 battery life 통합되는 순간 battery라는 단어의 빈도가 줄어들기 때문에 일반적인 TF-IDF 혹은 LDA 같은 BoW 기반 방법에서 는 bigram으로 변환 후 알고리즘을 적용할 수 없다. 반면, Brand2Vec은 빈도의 영향을 적게 받는 방법론이기 때문에 이와 같은 bigram을 사용하면 오히려 해석 력이 높은 키워드를 뽑을 수 있다. 14

23 이와같은 전처리 후 parameter 탐색 및 본 분석에 사용할 두 개의 데이터 를 만들었다. 먼저 parameter 탐색에 활용한 데이터는 Electronics, Clothing, Beauty 각 카테고리에서 리뷰 수가 많은 상위 50개 브랜드를 각각 선택하였 다. 그리고 카테고리별로 100,000개의 리뷰를 임의로 선택하여 총 300,000개의 리뷰를 사용하였다. 시각화 및 키워드 추출에 활용한 데이터는 Electronics 카 테고리에 해당하는 리뷰만 선택하였으며, 2013년 이후 데이터만을 사용하였다. 마찬가지로 리뷰 수가 많은 상위 50개 브랜드에 대해 helpful1 점수가 높은 5,000 개의 리뷰를 선택하여 총 250,000개의 리뷰 문서를 사용하였다. 이때 총 사용된 토큰은 26,513,023개이고, 고유한 토큰은 140,447개이다. 한 개의 리뷰 문서는 평균적으로 개의 토큰으로 구성되었으며 최종적으로 사용한 Electronics 리뷰 문서의 단어 분포는 그림 4.1와 같다. 그림에서 알 수 있듯이 the, i, to 등 문서의 특징을 나타내지 못하는 불용어(stopwords)를 제거하기 위한 추가적인 전처리를 실시하지 않았다. 그림 4.1: Electronics 카테고리에 사용된 단어 분포 (상위50개) 1 소비자가 해당 리뷰가 유용하다고 생각하면 1점씩 부여하는 점수 15

24 4.2 Parameter 탐색 결과 Doc2Vec 방법으로 각 리뷰 문서를 벡터로 표현하고, 이를 독립변수로 하고 Electronics, Clothing, Beauty 3개의 클래스로 분류하는 문제에 대해 parameter 에 따른 모델의 성능 변화를 10-fold 교차검증으로 확인하였다. Window size와 차원 수에 따른 실험 결과는 표 4.1 및 그림 4.2와 같다. Window Size 표 4.1: 벡터 차원수와 window size에 따른 문서 분류 성능 벡터의 차원 수 그림 4.2: 벡터 차원수와 window size에 따른 문서 분류 성능 먼저 parameter에 따른 성능의 차이가 에서 로 매우 작아 parameter에 강건함을 알 수 있다. 전반적으로 window size가 작을 수록, 문서 벡터의 차원 수는 클 수록 문서 분류 성능이 좋아짐을 알 수 있다. 가장 성능이 좋았던 경 우는 window size가 2이고, 차원 수가 500일 때였으며, 이 경우에 training epoch 16

25 에 따른 성능 변화는 그림 4.3과 같다. Epoch이 커짐에 따라 문서를 분류하는 성능이 높아지는 것으로 보아 학습이 잘 되고 있음을 알 수 있다. 그림 4.3: Training epoch에 따른 문서 분류 성능 따라서 최종적으로 브랜드 및 단어 벡터 차원 수는 500, window size는 2, training epoch은 10으로 모델링을 실시하였다. 17

26 활용 방안 브랜드 시각화 Parameter 탐색 결과를 바탕으로 Electronics 카테고리의 250,000개 리뷰에 대해서 Brand2Vec 모델링을 실시하였다. 먼저, 각각의 브랜드를 하나의 벡터 로 표현하였기 때문에 코사인 유사도(cosine similarity)를 이용하여 브랜드 간의 유사도 계산이 가능하다. 예를 들어 Samsung과 Canon 브랜드 벡터와 유사한 브랜드 벡터를 나열한 결과는 표 4.2과 같다. 표 4.2: Samsung, Canon 과 유사한 브랜드 Samsung 브랜드 벡터 Acer HP Toshiba Panasonic LG Canon 유사도 브랜드 벡터 Nikon Panasonic Sony Neewer Case Logic 유사도 표 4.2을 통해 Samsung과 유사한 브랜드로 Acer, HP 등 PC 제품을 생산하 는 브랜드가 같이 등장함을 알 수 있다. 또한, 카메라 제품을 생산하는 Canon 브랜드와 함께 Nikon, Panasonic 등 카메라 제품군을 주력으로 하는 브랜드들이 유사한 벡터로 표현됨을 알 수 있다. 이를 통해 브랜드 벡터를 통해 브랜드와 브랜드 간의 유사도 계산이 가능함을 정성적으로 확인할 수 있다. 이러한 성질을 보다 활용하여 리뷰가 많은 상위 50개 브랜드의 브랜드 벡터 를 대상으로 Ward 방법을 적용한 응집 계층적 군집화와 t-sne를 통해 브랜드 간의 관계를 시각화 할 수 있다. 먼저, 계층적 군집화 결과를 그림 4.4과 같이 Dendrogram으로 나타내었다. 18

27 그림 4.4: Ward 방법을이용한브랜드간계층적관계시각화 19

28 그림 4.4의 상단에 위치한 브랜드 부터 살펴보면 VideoSecu, Cheetah는 TV 거치대를 주로 파는 회사로 둘은 서로 유사도가 높지만 다른 군집과는 멀리 떨어 져 있음을 알 수 있다. Google, Roku 등 TV 스트리밍 서비스를 제공하는 회사와 Netgear, TP-LINK와 같은 공유기를 제작하는 네트워크 회사도 유사하게 묶였 다. Logitech, Microsoft, Apple, HP 등은 PC 및 PC 관련된 상품을 판매하는 브랜드이며, Corsair, Cooler Master 등은 PC 케이스, 저장장치 등 PC 주변기기 를 판매하는 브랜드이다. 그 밖에, Canon, Nikon 등 카메라 브랜드가, Monoprice, Sennheiser, Bose 등 이어폰, 헤드폰, 스피커 등을 주로 판매하는 브랜드가 서로 유사하게 위치하고 있다. 마지막으로 Generic, SANOXY 등 케이블, 배터리, 케 이스 등 각종 액세서리를 주로 판매하는 브랜드를 하나의 군집으로 생각할 수 있다. 그림 4.4는 브랜드 간의 계층적 관계도 잘 나타냄을 알 수 있다. 제일 하단의 3개 군집(카메라, 음향기기, 주변기기) 브랜드가 군집간 유사도가 제일 높고, PC 관련된 군집(PC 주변기기, PC 제조업체, 미디어 & 네트워크)가 서로 유사하게 묶였다. 그리고 제일 유사도가 떨어지는 그룹은 TV 거치대를 만드는 2개 회사 였다. 이처럼 브랜드 벡터를 이용하여 계층적 군집화를 실시하면 각 브랜드 간의 유사도뿐만 아니라 브랜드 군집 간의 계층적 정보도 확인할 수 있다. 뿐만 아니라, 단어와 브랜드를 같은 차원의 공간에 학습하였기 때문에 군집내 브랜드 벡터의 평균 벡터와 단어 간의 유사도 계산을 통해 같은 군집내의 브랜드 가 왜 서로 유사한지에 대한 해석력을 제공할 수 있다. 그림 4.5, 4.6와 같이 word cloud를 통해 시각적으로 이해할 수도 있다.2 계층적 군집화 방법보다 더 많은 브랜드 간의 관계를 시각화하기 위해서 그림 4.7와 같이 t-sne를 사용하여 50개 브랜드를 2차원으로 표현하였다3. Dendrogram과 마찬가지로 비슷한 제품을 생산하는 브랜드끼리 가까이 위치한 것을 알 2 3 나머지 군집에 대한 결과는 Appendix를 참조 20

29 단어 wall mount mount screws bolts bracket vesa mount wall bracket full motion brackets 유사도 빈도 1,590 11,339 3, , 그림 4.5: 그룹 1과 유사한 단어 목록 및 Word cloud 단어 router modem isp comcast network docsis modem streaming services wifi netflix called comcast 유사도 빈도 23,528 8, ,958 8, ,126 7, 그림 4.6: 그룹 2와 유사한 단어 목록 및 Word cloud 수 있다. Cheetah, VideoSecu와 같이 TV 거치대를 판매하는 브랜드와 Mediabridge, BlueRigger와 같이 케이블을 주로 판매하는 브랜드가 매우 가깝게 위치한 것을 통해 특정 제품에 특화된 브랜드끼리 가깝게 위치한 것을 확인할 수 있다. 반면, SANOXY, eforcity, Targus 등 다양한 제품의 액세서리를 판매하는 브 랜드는 가운데 위치한 것을 알 수 있다. 이처럼 브랜드 벡터를 사용하여 t-sne 를 적용하면 Dendrogram 보다 많은 브랜드 간의 상대적 위치를 쉽게 확인할 수 있고, 소비자들의 리뷰 정보를 활용한 객관적인 브랜드 지각도를 그릴 수 있다. 21

30 그림 4.7: t-sne 를이용한 50 개브랜드벡터시각화 22

31 4.3.2 키워드 추출 앞 절에서 살펴보았듯이 Brand2Vec은 브랜드와 단어를 같은 공간에 표현하 기 때문에, 브랜드와 단어 사이의 유사도 계산이 가능하다. 표 4.3은 Samsung, Canon 브랜드 벡터와 유사한 단어 벡터를 나열한 것이다. Samsung 브랜드 벡터 와 가장 유사한 단어로 samsung, picture quality, black levels 가 등장하였 고, Canon 브랜드 벡터와 가장 유사한 단어로 shoot, canon 등이 등장하였다. Apple은 apple, ipad, ipad mini 와 같은 단어를 추출할 수 있다. 이를 통해 각각의 브랜드 벡터가 해당 브랜드의 제품 특징을 잘 반영하고 있는 것을 알 수 있다. 표 4.3: Samsung, Canon, Apple 브랜드 벡터와 유사한 단어벡터 Samsung Canon Apple 단어벡터 유사도 단어벡터 유사도 단어벡터 유사도 samsung shoot apple picture quality canon ipad black levels low light ipad mini smart hub shots iphone tvs shooting generation superb camera ipad looks dslr macbook smart tv portraits 0.18 gen refresh rate stabilization imac plasma canon powershot itunes 추가적으로 Brand2Vec 방법은 브랜드뿐만 아니라 단어도 벡터로 표현하기 때문에 브랜드 벡터와 단어 벡터 사이에도 유사도 계산이 가능하다. 예를 들어 computer, desktop 두 단어 벡터의 평균값과 브랜드의 코사인 유사도를 계산하여 유사도가 높은 상위 5개를 정렬하면 표 4.4와 같다. 23

32 표 4.4: (pc + laptop)/2 와 유사한 브랜드 브랜드 HP Toshiba Dell Acer Lenovo 유사도 비슷하게 earphone, headphone 단어 벡터의 평균값과, camera, cameras 단어 벡터의 평균값에 각각 유사한 브랜드는 표 4.5와 같다. 표 4.5의 (a)에 Sennheiser, Monoprice 모두 이어폰과 헤드폰을 주로 판매하는 브랜드이며, (b)에서 Canon, Sony, Nikon과 같은 카메라 제조 브랜드가 등장함을 알 수 있다. 표 4.4와 표 4.5를 통해 브랜드 벡터가 제품의 속성을 내포하고 있으며, 브랜드 벡터와 단어 벡터를 같은 공간에서 비교할 수 있음을 알 수 있다. 표 4.5: 단어 벡터 평균값과 유사한 브랜드 (a) (earphone+headphone)/2 브랜드 유사도 1 Sennheiser Monoprice 3 (b) (camera+cameras)/2 브랜드 유사도 1 Canon Sony JVC Nikon Bose Panasonic Cooler Master eforcity 실제 마케팅에서 중요한 것은 경쟁사와 비교했을 때 상대적인 자사 브랜드의 특징을 찾는 것이다. 위의 방법을 조금 발전시켜 같은 단어에 대해 다른 브랜드 와 자사 브랜드 간의 상대적 거리를 계산하면 자사 브랜드의 특징적인 단어를 추출할 수 있다. 단어와 브랜드 간의 상대적 거리를 계산하기 위해 다음과 같은 확률유사도 24

33 라는 거리 척도를 도입하였다. 먼저, 단어 벡터 집합을 A {vthe, vis,...} 라고 하자. 그리고 비교하고 싶은 브랜드 벡터 집합을 B {vsamsung, vasus,...} 라고 하자. 이 때, 단어와 브랜드 간의 거리 척도는 식 4.2와 같다. exp(bi Aj ) brands exp(bbrand Aj ) P (Bi Aj ) = P (4.2) 제안한 거리 척도값은 0과 1 사이의 값을 가진다. 그리고 임의의 브랜드 X에 대 해 확률유사도가 높은 단어는 타 브랜드에 비해서 X 브랜드와 거리가 가깝다는 것을 의미한다. Samsung, Canon, Apple, Microsoft 브랜드에 대해 척도값이 1에 가까운 키 워드들을 추출한 결과는 표 4.6와 같다. 표 4.6의 3번째 열에 해당하는 빈도 는 해당 단어가 각 브랜드 리뷰에서 나온 횟수를 의미한다. 25

34 image looks samsung galaxy led basic family following lag tvs text compared standard contrast series resolution blacks picture quality 218 sharp 6, samsung 빈도 확률유사도 smart hub 단어 (a) Samsung 브랜드 키워드 ipad ever loved screen android new her macbook air imac kindle fire retina display macbook ipads iphone apple products itunes apple retina gen generation 단어 확률유사도 2, , , , 빈도 (b) Apple 브랜드 키워드 aperture aps c blurry photographs wide open subjects photographers image stabilization shoot indoors field portraits dslrs eos shoots mark iii cannon t4i canon powershot canon eos 확률유사도 단어 , 빈도 (c) Canon 브랜드 키워드 표 4.6: 제안한 방법으로 추출한 키워드 microsoft surface ergonomic mouse click win trackpad ms keys fingers rt mice keyboard typing surface rt productivity microsoft keyboards type cover onenote windows rt 확률유사도 단어 , , ,812 4, 빈도 (d) Microsoft 브랜드 키워드

35 Samsung의 경우 picture quality, led, resolution, samsung galaxy 등 TV, 스마트폰 그중에서도 특히 디스플레이 관련 단어들이 등장하였다. Apple 은 일반적인 명사보다는 iphone, ipad, macbook 등 고유 명사가 많이 추 출되었다. Canon은 canon powershot, mark III 등 브랜드의 제품명 뿐만 아니라 portraits, shoot, subjects 등 사진과 관련된 단어들이 추출되었 다. Microsoft 역시 onenote, keyboards, microsoft 등 특징적인 키워드를 추출할 수 있었다. 그러나 Samsung의 blacks, basic, Apple의 her, loved 등의 단어는 직관적으로 이해하기가 어려운 단어들이다. 이러한 단어가 추출된 이유를 확인하기 위해 표 4.7와 표 4.8에서는 해석이 직관적이지 않은 단어 들 에 대해 PMI(Pointwise Mutual Information) (Manning and Schu tze, 1999)를 계산하여 함께 자주 등장하는 단어를 추출하였고, 실제 원문을 확인해 보았다. 주변단어 열의 괄호안의 수치가 해당 단어의 PMI 값이다. 먼저 표 4.7 (a)의 Samsung의 경우 blacks 라는 단어는 black, colors 등 의 색깔을 나타내는 단어와 함께 사용됨을 확인할 수 있었다. 실제 원문을 봐도 blacks 라는 단어가 TV 제품의 화질과 관련된 문맥에서 사용됨을 알 수 있다. basic 이라는 단어는 삼성 Chromebook, Galaxy Note 3와 같은 중저가 제품에 대해 평가할 때 많이 등장한 것을 알 수 있다. Apple의 경우에는 her 라는 단어를 통해 남성이 딸 혹은 아내에게 선물을 많이 주는 제품인 것을 알 수 있다. 또한, loved 라는 단어를 통해 제품에 대해 만족스러운 감정을 갖고 있는 것을 확인할 수 있었다. 이와 마찬가지로 표 4.8에서 볼 수 있듯이, Canon의 field 와 blurry 를 통 해 각각 낮은 심도(depth of field)와 흐린 사진 등에 대한 소비자의 인식이 반영된 키워드임을 확인할 수 있었다. Microsoft의 ergonomic, productivity 등의 키 워드는 주변단어와 원문을 통해 인체공학적이고, 생산성에 관련된 주제에 대한 언급이 브랜드의 특징임을 확인할 수 있었다. 27

36 표 4.7: Samsung, Apple 브랜드키워드및해당원문 (a) Samsung 키워드주변단어실제원문 blacks basic black (7.15) colors (7.28) features (2.82) remote (2.48) It s colors explode, it s blacks are black, it s whites are white, flesh tones are real, and all of it is super sharp. The picture is amazing; rich colors, black blacks, nice bezel, solid base! Features are basic and are comparable to that of a generic low budget tablet. The SG tab 3 operates fairly slowly no matter how much ram you free up. I hold the button down and nothing happens. I switch to the basic remote that came with the TV and it works just fine. (b) Apple 키워드주변단어실제원문 her loved daughter (5.44) she (5.43) them (4.15) it (2.32) Love this ipad. My daughter uses it so much for her dance studio. Easier than lugging along her laptop I got this for my girlfriend to replace her ipod 4 she loves taking pictures and the camera is great on this its fast and responsive plays games great all around satisfied I ve purchased three Apple TVs over the past few years & have loved them all. I had first purchased the ipad when it first came out, wasn t impressed and returned it. Bought the 2nd version, loved it and have had it ever since. 28

37 표 4.8: Canon, Microsoft 브랜드키워드및해당원문 (a) Canon 키워드주변단어실제원문 field blurry shallow depth (9.49) depth (9.08) were (4.62) pictures (3.66) It enables the camera to focus faster, have shallow depth of field (often resulting in beautiful bokehbackground blur patterns) and have higher shutter speeds. It s a cheaper way to get there, and beautifully composed images with a narrow depth of field can be taken with it. All the pictures were blurry; and when checking it out on YouTube, I found that others had the same experience...out of focus pictures. With this camera, it s really easy to take blurry pictures. (b) Microsoft 키워드주변단어실제원문 ergonomic productivity microsoft sculpt (7.66) desktop (3.62) apps (3.99) tablet (2.28) The Microsoft Sculpt Ergonomic Mouse is thoughtfully designed and is comfortable for web surfing and light computing. Overall, though this is our first day using the ergonomic desktop, we were both very impressed. As my husband said, Great job Microsoft! Some productivity apps are not as matured as the Android ones or ipad. Some examples are Adobe Reader, Kindle, Caluclator, etc. If you are looking for a tablet/laptop to increase your productivity, I don t think that you can do better than this. 29

38 4.4 결론 및 의의 본 연구에서는 UGC를 활용하여 브랜드를 분산 표상 벡터로 표현하는 방법 인 Brand2Vec 방법을 제안하였다. 먼저, 적절한 parameter 탐색 방법을 제안하 여 벡터 차원 수, window size, training epoch 등의 parameter 탐색을 하였다. parameter에 따른 분류 정확도의 차이가 적은 것을 통해 Brand2Vec 방법론이 parameter에 강건함을 확인하였다. 브랜드 시각화는 Dendrogram과 t-sne를 사용하였다. Dendrogram을 통해 계층적 군집화 과정을 시각화하였다. 이를 통해, Dell, Lenovo 등의 브랜드가 브 랜드 단위로 유사할 뿐만 아니라, Dell, Lenovo가 속해있는 군집이 Asus, Acer 가 속해있는 군집과 유사함을 확인할 수 있었다. 또한, 각 군집의 평균 벡터를 계산하여 군집에 대한 해석력을 제공할 수 있는 단어 목록을 word cloud를 통해 시각화 하였다. t-sne를 통해서는 다수 브랜드의 상대적 거리를 2차원으로 시각 화하여 브랜드들의 포지셔닝을 확인할 수 있었다. 기존의 방법과 달리 전처리를 최소화 하여 객관적이며 해석력을 갖춘 지각도를 그릴 수 있었다. 또한, Brand2Vec 방법은 브랜드뿐만 아니라 단어도 같은 공간에 표현하기 때문에 브랜드와 단어 간의 유사도 계산이 가능하다. 본 연구에서는 이러한 성 질을 활용하여 타 브랜드에 비해 두드러지는 키워드를 추출할 수 있는 방법을 제안하였다. Samsung, Apple, Canon, Microsoft 에서 각각 두드러지는 키워드 를 추출하였고, 원문을 확인하여 정성적으로 검증하였다. 본 연구의 한계는 다음과 같다. Brand2Vec은 브랜드를 하나의 벡터로 표 현하였기 때문에 브랜드의 다양한 차원에 대해 분석하지 못하였다. 일반적으로 소비자들은 브랜드를 다차원으로 인식한다. 예를 들어 브랜드의 가격, 품질, 서비 스 등 다양한 측면에 대해 소비자들의 생각이 있을 수 있다. 이러한 문제는 향후 토픽 모델링 방법을 적용하여 보완할 수 있을 것이다. 또한, 각 브랜드에 대한 감성 정보를 모델에 반영하지 못했다. 리뷰 데이터에는 별점 정보가 포함되어 30

39 있으므로 각 리뷰 문서가 브랜드에 대해 긍정적인 의견인지 부정적인 의견인지 유추할 수 있다. 향후 시간에 따른 브랜드 인식변화를 확인하기 위해 서로 다른 시간대의 문 서를 학습한다면 동적 분석이 가능할 것이다. 또한, 동일한 방법으로 리뷰 데이터 뿐만 아니라 Facebook, Youtube 등 각종 소셜미디어를 활용할 수도 있을 것이 다. 그리고 브랜드뿐만 아니라 영화, 연예인, 정치인, 운동선수 등도 UGC 상에서 활발히 언급되기 때문에 벡터로 표현하여 의사결정에 활용할 수 있을 것으로 기대 한다. UGC뿐만 아니라 공시를 활용한 기업, 법안을 활용한 정치인, 시나리오를 활용한 영화, 특허 문서를 활용한 국가기관 등 다양한 대상을 표현할 수 있을 것이다. 31

40 참고문헌 Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Janvin. A neural probabilistic language model. The Journal of Machine Learning Research, 3: , Danqi Chen and Christopher D Manning. A fast and accurate dependency parser using neural networks. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), volume 1, pages , I-Ping Chiang, Chih-Ying Lin, and Kaisheng M Wang. Building online brand perceptual map. CyberPsychology & Behavior, 11(5): , Ronan Collobert and Jason Weston. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning, pages ACM, Paul Dwyer. Inferring brand proximities from user-generated content. Journal of Brand Management, 19(6): , Laura Ferreira and David B Hitchcock. A comparison of hierarchical methods for clustering functional data. Communications in Statistics-Simulation and Computation, 38(9): , Andrea Frome, Greg S Corrado, Jon Shlens, Samy Bengio, Jeff Dean, and 32

41 Tomas Mikolov. Devise: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems, pages , Stephen Hands and Brian Everitt. A monte carlo study of the recovery of cluster structure in binary data by hierarchical clustering techniques. Multivariate Behavioral Research, 22(2): , Zellig S Harris. Distributional structure. Word, Geoffrey E Hinton and Sam T Roweis. Stochastic neighbor embedding. In Advances in neural information processing systems, pages , Dong Jin Kim, Woo Gon Kim, and Jin Soo Han. A perceptual mapping of online travel agencies and preference attributes. Tourism management, 28 (2): , Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, Richard Zemel, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. Skip-thought vectors. In Advances in Neural Information Processing Systems, pages , F Kent Kuiper and Lloyd Fisher. 391: A monte carlo comparison of six clustering procedures. Biometrics, pages , Quoc V Le and Tomas Mikolov. Distributed representations of sentences and documents. arxiv preprint arxiv: , Christopher D Manning and Hinrich Schütze. Foundations of statistical natural language processing. MIT press, Julian McAuley, Christopher Targett, Qinfeng Shi, and Anton van den Hengel. Image-based recommendations on styles and substitutes. In Proceedings of 33

42 the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages ACM, Tomas Mikolov, Stefan Kombrink, Lukas Burget, Jan Honza Cernocky, and Sanjeev Khudanpur. Extensions of recurrent neural network language model. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, pages IEEE, Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arxiv preprint arxiv: , 2013a. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages , 2013b. Marie-Francine Moens, Juanzi Li, and Tat-Seng Chua. Mining user generated content. CRC Press, Abdel-rahman Mohamed, Geoffrey Hinton, and Gerald Penn. Understanding how deep belief networks perform acoustic modelling. In Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on, pages IEEE, Mignon Reyneke, Leyland Pitt, and Pierre R Berthon. Luxury wine brand visibility in social media: an exploratory study. International Journal of Wine Business Research, 23(1):21 35,

43 David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. Learning representations by back-propagating errors. Cognitive modeling, 5:3, Gerard Salton. Automatic text processing: The transformation, analysis, and retrieval of. Reading: Addison-Wesley, Seshadri Tirunillai and Gerard J Tellis. Mining marketing meaning from online chatter: Strategic brand analysis of big data using latent dirichlet allocation. Journal of Marketing Research, 51(4): , Laurens Van der Maaten and Geoffrey Hinton. Visualizing data using t-sne. Journal of Machine Learning Research, 9( ):85, Joe H Ward Jr. Hierarchical grouping to optimize an objective function. Journal of the American statistical association, 58(301): , Feng Zhu and Xiaoquan Zhang. Impact of online consumer reviews on sales: The moderating role of product and consumer characteristics. Journal of marketing, 74(2): ,

44 Appendix 단어 유사도 빈도 router ,528 modem ,285 isp comcast ,958 network ,466 docsis modem streaming services wifi ,126 netflix ,996 called comcast 그림 8: 그룹 3 과유사한단어목록및 Word cloud 단어 유사도 빈도 ssd ,888 hard drive ,592 hard drives ,674 hdd ,720 drives ,670 samsung evo drive ,695 external hard ,732 sata iii kingston 그림 9: 그룹 4 와유사한단어목록및 Word cloud 36

45 단어 low light zoom shoot nex camera shots cameras nikon viewfinder sony nex 유사도 빈도 3,180 6,633 5,164 1,099 53,380 4,032 5,794 6,044 1, 그림 10: 그룹 5와 유사한 단어 목록 및 Word cloud 단어 headphones these headphones sound sounds speakers stereo bass earphones headphone headset 유사도 빈도 17,091 4,696 47,012 6,187 15,215 4,158 9,401 1,895 3,497 5,307 그림 11: 그룹 6과 유사한 단어 목록 및 Word cloud 단어 product cover item charger protect sleeve case leather backpack seller 유사도 그림 12: 그룹 7과 유사한 단어 목록 및 Word cloud 37 빈도 49,113 10,162 11,470 8,015 2,930 1,444 44,892 1,146 2,293 3,453

46 Abstract We propose a method that transforms brands into vectors using distributed representation, which enables visualization of relationships among brands, while extracting descriptive keywords. Understanding the position of brands in consumer psychology is essential for brand management and customer relationship management, because it helps firms with making strategic decisions. Many researchers and corporations have collected data from on/offline surveys in order to visualize brand relations. However, there are many limitations in using survey because it is subjective, expensive and non-sustainable. With the advance of the Internet, companies have tried to use User Generated Contents(UGC) to tackle these shortcomings. Our proposed model, Brand2Vec, calculates brand similarities and extracts keywords by projecting brand information and text data to the same embedding space when being trained within neural network. Our evaluation shows that Brand2Vec is robust to parameters, hence objective and replicable. Moreover, it does not require many preprocessing steps. The relationships among brands can be visualized using hierarchical clustering and t-sne from the trained brand vectors. Finally, Brand2vec provides descriptive keywords using trained distributed representation of brands. In this paper, we demonstrate the case of famous brands such as Samsung, Apple, Canon and Microsoft, and we evaluate the result qualitatively. Keywords: Customer Reviews, Distributed Representation, Keyword Extraction, Brand Positioning Student Number: