ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 22, No. 11, pp. 619-624, 2016. 11 http://dx.doi.org/10.5626/ktcp.2016.22.11.619 장소정보를학습한딥하이퍼넷기반 TV 드라마소셜네트워크분석 (Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks) 남장군 김경민 장병탁 (Chang-Jun Nan) (Kyung-Min Kim) (Byoung-Tak Zhang) 요약 Social-aware video 는자유로운스토리전개를통해인물들간의관계뿐만아니라경제, 정치, 문화등다양한지식을사람에게전달해주고있다. 특히장소에따른사람들간의대화습성과행동패턴은사회관계를분석하는데있어서아주중요한정보이다. 하지만멀티모달과동적인특성으로인해컴퓨터가비디오로부터자동으로지식을습득하기에는아직많은어려움이있다. 이러한문제점들을해결하기위해기존의연구에서는딥하이퍼넷모델을사용하여드라마등장인물의시각과언어정보를기반으로계층적구조를사용해소셜네트워크를분석하였다. 하지만장소정보를사용하지않아전반적인스토리로부터소셜네트워크를분석할수밖에없었다. 본논문에서는기존연구를바탕으로장소정보를추가하여각장소에서의인물특성을분석해보았다. 본논문에서는총 4400 분분량의 TV 드라마 Friends 를사용했고 C-RNN 모델을통해등장인물을인식하였으며 Bag of Features 로장소를분류하였다. 그리고딥하이퍼넷모델을통해자동으로소셜네트워크를생성하였고각장소에서의인물관계변화를분석하였다. 키워드 : 소셜네트워크분석, 친밀도분석, 멀티모달개념학습, 딥하이퍼넷, 딥러닝 Abstract Social-aware video displays not only the relationships between characters but also diverse information on topics such as economics, politics and culture as a story unfolds. Particularly, the speaking habits and behavioral patterns of people in different situations are very important for the analysis of social relationships. However, when dealing with this dynamic multi-modal data, it is difficult for a computer to analyze the drama data effectively. To solve this problem, previous studies employed the deep concept hierarchy (DCH) model to automatically construct and analyze social networks in a TV drama. Nevertheless, since location knowledge was not included, they can only analyze the social network as a whole in stories. In this research, we include location knowledge and analyze the social relations in different locations. We adopt data from approximately 4400 minutes of a TV drama Friends as our dataset. We process face recognition on the characters by using a convolutional-recursive neural networks model and utilize a bag of features model to classify scenes. Then, in different scenes, we establish the social network between the characters by using a deep concept hierarchy model and analyze the change in the social network while the stories unfold. Keywords: social network analysis, affinity analysis, multimodal concept learning, deep hypernetwork, deep learning 이논문은 2016년도정부 ( 미래창조과학부, 국방부 ) 의재원으로정보통신기술진흥센터 (R0126-16-1072-SW 스타랩 ), 한국산업기술평가관리원 (10044009-HRI. MESSI, 10060086-RISF), 국방과학연구소 (UD130070ID-BMRR) 의지원을받아수행된연구임 이논문은 2015 한국컴퓨터종합학술대회에서 장소정보를학습한딥하이퍼넷기반 TV드라마소셜네트워크분석 의제목으로발표된논문을확장한것임 비회원 : 서울대학교컴퓨터공학부 cjnan@bi.snu.ac.kr 학생회원 : 서울대학교컴퓨터공학부 kmkim@bi.snu.ac.kr 종신회원 : 서울대학교컴퓨터공학부교수 (Seoul National Univ.) btzhang@bi.snu.ac.kr (Corresponding author 임 ) 논문접수 : 2016년 3월 16일 (Received 16 March 2016) 논문수정 : 2016년 7월 19일 (Revised 19 July 2016) 심사완료 : 2016년 8월 23일 (Accepted 23 August 2016) CopyrightC2016 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회컴퓨팅의실제논문지제22권제11호 (2016. 11)
620 정보과학회컴퓨팅의실제논문지제 22 권제 11 호 (2016. 11) 1. 서론 Social-aware video는자유로운스토리전개를통해인물들간의관계뿐만아니라경제, 정치, 문화등다양한지식을사람에게전달해주고있다. 특히부동한장소에서사람의대화습성과행동패턴은사회관계를분석하는데있어서아주중요한정보이다. 이러한지식을컴퓨터로부터자동으로습득하고소셜네트워크를생성할수있으면인물관계를분석하는데도움이될뿐만아니라더나아가서새로운스토리생성에도적용할수있다. 하지만비디오의멀티모달과동적인특성으로인해비디오를분석하기에어려움이있다. 최근에 Social-aware video 분석과관련된연구들이많이이루어졌다. [1] 은물체의상호작용특징정보와시공간적정보로부터인물관계를분석하였고 [2] 는소셜커뮤니티분석방법을적용하여영화속등장인물간의사회관계를정의하였다. 이러한방법들은인물의역할과사회적배경에대한지식을미리정의한다음분석을시도하였다. 제안된방법은막대한시간과인력이필요해드라마와같은대용량데이터에는적용할수가없다. 드라마로부터소셜네트워크를자동으로분석하기위해 [3] 은자동으로개념을학습할수있는딥하이퍼넷을사용하였다. 딥하이퍼넷은비디오의등장인물정보와시각-언어정보를이용해소셜네트워크를생성하여스토리의전반적인인물관계특성을분석할수있다. 본연구에서는딥하이퍼넷을사용하여 4400분분량의드라마 Friends 를분석하였다. 그림 1은본연구에서제안하는분석방법의파이프라인을보여준다. 데이터전처리과정에서 6명의등장인물을인식하기위해얼굴 인식모델을적용하였고 Bag of Features를통해자동으로장소를인식하였다. 실험에서딥하이퍼넷을통해부동한장소에서의소셜네트워크를구축하였고장소에따른인물간친밀도와인물관계특성을분석해보았다. 본연구에서는 [3] 에비해부동한장소에서의인물사이의소셜네트워크의특성을관찰할수있었다. 예를들어 Ross와그의동생 Monica의가장친밀하고 Rachel 과 Monica는 Women living room과 Cafe에서친밀도가가장높다는결과를볼수가있는데이러한지식정보는컴퓨터가스스로학습을하여추출한정보라는점이다. 이는기존에사람이직접지식베이스를구축하여분석하였던방법에비해시간과인력을줄여줄수있다. 2. 심층개념구조 2.1 심층개념구조생성그림 2는심층개념구조를 [4] 나타낸다. 모델자체는멀티레이어로구성되었고 SPC 모델 [5] 을이용하여이미지-자막페어를구성하여 Monte Carlo Sampling 방법을통해 H층의 Low-Layer 하이퍼에지를구성한다. C 1 층노드는 H층하이퍼에지의부분집합을클러스터링한조합이고노드의수량은학습에따라변하게된다. (1) h m 는 C 1 층의 m번째노드에연결된하이퍼에지들이고함수 Dist는에지사이들의유클리드디스턴스이다. Sim(h m ) 가임계값을넘을때노드는두개로갈라지게된다. 그중임계값은 Sim들의평균과표준편차에의해정한다. C 2 층의노드는등장인물에대응되며 C 1 층과의연결은등장인물들이나타나는 Scene에의해결정된다. 그림 1 TV 드라마소셜네트워크분석방법 Fig. 1 The pipeline of social network analysis on TV drama
장소정보를학습한딥하이퍼넷기반 TV 드라마소셜네트워크분석 621 에피소드를학습할때식 (5) 으로가중치를업데이트한다. (5) 는이전에피소드에비해새로운에피소드를학습하는비중이다. 본연구에서는 를 0.9로정한다. 3. 등장인물인식방법 그림 2 딥하이퍼넷의구조 Fig. 2 Architecture of deep concept hierarchies 2.2 심층개념구조학습본연구에서비디오의매개이미지- 자막페어를하나의 mini corpus로정의하였고심층개념구조의학습과정에서순차적으로시각적언어개념망을만드는동시에에피소드를관찰하면서순차적베이지안추론에의해개념망의이미지-자막페어를업데이트한다. (2) 이진벡터 r, w 는이미지패치와단어의특징벡터이고 c 1, c 2 는노드의존재여부를판단한다. e는하이퍼에지들의집합이고 는에지들의가중치이다. 파라미터 와 c 1, c 2 가주어졌을때 (2) 의수식으로학습이진행된다. P t 는 t번째에피소드에대한매개변수의확률분포이다. t번째에피소드를관찰하였을때사전확률분포 P t-1( ) 는 likelihood와 normalization을계산함으로써사후확률분포를업데이트한다. 업데이트된사후확률분포는그다음에피소드의학습의사전확률분포로사용된다. 데이터생성관련항은텍스트와이미지패치의특징벡터로나누어져있다. (3) d 는에피소드의 d 번째이미지-자막순서이고이때 m번째엘리먼트가 1인확률은식 (4) 와같다. (4) e c 는값이 1인 c 2 에연결된노드의하이퍼에지집합이고 S m 은 s의 m번째엘리먼트이다. e w i 은 i번째하이퍼에지의단위벡터이다. 학습초기에에지들의가중치는에피소드에서나타나는빈도수에의해부여되고새로운 드라마등장인물을인식하기위하여컨볼루션-순환딥러닝 (C-RNN)[6] 모델을적용하였다. 컨볼루션-순환딥러닝모델은데이터로부터특징점을자동으로추출할수있는단일계층 CNN과얼굴인식에얼굴을추론하는 Deep RNN의조합으로이루어졌다. 학습알고리즘은크게 4개단계로기술된다. 단계1. Face Detection을통한얼굴이미지를정규화및화이트닝을거친후 K-means를적용하여군집화. 단계2. 단일계층의 CNN을통해컨볼루션벡터를추출. 단계3. 벡터들을 Tree구조 RNN에입력하여재귀적학습. 단계4. 최상위벡터를 Softmax에입력하여결과를출력. 본연구에서는제안된 C-RNN모델의학습을위해 6 명등장인물의얼굴이미지 6000장을학습시켜테스트한결과 89% 이상의인식률을보였다. 4. 장소인식방법 Bag of Features(BoF)[7] 는이미지에서추출된특징벡터를통해영상 바코드 를만들어분류하는기술이다. 본연구에서는 SIFT벡터를추출하여 K-means 클러스터링을이용해 BoF를생성하였고 SVM으로클래스들의 BoF분포를학습하였다. 실험을위해드라마에서출현하는 7개의장소이미지 350장을학습하였고테스트셋으로 350장을실험한결과 77.0% 의인식률을보였다. 5. 실험결과 5.1 데이터및전처리실험을위해드라마- Friends 183편, 4400분분량의비디오데이터를사용하였다. Friends 는주인공의변화가없고활동장소가적어데이터처리가쉽고인물관계의변화가급격하지않다. 제안된얼굴인식모델을통해 6명의등장인물을인식하였고 BoF모델로 7개의장소를인식하였다. 이미지패치는 R-CNN[8] 를사용하여 4096차원의특징벡터를추출하였고자막은 Word- 2vec[9] 을적용하여 200차원의실수벡터로표현하였다. 5.2 소셜네트워크분석및시각화그림 3은 6명등장인물의 C 1 층노드하이퍼에지를 PCA를이용하여 2차원공간에매핑한결과이다. PCA 매핑결과에서시나리오의전개에따라하이퍼에지가각등장인물을중심으로군집되어가는것을볼수있다.
622 정보과학회컴퓨팅의실제논문지제 22 권제 11 호 (2016. 11) 그림 3 C2층등장인물개념변수에연결된하이퍼에지를 PCA로매핑한결과 Fig. 3 PCA plot of hyperedges associated with the concrete concept nodes 그림 4는딥하이퍼넷를이용하여생성된등장인물소셜네트워크이다. 그래프에서등장인물과연결된노드는추상적인인물관계를시각화한것이다. 그래프를통해인물관계를직관적으로관찰할수가있다. 5.3 장소에의한등장인물친밀도분석그림 5는심층개념구조를통해시간의전개에따라등장인물소셜네트워크를분석한결과이다. 등장인물의하이퍼에지가중치는에피소드에서인물과의관련성을 의미함으로두등장인물들이동시에포함되여있는에지들의가중치는친밀도로정의할수있다. 그래프에서두인물사이에연결된선의개수는그들이공유하는하이퍼에지의개수를표시하고각등장인물에표시된히스토그램은기타인물과공유하는하이퍼에지들의가중치의합이다. 즉통계값이높을수록높은친밀도를의미한다. 그래프를보면드라마 10편의인물관계는연관성이많이없었지만 49편까지학습한등장인물간소셜네트워크는상대적으로연관성이높았다. 또한 Ross, Joey, Phoebe는기타인물에비해높은가중치를가지고있다. 이런정보는드라마속의인물등장비율, 대본수량, 인물중요성등기타관련정보를추측하는데수학적인근거가될수있다. 그림 6은부동한장소에따른인물관계그래프이다. 결과를보면 Rachel과 Monica는 Women living room 과 Cafe에서친밀도가가장높다는결과를볼수가있는데이두장소는드라마에서가장많이출현하는장소이다. 또한이런정보를이용하여드라마에서장소에따른인물간의관계및특성을쉽게알아낼수있다. 6. 결론및논의본연구는드라마의등장인물소셜네트워크를자동으로생성하고분석하는방법을제안하였다. 제안한방법은생성된소셜네트워크를이용하여변화하는인물관계를효율적으로추적할수있다. 실험을위해얼굴인 그림 4 인물중심소셜네트워크시각화 Fig. 4 Visualization of the social network for characters
장소정보를학습한딥하이퍼넷기반 TV 드라마소셜네트워크분석 623 그림 5 등장인물사이의친밀도그래프 Fig. 5 Affinity between characters 그림 6 부동한장소에서의인물사이관계의변화 Fig. 6 Inter-relations between characters in each scene 식과장소인식기술을적용해부동한장소에서의등장인물간소셜네트워크를생성하였고장소에따른인물특성을분석해보았다. 이러한비디오의소셜네트워크방법은다양한기계학습과인공지능기법을도입함으로서컴퓨터가스스로학습을하여정보를추출할수가있다. 향후의연구에서는 SNS로부터얻은데이터에제안된방법을적용해볼수있다. References [1] V. Ramanathan, B. Yao, and L. Fei-Fei, "Social Role Discovery in Human Events," Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR2013), pp. 2475-2482, 2013. [2] C.-Y. Weng, W.-T. Chu, and J.-L. Wu, "RoleNet: Movie Analysis from the Perspective of Social Networks," Proc. of IEEE Transactions on Multimedia (TMM2009), pp. 256-271, 2009. [3] C.-J. Nan, K. M. Kim, and B.-T. Zhang, "Social Network Analysis of TV Drama Characters via Deep Concept Hierarchies," Proc. of International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2015), pp. 831-836, 2015. [4] J.-W. Ha, K.-M. Kim, and B.-T. Zhang, "Automated Construction of Visual-linguistic Knowledge via Concept Learning from Cartoon Videos," Proc. of the Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI 2015), pp. 522-528, 2015.
624 정보과학회컴퓨팅의실제논문지제 22 권제 11 호 (2016. 11) [5] B.-T. Zhang, J.-W. Ha, and M. Kang, "Sparse Population Code Models of Word Learning in Concept Drift," Proc. of Annual Meeting of the Cognitive Science Society (CogSci 2012), pp. 1221-1226, 2012. [6] R. Socher, B. Huval, B. Bath, C. D. Manning, and A. Y. Ng, "Convolutional-recursive Deep Learning for 3D Object Classification," Proc. of International Conference on Advances in Neural Information Processing Systems(NIPS2012), pp. 665-673, 2012. [7] L. Fei-Fei, "A Bayesian Hierarchical Model for Learning Natural Scene Categories," Proc. of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR2005), Vol. 2, pp. 524-531, 2005. [8] A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet Classification with Deep Convolutional Neural Networks," Proc. of International Conference on Advances in Neural Information Processing Systems (NIPS 2012), pp. 1097-1105, 2012. [9] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representation of Words and Phrases and Their Compositionality," Proc. of International Conference on Advances in Neural Information Processing Systems (NIPS 2013), pp. 3111-3119, 2013. 년삼성종합기술연구원 (SAIT) 객원교수. 현재서울대인지과학연구소소장, Applied Intelligence, BioSystems, Journal of Cognitive Science 등국제저널편집위원. 관심분야는바이오지능, 인지기계학습, 분자진화컴퓨팅기반뇌인지정보처리모델링 남장군 2014년 Harbin Engineering University 전자정보공학부학사. 2014년~현재서울대학교컴퓨터공학부석사과정. 관심분야는기계학습, 컴퓨터비전, 인지과학 김경민 2013 년홍익대학교컴퓨터공학과학사 2013 년 ~ 현재서울대학교컴퓨터공학부석박사통합과정. 관심분야는기계학습, Computational Intelligence, 멀티미디어마이닝, 인지과학 장병탁 1986 년서울대컴퓨터공학과학사. 1988 년서울대컴퓨터공학과석사. 1992 년독일 Bonn 대학교컴퓨터과학박사. 1992 년 ~1995 년독일국립정보기술연구소연구원. 1997 년 ~ 현재서울대컴퓨터공학부교수및인지과학, 뇌과학, 생물정보학협동과정겸임교수. 2003 년 ~2004 년 MIT 인공지능연구소 (CSAIL) 및뇌인지과학과 (BCS) 객원교수. 2007 년 ~2008