위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판



Similar documents
서 형성되는 관계에 대한 연구 [4]가 이루어지고 있다. 실제 사회에서 하나의 집단을 가지고 할 수 있는 분석 방식이 다양하듯 인터넷에서 다양한 방면의 분석이 이루어지는 것을 확인할 수 있다. 본 보고서에서는 인터넷 커뮤니티에서 사용자들이 어떠한 관계를 나타내는지에 대

8월-이윤희-1.indd

영상5월_펼침면

내지-2도뻂

기업들의 SNS마케팅 전략 사례연구

제 31회 전국 고교생 문예백일장 산문 부문 심사평.hwp

( )업계소식

( )전국네트워크


( )업계소식

( )업계소식(14.01월)

<5BC6EDC1FD5DBFA9BCBAC0C720BFC2B6F3C0CE20C0CEB1C7C7C7C7D820C7F6C8B2B0FA20B0B3BCB1B9E6BEC82E687770>

R을 이용한 텍스트 감정분석

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp

정보화 산업의 발전단계 : 정보혁명의 진화 정보화 산업의 발전단계 1세기에 두 번 정도의 큰 기술혁명이 이루어져 경제성장의 원동력으로 작용 uit 시대는 정보혁명 중 인터넷 이후의 새로운 기술혁명인 컨버전스 기술이 핵심이 되는 시대 uit 시대는 정보화의 극대화와 타

hwp

<C1A4C3A5B8DEB8F05FC1A C8A35F534E535FBAF220B5A5C0CCC5CD20C8B0BFEBB0FA20B0ADBFF8B0FCB1A42E687770>

02( ) CPL12-16.hwp

À¯Çõ Ãâ·Â

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

01

포맷

SS Term #3.doc

Press Arbitration Commission 62

Layout 1

영상6/7월pdf

2015

ÀÌÀç¿ë Ãâ·Â

공공기관 지식경영

09´ëÇк°¼Ò°³-¼�¿ïÄ·2

미래 서비스를 위한 스마트 클라우드 모델 수동적으로 웹에 접속을 해야만 요구에 맞는 서비스를 받을 수 있었다. 수동적인 아닌 사용자의 상황에 필요한 정보를 지능적으로 파악 하여 그에 맞는 적합한 서비스 를 제공할 수 새로운 연구 개발이 요구 되고 있다. 이를 위하여,

<372E20B9DAC0B1C8F12DB0E62E687770>

09오충원(613~623)

hwp

PowerPoint 프레젠테이션

FreeBSD Handbook

2: [9] 3 3: [9] 4 3 1, 3 (Seifert Surfaces) 3

04( ) DBV13-06.hwp



(주)나우프로필의 이동형 대표 개편의 방향이 시민참여를 많이 하는 방향이라, 홈페이지 시안 이 매우 간편해져서 소통이 쉬워질 것 같다. 다만 웹보다 모바일 이용자가 지속적으로 급증하는 추세이므로 이에 적합한 구조가 되도록 보장해야 한다. 소셜미디어전략연구소 배운철 대표

지난 10월 6일과 12일

제19권 제3호 Ⅰ. 문제제기 온라인을 활용한 뉴스 서비스 이용은 이제 더 이 상 새로운 일이 아니다. 뉴스 서비스는 이미 기존의 언론사들이 개설한 웹사이트를 통해 이루어지고 있으 며 기존의 종이신문과 방송을 제작하는 언론사들 외 에 온라인을 기반으로 하는 신생 언론사

08SW

01¸é

01

< D D2D2D2D2D2D2D31372DC3D6BFACC1F82CC1A4BFACB0E62D2D2D2D2D2D2D2D2D2D2D2DC7D0C8B831C2F7BCF6C1A42E687770>

(최종) 주안도서관 소식지_7호.indd

Issue 가하고 있어 2) 기업들은 SNS를 적극적으로 활용하기 위한 다양한 방안들을 모색하고 추진하고 있다. 특히 최근 스마트폰의 확산은 모바일환경에서 SNS를 사용가능하도록 하여 SNS의 확산에 크게 영향을 미치고 있고, SNS의 확산은 다시 스마트폰의 확산에도

2. 박주민.hwp


!! ÒªÛ±‚» (05.1)-PDFøÎ.pdf

지난 2월 현직 부장판사가 네이버, 다음 등에서 기사에 악성 댓글 1만여 건을 단 사실이 드러났다. (출처 : JTBC, 상습적 악성 댓글 알고 보니 현직 부장 판사가, 2015년 2월 11일자) 헌법재판소는 인터넷을 가장 참여적인 시장 이자 표현촉진적인 매체 라고 했

<BAB8BEC8C0CEB4E5C4C43131C8A35F D30355F E312E687770>

<B1B3B9DFBFF83330B1C7C1A631C8A35FC6EDC1FDBABB5FC7D5BABB362E687770>

SNS 명예훼손의 형사책임

<30322DC8ABBBEFBFAD2E687770>

정보기술응용학회 발표

Week13

À±½Â¿í Ãâ·Â

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

45-51 ¹Ú¼ø¸¸

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

DBPIA-NURIMEDIA

10월1일자.hwp

°í¼®ÁÖ Ãâ·Â

12-06.hwp

5월영상등급 내지_최종

?

ÀÛ¾÷

19_9_767.hwp

Contents Lotte Focus Lotte Life

DBPIA-NURIMEDIA

표지-요리사

2월1일자.hwp

<91E6308FCD5F96DA8E9F2E706466>

2016_Company Brief

?타??좔??

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

설명서 보기 본 카메라에는 내장 설명서가 탑재되어 있습니다. MENU (카메라 내장 설명서) 카메라 내장 설명서 MENU 항목 및 설정 값에 대한 설명이 표시됩니다. 1 2 MENU 버튼을 누릅니다. 원하는 MENU 항목을 선택한 다음에 버튼을누릅니다. (카메라 내장

02 솔섬풍경 소식 NEWS 세계적 결혼 성지로 뜬 알펜시아 중국인 12쌍이 10일 평창 알펜시아리조트 에서 합동결혼식을 올렸다. 알펜시아는 이 번 중국인 커플 합동결혼식을 시작으로 세 계적인 결혼 성지로의 변신을 시도한다. 이번 웨딩행사는 최근 중국 젊은 커플들에 게

CMS-내지(서진이)

우리들이 일반적으로 기호

0125_ 워크샵 발표자료_완성.key

DA C.4.

03-최신데이터

Data Industry White Paper

< FBEC8B3BBB9AE2E6169>

2009방송통신산업동향.hwp

Ⅰ. 지금 왜 연결 을 주목해야 하나 1. 웹을 통한 연결의 일상화 연결이 우리 시대를 규정하고 미래를 변화시키는 키워드가 될 것이다. 업무 중 혹은 정보 검색 중, 어느덧 지인의 미니홈피 사진첩을 클릭하는 자신을 발 견한 경험이 한번쯤은 있을 것이다. 거기서 그치지

<C804><CCB4>.pdf

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

본문

2 160, Mar. 24, 2006

세계표준과 동떨어진 낡은 족쇄가 마침내 풀렸습니다. 안녕하십니까? 대통령실 국정기획수석비서관 박재완입니다. 방송법, 신문법, 인터넷멀티미디어방송사업법(IPTV법) 등 이른바 미디어산업발전법 개정안이 7월 22일 국회를 통과했습니다. 이로써 1980년대 군사정권의 언론통

<C1A4BAB8B9FDC7D031362D335F E687770>

424

420

392

특집

Transcription:

인터넷 커뮤니티 사용자의 사회 연결망 특성 분석 Analysis Social Network Characteristics Among the Internet Community Users 탁해성 부산대학교 컴퓨터공학과 tok33@pusan.ac.kr Abstract 인터넷이 사람들에게 보급됨에 따라 온라인 환경에서 소통을 하는 사람들이 늘어났다. 온라인 커뮤니티가 활성화 되면서, 오프라인 못지 않게 온라인 상에서 집단을 형성하여 여 러 의견을 나누고 소통하는 일도 늘어난다. 이러한 현상은 인터넷 사용자 사이에서 형성하 는 관계망에 대해 알아볼수 있는 지표가 된다. 본 보고서에서는 인터넷 커뮤니티에서 사용 자들의 게시물을 작성하고 댓글을 다는 현상이 어떠한 사회 연결망을 나타내며, 이를 시각 화하기 위한 방안에 대해 알아보고자 한다. 기존에 활성화 되어 있는 야구 커뮤니티인 MLB Park를 이용하여 해당 커뮤니티 게시판에 대해 분석하고, 게시물을 추출하여 그래프를 형 성 및 시각화한다. Keywords: Social Network, Graph Drawing, Social Network Analysis 1 개요 인터넷 통신 환경의 발달함에 따라 웹 브라우저는 사용자에게 보다 쉽고 빠르게 서비스를 제 공하게 되었다. 이를 통해 인터넷을 사용하는 사용자들이 늘어나게 되었고, 공간의 제약이 없 는 인터넷에서 수 많은 소통 공간이 생겨났다. 소통 공간의 증가는 인터넷 사용자 또한 사회 연 결망을 형성한다고 볼 수 있다. 특정 사용자들끼리 관심있는 분야에 대해 정보를 주고 받거나, 불특정 다수의 사용자가 서로 다른 개인의 의견을 나누며 토론하는 등 현대사회의 인터넷 사 회 연결망이 실제 사회 연결망과 유사해 지고 있다. facebook이나 twitter와 같은 SNS 서비스 의 등장으로 인해 인터넷을 이용한 일상 생활의 소통히 급속화되고 있으며, 사회과학에서 사용 되었던 사회 관계망 분석 기법이 재조명 받게 되었다 [1]. 이러한 사회 관계망 분석 기법을 시 각화 하기 위해 댓글 구조를 하나의 네트워크로 나타내고자 하는 시도가 이루어지고 있다 [2]. 본 보고서에서는 이러한 사회 연결망을 야구 커뮤니티인 MLBPark의 게시판을 분석함으로 서 인터넷 사용자들끼리의 관계망이 어떤식으로 연결되어 있으며, 하나의 큰 그래프를 그리기 1

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판에 대한 정보를 분석하고 각 게시물이 가지는 통계적 특성에 대해 서술한다. 3장에서는 수집한 게시물에 대한 그래프를 구 성하기 위해 구조적인 특성을 정의한다. 4장에서는 본 보고서에서 그래프를 시각화하는데 사 용한 모듈과 실험 결과에 대해 서술한다. 끝으로 5장에서는 해당 시각화 결과를 통해 얻은 인 터넷 사회연결망에 대한 결론 및 향후 진행할 연구방안에 대해 살펴보려고 한다. 2 분석대상 사이트 선정 한국에서 가장 인기있는 스포츠로 축구와 야구를 꼽을 수 있다. 많은 사람들이 관심을 가지고 있는 만큼 한국에서 인터넷을 사용하는 사람들 중 다수가 야구 커뮤니티에서 활동하고 있다. 그중 대표적인 커뮤니티로는 MLBPark가 있다. 이 커뮤니티는 한국 야구뿐만 아니라 MLB에 대한 정보를 취득할수있으며, 관련 뉴스들도 볼 수 있다. 야구 커뮤니티라는 이름적 특성때문 에 커뮤니티를 사용하는 사용자들이 야구에 국한된 의견공유만 이루어질것으로 예상하지만, 실제로는 다양한 주제의 글이 올라와 자신들의 의견을 나누는 것을 확인할 수 있다. 다양한 분 야의 게시물이 올라오고 이에 대한 댓글이 작성되는 현상을 이용하여 게시물 및 댓글의 작성 이 나타내는 사회 연결망 구조를 분석해보고자 한다. MLBPark 게시판에는 현재 2백만개 정도의 글이 등재되어 있다. 게시물 추출에 있어서 글 의 ID를 이용하였기 때문에 삭제된 게시물도 다수 존재하였으며, 삭제된 게시물에 대해서는 게 시물 추출이 불가능하였다. 본 논문에서 분석을 시행하기 위해 2011년도 12월부터 2013년 2월 까지의 약 130만개 정도의 게시물을 이용하여 분석을 시행하였다. 표1은 커뮤니티 게시판에 대한 지표를 나타낸 결과이다. 해당 결과를 얻기 위해 파싱 모듈 에서 추출한 데이터를 가공하였다. 게시물을 작성한 작성자의 수와 평균, 표준편차를 계산하였 다. 이 지표를 통해 평균적으로 한 작성자는 52개의 게시물을 작성하며, 표준편차는 214.16로 크게 나타났다. 표 2는 댓글에 대한 분석 결과를 나타낸 것이다. 게시물에 달린 댓글의 총합을 이용하여 결과를 도출하였으며, 게시물 수와 댓글 수를 나눈 값을 통해 게시물 하나당 약 6.5개 의 댓글이 달리는 것으로 추정 할 수 있다. 게시물과 댓글 작성에 참여하는 사용자는 22,343명으로 MLBPark에서 활동하는 게시물 작 성자의 대다수는 본인의 글이나 다른 사람의 글에 댓글을 작성하는 것을 확인 할수 있다. 이러 한 특성을 활용하여 커뮤니티 사용자간에 연결관계를 파악하고자 한다. 2

표 1: MLB Park 게시물 및 작성자 관련 지표 분석 분류 값 비고 게시물 수 1,294,798 작성자 수 24,300 게시물 최다 작성자 사용자 ID : 만나서반갑습니다 6,788 게시물 / 작성자 52.11 작성자 당 게시물 표준편차 214.16 표 2: MLB Park 게시물 댓글 관련 지표 분석 분류 값 비고 댓글 수 8,403,817 댓글 수 6.49 댓글 작성자 수 34,762 최다 댓글 작성자 사용자 ID : 쿠라쿠라 33,027 최다 댓글 게시물 게시물 ID : 734542 댓글수 : 1193 3 그래프 관계 구조 설계 MLB Park 커뮤니티에 대한 분석 결과를 토대로, 커뮤니티 사용자들이 어떤 형태의 연결 구조 의 선정 및 특성을 분석해 보았다. 커뮤니티 이용자들이 댓글을 작성하는 게시물 하나에 국한 된 것이 아닌 여러 게시물에 대한 사용자들의 연결 관계를 분석하기 위해 그래프로 나타내기 로 하였다. 기본적인 그래프 구조에서 게시물에 대한 노드와 에지의 생성 방식을 설계 해보았다. 게시 물 작성자와 댓글 작성자를 각각의 노드로 보고 해당 작성게시물 작성자가 글을 작성하여 다 른 이용자가 댓글을 달았을 경우, 발생하는 연결관계를 그래프 에지로 가정한다. 현재 MLB Park에서는 댓글의 계층구조를 제공하지 않기 때문에 이전 작성자 간에 강한 연결관계가 있다 고 가정한다. 또한 댓글 작성자들 간에 의사소통이 이루어 지는 것을 감안하여 방향 그래프로 설계한다. 게시물에 달리는 임의의 댓글 n개가 있다고 가정할 때 사용자들 간에 연관관계를 정 하는 것이 에지의 개수를 지정하는데 큰 문제가 된다. 본 논문에서는 사용자들이 작성하는 게 시물과 댓글에 대해 두 가지 에지 생성 규칙을 적용한다. 첫째, 한 게시물 작성자와 댓글 작성자를 일렬로 나열하여 전 사용자와 연결관계를 맺는다. 이러한 에지 생성 방식을 이용하면, 내용적으로 이전 사용자와 관계가 없더라도 연관관계가 생 기는 단점이 존재한다. 하지만 댓글에서 논쟁이 벌어질 경우 상호 연관성을 크게 검출할 수 있 는 장점을 이용하여 이를 채택하였다. 둘째, 한 게시물에 대해 댓글을 다는 행위는 게시물을 읽는 것을 전제로 한다. 이는 댓글 작 성자와 게시물 작성자간에 밀접한 연관관계가 있는 것을 말한다. 따라서 게시물 작성자와 중 복되지 않는 댓글 작성자들간에 에지를 생성한다. 본 논문에서 제시하는 그래프 모델은 방향 3

그래프이므로 에지의 방향 선정이 중요하다. 댓글이 작성되면서 몇몇 사람간의 논쟁이 진행되 면 하나의 사이클이 생성되는데, 댓글 작성자에서부터 게시물 작성자로 에지 방향이 결정되면 첫번째 규칙에 의거해서 생성된 에지와 합쳤을 때 더 많은 사이클이 생성된다. 따라서 게시물 작성자에서 댓글 작성자로 에지 방향을 설정한다. 그림 1: 게시물 작성자 및 댓글 작성자 리스트 예시 그림 1은 임의의 게시물에서 확인할 수 있는 아이디 리스트이다. 리스트의 맨 앞은 작성자 가 오며, 첫번째 규칙에 의해 (a,b)에서 (a,f)까지 총 8개의 에지가 생성된다. 또한 두번째 규칙 을 이용하여 (a, b), (a,c), (a,f)와 같은 5개의 에지가 생성된다. 아래 표 3은 방향 그래프의 노드가 구성하는 인접 행렬을 나타낸 것이다. 아래 표를 통해 에지의 방향에 따라 같은 노드라 도 입출력의 정도가 다른 것을 확인할수 있다. 이러한 기본적인 노드와 에지의 생성 규칙을 통 해 실험을 진행하고자 한다. 본 보고서에서는 그래프 시각화 가능성을 알아보기 위해 에지의 방향성은 고려하지 않는다. 표 3: MLB Park 게시물 댓글 관련 지표 분석 A B C D E F V i, A 0 3 1 1 1 2 8 B 1 0 1 0 0 0 2 C 0 0 0 1 0 0 1 D 0 0 0 0 1 0 1 E 1 0 0 0 0 0 1 F 0 0 0 0 0 0 0 V, j 2 3 2 2 2 2 13 4 관계 그래프 시각화 본 보고서에서 그래프를 그리기 위한 데이터를 생성하기 위해 2012년 12월 4일부터 13일까지 39,253개의 게시물을 사용하였다. 수집한 데이터를 이용하여 그래프 정보를 추출 및 시각화 하 기 위해 수행하는 과정은 아래와 같다. 1. 수집한 게시물 데이터를 이용하여 노드 및 에지 정보를 추출한다. 이때 에지를 생성하는 방식은 3장의 규칙을 따른다. 4

2. yfiles를 이용하여 그래프를 배치하고 시각화 정보를 graphml 파일로 저장한다. graphml은 XML과 유사하게 그래프 정보를 정형화 되게 저장하기 위해 사용하는 파일 포맷으로 실 제 그래프 시각화 도구에서 많이 사용되고 있다. 3. 저장된 graphml파일을 시각화 도구를 활용하여 시각화 한다. 본 보고서에서는 위와 같은 단계를 통해 그래프 시각화 방식 및 특징을 분석하고자 한다. 첫번째 과정을 통해 실험 데이터를 분석한 결과, 게시물 및 댓글을 작성한 9,819명의 사용자를 추려내고 165,400개의 에지를 생성하였다. 인터넷 커뮤니티 사용자 아이디는 문자열로 되어있 어 에지 생성 속도를 느리게 하므로 데이터를 두번 읽어온다. 처음 데이터를 읽어올때는 사용 자 리스트를 작성하고, 두번째 데이터 추출에서는 생성된 사용자 리스트를 이용하여 노드 가중 치를 부여하고 에지를 생성한다. 두번째 데이터 추출에서 에지를 생성할 때 사용자 리스트의 인덱스를 이용한다. 165,400개의 에지 정보를 시각화 하기 위해 graphml을 활용하기로 하고, 기존에 그래프 시 각화 도구인 yfiles에 적용시켜 graphml을 생성해 보았다. 10만개 이상의 에지와 1만여개의 노 드를 배치하는 과정을 yfiles에서 수행할 경우 프로그램이 정상적으로 수행되지 않는 것을 확 인하였다. 프로그램 내부의 그래프 공간에 노드와 에지를 배치하는 과정에서 프로세스가 정상 적으로 수행되지 않았기 때문이다. 이를 해결하기 위해 두개의 노드간에 에지 가중치를 비교 하여 일정이하의 가중치를 가지는 에지는 삭제하였다. 가중치가 1이하의 에지를 삭제 할 경우 165,400개의 에지에서 23,029개의 에지로 대폭 감소하였다. 이를 통해 인터넷 커뮤니티에도 약 한 관계를 가지는 노드들이 있는 것을 알 수 있다. 생성된 데이터를 이용하여 그래프를 시각화하기 위해 graphml 시각화 도구인 Gephi를 이 용하였다. Gephi는 그래프를 시각화하기 위해 사용되는 프로그램으로 그래프 시각화 기능을 제공하며, 해당 그래프에 대한 분석이 용이하다. 또한 사용자가 노드와 에지에 대한 수정이 가 능하며, 추가적인 기능 수정이 가능하도록 플러그인 및 라이브러리를 제공해 준다. 그림 2는 추출 데이터를 이용하여 그래프를 시각화 한 것이다. 나타난 그래프를 분석한 결 과 게시물 및 댓글을 많이 작성한 사용자일 경우 다수의 사람과 관계를 가지며, 참여율이 작은 사용자의 경우 에지의 가중치를 변화하면 관계가 끊어지는 것을 알 수 있었다. 5 결론 및 향후 연구 방향 본 보고서에서 실험한 인터넷 커뮤니티의 사회 연결망 구조를 이용하면, 사용자의 참여율이 연 결 그래프를 형성하는데 주는 요인에 대해서 알 수 있다. 이러한 특징에도 불구하고 graphml 생성시 자체적으로 부여하는 좌표 값을 이용할 뿐만 아니라 배치 및 그래프 시각화 방식이 연 결에만 급급하기 때문에 사용자가 보기에 매우 불편하다. 또한 실험적으로 에지가 10만개 이 5

그림 2: Gephi를 이용한 그래프 시각화 상일 경우 프로그램이 종료되는 현상을 통해 불필요한 작업을 판별하고 개선하는 작업이 필요 하다. 현재 시스템에서는 데이터의 일부를 분석하는데 매우 많은 시간이 소요되고 그래프 생성 또한 되지 않았다. 이를 통해 현재 연구되고 있는 Big Graph 시각화 문제에서 나온 해결방안 을 적용하여 군집화되고 육안으로 식별가능한 그래프를 그려보고자 한다 [3, 4]. References [1] Haewoon. K, Changhyun. L, Hosung. P, and Sue. M. What is twitter, a social network or a news media, In Proceedings of the 19th international conference on World wide web, WWW 10, pages 591 600. ACM, 2010. [2] Zhongbao. K and Changshui. Z. Reply networks on a bulletin board system, Phys. Rev. E, 67:036117, Mar 2003. [3] Rodrigues, Hanghang, Jia-Yu, Traina, Traina, and Faloutsos. Large graph analysis in the gmine system. Knowledge and Data Engineering, IEEE Transactions on, 25(1):106 118, 2013. [4] Sheng-Jie, Chun-Liang, Bing-Yu, and Kwan-Liu Ma. Ambiguity-free edge-bundling for interactive graph visualization. Visualization and Computer Graphics, IEEE Transactions on, 18(5):810 821, 2012. 6