응용통계연구 (2011) 24(6), DOI: 공저자네트워크를활용한응용통계연구분석 이민희 1 박미라 2 이효정 3 진서훈 4 1 고려대학교통계학과, 2 을지대학교예방의학

Similar documents
Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

???? 1

<32352D342D313020C0D3C7FDBCB120C0E5C5C2BFEC D E687770>


Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

Policy Industry Technology 융합연구정책센터 Weekly TIP 국가 R&D 과제논문및특허성과네트워크분석 권민지융합연구정책센터 선정배경 년도국가 R&D 과제 SCIE 논문및특허성과중융합분야의융합패턴을분석하고자함 융합연구성과의생태계를제시

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

DBPIA-NURIMEDIA

sna-node-ties

< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

<372E20B9DAC0B1C8F12DB0E62E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: * Review of Research

[10주차]비정형 텍스트 분석1

충남교육181호-3.25.pdf

DBPIA-NURIMEDIA

chap 5: Trees

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

학술지 신경정신의학 의 연구 네트워크 M Choi and M Gim 를 맺고 있는 소수의 연구자들과 적은 수의 학문적 관계를 맺 고 있는 다수의 연구자들이 연구자 네트워크를 구성하고 있 다는 것을 뜻하며 수학적으로는 지수함수와 유사한 멱함수 로 표현할 수 있다 멱함수

Chap 6: Graphs

08_À±¹ÎÈ£0927

(5차 편집).hwp

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways


Chap 6: Graphs

歯1.PDF

Journal of Educational Innovation Research 2019, Vol. 29, No. 2, pp DOI: 3 * Effects of 9th

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

09È«¼®¿µ 5~152s

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

REP - NETWORKX - 019, JULY NetworkX 를이용한 Python 그래프가시화 Graph Visualization from Python Using NetworkX 김선영 Kim SeonYeong 부산대학교컴퓨터공학과

Resampling Methods

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

2016 학년도대학별논술고사일정 대학명 논술고사시행일 가톨릭대 [ 일반 ] 10 월 11 일 ( 일 ) / [ 의예 ] 11 월 15 일 ( 일 ) 건국대 [ 인문 ] 10 월 9 일 ( 금 ) / [ 자연 ] 10 월 10 일 ( 토 ) 경기대 10 월 18 일 (

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

?

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

Microsoft PowerPoint - 26.pptx

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Microsoft Word - KSR2015S008

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

10(3)-09.fm

Introduction to Deep learning

04_이근원_21~27.hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

= ``...(2011), , (.)''


DBPIA-NURIMEDIA


해외과학기술동향


REP - networkx - 019, JULY 어 있고 Windows 계열도 지원하지만, Winodws OS의 경우 많은 버그를 가지고 있기 때문에 현재 Windows 운영 체제와 정상적으로 호환되는 패키지는 NetworkX 이다. 각 패키지의 종류와 각

歯5-2-13(전미희외).PDF

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

표본재추출(resampling) 방법

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

02-출판과-완성


한국성인에서초기황반변성질환과 연관된위험요인연구

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

A Hierarchical Approach to Interactive Motion Editing for Human-like Figures

012임수진

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

4 _ 한국지역정보화학회기획세미나발표논문집

59

Microsoft Word - How to make a ZigBee Network_kr

±èÀº¿µ³»Áö9-191š

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * The Participant Expe

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

C# Programming Guide - Types

PowerPoint 프레젠테이션

2015 개정교육과정에따른정보과평가기준개발연구 연구책임자 공동연구자 연구협력관

G Power

슬라이드 1

DBPIA-NURIMEDIA

에듀데이터_자료집_완성본.hwp

<C0FCB9AEB1E2BCFA20BFDCB1B9C0CEB7C220B3EBB5BFBDC3C0E520BAD0BCAE2E687770>

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: * Meta Analysis : T

Microsoft PowerPoint Relations.pptx

1-1) 아직까지도우리나라는 resilience' 이라는용어가적응유연성 ( 권태철, 2002; 김미승, 2002; 박현선, 1998, 1999a, 1999b; 양국선, 2001; 유성경, 2000; 이선아, 2004; 윤미경, 2002; 조혜정, 2002; 장순정, 2

< B0ADC1F8BFEC2DB9E6C5BAC7EFB8E420B1E2BCFABAD0BEDF20C5B0BFF6B5E5BFA12E687770>

50-5대지05장후은.indd

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

9월뉴스수정-1

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

DBPIA-NURIMEDIA

Transcription:

응용통계연구 (2011) 24(6), 1259 1270 DOI: http://dx.doi.org/10.5351/kjas.2011.24.6.1259 공저자네트워크를활용한응용통계연구분석 이민희 1 박미라 2 이효정 3 진서훈 4 1 고려대학교통계학과, 2 을지대학교예방의학교실, 3 고려대학교통계학과 4 고려대학교정보통계학과 (2011 년 10 월접수, 2011 년 11 월채택 ) 요약 본연구는사회네트워크분석을활용하여응용통계연구에논문을게재한저자간공동연구의양상을분석하였다. 2000 년부터 2010 년까지총 664 개의논문을대상으로하였으며네트워크분석을통해공저자네트워크의중심을구성하는연구자를찾아보았고하위네트워크분석을통해연구분야및공동연구집단이차별화되는네트워크를살펴보았다. 또한, 공저관계를반응변수로하고소속집단을설명변수로하는로지스틱회귀분석을수행하여소속집단이공동연구에미치는영향정도를분석해보았다. 주요용어 : 사회네트워크분석, 공저자네트워크, 중심성, 응용통계연구. 1. 서론 최근여러분야에서사회네트워크 (social network) 에대한관심이높아지고있다. 사회네트워크란다 수의연결또는연결되지않은개인 ( 또는기관 ) 으로이루어진사회적구조를이르는데, 이때연결여부 는친구관계, 성관계, 금융거래, 통신빈도, 직무적접촉, 정보제공등관심주제에따라다양하게정의 될수있다. 사회네트워크분석 (social network analysis; SNA) 은이들간의구조를파악하기위한방 법으로서다수의점 ( 點, point) 과이들을연결하는선 ( 線, line) 으로구성된망 ( 網, network) 에대한사 회과학적통계적분석이다 ( 허명회, 2010). 사회네트워크자료는크게두가지로나눌수있다. 일반 적인자료형태는노드라불리는 n 개의점간의관계를정방행렬로나타낼수있는네트워크자료이다. n n 행렬에칸 (i, j) 는 i 와 j 간의연결여부혹은연결강도를표현한다. 예를들어학교내학생간 의교우관계네트워크, 대기업의자회사들간의지분소유관계등을표현하는것이다. 두번째는사회구 성원과조직 ( 구성체 ) 간관계를나타낼수있는 2 부네트워크 (bipartite network) 이다. 일명연결네트 워크 (two-mode network) 라고불리는 2 부네트워크는 n 개행노드와 m 개열노드간연결로구성되어 n m 행렬로나타낼수있다. 예컨대 n 명개인에대하여중복가입을허용하여그들이가입한 m 개클 럽을조사한클럽멤버십자료로부터 2 부네트워크를생성할수있다. 개인 2 명이어느한클럽에가입 되어있다면소통관계인것으로보고 2 개클럽이한개인을회원으로공유하면연결된것으로본다. 이 와같은식으로개인간, 그리고클럽간네트워크가형성될수있다. 공저자네트워크분석은이러한사 회네트워크분석의한응용사례로서논문의저자를각각점으로놓고이들이연결되어있는상호구조 를파악하기위한분석이다. 공저자네트워크분석에서노드는저자개인이되고연결선은함께연구했 이논문은 2011 년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (No.2011-0004376). 4 교신저자 : (339-7007) 충남연기군조치원읍, 고려대학교정보통계학과, 교수. E-mail: seohoon@korea.ac.kr

1260 이민희, 박미라, 이효정, 진서훈 을경우에생기게된다. 예컨대 A, B, C라는세사람이공동연구를한경우 A-B, A-C, B-C의관계가성립한다 ( 정민수와정동준 2007). 이러한분석을통해저자간의관계와특성을분석할수있다. 관련된몇몇선행연구를살펴보면 Newman (2001) 은물리학, 의학, 전산학등의논문에있어공저자네트워크분석을연구하였고 Malin과 Carley (2007) 는생물정보학과의료정보학간의관련성을사회네트워크분석을통해연구하였다. 응용통계연구는한국통계학회에서발간되는논문집으로 1987년창간되었다. 2003년까지연 2회발간되던것이 2004년부터연 3회로늘었으며 2008년부터는격월로매년 6회발간되고있다. 최초에국문논문집이었던것이현재는국문과영문논문이모두출판되고있다. 최근에는한호에약 20편의논문이게재되고있어연간 100편이상의논문이응용통계연구를통해발표되고있다. 국내의통계학학술지로는역사가오래되었으며발표논문의규모도상위에있는논문집이라할수있다. 이에통계학연구자들간의공저네트워크분석에적합하다고판단되어사회네트워크분석을활용한연구자간의공저관련성을분석하였다. 2절에서는공저자네트워크분석방법과네트워크분석에이용되는측도를간략히소개하였다. 3절에서는본연구에이용한응용통계연구게재논문의공저자데이터에대해소개하고 2000년부터 2010년까지응용통계연구에게재된논문을대상으로한분석결과를제시하였다. 공저자네트워크에서발견된하위네트워크 (sub-network) 에대해상세분석하였으며아울러 2000년과 2010년의공저자네트워크를비교함으로써두시점간공동연구경향의변화를살펴보았다. 끝으로 4절에연구의결론을요약하였다. 2. 공저자네트워크분석방법론 공저자네트워크분석자료는저자와논문간관계를나타낼수있는 2부네트워크의형태이다. 2부네 트워크는 n개의행노드와 m개의열노드간연결로구성되어 n m 행렬로나타낼수있다. 예를들 어 2개의논문이있을때그중하나는저자 A와 B가썼고나머지하나는저자 A, C, D가함께썼다면 다음과같은행렬로표현할수있다. A B C D 논문1 1 1 0 0 논문2 1 0 1 1 이때논문에대한저자별가중치를달리줄수도있다. 예를들어공저논문에있어주저자는 1, 공동 저자는 0.5의가중치를부여하여자료를생성할수있다. 앞의예에서논문1과논문2의주저자가각각 A와 C였다면가중치가반영된자료행렬은아래와같이표현된다. A B C D 논문1 1 0.5 0 0 논문2 0.5 0 1 0.5 네트워크분석의주요요소중하나는네트워크데이터를 2차원또는 3차원공간에시각화하는것이다. 시각화알고리즘으로는 force-directed 알고리즘 (Fruchterman와 Reingold, 1991), Kamada-Kawai 알고리즘 (Kamada와 Kawai, 1989), MDS(multi-dimensional scaling) 등여러가지가있다. 표 2.1은 R의 sna 라이브러리에서제공되는시각화알고리즘옵션들이다 (R package sna, 2011). 본연구에서는이중 circle 옵션을이용하여네트워크의시각화를시도하였다.

공저자네트워크를활용한응용통계연구분석 1261 표 2.1. R의네트워크시각화알고리즘옵션들 option fruchtermanreingold kamadakawai spring circle eigen hall mds princoord target random description A variant of Fruchterman and Reingold s force-directed layout algorithm (default). A version of the Kamada-Kawai force-directed layout algorithm. A spring embedder algorithm. Nodes are placed in a circle, arranged clockwise by their order in the adjacency matrix. Node placement is based on the eigenstructure of the adjacency matrix. Node placement based on the last two eigenvectors of the Laplacian of the input matrix. Node placement based on multidimensional scaling of a specified distance matrix(matrix of rows and columns used by default). Node placement based on the eigenstructure of a given correlation/covariance matrix(matrix of rows and columns used by default). Arranges nodes on the radii of concentric circles, based on a vector of node values(affine-transformed Freeman degree centrality scores used by default). Nodes are placed randomly. Uses a uniform distribution by default, but a Gaussian or Gaussian donut distribution may be specified. 네트워크의전역적특성을나타내는지표인네트워크밀도 (density) 는 가능한총연결선의수 대비 총연결선의수 로정의된다. 네트워크내노드수를 n 이라고할때 가능한총연결선의수 는 n (n 1) 이다. 그리고총연결선수는입선수 (indegree) 또는출선수 (outdegree) 의합과같다 ( 허명회, 2010). 즉, 식 (2.1) 과같이두값의비로네트워크밀도를구하게되는데, 여기서 g [I] k 는노드 k로의입선수이고 g [O] 는노드 k로부터의출선수이다. 이러한밀도는네트워크내전체구성원이서로간얼마 k 나많은관계를맺고있는가를표현하기위한개념이다 ( 손동원, 2002). n k=1 g [I] k n k=1 g [O] k density = n(n 1) = n(n 1). (2.1) 네트워크의중심성지수는그행위자가전체네트워크에서중심에위치하는정도를나타낸다. 이러한 중심성지수는중심에대한정의에따라그계산방법을달리할수있다. 본연구에서는근접중심성과 중개중심성이라는두가지다른관점에서중심성수치를살펴보았다. 첫번째로근접중심성은특정노 드가그를제외한다른노드와얼마나가까운가를평가하는것이다. 도달가능한모든노드의평균거리 를이용하는데, 고립노드가있을경우를감안하여노드간최단거리의역수 ( 이는노드간친밀도또는 유관도라볼수있음 ) 를평균 ( 조화평균 ) 하는것으로정의할수있다. 예를들어, 그림 2.1 의 A, B, C 노 드로이루어진왼쪽의네트워크에서노드 A 의중심성은 A 와 B 의최단거리가 d 1 이고 A 와 C 의최단거 리가 d 1 + d 2 이므로, 1/2(1/d 1 + 1/(d 1 + d 2)) 로구해진다. 근접중심성을일반화하여표현하면, d ki 를노드 k와 i의거리라고할때노드 k의근접중심성은 C [1] k = 1/(n 1)( i k 1/d ki) 로표현할수있

1262 이민희, 박미라, 이효정, 진서훈 그림 2.1. 네트워크의예 표 3.1. 2000 년에서 2010 년까지논문에나타난상위 20 개키워드 순위키워드빈도순위키워드빈도 1 로지스틱회귀 16 11 회귀의사결정나무 9 2 데이터마이닝 15 11 의사결정나무 9 2 군집분석 15 11 결측치 9 4 EM알고리즘 12 14 혼합모형 8 5 반복측정 11 14 이상점 8 5 깁스샘플러 11 14 신뢰구간 8 6 K-평균군집 10 14 로그선형모형 8 6 붓스트랩 10 18 포함확률 7 6 몬테칼로방법 10 18 정확도 7 6 마이크로어레이 10 18 주성분분석 7 다. 두번째로중개중심성은네트워크내에서한행위자가다른행위자들사이에서매개자혹은중개 자의역할을하는정도를측정하는것이다. 특정노드 i 의중개중심성은노드 i 를제외한다른두노드 사이의최단경로들중노드 i 를지나는경로의비율을모든노드쌍들에대해구하여더한값이다. 즉, g jk 를노드 j에서 k로가는최단경로의수이고 g jik 를노드 j에서 k로가는최단경로중노드 i를거쳐가는최단경로의수라고두면노드 i의중개중심성은 C [2] i = j i k i, j g jik/g jk 로구하게된다. 네트워크분석에서노드들이서로연결되어있는가여부를분석하는것은중요하다. 네트워크의모든 노드가서로연결되어있을수도있으나경우에따라일부노드들은연결되지않고별도의그룹을형성 할수있다. 네트워크분석에서서로연결된노드들의묶음을컴포넌트라고한다. 즉, 컴포넌트란한네 트워크에소속된노드들끼리하나의연결체계를형성하는하위네트워크 (sub-network) 를말한다 ( 손동 원, 2002). 예를들어그림 2.1 은 A, B, C 와 F, G, H 의두개의컴포넌트로이루어진네트워크이다. 컴 포넌트의분석을통해전체네트워크가몇개의하위네트워크로이루어져있는지를파악할수있고이 를통해네트워크내정보의흐름이원활한지또는그렇지않아하위집단간파편화가능성이있는지여 부등을분석할수있다. 3. 응용통계연구분석 3.1. 자료설명본연구에이용한자료는 2000년부터 2010년까지의응용통계연구에실린논문이다. 논문수는 664개이고저자수는 747명이였으며저자들의소속기관수는 319개였다. 총 1,989개의키워드가등장했으며표 3.1은빈도기준으로상위 20개의키워드를정리한것이다. 표 3.2에는각연도별논문수와저자수, 그리고소속기관의현황을정리하였다. 전체논문자료로부터논문 (664) 저자 (747), 소속 (370) 저자 (747) 의 2부네트워크구조의데이터를

공저자네트워크를활용한응용통계연구분석 1263 표 3.2. 응용통계연구연도별논문게재현황 년도논문수연간호수저자수소속기관수 2000 47 2 86 44 2001 39 2 82 41 2002 39 2 63 41 2003 35 2 70 37 2004 48 3 91 41 2005 54 3 99 45 2006 48 3 91 41 2007 50 3 98 43 2008 93 6 177 64 2009 109 6 209 72 2010 102 6 187 74 2000 2010 664 38 747 370 그림 3.1. 공저자네트워크 (2000 년 2010 년 ) 구성하였다. 이중네트워크분석에는공저자데이터인논문 저자를이용하였다. 논문 저자데이터행렬의 (i, j) 원소는 i논문에저자 j가주저자로참여하면 1, 공동저자로참여하면 0.5의값을갖는다. 여기서주저자는제1저자또는교신저자를의미하는것으로제1저자와교신저자가다를경우한논문에 2명의주저자가존재하게된다. 이데이터행렬을 A로두고 A A = C의연산을행하면 747 747의저자간네트워크데이터행렬 C를얻을수있고이데이터를이용해공저자네트워크분석을실시하였다. 3.2. 전체네트워크분석 2000 년에서 2010 년까지총 11 년동안의응용통계연구에실린논문에대한공저자네트워크분석을통 해얻어진네트워크가그림 3.1 과같다. 색깔은해당네트워크내에같은소속저자를구분한것으로연

1264 이민희, 박미라, 이효정, 진서훈 표 3.3. 하위네트워크현황 크기 1 2 3 4 5 6 7 8 수 55 30 18 15 10 3 4 3 비율 (%) 36.91 20.13 12.08 10.07 6.71 2.01 2.68 2.01 크기 9 10 11 13 16 30 288 수 2 3 1 1 2 1 1 비율 (%) 1.34 2.01 0.67 0.67 1.34 0.67 0.67 표 3.4. 2000 년 2010 년공저자네트워크에서주요저자 순위 연결가중치기준연결선기준근접중심성기준이름연결가중치합이름연결선수이름근접중심성지수 1 황선영 16.75 황선영 22 송석헌 0.08 2 송혜향 16 홍종선 21 정병철 0.08 3 홍종선 14.75 송석헌 15 황선영 0.08 4 임동훈 14 송혜향 15 박진아 0.07 5 신기일 12 허명회 13 이동희 0.07 6 허명회 12 김진흠 12 최문선 0.07 7 송석헌 11.75 김혜중 12 백지선 0.07 8 박유성 10.75 신기일 12 이재원 0.07 9 여인권 10.5 임동훈 12 전명식 0.07 10 정병철 9.25 김기환 11 구자용 0.06 결된네트워크가같은색깔로구성되면같은소속의연구자들이공동연구성향이높음을보여주는것이다. 전체네트워크특성치의하나인밀도는 0.00215로구해졌다. 또한이네트워크를구성하고있는하위네트워크의현황은표 3.3과같다. 747명의저자중 288명이하나의하위네트워크를이루고있고나머지저자들은 30명이하규모의소그룹의이루고있다. 특히 4명이하의소그룹에다수가포함되어있어많은연구자들이혼자연구를하거나공동연구를하더라도몇몇의특정연구자와만공동연구를수행하고있음을알수있다. 한편이네트워크에서관심을끄는것은중심부에있는 288명으로구성된하위네트워크이다. 이는이후별도의상세분석을통해그내용을자세히살펴보기로한다. 공저자네트워크의각노드별연결선수와연결가중치를구해각각의상위 10개노드에해당하는저자를표 3.4에정리하였다. 또한노드별근접중심성을구하여상위 10개노드를정리하였다. 연결선의수는해당저자에있어공동연구자의규모를나타내며연결가중치의합은논문의개수와논문에서의역할이동시에반영되어있는수치이다. 연결가중치합에비해연결선의수가상대적으로많다면공동연구를많이수행하며주저자보다는공동저자로참여하는비율이높다고볼수있다. 반대로연결선의수에비해연결가중치의합이크면소수의제한된연구자와공동연구를진행하며주저자로논문을작성하는비율이높다고볼수있다. 예를들어 박유성 은연결가중치순위에포함되어있지만연결선수순위에는빠져있는데연결선수는 10으로 17위에해당되었다. 또한, 총 10편의논문을게재하였는데이중 7편의논문에주저자로참여하여주로주저자의역할을하고있다. 그림 3.1의공저자네트워크는총 149개의하위네트워크로구성되어있다. 이렇게하위네트워크가많은경우는네트워크의중심성분석이크게의미를갖지못하는데그이유는중심성상위노드가가장규모가큰하위네트워크를구성하는노드에서중심에위치하는노드로결정되어지기때문이다. 실제로표 3.4의근접중심성을보면 송혜향 의경우연결가중치나연결선수에서상위에있음에도불구하고근접중심성은상위에서빠져있다. 이는이저자의경우가장큰하위네트워크에속해있지않을것이

공저자네트워크를활용한응용통계연구분석 1265 그림 3.2. 제 1 하위네트워크 (288 명 ) 표 3.5. 288 명하위네트워크에서주요저자 연결가중치기준 연결선수기준 근접중심성기준 중개중심성기준 순위연결이름이름연결선이름근접중심성중개중심성이름가중치합수지수지수 1 황선영 16.75 황선영 22 송석헌 0.21 송석헌 5.7 2 홍종선 14.75 홍종선 21 정병철 0.21 황선영 4.67 3 허명회 12 송석헌 15 황선영 0.21 이재원 3.3 4 송석헌 11.75 허명회 13 박진아 0.19 전명식 3.29 5 박유성 10.75 김진흠 12 이동희 0.19 정형철 2.42 6 여인권 10.5 김기환 11 최문선 0.19 박만식 2.25 7 정병철 9.25 박만식 11 백지선 0.18 진서훈 2.21 8 한상태 8.5 이성덕 11 이재원 0.18 윤석진 1.95 9 김기환 8.25 이재원 11 전명식 0.18 김영지 1.93 10 박만식 8.25 전명식 11 구자용 0.17 이성덕 1.67 라는것을짐작케해준다. 따라서중심성분석은가장큰하위네트워크인 288 명의저자로구성된네트 워크에서수행하였다. 실제로이후분석에서하위네트워크에서의근접중심성상위 10 인이전체네트워 크에서의근접중심성상위 10 인과일치함을확인할수있다. 3.3. 하위네트워크분석 2000년부터 2010년까지논문의저자로참여한 747명중 288명이하나의하위네트워크를이루고있다. 이 288명으로이루어진네트워크를따로그린것이그림 3.2이다. 또한이네트워크에서연결선수와연결가중치합이상위 10위에속하는저자들을정리한것이표 3.5이다. 전체네트워크에서는연결선수및연결가중치합이상위에속했으나 288명하위네트워크에서는빠져있는저자는공동연구를행

1266 이민희, 박미라, 이효정, 진서훈 표 3.6. 제 1 하위네트워크의로지스틱회귀결과 Coefficients Estimate Exp(b) p-value (intercept) 26.566 2.90E 12 < 0.001 ( 동일기관소속여부 ) 53.132 1.19E+23 < 0.001 그림 3.3. 제 2 하위네트워크 (30 명 ) 하는연구자그룹이다른연구자들과차별되는특정학문영역의연구자일것으로생각된다. 또한표 3.5에는이네트워크의노드들중근접중심성과중개중심성상위에속하는노드들도정리되어있다. 다른노드들로부터가까운정도를나타내는근접중심성을보면 송석헌, 정병철, 황선영 이네트워크의가장중심에있다고볼수있고노드와노드를연결하는중개중심성의관점에서보면 송석헌, 황선영, 이재원 의순으로네트워크의중심에있다고볼수있다. 네트워크분석을함에있어자연스러운접근은노드간의연결을설명할수있는다른변수를확보하여이들변수와연결간의연관모형을도출함으로써노드간의연결이무엇에영향받고있는지를설명하는것이다. 네트워크의로지스틱회귀분석은이와같은관계를찾아보는데이용할수있는분석방법으로주요관계의유무를종속변수로그외부속관계혹은인구학적특성을설명변수로하여분석하는방법이다. 본연구에서는공저자간네트워크에서가중치를무시하고공저자관계여부만을종속변수로하여로지스틱회귀분석을수행하였다. 독립변수로는각저자의소속기관을이용하였는데, 즉, 두저자사이에공동논문의존재여부를종속변수로하고두저자가같은소속인지여부를독립변수로한로지스틱회귀모형을분석한것이다. 표 3.6은 288명하위네트워크에서의로지스틱회귀모형의결과이다. 모형의결과로부터동일기관에소속되어있을수록공동연구를수행하는경향이매우유의하다는것을알수있다. 두번째로큰하위네트워크는 30명의저자로이루어진네트워크로그림 3.3과같다. 연결가중치, 연결선수, 근접중심성, 중개중심성모두 신기일 이최상위에있다 ( 연결가중치 = 12, 연결선수 = 12, 근접중심성 = 0.54, 중개중심성 = 63.6). 이네트워크를구성하는 30명의소속을보면한국외대 13명,

공저자네트워크를활용한응용통계연구분석 1267 그림 3.4. 제 3, 4, 5, 6 하위네트워크 통계청 3명, 경기대 3명, 서울대 3명, 고려대, 성균관대, 충북대, ( 주 ) 니즈아이가각 1명으로되어있다. 따라서, 한국외대의연구자들을중심으로이루어진네트워크로볼수있다. 그림 3.4는제 3, 4, 5, 6 하위네트워크그림이다. 제 3 하위네트워크는 16명으로구성되어있는데이네트워크의저자들은전원카톨릭대학교의학통계학과및간호대학에소속되어있다. 즉, 송혜향 을중심으로한카톨릭대학의교내연구집단으로특성을분류할수있다. 송혜향 의근접중심성과중개중심성은각각 1.07과 2.06으로계산되었다. 제 4 하위네트워크는 16명의저자로구성된하위네트워크이다. 이네트워크를구성하고있는저자들의소속분포를보면동국대통계학과소속이 10명, 기상청소속이 6명으로되어있다. 따라서동국대통계학과와기상청의공동연구네트워크로해석할수있다. 한편, 네트워크의중심성을구해보면 김혜중 이네트워크의중심에있는데근접중심성과중개중심성은각각 0.48과 12.4로구해졌다. 제 5 하위네트워크는 13명으로구성된하위네트워크이다. 이네트워크는 임동훈 ( 경상대 ) 을중심으로하고있는데 ( 근접중심성 = 1.17, 중개중심성 = 8.2) 임동훈 과연결되어있는 12명의공저자의소속을살펴보면한국과학영재학교소속이 9명, 경상대와부산대가각 1명이다. 즉, 이네트워크는 임동훈 을중심으로한과학영재학교연구자들과의공동연구네트워크라고해석할수있겠다. 제 6 하위네트워크는 11명으로구성된하위네트워크이다. 이네트워크를구성하는저자의소속을보면전남대통계학과 6명, 한양대응용수학과 3명, 서울대와경기통계사무소가각 1명으로구성되어있다. 네트워크그림을살펴보면왼쪽에전남대통계학과소속저자가위치하고오른쪽에한양대응용수학과소속저자가위치하고있는데이두개의네트워크를 손영숙 과 김성욱 이연결하고있는모습이다 ( 이와같이두하위네트워크를연결하는선을 브릿지 라고함 ). 만일이연결이없었다면이네트워크는두개의하위네트워크로다시나누어지며각각은전남대통계학과공동연구네트워크, 한양대응용수학과공동연구네트워크로해석할수있다. 이네트워크에서중심성값은 손영

1268 이민희, 박미라, 이효정, 진서훈 그림 3.5. 2000 년과 2010 년의공저자네트워크 표 3.7. 2000 년과 2010 년의하위네트워크분포 크기 1 2 3 4 5 6 8 11 합 수 (2000년) 10 18 9 2 1 0 0 0 40 수 (2010년) 24 27 13 5 1 3 2 1 76 숙 이근접중심성 0.9, 중개중심성 4.8 로가장상위에있다. 한편 김성욱 의중개중심성은 4.2 로 2 위 에해당하는데브릿지에연결되어있는노드의중개중심성이크게나오는것은자명하다. 3.4. 연도별네트워크비교 2000년과 2010년, 두해의공저자네트워크를분석하였다. 이는두시기에있어공동연구의양태가달라졌는가를알아보기위함이다. 물론표 3.2에서보는바와같이 2000년에서는연 2회의논문집이발간되었고 2010년에는연 6회의논문집이발간되어논문의편수및참여저자의수가다소차이가있다. 또한 2000년에는교신저자를따로두지않아제 1저자에만가중치를 1로부여하였다. 그림 3.5는 2000년과 2010년의공저자네트워크그림이다. 2000년네트워크의밀도는 0.0071이고 2010년네트워크의밀도는 0.0065이며하위네트워크의수는 2000년이 40개 2010년이 76개이다. 하위네트워크수의차이는논문의편수가늘어나면서나타난자연스러운차이라생각된다. 한편표 3.7에서알수있듯이하위네트워크의크기도 2000년에비해 2010년에커지는경향이있어크기가 6이상되는하위네트워크도 6개가발견되었다. 이는저자들간의공동연구의범위가 2000년에비해다소넓어졌음을암시한다. 2000년의네트워크에서 박정수 는근접중심성 0.14, 중개중심성 6.0으로가장높은중심성이가장높은노드였으며, 2010년에는 박만식 이근접중심성 0.10, 중개중심성 44.0으로가장높았다. 2000년네트워크의경우가장큰하위네트워크가 5개의노드로구성된것이었는데이하위네트워크를구성하는노드들중근접중심성과중개중심성이높은노드가찾아졌다. 또한 2010년의네트워크를보면근접중심성과중개중심성상위저자는 11개의노드로이루어진가장큰하위네트워크로부터발견되어진다. 2000년과 2010년의공저자네트워크에있어두저자 i, j의공저자관계를종속변수로, 같은소속관계를설명변수로고려한로지스틱회귀모형의결과가표 3.8에각각정리되어있다. 2000년에비해 2010년에같은소속기관연구자간공동연구가상대적으로활발해졌음을알수있다.

공저자네트워크를활용한응용통계연구분석 1269 표 3.8. 2000 년과 2010 년의공저자네트워크의로지스틱회귀분석결과 2000 년 2010 년 Coefficients Estimate Exp(b) p-value (intercept) 4.6424 0.0096 0.193 ( 동일기관소속여부 ) 3.6010 36.6332 < 0.001 (intercept) 5.1908 0.0056 0.004 ( 동일기관소속여부 ) 3.7461 42.3549 < 0.001 4. 결론본연구는지난 2000년부터 2010년까지 11년간응용통계연구에게재된 664개의논문을대상으로 747명의저자간공저자관계를분석하였다. 전체네트워크의분석을통해 288명의저자로구성된대규모의하위네트워크를발견하였다. 또한네트워크의중심성분석을통해네트워크중심에위치하는저자를찾아보았다. 전체네트워크의경우너무나많은하위네트워크로구성되어있어네트워크의중심을찾아보는것이큰의미가없으나모든노드가서로연결되어있는하위네트워크에서중심을찾아보는것은네트워크의중심을파악하는데있어의미있는작업이다. 또한공동연구에동일소속기관여부가영향을미치는지를로지스틱회귀분석을통해살펴보았다. 2000년과 2010년의공저자네트워크의분석을통해동일소속기관연구자간의공동연구가상대적으로더활발해졌음을알수있었다. 사회네트워크분석은많은영역에서그활용이기대되어진다. 특히 IT의비약적발전과함께쌍방향소통의채널이다양하게존재하게됨에따라서로관련을파악하고이를분석하여사회적현상의다양한해석에활용하려는노력이계속되어질것으로생각된다. 향후연구과제로는키워드와연구자간의 2부네트워크자료의분석을생각해볼수있다. 이를통해연구자간연구분야를매개로한네트워크를분석이가능할것이다. 물론, 이러한연구를위해서는키워드의표준화작업을통해같은내용을서로다른용어로표현한키워드들의통합및정제작업이선행되어야한다. 참고문헌 손동원 (2002). < 사회네트워크분석 >, 경문사, 서울. 정민수, 정동준 (2007). 국내예방의학분야의공저자 핵심어네트워크와군집양상 : 대한예방의학회지 (1991 2006) 게재논문의분석, < 예방의학회지 >, 14, 1 9. 허명회 (2010). <R 을활용한사회네트워크분석입문 >, 자유아카데미, 경기. Fruchterman, T. M. J. and Reingold, E. M. (1991). Graph drawing by force-directed placement, Software- Practice and Experience, 21, 1129 1164. Kamada, T. and Kawai, S. (1989). An algorithm for drawing general undirected graphs, Information Processing Letters, 31, 7 15. Malin, B. and Carley, K. (2007). A longitudinal social network analysis of the editorial boards of medical informatics and bioinformatics journals, Journal of the American Medical Informatics Association, 14, 340 348. Newman, M. E. J. (2001). Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality, Physical Review E, 64, 016132-1 016132-6.

1270 이민희, 박미라, 이효정, 진서훈 Analysis of Papers in the Korean Journal of Applied Statistics by Co-Author Networks Analysis M. Lee 1 M. Park 2 H. Lee 3 S. Jin 4 1 Department of Statistics, Korea University; 2 Department of Preventive Medicine, Eulji University 3 Department of Statistics, Korea University; 4 Department of Informational Statistics, Korea University (Received October 2011; accepted November 2011) Abstract This study analyzed an aspect of co-author relationship in papers published in the Korean Journal of Applied Statistics by social network analysis. The data were extracted from 664 papers in the journal from 2000 to 2010. Authors at center of the network are detected by a network centrality analysis. Sub-network analysis found distinguishable research groups from the point of view of their topics or affiliations. The significance of affiliations to co-author relationship was examined by logistic regression analysis. Keywords: Social network analysis, co-author networks, centrality, the Korean Journal of Applied Statistics. This research was supported by the Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education, Science and Technology(2011-0004376). 4 Corresponding author: Professor, Department of Informational Statistics, Korea University, Jociwon-eup, Yoengi-gun, Chungnam 339-700, Korea. E-mail: seohoon@korea.ac.kr