이슈 학술지를평가하는다양한지표, 그특징과문제점 글김기홍아주대물리학과교수과편협정보관리위원장 학술지의수준과영향력을정량적으로나타내기위한지표들은다양하다. 이지표들은모두학술지들의인용데이터를분석하여얻는다. 가장널리알려지고큰영향력이있는지표는 impact factor(if, 영향력지수 ) 이다. Impact factor는매우간단하고이해하기쉬운방법에의해계산되는반면여러가지문제점도있다. 이러한문제점들이보완되어좀더신뢰성있는평가기준을제시하기위한여러가지다른지표들도제안되어있다. 이글에서는 impact factor를비롯하여현재사용되는여러평가지표의정의및계산방법을설명하고, 각지표들의특징및문제점에대해간단하게정리해본다. Impact factor 및관련지표들 Impact factor의아이디어는 1955년유진가필드 (Eugene Garfield) 에의해처음으로제안되었다 [1]. 이를바탕으로 SCI(Science Citation Index, 과학인용색인 ) 가탄생하였고학술지들에대한정량적인평가가이루어지기시작했다. 이지표는매년톰슨로이터 (Thomson Reuters) 사의 JCR(Journal Citation Reports) 에발표되어광범위하게사용되고있다. JCR 에는 impact factor 외에도여러가지연관된지표들이발표된다. 1 여러가지인용지수 : Impact factor, fiveyear impact factor, immediacy index, impact factor without self cites 주어진해에어떤학술지의 impact factor는그전 2년동안그학술지에출판되었던논문들이주어진해에받은인용횟수의편당평균값이다. 구체적으로다음과같이정의된다 : A = (X-1) 년과 (X-2) 년에학술지 J에출판된모든 item 이 X년에조사대상학술지들에인용된총횟수 B = (X-1) 년과 (X-2) 년에학술지 J에출판된모든 citable item의총수 X년에학술지 J의 impact factor = A / B 여기서 citable item은논문들만을포함하며 erratum, editorial, abstract 등은포함하지않는다. 반면에 A를구할때는 J에출판된모든 item들에대한인용을다포함한다. X년의 five-year impact factor(5년인용지수 ) 는 (X-1) 년부터 (X-5) 년까지 5년간의인용데이터를바탕으로계산한다는점만다르다. 이지표는인용을적 34 Vol.1 No.1
Science Editing 게하거나, 출판된논문들이연구자들에게받아들여지는데오래걸리는학문분야들의경우에유용하다. Immediacy index는 X년에출판된 item들이 X년에인용된횟수를바탕으로 impact factor와유사하게계산한다. 이지표가클수록그학술지의내용이빨리인용됨을의미한다. Self citation은학술지 J에출판된 item들이그학술지에인용되는것을말한다. JCR에서는 self citation을제외했을때얻어지는 impact factor도매년발표한다. Impact factor와 impact factor without self cites의차이가너무클경우해당학술지를 JCR 리스트에서삭제하기도한다. 2 Cited half-life, citing half-life Cited half-life( 피인용반감기 ) 는학술지 J에역대에출판된모든 item들에대해 X년에받은인용횟수를바탕으로계산한다. 예를들어 2011년에 J가총 1,177회인용되었다고가정하자. 인용횟수를출판년도에따라분류한표가다음과같다면누적백분율 (cumulative percentage) 이 50퍼센트가되는연도는 2003년과 2002년사이이다. 인용이매달균일하게이루어진다고가정하여 50퍼센트가되는연도를소수점첫째자리까지구하면 Cited half-life가 9.3년이됨을알수있다. 이지표는출판된내용이얼마나오랫동안인용되는지를나타내는척도이다. 유사한방법으로 J 가인용한논문들에대해서도 Citing half-life( 인용반감기 ) 를계산할수있다. < 표 1> 출판년도에따라분류한인용횟수 인용된 item의 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 출판년도 -all 2011년에인용된횟수 20 58 126 115 45 44 49 45 66 59 550 누적백분율 1.70 6.63 17.33 27.10 30.93 34.66 38.83 42.65 48.26 53.27 100 3 Median Impact factor, aggregate impact factor Impact factor의문제점은학문분야에따라큰차이를나타낸다는것이다. 이때문에 JCR에서는 impact factor를 subject category, 즉학문분야별로분류하여발표하고, 동시에각 subject category를대표하는지표들을발표해오고있다. Median impact factor( 중간인용지수 ) 는학술지들을각카테고리내에서 impact factor 순으로나열했을때중간에해당 되는학술지의 impact factor를말한다. 카테고리내의전체학술지수 N이홀수일때는 [1+(N-1)/2] 번째학술지의 impact factor이고, N이짝수일때는 N/2번째학술지와 [1+N/2] 번째학술지의 impact factor의평균값이다. 특정 subject category의 aggregate impact factor( 집단인용지수 ) 는 (X-1) 년과 (X-2) 년의카테고리내에속하는모든학술지에출판된 item들이 X년에인용된총횟수를 (X-1) 년과 (X-2) 년에같은학술지 Science Editing Vol.1 35
이슈 들에출판된모든 citable item 수로나눈것이다. Impact factor의분포는선형적이지않고, 또 power law를따르므로일반적으로 cumulative impact factor는 median impact factor에비해상당히높다. JCR에는이외에도 aggregate immediacy index, aggregate cited half-life, aggregate citing halflife 등의지표들이발표된다. 4 Impact Factor의문제점과편집자윤리앞에서지적한것처럼 impact factor의문제점은학 문분야의특성에따라큰편차를보이는것이다. 다음표는 JCR에발표된몇개의 subject category에대한 2011년도 median impact factor, aggregate impact factor, aggregate cited half-life, 편당인용논문수를보여준다. 논문을많이인용하는분야일수록, 그리고 cited half-life가짧은분야일수록 impact factor가전반적으로크다는것을알수있다. 또한분야에따라 impact factor 분포의차이가존재함도알수있다. < 표 2> JCR 에발표된몇개의 subject category 에대한 2011 년도의 median impact factor, aggregate impact factor, aggregate cited half-life, 편당인용논문수 subject category median aggregate aggregate impact factor impact factor cited half-life 편당인용논문수 Mathematics 0.560 0.709 >10.0 19.8 Physics, Multidisciplinary 0.983 2.680 7.7 30.4 Chemistry, Multidisciplinary 1.316 4.732 5.9 40.9 Biology 1.546 3.180 6.1 46.6 Astronomy & Astrophysics 1.683 4.242 6.8 49.3 Nanoscience & Nanotechnology 1.918 4.688 3.8 35.5 Cell & Tissue Engineering 3.728 6.021 3.7 50.4 Impact factor는특정학술지에실린 item들의인용횟수의산술평균에의해얻어진다. 그러나같은학술지내에서의논문별인용횟수의분포는일반적으로 power law를따른다고알려져있으므로 impact factor는개별논문들의중요성을과대평가하는경향이있음을알수있다. 즉대다수의논문들은 impact factor가나타내는것보다상당히더적게인용된다. 그러므로이지표를이용하여개별논문또는연구자의우수성을판단하는것은정확하지않다. 학술지들간의경쟁이치열해지면서학술지편집자들이의도적으로 impact factor를올리기위한정책을시행하는경우가종종발생한다. 윤리적으로가장문제가되는것은저자들에게 self citation을강요하는방식이다. 이외에도인용이많이되는경향이있는종설 36 Vol.1 No.1
Science Editing (review) 논문들을의도적으로많이출판하거나, 인용가능성이많은논문들을연초에몰아서출판하는방법들이사용된다. 이러한행위는 impact factor에너무많은중요성을불합리하게부여하는현실에서비롯되며지표를의도적으로왜곡하는불공정행위라고볼수있다. Eigenfactor score, article influence score 이지표들은칼버그스트롬 (Carl Bergstrom) 등이 impact factor의결점을보완하기위한목적으로개발해 2007년이후 JCR을통해제공하고있다 [2]. Eigenfactor의개념은 complex network( 복잡연결망 ) 이론에바탕을두고있으며, 래리페이지 (Larry Page) 등이제안하여구글검색엔진 (Google search engine) 에사용되고있는페이지랭크알고리즘 (PageRank algorithm) 과유사한방법을사용한다. Eigenfactor의계산을위해서는먼저계산에사용될총 N개의학술지들로이루어진데이터베이스를정의한후, 다음과같은형태의 N N 행렬 H를구성해야한다. 1) Zij Hij = ΣZ kj k 여기서 Zij는 (X-1) 년에서 (X-5) 년까지 5년간학술지 i에출판된 item들이 X년도에학술지 j에인용된횟수를말한다. Eigenfactor의계산에서는 self citation 은제외하므로행렬 Z의대각선원소들은모두 0이다. 다음에는 article vector라고불리는벡터 a를정의한다. 이벡터의 i번째원소 ai는 (X-1) 년에서 (X-5) 년까지 5년간학술지 i에출판된논문들의총수를같은기간동안데이터베이스전체에서출판된논문의총수로나눈수이다. Complex network와관련된계산을할때특별히고려해야할부분은소위 dangling node 및 dangling cluster에관한것이다. dangling node의예를들면어떤학술지 j가데이터베이스에포함된어떤학술지도인용하지않았지만다른학술지에인용이되었을경우모든 k에대해 Zkj=0이다. 이경우행렬 H의 j번째열이정의되지않으므로이열을적절한숫자들로바꿔줄필요가있다. 모든 dangling node에해당하는학술지들에대해, 해당하는열을벡터 a로대체한행렬을 H* 라고정의한후다음과같은 N N 행렬 P를도입한다. a 1 a 1 a 1 P=αH*+(1-a)( ) a 2 a 2 a 2 a N a N a N 여기서 는적절하게선택된상수이며보통 0.85의값을선택한다. 이행렬 P의 eigenvalue 중에서가장큰절대값을갖는 eigenvalue에해당하는 eigenvector를 journal influence vector라고부른다. 이벡터를 v라고할때 vi 는 network 내에서 i번째학술지의상대적인중요성을나타내는 weighing factor( 가중치 ) 의의미를갖는다. 최종적으로학술지 i 의 Eigenfactor score Fi는다음식에의해계산된다. 1) Eigenfactor 의정확한의미를이해하기위해서는선형대수학과 comlpex network( 복잡연결망 ) 분야에관한전문지식을필요로한다. 특히주어진행렬의 leading eigenvector 를구하고그의미를해석할수있어야한다. 4 절의 SJR 지표도선형대수학의이론을필요로한다. F i = 100 i = 1 j = 1 j = 1 H ij υ j H ij υ j Science Editing Vol.1 37
이슈 이정의에따르면데이터베이스내의모든학술지에대한 Eigenfactor들의합은 100이다. 이양은해당학술지에서출판된논문들의총수에의해규격화되지않았으므로같은조건이라면많은논문을출판하는학술지일수록큰값을갖게되는경향이있다. 또한학문분야들간의인용패턴의차이가조정되어서로다른분야에속하는학술지들간의비교를가능하게한다. 특정학술지에발표된개별논문들의영향력을나타내는지표로서 article influence score Ii를다음과같이정의한다. 이양은 impact factor를대체하는척도로서사용될수있다. SNIP (Source Normalized Impact per Paper) SNIP은학문분야에따라다른인용패턴을나타내는현상을보정해주는지표로서 Hank Moed에의해제안되었다 [3]. 이지표는 Scopus를통해제공되며 impact factor 대신에사용될수있다. SNIP은다음방법으로계산된다. RIP (raw impact per paper) = 특정학술지에서 (X-1), (X-2), (X-3) 년에출판된논문들이 X 년도에인용된횟수를논 문수로나눈값. 논문을인용한것만포함하고 erratum 이나 editorial 등에대한인용은포함시키지않는다는점을빼고는 Impact Factor 와유사함. I i = 0.01 F i a i DCP (database citation potential) = 특정학술지에서 (X-1), (X-2), (X-3) 년에출판된논문들을 X 년도에인용한모 든논문에서인용한 reference 들중같은기간에출판된 reference 들의총수를인용한논문들의총수로나눈값. 이계 산에는데이터베이스에포함된학술지들을인용한것만포함 하고나머지는무시함. RDCP (relative database citation potential) = 데이터 베이스에포함된학술지들에대해 DCP 를순서대로나열했 을때중간값에해당하는학술지의 DCP 로규격화한 DCP. SNIP = RIP / RDCP SJR (SCImago Journal Rank) SJR은 SNIP과함께 Scopus를통해제공되는지표이다 [4]. SJR의계산은반복적으로 (iteratively) 이루어지며다음과같이정의된다. 먼저 N개의학술지들로구성된데이터베이스내에서각학술지의상대적인중요성을나타내는벡터 S를도입한다. Si 는 i번째학술지의 weighting factor이다. 첫단계에서 S 벡터의값들은임의의숫자들로주어진다. 최종결과는이초기값들에의존하지않는다. 다음단계에서각각의 Si는다음수식을이용하여계산한다 : 1-d-e N +ea 1 +d j = 1 N i = 1 j = 1 +da i H* ij S j Σ H* ij S j Σ Σ 1- S [ k ] k [dangling-nodes] Sk S i k [dangling-nodes] 이식에서상수 d, e는각각 d=0.85, e=0.1의값을선택하며, 행렬 H* 와벡터 a는 (X-1) 년에서 (X-3) 년까지 3년간의인용데이터를사용하는점을제외하고는앞에서살펴본 Eigenfactor 계산시와유사하게정의된다. 위의식에의해새롭게얻은 S 벡터를이용 38 Vol.1 No.1
Science Editing 하여다시계산을수행하고, S 벡터의값들이수렴할때까지유사한계산을반복한다. 최종적으로학술지 i 의 SJR은다음식을이용하여계산한다. 여기서 Ai는학술지 i에서 3년간출판된총논문수이다. SJR은다른지표들과는상당히큰차이를나타내며신뢰성에서문제가있다고판단된다. h index, g index SJR i = S i A i 마무리하며지금까지학술지들의정량적인평가를위해사용하는여러가지지표에대한정의, 계산방법, 특징및문제점등을간략하게살펴보았다. 이글에서언급된지표들외에도새로운지표들이계속해서고안되고있다. 그러나어떤지표도완벽할수는없으며나름대로의한계와문제점들이존재한다. 그러므로학술지, 개별논문, 연구자를평가할때정량적인지표들에지나치게의존하지않도록주의할필요가있다. h index는 2005년 Jorge Hirsch가개별연구자들의연구역량을평가하는지표로제안한것이다 [5]. 이지표는특정연구자가발표한논문들이받은모든인용을바탕으로계산한다. 특정연구자의논문들을인용횟수가많은논문부터차례로나열하여 h편의논문이각각적어도 h회이상인용되었다고할때얻을수있는 h의최대값이이연구자의 h index이다. 같은방법을사용하여특정연도에특정학술지에출판된논문들에대해서도 h index를부여할수있으므로학술지의평가지표로도사용될수있다. h index는각논문의통산인용횟수를이용하여구하므로시간이지나면서점점큰값을갖게된다. 그러나소수의매우우수한논문을발표한연구자의경우낮은지표를갖게된다는문제점이있다. 이문제점을보정하기위해 Leo Egghe는변형된지표인 g index를제안하였다. G index는특정그룹의논문들중에서 g편의논문이인용된총수가적어도 g 2 회이상되었다고할때얻을수있는 g의최대값을말한다. G index는항상 h index 보다큰값을갖는다. 참고문헌 1. Garfield E. Citation indexes for science. Science 122, 108-111 (1955). 2. Bergstrom CT, West JD, Wiseman MA. The Eigenfactor metrics. J. Neurosci. 28, 11433-11434 (2008). 3. Moed HF. Measuring contextual citation impact of scientific journals. J. Informetr. 4, 265-277 (2010). 4. Gonzalez-Pereira B, Guerrero-Bote VP, Moya-Anegon F. A New approach to the metric of journals scientific prestige: the SJR indicator. J. Informetr. 4, 379-391 (2010). 5. Hirsch JE. An Index to quantify an individual's scientific research output. PNAS 102, 16569-16572 (2005). [ 출처 ] 과편협뉴스레터 4 호 Science Editing Vol.1 39