<30355F D C0E5C1F8BCBA20B1C7BDC5BFB520B1E820C8D D D30C3D6C1BEC4C1C6DF2E687770>

Similar documents
03-서연옥.hwp

Journal of Educational Innovation Research 2016, Vol. 26, No. 1, pp.1-19 DOI: *,..,,,.,.,,,,.,,,,, ( )

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

09È«¼®¿µ 5~152s

09김정식.PDF

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

歯1.PDF

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

09구자용(489~500)

04김호걸(39~50)ok

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

27 2, * ** 3, 3,. B ,.,,,. 3,.,,,,..,. :,, : 2009/09/03 : 2009/09/21 : 2009/09/30 * ICAD (Institute for Children Ability

02À±¼ø¿Á

06_ÀÌÀçÈÆ¿Ü0926

인문사회과학기술융합학회

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

< FC3D6C1BEBCF6C1A45FB1E2B5B6B1B3B1B3C0B0B3EDC3D E687770>

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: * The Grounds and Cons

DBPIA-NURIMEDIA

_ _ Reading and Research in Archaeology. _ Reading and Research in Korean Historical Texts,,,,,. _Reading and Research in Historical Materials from Ko

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: * Review of Research

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

DBPIA-NURIMEDIA

(5차 편집).hwp

ecorp-프로젝트제안서작성실무(양식3)

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi


,......

00내지1번2번

03이경미(237~248)ok

<372E20B9DAC0B1C8F12DB0E62E687770>

pdf 16..

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

04-다시_고속철도61~80p

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: Awareness, Supports

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

H_AR_ P

¼Ò³ª¹«Àç¼±-³»Áö1~41

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

슬라이드 1

.,,,,,,.,,,,.,,,,,, (, 2011)..,,, (, 2009)., (, 2000;, 1993;,,, 1994;, 1995), () 65, 4 51, (,, ). 33, 4 30, (, 201


Main Title

歯kjmh2004v13n1.PDF

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

웹진용

<303038C0AFC8A3C1BE5B315D2DB1B3C1A42E687770>

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

11¹Ú´ö±Ô

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: An Exploratory Stud

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

<C5EBC0CFB0FA20C6F2C8AD2E687770>

50-5대지05장후은.indd

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 19~41 석유제품브랜드의자산가치측정 : 휘발유를 중심으로 19

182 동북아역사논총 42호 금융정책이 조선에 어떤 영향을 미쳤는지를 살펴보고자 한다. 일제 대외금융 정책의 기본원칙은 각 식민지와 점령지마다 별도의 발권은행을 수립하여 일본 은행권이 아닌 각 지역 통화를 발행케 한 점에 있다. 이들 통화는 일본은행권 과 等 價 로 연

ePapyrus PDF Document

04±èºÎ¼º

264 축되어 있으나, 과거의 경우 결측치가 있거나 폐기물 발생 량 집계방법이 용적기준에서 중량기준으로 변경되어 자료 를 활용하는데 제한이 있었다. 또한 1995년부터 쓰레기 종 량제가 도입되어 생활폐기물 발생량이 이를 기점으로 크 게 줄어들었다. 그러므로 1996년부

Rheu-suppl hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: * A Study on Teache

10(3)-09.fm

DBPIA-NURIMEDIA

04서종철fig.6(121~131)ok

09권오설_ok.hwp

歯kjmh2004v13n1.PDF

상담학연구,, SPSS 21.0., t,.,,,..,.,.. (Corresponding Author): / / / Tel: /

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con


#Ȳ¿ë¼®


IDP www idp or kr IDP 정책연구 한국경제의구조적문제와개혁방향 민주정책연구원 The Institute for Democracy and Policies


<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>


Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 30(9),

(

<30315FC0CCB5BFC1D65FC7D1B1B9BCBAB8C5B8C52E687770>

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

11¹ÚÇý·É

<B1E2C8B9BEC828BFCFBCBAC1F7C0FC29322E687770>

Abstract Background : Most hospitalized children will experience physical pain as well as psychological distress. Painful procedure can increase anxie

<31335FB1C7B0E6C7CABFDC2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

<353020B9DAC3E1BDC42DC5ACB6F3BFECB5E520C4C4C7BBC6C3BFA1BCADC0C720BAB8BEC820B0EDB7C1BBE7C7D7BFA120B0FCC7D120BFACB1B82E687770>

DBPIA-NURIMEDIA

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

141(26) () ( ( ) () () () ) 2) 1932 ()()3) 2 1) ( ) ( ) () () () 4) ( ) 5) 6) ) ) ( ) () 42 () )

135 Jeong Ji-yeon 심향사 극락전 협저 아미타불의 제작기법에 관한 연구 머리말 협저불상( 夾 紵 佛 像 )이라는 것은 불상을 제작하는 기법의 하나로써 삼베( 麻 ), 모시( 苧 ), 갈포( 葛 ) 등의 인피섬유( 靭 皮 纖 維 )와 칠( 漆 )을 주된 재료

Transcription:

1) J. Korean Soc. For. Sci. Vol. 110, No. 2, pp. 179~188 (2021) https://doi.org/10.14578/jkfs.2021.110.2.179 JOURNAL OF KOREAN SOCIETY OF FOREST SCIENCE ISSN 2586-6613(Print), ISSN 2586-6621(Online) http://e-journal.kfs21.or.kr 세계생물다양성정보기구 (GBIF) 에출판된동아시아관속식물생물다양성정보현황과자료품질분석 장진성 1 권신영 1 김휘 2* 1 서울대학교산림과학부, 2 목포대학교식의약자원개발학과 Status and Quality Analysis on the Biodiversity Data of East Asian Vascular Plants Mobilized through the Global Biodiversity Information Facility (GBIF) Chin-Sung Chang 1, Shin-Young Kwon 1 and Hui Kim 2 * 1 Department of Forest Sciences and The Arboretum, Seoul National University, Seoul 08826, Korea 2 Department of Pharmaceutical Resources, Mokpo National University, Muan-gun 58645, Korea 요약 : 생물다양성정보학 (Biodiversity Informatics) 은정보과학을생물다양성정보에접목한분야로정이명으로구성된학명을비롯한종정보를기초로일차종발생자료를구축하고이를활용한다. 본연구에서는생물다양성정보의이용적합도를기준으로세계생물다양성정보기구 (GBIF) 에출판된동북아시아자료의품질을 BRAHMS 프로그램을이용하여평가하고이를통해생물다양성자료정제의필요성을확인하였다. 국립생물자원관, 국립생태원, 국립수목원등의국내생물다양성관련기관과더불어일본, 중국, 대만의출판자료는자료정제과정의문제로학명, 지리정보, 채집자, 날짜등에대한오류가확인된다. 기본적인속성자료에서오류가발생하는원인은동아시아의생물다양성관리기관들이구조화되지않은데이터베이스를사용하고평면적인스프레드시트형정보를사용하기때문이다. 생물다양성정보특성상다양한정보가구조화가되지않을경우학명, 인명, 지명, 문헌, 생태정보에대한데이터무결성을해결하지못한다. 동아시아생물다양성정보관리문제를극복하기위해서는자료의구조화와함께자료정제에대한이해도를높이고, 오류수정을위한지속적인자료관리자인전문분류학자양성이필요하다. 생물다양성정보관리자는오류원인분석을통해문서화된관리지침을수정, 추가하는등향후오류예방을위한대책이필요하며시스템에적용시켜야한다. 이런모든과정은데이터베이스를기반으로진행되고기록되어야한다. 동아시아의생물다양성출판자들은현재수준의단순한자료구조보다는생물다양성정보관리를위해전문적인선진프로그램의사용혹은이에준하는수준의고도화된데이터베이스의개발이필요하다. Abstract: Biodiversity informatics applies information technology methods in organizing, accessing, visualizing, and analyzing primary biodiversity data and quantitative data management through the scientific names of accepted names and synonyms. We reviewed the GBIF data published by China, Japan, Taiwan, and internal institutes, such as NIBR, NIE, and KNA of the Republic of Korea, and assessed data in diverse aspects of data quality using BRAHMS software. Most data from four Asian countries have quality problems with the lack of data consistency and missing information on georeferenced data, collectors, collection date, and place names (gazetteers) or other invalid data forms. The major problem is that biodiversity management institutions in East Asia are using unstructured databases and simple spreadsheet-type data. Owing to the nature of the biodiversity information, if data relationships are not structured, it would be impossible to secure the data integrity of scientific names, human names, geographical names, literature, and ecological information. For data quality, it is essential to build data integrity for database management and training systems for taxonomists who are continuous data managers to correct errors. Thus, publishers in East Asia play an essential role not only in using specialized software to manage biodiversity data but also in developing structured databases and ensuring their integration and value within biodiversity publishing platforms. Key words: biodiversity informatics, data cleaning, data integrity, fitness-for-use, GBIF, georeferencing, scientific name * Corresponding author E-mail: huikim@mokpo.ac.kr ORCID Hui Kim https://orcid.org/0000-0002-7765-6812 179

180 韓國山林科學會誌제 110 권제 2 호 (2021) 서론 생물학은분자부터지구생태계까지연구대상의범위와크기가다양함에도불구하고정보학과생물학의융합인생물정보학 (bioinformatics) 이너무과도하게강조되고있다 (Berendsohn, 2009). 생물정보학은분자수준에초점을맞추고있는반면 (Sarkar, 2007), 생물다양성정보학 (Biodiversity Informatics) 은유기체수준이상의범위에서자료의관리, 발표, 발견, 탐구및분석과같은정보해석을시도한다. 생물다양성정보는생물개체의종정보를중심으로지리정보를비롯한다양한정보와연계를통해폭넓은활용도를갖게된다. 초기생물다양성정보구축은자료를모으고관리하는것에핵심기술이집중되지만, 점차자료의응용측면이강조되면서디지털자료를활용하고자하는창의적인개념과균형이더중요하게되었다 (Peterson et al., 2010). 생물다양성정보의이용은분포도, 지리분포, 종목록, 동식물상, 계통수, 분포모델링, 보전정책등다양하다. 다방면의응용에도불구하고생물다양성정보학의핵심은정이명의관계, 분류체계등에기초한분류정보이다. 결국생물다양성정보학의발전은정제된분류학정보를기반으로구축되는생물다양성자료의질과양이결정하게된다. 일반적인생명과학의발견원리는가설설정과통제된실험을통해가설을검증하는구조를갖지만, 생물다양성정보학은대량의정보를플랫폼을통해정제된자료를축적하고활용한다는점에서차이가있다 (Peterson et al., 2010). 생물다양성자료는대상분류군이다양하고표본, 문헌, 관찰자료, 샘플링데이터등의다양한자료구성으로인해공통된플랫폼에이를구현하는것이까다로우며이를극복하기위해서는관련자료의통합기술이중요하다. 이용가능한생물다양성자료를효과적으로활용하기위해서는플랫폼구축과관련된기술개발이핵심이지만 (Hardisty et al., 2013; Peterson et al., 2010) 국내의경우생물정보학과도구별하지않고생물다양성정보학고유의전문성도고려되지않고있다. 전세계적으로수많은표본기록과관측자료를모아생물다양성데이터를축적하고이를공유하기위한플랫폼에대한경쟁은오래전에시작되었다. 관련조직으로는 OECD중심의 GBIF(the Global Biodiversity Information Facility, 세계생물다양성정보기구 ) 와북미중심의 idigbio (Integrated Digitized Biocollections, 통합디지털생물수집 ) 와신대륙인남북중미지역을포괄한 BIEN(Botanical Information and Ecology Network) 등이있다. 생물다양성자료로서문헌은학명과관련된정보질향상뿐만아니라일차종발생자료 (primary occurrence data) 의활용으로중요하다. 국제적으로 BHL(Biodiversity Heritage Library, 생물다양성전통도서관 ) 을통해 86개주요기관및 360여개이 상의관련기관이참여하여무료로생물다양성문헌자료를공개하고있다 (Gwinn and Rinaldo, 2009). 궁극적으로구조화되고통합된자료가완성된다면각자의플랫폼을통한통합자료가각목적을위해활발하게활용이될수있지만자료의품질향상과관리가주요장애요인이된다 (Peterson et al., 2010; Wen et al., 2015). 생물다양성자료는 1차종발생자료가핵심으로이를활용하는분야는유해침입생물종의분포현황에대한파악, 기후변화로인한생물종의분포변화에대응하고종분포모델링, 멸종위기종의개체, 집단, 군집에대한보전, 작물로이용되고있는유전자원의야생상태에서의보전, 인류보건에영향을미치는다양한매개생물종의분포등다양하다 (Bebber et al., 2010; Chavan and Krishnan, 2003; Fuentes et al., 2013; Kier and Barthlott, 2001). 이용도가높은 1차종발생자료는많은연구자들이자료를구축한플랫폼자료를그대로이용하여해당자료의품질에대한명확한판단없이사용하였으나연구자들이정보의품질을점차상세하게요구하고있다. 본연구에서는표본자료의오동정에의한일차적오류보다는자료의이용적합도 (data fitness for use, Andersson et al., 2016) 를기준으로동북아시아국가들이등록한 GBIF 출판자료를상호비교하고평가하여자료의문제점을파악하고, 자료정제의필요성에대해검토하고해결할방법론을제시하고자한다. 재료및방법 동북아시아지역내생물다양성정보자료의중요척도인세계생물다양성정보기구 (Global Biodiversity Information Facility; GBIF) 에등록된자료를이용하여자료의품질을분석하였다. GBIF에등재된동북아지역의 4개국가즉, 대만, 대한민국, 일본, 중국의국가별노드 (node) 에서발생자료중표본과관련된관속식물자료를국가별로분석하였다 (GBIF.org, 2020, 2021a, 2021b, 2021c). 분석을위해 R의 GBIF분석 package인 rgbif 를이용하였다 (Chamberlain, 2021). GBIF의자료의 4가지주요구분인종발생자료 (occurrence), 종목록 (checklist), 샘플링데이터 (sampling data) 및메타데이터중종발생자료를주요분석대상으로정하였다. 종발생자료의이용적합도는 3가지의구성요소식물동정 (identification), 지리참조연산에의한좌표정보 (georeferencing) 자료품질에집중하여분석하였다 (Anderson et al., 2016; Chapman et al., 2020). GBIF는개별종발생자료의품질을확보하기위하여위의세가지주요자료품질에대한문제가발생한자료를 issue flagging 을이용하여이를표시하는데, rgbif의 occ_count() 및 occ_search() 함수를이용하여개별자료의자료적합도에

세계생물다양성정보기구 (GBIF) 에출판된동아시아관속식물생물다양성정보현황과자료품질분석 181 따라구별하여각국가별자료품질을제시하였다. 심층적인이용적합도분석을위하여개별출판자들의자료를직접 GBIF자료를 Darwin-core형식으로받아영국의옥스퍼드대학과큐식물원에서공동개발한식물데이터베이스프로그램인브라암스 (BRAHMS: Botanical Research And Herbarium Management System) 를이용해서자료를분석하였다. 집중분석의대상은국내자료의경우산림청국립수목원산림생물표본관 (Korea National Arboretum, KH) 과환경부국립생물자원관 (National Institute of Biological Resources, KB) 에서소장된식물표본자료, 국립생태원 (National Institute of Ecology) 에서발표한전국자연환경조사자료를활용하였다. 결과 1. GBIF 기초자료분석 GBIF는생물다양성자료를생성, 관리및정보제공하고인프라를공동으로구축하고네트워크활성화를위해지정한국가별단위를노드라고한다. 한국가의 GBIF 종발생자료는해당국가노드에서출판한자료와해당국가에서발생한자료를다른국가노드에서출판한자료로나눌수있다. 현재동북아시아 4개국의노드를통한 GBIF출판의규모는관속식물의경우전체 590만건으로일본 255만 건, 중국 160만건, 대한민국 116만건, 대만 57만건이확인된다 (Figure 1). 절대적인종발생자료의크기는일본과중국이높으나해당국가의국토면적당종발생량즉 km 2 당종발생량은대만이 15.88건, 대한민국 11.64, 일본 6.77, 중국 0.17로단위면적당종발생량의비율은대만과중국의단순비교로 100배가까운차이를보인다 (Figure 1). GBIF 에실제등재된자료의양은차이가있으나자료의이용적합도측면에서분포정보를활용할수있는자료의양은일본이 153만건, 중국이 139만건, 대한민국이 50만건, 대만이 41만건을보유하고있으나전체종발생량에대한이용가능한자료의비율은한국이 43.59% 로가장낮다 (Figure 2). 지리정보의정확도와분류학정보의정확성은각국가별로이용가능한자료의수준을판정할수있으며, GBIF 는개별정보에대한품질을판정할수있도록문제 (issue) 가있을경우이를표시 (flagging) 하는기능을갖고있다 (Anderson et al., 2016; Chapman et al., 2020). 동아시아종발생자료중좌표의품질을확인한결과주로 null 값이아닌 0으로기록된좌표의양 (zero coordinate, Figure 3A) 과국가경계를넘어간좌표를보유한자료의양 (country coordinate mismatch) 을조사해보면일본이가장높은수치를보였다 (Figure 3B). 분류정보에있어제시된학명이 GBIF의기준학명자료 (backbone data) 와일치하지않거나 (taxon match fuzzy, Figure 3C), 종소명이불일치할경우 Figure 1. Total number of occurrence data and the number of records per km 2 which were published our East Asian countries, China, Japan, South Korea and Taiwan. Figure 2. Total number of occurrence data and the number of georeferenced records and ratio which were published by our East Asian countries, China, Japan, South Korea and Taiwan.

182 韓國山林科學會誌제 110 권제 2 호 (2021) Figure 3. Total number of certain issues of flags in GBIF occurrence data published by four East Asian countries, A. Coordinates are exactly 0/0, often indicating an actual null coordinate. B. The interpreted occurrence coordinates fall outside of the indicated country.c. A match with a different spelling was found. D. No match was found at the same taxonomic rank but one was found for a higher rank. 속명에그정보를연결시키는종발생자료의양 (taxon higher rank, Figure 3D) 이일본이가장높아양에비해질적인문제는크다는것을확인할수있다. 2. 국내GBIF 자료현황 GBIF내에서국내식물관련종발생자료의대표적출판기관으로는국립생물자원관, 국립생태원, 국립수목원등이있다. 국립생물자원관의경우관속식물자료가 607,514 건이확인되나모든자료가좌표가없이발표됐으며이는 268,815건을발표한국립수목원의경우도모든자료가좌표가없어이용적합도에있어활용도가거의없다. 2020년 12 월에국립생태원은 387,863건의관속식물관찰 (observation) 자료를발표했으며모두좌표가부여되었고 0.5% 자료만 GBIF의기준학명자료만일치하지않을정도의정밀자료를발표하였다. 국립생물자원관과국립생태원의자료는국립중앙과학관에서운영하고있는 GBIF 종합출판도구 (IPT; Integrated Publshing Toolkit) 서버를통해자료를관리하고있으나국립수목원출판자료의경우해당자료의 IPT가연결되어있지않고있어해당자료를 고아자료 (orphaned data) 로취급받는다. 3. 동아시아 GBIF 자료현황일본내기관에서출판한관속식물종의종발생은 1,721,319건으로동아시아에서는가장많은발생자료를발표하였다. 해당자료는국립, 도립혹은현립의 18개박물관을중심으로자료가발표되었다. 표본관별로발표한자료는 TNS (National Museum of Nature and Science) 가 378,321건 (22.0 %), KPM (Kanagawa Prefectural Museum of Natural History) 은 277,990 (16.1%), HYO (Museum of Nature and Human Activities) 는 174,085건 (10.1%), OSA (Osaka Museum of Natural History) 는 114,066 (6.6%) 건으로 4개기관이전체발표자료의절반이상 (54.9%) 을차지한다 (Figure 4). 좌표가없는자료는 579,821건으로전체의 50.8% 를차지하고있고동정이되지않은분류군은 22,182건으로 1.3% 가확인된다. 가장많은자료를발표한 TNS와 KPM의경우좌표정보가결여된것이 18.4%, 9.5% 가있어비교적충실한자료관리가되고있음을확인할수있다. 반면자료수에비해이용적합도가떨어지는기관은 HYO, OSA로 44-68% 의좌표부재의질적관리에서차이를보인다. 연도별채집은가장많은표본자료를확보한 TNS는주요채집이 1980년대에집중되어있는반면, 다른일본내기관은 1980년말에서 2010년까지최근의채집이진행되었다. 일본자료의분류정보의품질은명명자와자동명에대한문제점등이있었고채집자의이름, 채집날짜나기타정보에대한자료정제의결여, 채집지역에대한자세한지명정리에대한일관성이나균일성이다른

세계생물다양성정보기구 (GBIF) 에출판된동아시아관속식물생물다양성정보현황과자료품질분석 183 Figure 4. Occurrences per year graphs based on the number of herbarium records published through the GBIF by TNS (National Museum of Nature and Science) and other 17 herbaria with in Japan. 나라에서확인되는문제점과유사하다. 2001년부터생물다양성데이터베이스통합관리를시작한대만은 4개의기관에서 GBIF에출판한식물표본자료는 210,720건이며이중전체의 53.6% 는 TAI (National Taiwan University, 112,960), 45.7% 는 TAIF (Taiwan Forestry Research Institute, 96,349) 가발표하여양분하고있다 (Shao et al., 2013). 표본중에는동정이완료되지못한종류및채집지가없는자료는전체 13,220개로서 6.2% 를차지하고있으며대부분대만대학식물표본관에서나온자료 (73.6%, 9736개 ) 가된다. 채집년도별정리를보면 1945 년이전표본과 1960년대그리고 1980년대채집은주로대만대학의표본이주를이루며이후 90년대와 2000년대초반은대만임업시험소가대부분을차지한다 (Figure 5). 특히 1895년에서 1945년까지일본의대만강점기시기의채집품은 47,903건으로주로일본인 S.Sasaki ( 佐佐木舜一 ), T.Suzuki ( 鈴木時夫 ), S.Suzuki ( 鈴木重良 ), Y.Yamamoto ( 山本由松 ) 등의채집품이주요수집이다. 대만의경우자료내용에있어학명에서는명명자와자동명에대한일관성이없는정리, 채집자의이름의, 채집날짜나기타정보에대한자료정제의결여, 채집지역에대한자세한지명정리에대한일관성이나균일성이부족하다. 최근표본자료에서도이런자세한지명정보부족이동일해서이와관련된지리정보관리에대한개선이필요해보인다. 다른국가에 비해대부분좌표정보를거의모두제시하여자료활용도에서는동아시아에서국가나혹은지역단위에서는가장잘정리되어있다. 중국은 23개의표본관에소장된 280 만개의표본자료를 2008년까지중앙에서정보화를구축하였다. 이중약절반이넘은 160만개의자료가 GBIF에출판되었으나, 자료정제에서흔하게확인되는단순오류는 20여개서로다른표본관에서독립적인기록을하면예를들어월과일을바꿔기록하거나혹은숫자 3을 5로, 8을 6, 또는 3으로기록하거나 7을 1로, 9를 7로기록된오류가빈번하게확인된다. 1945년이전표본의경우에는북한처럼빈번한행정개편이있었던것은아니지만 2차세계대전이후 14개성이 3개성으로정리된지명때문에북한의경우처럼지명에대한혼란이다수존재한다. 다른형태의오류는채집자가 3-4명혹은그이상임에도불구하고표본레이블에대표자이름만이기록되어赵大昌, 巴拉诺夫, 朱有昌을 赵大昌等 으로기록하는부분등이다수존재한다. 데이터정제를못해동일인물임에도불구하고러시아채집자였던 B.W.Skvortsov (1896-1980) 는司克窝尔错夫나 Skvortzov, B.W. 등으로기록하여동일인물을알지못하면채집자명을통일하기어렵게되어있다 (Williams et al., 2002). 중국의자료는표본에근거한모든자료를비교적충실하게기록하여자료정제과정을거쳐수정이가능하다는장점이있다.

184 韓國山林科學會誌제 110 권제 2 호 (2021) Figure 5. Occurrence per year graphs based on the number of herbarium records published through the GBIF by TAI (Taiwan National University) and TAIF (Taiwan Forestry Research Institute) in Taiwan. 고찰 생물다양성정보데이터교환은오래전부터이루어져왔으며초기에는특정분류군연구 (revision) 에대한연구의기본자료분양에서사용되다가점차분포연구와종분포모델링, 생물지리학분석, 계통지리학분석및보전과관련된계획으로점차분야를넓혀가고있다. 종분포모델링분야로의확장은 1차종발생자료의품질, 특히종분포모델링에직접이용적합한자료인지에대한근본적인질문을하게된다 (Chapman, 2005a). 자료의직접적인구축에서 GBIF와같은대규모의플랫폼에서자료를받는형식이다양화하면서이러한이용적합도 (fitness for use) 에대한분석이자료의이전에이미제공되는방향으로점차발전하고있다. 국내의종분포모델링연구에서 GBIF자료의경우해당자료의분류정보의정확도, 좌표정보의정밀도에대한파악없이기계적으로사용되는경우가대부분이라서자료에대한정밀한검토를통한연구의예를찾기어렵다 (Do et al., 2017). 따라서, GBIF에대한자료출판시다양한정보의활용에적합한수준으로데이터를가공하고정밀도에대한정보를제공하는것이필요하다 (Chapman et al., 2020). 동아시아의생물다양성정보에대한공통된문제점은구조화되지않은데이터베이스를사용하고평면적인스 프레드시트형자료구조를사용한다. 자료생성및관리단계에서이렇게구조화된데이터베이스를사용하지않을경우생물다양성정보특성상학명, 인명, 지명, 문헌, 생태정보에대한데이터무결성 (data integrity) 을해결하지못한다. 동아시아에서는국가별로데이터베이스를자체개발하여자료를관리하고있다고주장하지만, 명명자의균일함, 학명의관리, 지명에대한통일성등에대한데이터무결성을해결하지못하는수준의데이터베이스를사용하고있는것으로확인된다. 문제점은외국에서통용되는보편화된관리프로그램을채용하면자료정제의단순원인인위에구조화된데이터베이스를사용하여개선될수있음에도불구하고, 각국가의자체데이터베이스프로그램의개발에몰두하고있어자료의정제와관련된후진성은지속되고있다. 국제적으로생물다양성자료특히분류학자료를표준화, 구조화하려는노력이있어왔으며분류데이터실무그룹 (TDWG; Taxonomic Data Working Group) 의주도로관련정보를유형별로표준화하고있다. TDWG 에의해제안된다윈코어 (Darwin-core) 로알려진주요데이터항목의표준화는국내주요기관들이이를전혀적용하고있지않아자료통합성이나호환성이떨어지며이런이유로국내자료의등재도어렵고자료의신뢰도도낮음과동시에국제적인플래폼에서검색되지않아국제적으로자료활용성이낮다 (Berendsohn et al., 2011).

세계생물다양성정보기구 (GBIF) 에출판된동아시아관속식물생물다양성정보현황과자료품질분석 185 자료입력의과정이아무리효율적이라하더라도오류는발생하는데 (Goodwin et al., 2015), 데이터유효성및수정자체를무시할수없기때문에유럽과미국에서는데이터정제는정보관리에서중요한부분으로인식한다. 즉오류를수정하는과정보다는오류방지를우위에두고오류예방및데이터수정을자료관리정책의중요부분으로판단한다 (Chapman, 1999; Chapman, 2005a. Chapman, 2005b). 생물다양성정보학의자료는종단위의학명을중심으로정리하는데데이터베이스에서학명의정제와통제문제는국제적으로큰고민거리이다. Catalogue of Life나 GBIF에서학명의정이명에대한문제와올바른이름사용에대해 Plant list와 IPNI와같은웹사이트가정보를제공하지만해당국가나지역에서대표되는정이명목록, 즉종목록 ( 체크리스트 checklist) 의확보는가장중요한핵심기술에해당된다 (Berendsohn et al., 2011). 현재동아시아국가들이출판한자료에서제시된학명은국제적수준에미흡하며 (Figure 3C, D) 그원인은잘정제된학명기반자료가없는상태에서종발생자료를다루고있어통일성이결여된다. 자료오류에는단순원인과복합원인으로구분하는데 (Rahm and Hong, 2000), 단순원인은자료입력의오류로철자오류, 중복입력, 상충되는자료입력이며특히자료통합의구조가형성되지않는경우를지칭한다. 반면에복합원인은자료가상충되면서일관성이결여된자료자체가이질적이거나일과성이없는내용으로구성되는경우를말한다. 자료의질적관리를위해서는정확하고일관성이있는자료를제공해야하며이런목적을위해중복되거나반복되는자료는제거해야한다. 특히자료의질은유효성, 정확성, 완성도, 일관성및동질성을포함하는부분이기때문에단순오류를수정하는것을자료정제라는잘못된인식뿐만아니라자료의무결성을이해하지못하는상황이지속적으로발생한다. 국내에서는국가연구기관 ( 예, 국립수목원 ) 이나일반연구에서자료정제혹은자료정제를표본오동정을수정하거나좌표수정하는수준으로인식하여오남용하는사례가있다 (Shin, 2014). 실제표본관에서확인되는오동정의비율은기존 Kim(2017) 의연구에의하면물푸레나무과, 피나무과, 녹나무과를대상으로국립수목원과국립생물자원관의 17,517점표본을검토한결과 0-67% 로분류군별로오동정의빈도는차이가많이난다. 연구된 3개과중물푸레나무과가가장오동정빈도가높았고이중들메나무 (48.3%) 와물들메나무 (39.2%) 와같은종의오동정은매우높은분류군으로인식된다. 단순오류인분류학적인오동정의경우조사대상전체의평균오동정률은 10.4% 정도이지만오동정이전혀없는분류군부터 67.1% 인매우높은오동정분류군들이섞여있어분류군별로표준화하기가어렵고오동정률도분류군별경 향성을찾기가어렵다. 이는표본자료 ( 종발생자료 ) 를사용함에있어신뢰도를크게떨어뜨리며자료분석의결과에대한혼란을야기할수도있다. 평균 10% 정도의오동정이확인되지만이런평균값은개괄적인자료의속성에대해이해도를높일수있으나자료관리에는단순참고의수치에불과하다. 생물다양성자료의품질을떨어뜨리는단순원인으로는학명입력의오타, 채집자의서로다른이름의입력 ( 영명 / 국명, 영명의각기다른철자, 약어로입력된경우등 ), 동일채집임에도다른학명으로동정된경우, 행정구역이변화되어동일지역임에도서로다른지명으로기록된경우, 월과날짜를바꿔입력한경우, 채집자가여러명임에도불구하고대표채집자이름 1명이기록된경우혹은동일지명임에도입력자가기록자에의해모두다르게기록된경우이다. 예로서복제표본은동일채집이지만기관별로소장된상태에서서로다른동정이되어있어데이테베이스를통한이런자료의복구나수정은비교적쉽게진행이된다. 표본자료를발생자료로이용하는목적으로일본이나중국의경우채집자의정보나채집번호그리고좌표정보에대한자료만을제시하면서채집지에대한정보를누락시키는경우가대부분을차지하는데자료정제의필수적인정보인채집번호와채집지역에대한정보부재는일차적인자료정제의가능성을배제하여자료수준향상의장애요인이된다. 복합원인은오류 2-3개가중복되는경우이거나혹은입력된자료가엑셀이나다른프로그램에서데이터베이스로전환하면서구조적문제가발생하는경우이다. 대만에위치한老佛山은 Laofoshan 혹은 Mt. Laofo로기록되는데이에해당되는지명은 Taiwan, Pingtung, Manzhou ( 屏東縣滿州鄉 ) 이거나, Taiwan, Pingtun, Hengchun ( 屏東縣恆春鎮 ) 의동일지명이존재한다. 이런예는북한에대한자료에서도쉽게확인이되는데 1950년미군과중공군의전투로유명한 장진호 의지역은일본식발음과한자와다른영문표기로 Chosin Reservoir, Changjin-ho, Jangjin-ho, 長津湖등여러이름이존재한다. 과거자료의가장큰문제점은지명에대한서로다른방식의기록과자주바뀌는지명으로인해정확한지리정보좌표의확보가어려웠다. 특히, 1952년이후북한의행정개편에의해경성군으로통폐합된주을온면보상동 ( 甫上洞 ) 은 Hojodo, Hojyodo, Hohado로각기기록되어있는데이런예는북한지명에서매우흔하게접하는문제점이다. 1945년이전의채집품에는일본발음으로기록된지명이가장큰장애가되며지리참조 (georeference) 라해서각채집자의채집경로를확인해서정확한좌표화를시도하는작업이다. 지명표기에대해서는각국가별로지역별 ( 예제주도 ) 로지명사전 (gazetteer)

186 韓國山林科學會誌제 110 권제 2 호 (2021) 의전문성도필요하지만자료관리차원에서좌표에대한정보가이런복합원인의문제점을해소할수있다. 생물다양성자료의최근이용패턴에서주목되는것은좌표오류로자료입력시수치를변환하는과정이나지명에좌표를부여하는지리참조연산과정에서오류가필연적으로발생한다. 동아시아자료의경우일부지리참조연산을통해좌표를부여한예가확인되지만국내의경우국립생물자원관, 국립수목원의경우처럼아예모든자료의좌표를누락함으로서자료이용적합도기준으로쓸모없는자료를출판하는상황이불행히도대부분이다. 국가기관에서자료품질관리가안되는이유는자료를관리하는우수한데이터베이스프로그램이없는상태에서자료입력시균질한자료관리가불가능하고지리적오류, 단순좌표의입력오류에도있지만지리참조연산시정밀도를부여하는등의수준관리가결여되어있다 (Chapman, 2005b). 실제지역에대한지명의제시는각국가의지명을로마자로표기하는것이가장바람직하지만과거의수십만개표본을모두데이터베이스에정리하지않기때문에각기관에서는어려운작업으로인식하고있다. 개별지명에지리참조연산을시도한다면단순대표좌표만을제시하는수준보다는정확한지리정보를제시할수있는데, 현재동아시아국가기관에서일정단위의수준에서좌표의정확성을표시하고좌표를제공하는곳은단한군데도없기때문에유럽, 북미에서시행하는수준과는현격한격차를보인다 (Chapman, 2005a, 2005b). 위의단계에오류의점검과정제및정제한내용에대한문서화, 그것을추후관리의단계가추가할필요가있다. 자료의정제과정은오류의원인을밝히는차원에서중요하며그결과를통해같은오류가다시발생하지않도록오류의정제와오류의예방은반드시같은시점에진행되어야한다 (Chapman, 2005a). 관리자는이런오류탐지와정제과정, 그결과의기록, 분석을통해관리지침을수정하거나추가하는등향후오류예방을위한대책을바로마련하고시스템에적용시켜야한다. 모든과정은데이터베이스를기반으로진행되고기록되어야하며검증된선진프로그램인 BRAHMS (Pouwer et al., 2008), Specify (Beach, 2018), Symbiota (Gilbert et al., 2020) 사용이필수적이다. 자료정제와관련된의사소통은일종의자료동업자 (partnership) 의기본적공동체의식이필요하고자료에대한책임성과상호검증기능이포함되어피상적인자료의방치나관리보다는책임소재에대한명확한흐름이명백하게제시되어야한다. 자료생성이나오류수정그리고일관성이나정밀, 정확성을위해늘기록을정례화하여오류시무엇이원인이며이를어떻게수정하여관리할지기본적인관리개념이필하고자료정제의문서화는이런일 련의과정이투명성을가져야한다. GBIF에출판된각국가별자료에서중국의경우연도만을제시하고날짜를숨기거나정확한지명을공개하지않는것이나일본역시채집자나채집번호혹은정확한지명에대한정보의비공개그리고대만의균일화되지않은지명이나학명의사용등은자료공개및관리의국제적인공유목적과는어긋난다. 국내에서도여전히자료공개에대한것보다는자료를제한적으로 GBIF와같은플랫폼에올리는행위역시국제적인시각에서수준이매우낮다. 국내최대 GBIF출판기관인국립생물자원관과국립수목원은표본정보의자료를구축하고온라인상에공개만개별적으로시도하였을뿐적극적인활용에대해서는결과물을제시하지못하고있고, 따라서표본관의체계적인관리와활용의부재에원인이있다. 디지털화하여시스템을구축하였다고해도실제로이용하지않거나, 혹은쉽게이용할수없다면죽은정보로서정보의축적과디지털화와더불어표본의관리 ( 큐레이션 ) 방향과방법의변화를추구하는선진국과는큰격차를보인다 (Scoble, 2010). 외국의전문가들의요구는사용자와의소통을통한오류의탐지와정제의필요성이며 (Orr 1998, Stribling et al., 2003), 온라인상에서전문가와비전문가간사이끊임없는소통을통한자료관리가지속적으로향상되어야한다 (Anderson et al., 2020). 자료정제를통해데이터베이스와실제표본과의정보의격차를줄여신뢰도를높이며누구나온라인에서정보에쉽게접근하고다운받을수있도록하는목표지향성을가져야한다. 결론적으로국내에서는생물다양성정보학에대한정확한이해와인식의기준으로보다전문적인자료관리가요구된다. References Anderson, R.P., Araújo, M., Guisan, A., Lobo, J.M., Martínez- Meyer, E., Peterson, A.T. and Soberón, J. 2016. Final report of the task group on GBIF data fitness for use in distribution modelling. Global Biodiversity Information Facility. Copenhagen. pp. 27. Anderson, R.P., Araújo, M.B., Guisan, A., Lobo, J.M., Martínez-Meyer, E., Peterson, A.T. and Soberón, J.M. 2020. Optimizing biodiversity informatics to improve information flow, data quality, and utility for science and society. Frontiers of Biogeography 12(3): 1-14. Bebber, D.P., Carine, M.A., Wood, J.R.I., Wortley, A.H., Harris, D.J., Prance, G.T., Davidse, G., Paige, J., Pennington, T.D., Robson, N.K.B. and Scotland, R.W. 2010. Herbaria are a major frontier for species discovery. Proceedings of the National Academy of Sciences of the United States

세계생물다양성정보기구 (GBIF) 에출판된동아시아관속식물생물다양성정보현황과자료품질분석 187 of America 107(51): 22169-22171. Beach, J. 2018. Specify Collections consortium building durable infrastructure. Biodiversity Information Science and Standards 2: e26860. Berendsohn, W.G. 2009. Data and information management and communication. pp. 253-272. In: Barthlott, W., Linsenmair, K.E. and Porembski, S. (Ed.). Biodiversity: Structure and Function Volume I. EOLSS Publishers. Oxford, UK. Berendsohn, W.G., Güntsch, A., Hoffmann, N., Kohlbecker, A., Luther, K. and Müller, A. 2011. Biodiversity information platforms: From standards to interoperability. ZooKeys 150: 71-87. Chavan, V. and Krishnan, S. 2003. Natural history collections: A call for national information infrastructure. Current Science-Bangalore 84(1): 34-42. Chamberlain, S., Barve, V., Mcglinn, D., Oldoni, D., Desmet, P., Geffert, L. and Ram, K. 2021. RGBIF: Interface to the global biodiversity information facility API. R package version 3.5.2.93 https://cran.r-project.org/package=rgbif. (2021. 3. 15). Chapman, A.D. 1999. Quality control and validation of pointsourced environmental resource data. In Spatial accuracy assessment: Land information uncertainty in natural resources. K. Lowell and A. Jaton (eds.), Ann Arbor Press, Chelsea. Chapman, A.D. 2005a. Principles and methods of data cleaning: Primary species and species-occurrence data, version 1.0. Report for the Global Biodiversity Information Facility. http://www.gbif.org/document/80528. (2021. 3. 15). Chapman, A.D. 2005b. Principles of data quality. Global Biod iversity Information Facility. https://doi.org/10.15468/doc.j rgg-a190. (2021. 3. 15). Chapman, A.D. et al. 2020. Developing standards for improved data quality and for selecting fit for use biodiversity data. Biodiversity Information Science and Standards 4: e50889. Do, M.S., Lee, J. W., Jang, H. J., Kim, D. I., Park, J. and Yoo, J. C. 2017. Spatial distribution patterns and prediction of hotspot area for endangered herpetofauna species in Korea. Korean Journal of Environment and Ecology, 31(4): 381-396. Fuentes, N., Pauchard, A., Sánchez, P., Esquivel, J. and Marticorena, A. 2013. A new comprehensive database of alien plant species in Chile based on herbarium records. Biological Invasions 15(4): 847-858. GBIF.org. 2020. GBIF.org (24th Dec 2020) GBIF Occurrence Download (Taiwan) https://www.gbif.org/occurrence/dow nload/0172317-200613084148143. (2020.12.24). GBIF.org. 2021a. GBIF.org(29th Jan 2021) GBIF Occurrence Download (China) https://www.gbif.org/occurrence/downl oad/0176738-200613084148143. (2021.01.29). GBIF.org. 2021b. GBIF.org(29th Jan 2021) GBIF Occurrence Download (Korea) https://www.gbif.org/occurrence/downl oad/0176754-200613084148143. (2021.01.29). GBIF.org. 2021c. GBIF.org(29th Jan 2021) GBIF Occurrence Download (Japan) https://www.gbif.org/occurrence/downl oad/0144048-200613084148143. (2021.01.29.). Gilbert, E., Franz, N. and Sterner, B. 2020. Historical overview of the development of the symbiota specimen management software and review of the interoperability challenges and opportunities informing future development. Biodiversity Information Science and Standards 4: e59077. Goodwin, Z.A., Harris, D.J., Filer, D., Wood, J.R.I. and Scotland, R.W. 2015. Widespread mistaken identity in tropical plant collections. Current Biology 25(22): R1066- R1067. Gwinn, N.E. and Rinaldo, C.A. 2009. The biodiversity heritage library: Sharing biodiversity with the world. The International Federation of Library Associations and Institutions Journal 35(1): 25-34 Hardisty, A., Roberts, D. and The Biodiversity Informatics Community. 2013. A decadal view of biodiversity informatics: Challenges and priorities. BMC Ecology 13(1): 16-39. Kier, G. and Barthlott, W. 2001. Measuring and mapping endemism and species richness: A new methodological approach and its application on the flora of Africa. Biodiversity & Conservation, 10(9): 1513-1529. Kim, H.W. 2017. Status assessment and cause of herbarium database errors -Selected woody plants taxa stored in national herbarium of Korea- (Dissertation). Seoul. Seoul National University, MS. Orr, K. 1998. Data quality and systems theory. Communications of the ACM 41(2): 66-71. Peterson, A.T., Knapp, S., Guralnick, R., Soberó N, J. and Holder, M.T. 2010. The big questions for biodiversity informatics. Systematics and Biodiversity 8(2): 159-168. Pouwer, R., Willemse, L.P.M., Mols, J.B. and Wieringa, J.J. 2008. Guidelines for collection data registration with BRAHMS 6. Nationaal Herbarium Nederland. Leiden, The Netherlands. Rahm, E. and Do, H.H. 2000. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin 23(4): 3-13. Sarkar, I.N. 2007. Biodiversity informatics: Organizing and linking information across the spectrum of life. Briefings in Bioinformatics 8(5): 347-357. Scoble, M. J. 2010. Rationale and value of natural history

188 韓國山林科學會誌제 110 권제 2 호 (2021) collections digitisation. Biodiversity Informatics 7(2): 77-80. Shao, K.T., Lai, K.C., Lin, Y.C., Chen, L.S., Li, H.Y., Hsu, C.H., Lee, H., Hsu, H.W. and Mai, G.S. 2013. Experience and strategy of biodiversity data integration in Taiwan. Data Science Journal 12: WDS61-WDS69. Shin, C.H. 2014. Report on improvement of the Herbarium specimens infrastructure for forest biodiversity on the Korean Peninsula. Korea National Arboretum. https://scienceon.kis ti.re.kr/commons/util/originalview.do?cn=trko2015000 14016&dbt=TRKO&rn=. (2021. 03. 15). Stribling, J.B., Moulton, S.R. and Lester, G.T. 2003. Determining the quality of taxonomic data. Journal of the North American Benthological Society 22(4): 621-631. Wen, J., Ickert-Bond, S.M., Appelhans, M.S., Dorr, L.J. and Funk, V.A. 2015. Collections-based systematics: Opportunities and outlook for 2050. Journal of Systematics and Evolution 53(6): 477-488. Williams, P., Margules, C.R. and Hilbert, D.W. 2002. Data requirements and data sources for biodiversity priority area selection. Journal of Biosciences 27(4): 327-338. Manuscript Received : April 25, 2021 First Revision : May 27, 2021 Accepted : May 28, 2021