표준기술동향 지식정보공유를위한표준기술동향 서태설 TTA 메타데이터 PG 의장, 한국과학기술정보연구원국내정보팀팀장 1. 머리말대표적인지식정보로는학술논문정보를들수있다. 전통적으로학술논문은인쇄매체의형태를띠는학술지 (scholarly journals) 에게재되어전달되어왔지만, 인터넷의등장과디지털기술의발달로지금은전자저널 (e-journal) 의형태가대세를이루고있다. 과거종이매체시대에는학술논문이도서관목록이나색인을통해서일차검색이된후원문을별도로찾아보도록되어있었으나, 전자저널은웹상에서원스톱으로원문까지볼수있는편리함때문에급속히확산되고있다. 표준이라는측면에서도학술논문의공유를위한표준으로는미국의회도서관 (LC: Library of Congress) 에서제정한 MARC(MAchine-Readable Cataloging) 가대세였다. 그러다가인터넷이등장한이후에이에맞는간편한메타데이터가요구되면서 DC(Dublin Core) 가등장하였다. 그런데전자저널은 WWW(World Wide Web) 를통해서비스되기때문에매우편리한반면, URL이변경되면다시찾아볼수없다는문제가있다. 이를해결하기위해서나온것이영구적인식별자인 DOI(Digital Object Identifier) 이다. DOI 는최근 ISO 표준이되었다. 최근에는학술논문을 PDF 가아닌 XML(eXtensible Markup Language) 로서비스하는사례가보편화되어가고있다. 미국의 NLM XML DTD 가표준포맷으로자리잡아가고있으나아직국제표준으로제정되지는않고있다. 본고에서는이와같이지식정보의핵심인학술논문의공유에필요한메타데이터, 식별자, 원문포맷과관련한표준의동향에대해서알아보도록한다. 2. 메타데이터표준화동향 2.1 개요메타데이터는 데이터에대한데이터 (data about data) 로흔히정의되는데, 학술논문과관련해서는 MARC 와 DC가대표적이다. MARC 는도서관의목록규칙인데, 이것을그대로메타데이터로활용한것이고, DC는인터넷상의전자자원에대한최소한의기술을위해서제정된메타데이터이다. 이두메타데이터외에도해당분야의특성에맞는많은메타데이터가나와있지만, 여기서는생략하도록한다. 080 09/10 2012
2.2 MARC MARC 는 1960 년대에미국의회도서관에서도서관목록카드정보를코드화하기위해서만들어졌으며, 1981 년에 NISO 표준 Z39.2 로제정되었다. 이것은 ISO 표준으로도제정되었으며, 최신표준은 2008 년도에개정되었다 (ISO 2709:2008 Information and documentation -- Format for information exchange). MARC 는미국의 USMARC, 캐나다의 CAN/MARC, 한 하였다. MARC 21 은 21 세기를대비하고국제사회에대한접근성을개선하기위해서만들어졌다. MARC는전형적으로바이너리파일 (binary files) 로저장및전송된다. 2002 년에는 XML로표현할수있는 MARC-XML 스키마가개발되었다. MARC 는구조적으로너무복잡하다는단점이있지만, 전세계의수많은도서관이활용하고있고이를대체할만한동일수준의대안이없기때문에앞으로도활용될것으로전망된다. 국의 KORMARC 등국가별버전이존재한다. 이중에서 USMARC 와 CAN/MARC 를조합하여 MARC 21 이탄생 2.3 DC DC 는 1995 년모든네트워크자원을기술하기위한목 적으로만들어진메타데이터셋이다. DCMI(Dublin Core 리더 제어필드 Metadata Initiative) 는 2001 년에제정된 NISO Z39.85 를 기반으로 Dublin Core Metadata Element Set v.1.1 을표 준문서로발표하였고, ISO 는 2003 년에표준으로제정하 였다 (ISO 15836:2003 - The Dublin Core Metadata Set). 데이터필드 DC 는모든메타데이터의기반으로자리잡게되어여 러나라, 여러기관에서수용또는변형, 추가하여사용하 고있다. 즉, DC 는 ONIX, DOI, OAI-PMH, LOM, PRISM [ 그림 1] MARC 로작성된목록데이터사례 등에다양하게활용되고있다. dc:rights dc:publisher dc:source dc:creator dc:language dc:title dc:identifier dc:subject dc:description dc:contributor dc:type dc:date dc:format dc:relation dc:coverage Subject 자원의주제나그내용을기술하는키워드혹은구절 Creator 자원의내용에책임을진개인이나단체 ( 예 : 저자 ) Title creator 나 publisher 가자원에부여한제목 Publisher 자원을현재의형태로이용가능하게만든실체 ( 예 : 출판사 ) Contributor 저자이외의기여한인물이나기관 ( 예 : 번역자 ) Date 자원이현재형태로가능하게된날짜 Type 자원의범주나장르 ( 예 : 기술보고서 ) Format 자원의데이터표현형식 ( 예 : ASCII) Identifier 자원을고유하게식별할수있는문자열이나숫자 ( 예 : URL) Relation 다른자원과의관계 ( 예 : chapters in a book) Sources 해당자원의출처가된정보자원 Language 자원의내용을기술한언어 ( 예 : 영어 ) Coverage 자원의지리적, 시간적특성을나타내는요소 Description 요약정보를포함한자원의내용에관한정보 ( 예 : 초록 ) Rights 저작권의사용권한에관한내용 [ 그림 2] Dublin Core 15 개기본요소 TTA Journal Vol.143 081
3. 식별자표준 3.1 개요인터넷상의모든정보자원은 URL(Uniform Resource Locator) 에의해서하이퍼링크 (hyper-link) 된다. 이는매우편리한웹서핑의방편이지만, URL 이변경되거나폐쇄될경우재방문이불가능하다. 그래서인터넷상의정보자원에고유의식별번호를부여하여등록함으로써연결이끊기는문제를해결하기위해서등장한것이식별번호개념이다. 이는사람이이사를가도주민등록번호만있으면행정전산망을통해이사간주소를찾아갈수있는것처럼, 개개의정보자원마다유일식별번호 (unique identifier) 를부여하고등록하도록함으로써 URL 이변경되어도재방문이가능하도록하는개념이다. 이러한식별변호로대표적인것이 DOI 이다. 국내에서는 UCI(Universal Content Identifier) 가개발되어활용되고있다. 3.2 DOI DOI는 1996 년에미국출판협회 (AAP: Association of American Publishers) 에서제안한개별논문단위의식별자이며, 1998 년도에설립된국제 DOI 재단 (IDF: International DOI Foundation) 이관리한다. 학술논문의 DOI 는개별논문마다고유의식별자를 부여하고그식별자를이용해서학술지의영속적접근을보장하도록하는것이다. [ 그림 3] 은 DOI 활용프로세스를나타낸그림이다. 학술지출판사는개별논문마다 DOI 식별자를부여하고, RA(Registration Agency) 에메타데이터를기탁하면, 이용자는자기가알고있는 DOI 번호를이용해서자기가찾고자하는논문을 RA를통해서항구적으로접근할수있게된다는개념이다. 현재학술논문의 RA는 CrossRef 가담당하고있다. DOI 는 2012 년 5월에 ISO 표준으로제정되었다.(ISO 26324:2012 Information and documentation -- Digital object identifier system) 3.3 UCI UCI는한국에서제안한콘텐츠식별체계로 IETF (Internet Engineering Task Force) 에 RFC 4179 로등록되었다 (RFC 4179 Using Universal Content Identifier as Uniform Resource Names). UCI 는 DOI, ISBN 등기존의다양한식별자를수용할수있도록한것이특징이다. 4. XML 표준 4.1 개요 1996 년 W3C 에서제안한 XML은기존의마크업언어 [ 그림 3] DOI 활용모델 082 09/10 2012
atticle~ front Journal header or header information? body Journal article의본문? back 참고문헌과같은 Journal article의배경자료? floats-group Journal article에포함된표, 그림등 * sub-article ~ Journal article에포함된또다른 article * response ~ Journal article에포함된주석등과같은정보 [ 그림 4] NLM XML DTD 3.0 개요 인 SGML 과 HTML 의한계를극복하여문서를작성하는사람이직접태그를정의하여사용할수있도록한확장된언어이다. 문서의구조및내용은 XML 태그로표현되며, XML 문서의경우웹을통해전달받은정보는응용프로그램을통해쉽고정확하게정보를처리할수있도록데이터를조직화, 구조화시켜다양한분야에서응용할수있다. 이런이유로과거에 PDF 로제공되던학술지원문 (fulltext) 은최근 XML 형태로의서비스되고있다. XML 자체는데이터전달용으로만사용되기때문에다양한포맷으로변환시키는변환규칙이필요하다. 이를위해개발한언어가바로 XSL(eXtensible Stylesheet Language) 이며, XSLT(eXtensible Sytlesheet Language Transformation) 는 XML을또다른구조를갖는 XML, HTML, TEXT 로변환하기위해사용하는기술이다. 4.2 PMC XML DTD DTD(Document Type Definition) 는 XML 문서를표현함에있어서 XML 문서의태그를정의하는데필요한작성규칙이다. 미국의학도서관의 NCBI(National Center for Biotechnology Information) 에서저널콘텐츠의정보교환을목적으로만든 NLM DTD 는학술논문을위한다양한요소 (element) 와속성 (attribute) 을정의한 XML 스키마모듈을제공하며, 메타데이터뿐만아니라원문의내용도기술할수있다. NLM DTD 는사용용도에따라크게저널을포함한모 든문헌을보존하고교환이가능하도록설계된아카이빙및교환태그셋, 저널기사의콘텐츠및구조와출판에최적화되어있는저널출판태그셋, 논문편집을위해설계된기사저작태그셋, NCBI 에서발행하는단행본을기술하기위해설계된 NCBI Book 태그셋으로구별된다. NLM XML DTD 는 2012 년도에 NISO 표준으로제정되었다 (ANSI/NISO Z39.96-2012 JATS: Journal Article Tag Suite). 5. 국내표준화현황 5.1 ISO/IEC JTC 1 ISO/IEC JTC 1에서이루어지는정보기술분야국제표준은기술표준원에서표준을제정하고있다. MARC 표준은 1993 년에 KS 표준으로제정된이후여러차례개정된바있으나 (KS X 6006-1:2008 한국문헌자동화목록형식 - 제1 부 : 연속간행물 ), Dublin Core 의경우는아직 KS 규격으로제정되지않았다. 5.2 TTA PG 606 국내에서메타데이터관련표준을담당하고있는 TTA PG 606 에서는학술정보와관련한메타데이터표준과식별자관련표준을제정하고있다. 개별학술논문메타데이터의경우 2005 년에제정된후 2011 년에개정된 문헌정보메타데이터관리를위한공통지침 (TTAK.KO- 10.0192/R1) 에포함되어있다. 학술저널의경우는 학술 TTA Journal Vol.143 083
저널메타데이터구성요소및형식 (TTAS.KO-10.0220) 이라는제목으로 2006 년에제정되었다. 한편, DOI 의경우는 2002 년에 디지털콘텐츠구문구조 (TTAS.KO-10.0135) 라는제목으로제정되었고, UCI 는 2006 년에 디지털콘텐츠연계를위한식별체계 (TTAS. OT-10.0058) 라는제목으로제정되었다. 6. 맺음말최근학술논문의출판은전자저널이인쇄저널을대체하고있다. 그에따라학술지의유통에도새로운양상이전개되고있다. 먼저, 인터넷상의학술논문의유일식별및영속적서비스를위해서 DOI 가적극활용되고있다. 한편, 학술논문의원문은과거 PDF 에서 XML로변화하고있는중이다. 이를위해서학술지를전자적으로관리하고서비스하기위한메타데이터, 식별자, 원문포맷과관련한표준이매우중요하게되었다. 앞서살펴본바와같이, 메타데이터로는 MARC와 Dublin Core 가 ISO 표준으로제정되어여러분야에서활용되고있고, 식별자의경우는 DOI 와 UCI 가국제표준화기관에서표준으로제정되었으며, 학술지 XML DTD 의경우는미국의 NISO 표준으로제정되어각국으로확산되고있다. 우리나라도대부분의표준을신속히국내표준에반영하여업계에제공하고있다. 학술지메타데이터인 MARC 의경우는국내환경에맞도록토착화를잘시켰으나, Dublin Core 는아직 KS 표준으로제정되지않고있다. 다행히 TTA PG 606 에서는 Dublin Core 를응용한학술지표준을제정하고있다. 식별자의경우는 TTA 에서신속하게 DOI 와 UCI 표준을제정하였으나, 이를효과적으로운영하기위한절차적인표준의개발이필요할것으로보인다. 원문포맷의경우는학술지원문을 XML로구축하기위한태그슈트가금년에미국 NISO 표준으로제정되었 다. 이는곧 ISO 표준으로도제정될것을암시하는것이므로국내에서도관심을가지고표준화를준비할필요가있다. [ 참고문헌 ] [1] 서태설, 메타데이터, TTA Journal, 119 호, 2008, pp. 113-118. [2] 서태설, 이윤석, 김이란, 21세기인터넷시대의표준과기술, 서울, KISTI, 2001. [3] 서태설, 최희윤, DOI 와오픈액세스를활용한학술지의국제적이용활성화방안, 정보관리연구, 제42 권제4호, 2011, pp. 1-21. [4] 서태설, 이혜진, 전자저널기술현황과국내학술지전자저널구축방안, 정보과학회지, 제28 권제10 호, 2010, pp. 78-88. [5] 미국의회도서관, http://www.loc.gov/marc/ [6] DCMI, http://dublincore.org/ [7] CrossRef, http://www.crossref.org/ [8] UCI, http://www.uci.or.kr/ [9] JATS, http://jats.nlm.nih.gov/ [10] 국가표준정보망, https://www.kssn.net/ [11] TTA, http://www.tta.or.kr/ 084 09/10 2012