별지제 15 호서식 관리번호 89017200 용역연구사업연구결과보고서 사업명기록관리연구개발 (R&D) 사업 과제명주관연구기관주관연구책임자 국문디지털포맷및애플리케이션기술정보은행 (DFR) 프로토타입개발 영문 DFR Prototype Developement for Digital Formats and Applications 기관명소재지대표 ( 주 ) 한글과컴퓨터 서울시광진구구의동 546-4 프라임센터 21층 김수진 성명 소속및부서 전공 양왕성개발본부컴퓨터과학 총연구기간 2008 년 5 월 22 일 ~ 2008 년 11 월 30 일 (6 개월 ) 총연구비 일금 94,000 천원 연구년차연구기간연구비 1차년도 2008. 05. 22-2008. 11. 30 94,000천원 2차년도 200.. - 200.. 천원 총참여연구원 15 명 ( 책임연구원 : 1 명, 연구원 : 3 명, 연구보조원 : 6 명보조원 : 5 명 ) 2008 년도용역연구개발사업에의하여수행중인연구과제의연구결과보고서를 붙임과같이제출합니다. 붙임 : 1. 연구결과보고서 35 부. 2008 년 11 월 25 일 주관연구책임자양왕성 ( 인또는서명 ) 주관연구기관장김수진 ( 직인 ) 국가기록원장귀하 210 mm 297 mm ( 일반용지 60g/ m2 ( 재활용품 ))
편집순서 1 : 겉표지 연구결과보고서 과 제 국문과제명 영문과제명 명 주관연구기관 : 주 의 ( 주의내용기재 ) 2 0 0 8 ( 글 14 point 고딕체 ) 국가기록원 국가기록원 주의내용
주 의 1. 이보고서는국가기록원에서시행한용역연구개발사업의연구결과 보고서입니다. 2. 이보고서내용을발표할때에는반드시국가기록원에서시행한용 역연구개발사업의연구결과임을밝혀야합니다. 3. 국가과학기술기밀유지에필요한내용은대외적으로발표또는공개 하여서는아니됩니다.
편집순서 2 : 제출문 이보고서를 디지털포맷및애플리케이션기술정보은행 (DFR) 프로토타입개발 (( 주 ) 한글 과컴퓨터 / 양왕성 ) 과제의연구결과보고서로제출합니다. 2008. 11. 25 주관연구기관명 : ( 주 ) 한글과컴퓨터 주관연구책임자 : 양왕성
편집순서 3 : 목차 목 차 Ⅰ. 연구개발결과요약문 ( 한글 ) 디지털포맷및애플리케이션기술정보은행 (DFR) 프로토타입개발 ( 영문 ) DFR Prototype Developement for Digital Formats and Applications Ⅱ. 총괄연구개발과제연구결과제1장총괄연구개발과제의최종연구개발목표제2장총괄연구개발과제의최종연구개발내용및방법제3장총괄연구개발과제의최종연구개발결과제4장총괄연구개발과제의연구결과고찰및결론제5장총괄연구개발과제의연구성과제6장참고문헌제7장첨부서류
편집순서 4 : 요약문 연구과제명디지털포맷및애플리케이션기술정보은행 (DFR) 프로토타입개발 중심단어 디지털포맷, DFR, 포맷레지스트리 주관연구기관 ( 주 ) 한글과컴퓨터주관연구책임자양왕성 연구기간 2008. 05. 22-2008. 11. 30
편집순서 5 : 요약문 ( 영문 ) Title of Project DFR Prototype Developement for Digital Formats and Applications Key Words digital format, DFR, format registry Institute Project Leader Yang Wang-sung Project Period 2008. 05. 22-2008. 11. 30
편집순서 6 : 총괄연구과제의연구결과 총괄연구개발과제연구결과 제 1 장총괄연구개발과제의최종연구개발목표 1.1 총괄연구개발과제의목표
1.2 총괄연구개발과제의목표달성도
1.3 국내 외기술개발현황
제 2 장총괄연구개발과제의최종연구개발내용및방법 2.1 연구내용
JHOVE 의활용 (OAIS 모델기반 )
4 개의 NLNZ 스키마개체들
PREMIS Data Model
DROID 식별가능포맷목록
보존분석접근방법 (A. Brown, "Developing Practical Approaches to Active Preservation,", IJDC 1:2 (June 2007)
전형적인 SOAP 통신아키텍처컴포넌트
<SOAP-ENV:Envelope xmlns:soap-env="http://schemas.xmlsoap.org/soap/envelope/" > <SOAP-ENV:Body> <m:getlistofformat xmlns:m = "uri reference" > </m:getlistofformats> </SOAP-ENV:Body> </SOAP-ENV:Envelope> 표 35 SOAP 요청메시지예 (getlistofformat 이라는메소드를서버에호출 ) <SOAP-ENV:Envelope xmlns:soap-env="http://schemas.xmlsoap.org/soap/envelope/"> <SOAP-ENV:Body> <m:getlistofformatsresponse xmlns:m="urn:formatinformationsupport"> <Format>Hangul Word Processor</Format> <Format>Microsoft Word Processor</Format> <Format>Haansoft Slide</Format> </m:getlistofformatsresponse> </SOAP-ENV:Body> </SOAP-ENV:Envelope> 표 36 SOAP 응답메시지예 (format list 요청에대한응답 ) <?xml version="1.0" encoding="utf-8"?> <description xmlns="http://www.w3.org/ns/wsdl" xmlns:tns="http://www.example.com/wsdl20sample" xmlns:whttp="http://www.w3.org/ns/wsdl/http" xmlns:wsoap="http://www.w3.org/ns/wsdl/soap" targetnamespace="http://www.example.com/wsdl20sample"> <!-- Abstract types --> <types> <xs:schema xmlns="http://www.example.com/wsdl20sample" xmlns:xs="http://www.w3.org/2001/xmlschema" targetnamespace="http://www.example.com/wsdl20sample"> <xs:element name="request"> <xs:complextype> <xs:sequence> <xs:element name="header" maxoccurs="unbounded"> <xs:complextype> <xs:simplecontent> <xs:extension base="xs:string"> <xs:attribute name="name" type="xs:string" use="required"/> </xs:extension>
</xs:simplecontent> </xs:complextype> </xs:element> <xs:element name="body" type="xs:anytype" minoccurs="0"/> </xs:sequence> <xs:attribute name="method" type="xs:string" use="required"/> <xs:attribute name="uri" type="xs:anyuri" use="required"/> </xs:complextype> </xs:element> <xs:element name="response"> <xs:complextype> <xs:sequence> <xs:element name="header" maxoccurs="unbounded"> <xs:complextype> <xs:simplecontent> <xs:extension base="xs:string"> <xs:attribute name="name" type="xs:string" use="required"/> </xs:extension> </xs:simplecontent> </xs:complextype> </xs:element> <xs:element name="body" type="xs:anytype" minoccurs="0"/> </xs:sequence> <xs:attribute name="status-code" type="xs:anysimpletype" use="required"/> <xs:attribute name="response-phrase" use="required"/> </xs:complextype> </xs:element> </xs:schema> </types> <!-- Abstract interfaces --> <interface name="getlistofformat">... ( 중략 )... </interface> <!-- Concrete Binding Over HTTP --> <binding name="getlistofformathttpbinding" interface="tns:getlistofformat" type="http://www.w3.org/ns/wsdl/http"> <operation ref="tns:get" whttp:method="get"/> <operation ref="tns:post" whttp:method="post" whttp:inputserialization="application/x-www-form-urlencoded"/> <operation ref="tns:put" whttp:method="put" whttp:inputserialization="application/x-www-form-urlencoded"/>
<operation ref="tns:delete" whttp:method="delete"/> </binding> <!-- Web Service offering endpoints for both the bindings--> <service name="getlistofformatservice" interface="tns:getlistofformatnterface"> <endpoint name="getlistofformatservicerestendpoint" binding="tns:getlistofformatinterfacehttpbinding" address="http://www.xml.kr/rest/"/> <endpoint name="getlistofformatservicesoapendpoint" binding="tns:getlistofformatinterfacesoapbinding" address="http://www.xml.kr/soap/"/> </service> </description> 표 37 WSDL XML문서의구조
HNCIRPList Class HNCIRP getirp() void setirp(hncirp ipr)
HNCIRP Class java.lang.string getavailable() java.lang.string getnote() HNCOwner getowner() java.lang.string gettype() void setavailable(java.lang.string available) void setnote(java.lang.string note) void setowner(hncowner owner) void settype(java.lang.string type)
HNCOwner Class HNCIndividual getindividual() void setindividual(hncindividual individual) HNCSupport Class HNCIndividual getindividual() void setindividual(hncindividual individual) HNCManagement Class : 포맷및소프트웨어의관리적인정보를표현하는클래스 java.lang.string getdate() java.lang.string getlastupdate() java.lang.string getnote() HNCSource getsource() java.lang.string gettype() void setdate(java.lang.string date) void setlastupdate(java.lang.string lastupdate) void setnote(java.lang.string note) void setsource(hncsource source) void settype(java.lang.string type)
HNCSource Class HNCIndividual getindividual() void setindividual(hncindividual Individual) HNCInternalSignature Class HNCByteSequence getbytesequence() java.lang.string getsignatureid() java.lang.string getsignaturename() java.lang.string getsignaturenote() void setbytesequence(hncbytesequence bytesequence) void setsignatureid(java.lang.string signatureid)
void setsignaturename(java.lang.string signaturename) void setsignaturenote(java.lang.string signaturenote) HNCMetadata Class void addchildlist(hncmetadata childlist) HNCMetadata[] getchildlist() java.lang.string getname() java.lang.string getvalue() void setname(java.lang.string name) void setvalue(java.lang.string value) HNCSpecification Class HNCDocument getdocument()
void setdocument(hncdocument document) HNCPublisher Class HNCIndividual getindividual() void setindividual(hncindividual individual)
HNCSoftwareGeneral : 포맷의일반적인정보를나타내는클래스 HNCCorporation getcorporation() java.lang.string getdescription() java.lang.string getfeature() java.lang.string getimage() HNCIRPList getirplist() java.lang.string getlanguage() java.lang.string getlocation() java.lang.string getnote() HNCProcessFormat getprocessformat() java.lang.string getpuid_ti() java.lang.string getreleasedate() java.lang.string getsoftwarealias() java.lang.string getsoftwareid() java.lang.string getsoftwarename() java.lang.string getsoftwaretype() java.lang.string getsoftwareversion() java.lang.string getstatus() HNCSupport getsupport() java.lang.string getwithdrawdate() void setcorporation(hnccorporation corporation) void setdescription(java.lang.string description)
void setfeature(java.lang.string feature) void setimage(java.lang.string image) void setirplist(hncirplist list) void setlanguage(java.lang.string language) void setlocation(java.lang.string location) void setnote(java.lang.string note) void setprocessformat(hncprocessformat processformat) void setpuid_ti(java.lang.string PUID_TI) void setreleasedate(java.lang.string releasedate) void setsoftwarealias(java.lang.string softwarealias) void setsoftwareid(java.lang.string softwareid) void setsoftwarename(java.lang.string softwarename) void setsoftwaretype(java.lang.string softwaretype) void setsoftwareversion(java.lang.string softwareversion) void setstatus(java.lang.string status) void setsupport(hncsupport support) void setwithdrawdate(java.lang.string withdrawdate) HNCProcessFormat Class HNCCreate getcreate() HNCDefault getdefault() HNCetc getetc() HNCRender getrender() HNCValidate getvalidate() void setcreate(hnccreate create) void setdefault(hncdefault default1) void setetc(hncetc etc)
void setrender(hncrender render) void setvalidate(hncvalidate validate) HNCRender HNCFileFormat[] getfileformat() void setfileformat(hncfileformat[] FileFormat)
HNCSoftwareTechnical : 포맷의기술적인정보를나타내는클래스 java.lang.string gethardwarerequirement() java.lang.string getmediaformat() java.lang.string getrelatedsofftware() java.lang.string getsoftwarerequirement() HNCSpecification getspecification() void sethardwarerequirement(java.lang.string hardwarerequireme nt) void setmediaformat(java.lang.string mediaformat) void setrelatedsofftware(java.lang.string relatedsofftware) void setsoftwarerequirement(java.lang.string softwarerequiremen t) void setspecification(hncspecification specification)
HNCValidationType Class : 포맷의검증결과를나타내는클래스 int getvalue()
HNCTextContent : 디지털객체의텍스트추출결과를나타내는객체 java.lang.string gettextcontent() 디지털객체의텍스트추출결과를반환한다 void settextcontent(java.lang.string textcontent) 디지털객체의텍스트추출결과를설정한다
배포정보추출결과화면
package edu.harvard.hul.ois.jhove; import java.io.*; import java.util.*; public interface Module { public void init (String init) throws Exception; public void param (String param) throws Exception; public void setapp (App app); public void setbase (JhoveBase je); public void setverbosity (int verbosity); public String getname (); public String getrelease (); public Date getdate (); public String [] getformat (); public String getcoverage (); public String [] getmimetype (); public List getspecification (); public List getsignature (); public String getwellformednote (); public String getvaliditynote (); public String getrepinfonote (); public Agent getvendor (); public String getnote (); public String getrights (); public boolean israndomaccess (); public boolean hasfeature (String feature); public List getfeatures (); public void checksignatures (File file, InputStream stream, RepInfo info) throws IOException; public void checksignatures (File file, RandomAccessFile raf, RepInfo info) throws IOException; } public int parse (InputStream stream, RepInfo info, int parseindex) throws IOException; public int parse (RandomAccessFile raf, RepInfo info) throws IOException; public void show (OutputHandler handler);
package edu.harvard.hul.ois.jhove; import java.io.*; import java.security.*; import java.util.*; import java.util.zip.*; public abstract class ModuleBase implements Module { protected ModuleBase (String name, String release, int [] date, String [] format, String coverage, String [] mimetype, String wellformednote, String validitynote, String repinfonote, String note, String rights, boolean israndomaccess) {... } public void checksignature (File file,..., RepInfo info) throws IOException { /* Do nothing */ } public int parse (..., RepInfo info, int parseindex) thows IOException { return 0; /* Do nothing */ } protected void initparse () {... } public static DataInputStream getbuffereddatastream (InputStream stream, int size) {... } public static int readunsignedbyte (DataInputStream stream, ModuleBase counted) {... } public static int readunsignedbyte (RandomAccessFile file) {... }
} public static void readbytebuf (DataInputStream stream, byte [] buf, ModuleBase counted) {...} public static int readsignedbyte (DataInputStream stream, ModuleBase counte\d) {...} public static int readsignedbyte (RandomAccessFile file) {... } public static int readunsignedshort (DataInputStream stream, boolean bigendian, ModuleBase counted) {... } public static int readunsignedshort (RandomAccessFile file, boolean bigendian) {... } public static int readsignedshort (DataInputStream stream, boolean endian, ModuleBase counted) {... } public static int readsignedshort (RandomAccessFile file, boolean endian) {...} public static long readunsignedint (DataInputStream stream, boolean bigendian, ModuleBase counted) {... } public static long readunsignedint (RandomAccessFile file, boolean bigendian) {... } public static int readsignedint (DataInputStream stream, boolean endian, ModuleBase counted) {... } public static int readsignedint (RandomAccessFile file, boolean endian) {...} public static long readsignedlong (DataInputStream stream, boolean bigendian, ModuleBase counted) {... } public static long readsignedlong (RandomAccessFile file, boolean bigendian) {... } public static float readfloat (DataInputStream stream, boolean endian, ModuleBase counted) {... } public static float readfloat (RandomAccessFile file, boolean endian) {... } public static double readdouble (DataInputStream stream, boolean endian, ModuleBase counted) {... } public static double readdouble (RandomAccessFile file, boolean endian) {... } public static Rational readunsignedrational (DataInputStream stream, boolean endian, ModuleBase counted) {... public static Rational readunsignedrational (RandomAccessFile file, boolean endian) {... } public static Rational readsignedrational (RandomAccessFile file, boolean endian)
그림 30 포맷레지스트리관리체계
l l l l l l l
l l l l
제 4 장총괄연구개발과제의연구결과고찰및결론 그간국내외적으로디지털기록물에대한생성, 활용, 보관에대한많은학술적인연구가진행되어왔다. 그러나디지털기록물을물리적인저장장치에보관할때사용되는디지털포맷이라는분야는학술적으로는연구의대상으로선택되지않았고, 기술적으로도접근이용이한분야가아니며, 전세계적으로사용되고있는디지털포맷이수백여가지가되기때문에기록관리및정보학등의분야에서는연구대상으로서우선순위나물리적, 시간적투자가어려웠다고생각된다. 이러한측면에서본연구는디지털포맷에대한연구및관련기술의기본구현시스템개발이라는목표로진행되고, 연구결과 디지털포맷기술정보은행시스템 을위한기본구현을완료하였다는데그의의가있다고하겠다. 또한, 본연구를통해개발된기술정보은행시스템은다양한용도로의기술재활용에염두를두어웹서비스표준에따라그기능을구현및제공함으로디지털기록물의포맷을처리및관리하기위한다양한기능을물리적으로분리되어있지만네트워크로연결되어있는어느곳에서든지재활용할수있도록구현하였다. 본보고서에서언급되었듯이본연구를통해개발된기술정보은행기본구현시스템은디지털포맷을처리하기위해 5가지중요한처리기술 (Identification, Validation, Delivery, Characterization, Text Extraction) 을개발하였다. 특히, 텍스트추출기능개발에있어서는구현개발을위해서는많은기술적인노하우와시간적노력이필요한기능이었으며, 다른해외사례에서도찾아볼수없는디지털포맷레지스트리시스템의기능이라할수있다. 디지털기록물은일반적인종이기록물이나책과달리일반적인인간의눈에보이지않는자기기억장치등에특정한형식의디지털화된포맷으로저장된다. 따라서배포나게시를위해특정한정보를내용을기반을두어검색하는내용기반검색을위해서는텍스트를포함한디지털객체로부터텍스트를추출하는기능에대한기술개발이필수적이며, 기능구현을원하는시스템구현자마다중복적인투자와기술개발을해야한다. 또한, 여러가지다양한포맷의정보로부터텍스트를추출하거나내용을추출할수있는기술을각시스템별로포맷별로구현해야한다. 그러나더큰문제는이러한포맷정보는공개되지않은부분이많기때문에실질적으로구현을목표로개발을진행한다고하더라도성공의보장은없다고할수있다. 그러나본연구를통해개발된기술정보은행시스템에서는국내에서가장많이사용되는 ( 주 ) 한글과컴퓨터사의 글 ( 슬라이드, 넥셀형식도포함 ) 을비롯하여, 마이크로소프트사의워드, 엑셀, 파워포인트파일에대한텍스트추출기능을개발 (( 주 ) 한글과컴퓨터 HDK 라이브러리이용 ) 하였으며, 국내에서예전에많이활용된훈민정음, 아리랑, 하나워드와같은레거시 (Legacy) 파일에대한텍스트추출기능도추가되었다.
이처럼개발된 디지털포맷기술정보은행시스템 을활용하기위해서는기관차원에서권위있고믿을만한곳에서인증된정보를등록, 관리, 유지해야하며, 구축된시스템을중앙관리를통해서사용자들에게원거리접근을가능하게하고다양한형태로활용가능할수있도록하는네크워크형, 개방형으로구현되어야할것이다. 또한, 기술정보은행은신뢰성있는기술정보를등록해야한다. 이를위해주기적으로소프트웨어관련업체와다양한포맷정보와기술정보를고유할수있도록해야하며, 이러한업무를위한채널을마련하여수집하여야한다. 또한빠르게변하는기술환경에대처하기위한지속적인모니터링과중요포맷에대한위험평가를통해노후화되는기술에대한적절한대응을할수있어야한다. 기술정보은행과같은시스템을활용하여기술정보 ( 포맷정보, 소프트웨어, 하드웨어정보등 ) 을유지하고관리하는목적은단순한정보의보관이아니라이러한정보를잘활용해야하는중요한목표가있다. 따라서다양한보존전략과사용자의활용용도에맞도록잘적용될수있어야한다. 이처럼집중형관리를위해국가기록원의역할은각행정부처의기록관과처리과, 특수기록관, 그리고지방기록관등을대상으로그들이생산, 접수하는기로그이포맷및관련소프트웨어정보를수집해야하며, 소프트웨어관련업체를통하여다양한포맷정보와관련기술정보를적극적으로수집하여야한다. 또한, 수집된기술정보를지속적으로유지, 관리하고기술감시, 위험평가를제공하여신뢰할수있는포맷들고시스템을구축하여야하며위의활동을통해유지되는기술정보은행시스템을다양한보존전략이나활용서비스에서응용가능하도록시스템을제공해야한다. 일반적으로디지털객체 ( 문서, 동영상, 이미지등 ) 를생산하는시점은차후해당디지털객체에대한보존활동과무관하게보여질수도있다. 그러나디지털생산단계는향후보존활동에큰영향을미치는파일의형식, 플랫폼, 하드웨어, 소프트웨어등의요소들이결정되는중요한시점이다. 따라서업무에서활용되는문서의종류와각종파일들의포맷을특정기관에의해하나로규정하기보다는기록생산프로세스의기능적요구, 즉, 업무상프로세스와장기보존을위한필요에의해선택되는것이바람직하다.
제 5 장총괄연구개발과제의연구성과 5.1 활용성과 총괄과제명디지털포맷및애플리케이션기술정보은행 (DFR) 프로토타입개발 총괄과제책임자 양왕성 / ( 주 ) 한글과컴퓨터 / 공학석사 번호 논문제목 저자명 저널명 집 ( 권 ) 페이지 Impact factor 1 2 나. 학술발표 국내 / 국외 SCI 여부 번호 발표제목 발표형태 발표자 학회명 연월일 발표지국내 국제 / 1 디지털포맷및애플리케멀티미디어학 2008.11 이션기술정보은행 (DFR) 포스터김은미회.22 을위한시스템설계 국내 2 다. 지적재산권 번호출원 / 등록 1 2 특허명출원 ( 등록 ) 인출원 ( 등록 ) 국출원 ( 등록 ) 번호 IPC 분류 라. 정책활용 TECHi-PUID(Technical Information - Persistent Unique Identifier),, (PUUD),,,.,. 마. 타연구 / 차기연구에활용,,,.
( ) 사. 기타 ()
5.2 활용계획 본 연구 프로젝트의 연구 대상인 DFR(Digital Format Registry)는 장기 보존 전략 연구하는 여러 국 련 가에서 구현 및 관 국 템의 경우, 한 례 건 않았던 내의 디지털 객체 활용 여 에서 본 기술정보은 류 (처리 디지털 객체의 종 국 외 내 )과 레거시(Legacy) 디 넓 참 모델 조 범 되 위가 기존 다고 할 수 있다. 림 완 기본적으로 DFR 시스템은 아래의 그 존하는 과정에 대한 함 적으로 DFR 시스템의 관점에서 포 문서 디지털 객체의 텍스트 추출기능을 처음으로 구현하여 그 활용의 의 여타 DFR시스템보다 야를 가 없으며, 본 연구를 통해 연구 개발된 DFR시스 지털 객체의 처리 기술을 동시에 개발하였고, 지 국 내용 연구가 진행되고 있으며, 한 행 시스템과 같이 DFR시스템을 구현한 사 분 을 보다 O 14721 완 주 과 같이 IS 전하게 보 에서 정의하고 있는 기록물을 보 해 는 시스템이라 할 수 있다. OAIS 참조 모델 (Open Archival Information System - Reference model (ISO 14721:2003) 즉 O 참 모델 P P P P P 오류 증 메 림 O 참 모델 또 EC PU Uq 방법 차 국 중앙 각 분 분 PUU 중앙 국 배 책, 위 AIS Information 검 음 그, 에서 할 수 있다. 조 에서 Information ackage), DI (Dissemination Information ackage), P AI (Archival 분 ackage) 처리 시 디지털 객체의 구, 타데이터 추출의 기능을 활용한 장기 기록 보존 시스템에 활용 할 수 있다. 다 AIS 조 과 기술정보은행 시스템과의 연계 시스템에 대한 구조를 한 본 연구를 통해 도출된 T ni ue Identifier) 생성 의 경우, 기관으로 역할 수행할 때, 기관인 SI (Submission 가기록원에서 정의, 후 Hi- ID (Technical Information - P 확 인 ersistent 가 기록원이 디지털 객체의 포맷정보를 관리하는 포맷을 구 하는 구 자( 포, 관리 하는 등의 정 련 D)를 기록물 보존, 처리 관 적인 활동에 활용될 수 있다. 이
러한 국 가기록원의 장기 기록 보존 시스템 지원을 위한 술정보은행 시스템의 기능들을 O 비스(S A)로 방 적으로 개 량 외 핵 함께 이용하여 각 각 표준 국 히 분류 예 확 로 일반 사용자를 대상으로 인되지 량 또 각 않 은 디지털 객체를 판별 배 및 된다. 구체적 포(Delivery)기능을 업 객체를 처리할 수 있는 정보를 제공하는 서비스를 할 수 있으며, 기 로는 무 를 파 단 하지 해 정보를 막 언급 O 마지 잃 거나, 시간적 지연을 제거할 수 있는 서비스도 가능할 것으로 중 으로 다시 가장 기본적이고 AIS 참 모델 요한 활용 안을 세부적으로 설 조 내부에서 활용되는 세부 구조도를 나타 이 기술정보은행 시스템은 기존의 O AIS 조 을 료가 유효하다는 보 사정, 가 을 으로 추출할 수 있어 보다 로부터 의 Identify나 검 을 수 있으며, 해 과 마이그레이션 림 다. 아래 그 과 같 으로 시스템을 구현할 경우 정보를 생성하여 수집 등록소에 자료를 전달할 때, 해 보관할 수 있도록 하며, 판 명하도록 한다. 아래는 낸 참 모델 바탕 당 콘텐츠 메 함께 콘텐츠 증 징 증 받 당 콘텐츠 책 규칙 평 작업 작업 메 신뢰 획 맞 된 을 대상으 이나 무역이 이루어지는 과정에 발생될 수 있는 디지털 객체의 포맷정보 된다. 앞에서 문 한 내용 기반 문서 검색 시스템 개발 통하여 해 제 서 텍스트 추출 기능의 경우, 기술 연구에 전처리 기술로 활용될 수 있으며, 대용 및 지원을 위해서 기술정보은행의 다양한 기능들을 활용할 수 있을 것으로 생 당 국 업 협력 악 못 웹 책 가 기록원에서 정 기록관이나 공공 사이트에서 기술정보 은 서에 대한 자동 색인 기술 연구에도 활용 될 수 있다. 인 하여 기 적인 서비스 형식인 종 기능들을 심 기능들을 재활용 할 수 있도록 할 수 있다. 특 문서에 대한 문서 자동 련 기관으로의 역할과 관 부에서도 활용 할 수 있도록 기능을 제공하기 때문에 본 시스템의 할 경우, 많은 기관이 행 시스템의 대용 모든 중앙, 특 타데이터를 자동 추출하여 정보 등을 추출하여 수집되는 자 에 대한 정 적인 을 진행할 때 활용할 수 있는 다양한 성 있는 자료 보존 계 에 을 적용하기 위한 타데이터를 자동 축 는 보존 시스템을 구 다. [SIP생성과 수집 시스템에서의 처리 등록에서의 기술정보은행 활용] 할 수 있
[SIP 에대한평가및오류검증과마이그레이션에대한기술정보은행시스템활용 ] [OAIS 참조모델과기술정보은행 (DFR) 시스템과의연계시스템구조도 ]
제 6 장기타중요변경사항
제 7 장참고문헌
제 8 장첨부서류 본연구개발사업의성과로기술된게재된학술지논문전체사본 ( 게재허가를받은경우게재증명 서 ) 과산업재산권등록증 ( 또는출원서 ) 사본을반드시첨부할것.
( 표 1) 포맷에대한기술정보
( 표 2) 소프트웨어에대한기술정보 ( 그림 36) 포맷에대한기술정보
DROID 식별가능포맷목록
편집순서 8 : 연구과제요약 총괄연구과제요약 과제자동부여고유번호사업명기록관리연구개발 (R&D) 사업 공개가능여부 과제명디지털포맷및애플리케이션기술정보은행 (DFR) 프로토타입개발 성명양왕성 연구책임자 소속기관명 ( 주 ) 한글과컴퓨터 전자우편전화번호 연구목표 (400 ~600 자 ) 본연구의목표는디지털객체의장기보존을위한기술정보은행을, 텍스트및이미지, 오디오등과같은일반적인포맷뿐아니라국내대다수의개인들이보유하고있으며학교, 정부와같은공공기관들이소유하고있는한컴오피스문서 ( 한글, 슬라이드, 넥셀 ) 및마이크로소프트의오피스문서 ( 워드, 파워포인트, 엑셀 ), 공공기관의레거시포맷인훈민정음, 아리랑, 하나워드와같은포맷들을지원하여보다국내실정에맞는시스템을구현하여제공하고자하였다. 연구내용 (1000~1200 자 ) 연구를위해본프로젝트에서는국외공공공기관의다양한디지털포맷레지스트리구축사례 (GDFR, PRONOM, DROID, Jhove, PREMIS, 네덜란드국립도서관 (KB), 뉴질랜드 NLNZ(National Library of New Zealand)) 를살펴보았다. 또한기술정보은행에필요한포맷및소프트웨어기술정보의구성요소와스키마에관해연구및정의하는과정을거친후, 기술정보은행의필요한포맷및소프트웨어데이터베이스를구축하였다. 또한포맷데이터베이스및소프트웨어데이터베이스에구축된정보들을바탕으로디지털객체가어떤객체인지확인하는포맷식별기능과디지털객체가올바른객체인지판단하는포맷검증기능, 포맷의주요한메타데이터를제공하는포맷특성정보추출기능그리고디지털객체의내용정보를추출하는텍스트추출기능과마지막으로포맷을확인하는소프트웨어에관한정보를제공하는포맷배포정보기능을연구, 구현하였다. 포맷에검증, 특성추출기능, 텍스트추출기능을각각모듈화하여업데이트되는버전의포맷및새로이생성된포맷의추가가용이하게이루어질수있도록구성하였으며, 해당기능들을웹서비스형태로제공하여기술정보은행시스템의핵심기능들을재활용할수있도록할수있다.
연구성과 ( 응용분야및활용범위포함 ) (400 ~600 자 ) 본연구를통해도출된 TECHi-PUID(Technical Information - Persistent Unique Identifier) 생성방법의경우, 차후국가기록원이디지털객체의포맷정보를관리하는중앙기관으로역할수행할때, 각포맷을구분하는구분자 (PUUD) 를기록물보존, 처리관련중앙기관인국가기록원에서정의, 배포, 관리하는등의정책적인활동에활용될수있다. 또한본연구를통해개발된기술정보은행시스템의웹서비스를정책적으로개방할경우, 많은기관이함께이용하여각기록관이나공공사이트에서기술정보은행시스템의핵심기능들을재활용할수있도록할수있다. 본연구를통해개발된텍스트추출기능의경우, 대용량문서에대한문서자동분류기술연구에전처리기술로활용, 대용량문서에대한자동색인기술에연구개발에활용, 내용기반문서검색시스템개발등에활용할수있을것으로생각된다. 총괄참여연구원 성 명 소속 / 직위 성 명 소속 / 직위 양왕성 ( 주 ) 한글과컴퓨터 / 구인영 숙명여자대학교 / 이소연 덕성여자대학교 / 남동선 ( 주 ) 한글과컴퓨터 / 임순범 숙명여자대학교 / 박동현 ( 주 ) 한글과컴퓨터 / 정민옥 ( 주 ) 한글과컴퓨터 김은미 ( 주 ) 한글과컴퓨터 / 김현경 ( 주 ) 한글과컴퓨터 / 신은주 숙명여자대학교 / 임현정 숙명여자대학교 / 최형식 ( 주 ) 한글과컴퓨터 / 박성빈 ( 주 ) 한글과컴퓨터 / 장동헌 ( 주 ) 한글과컴퓨터 / 오흥석 ( 주 ) 한글과컴퓨터 / Keywords (5 개내외 ) 한글디지털포맷, DFR, 포맷레지스트리 영문 Digital Format, DFR, Format Registry 주 1) 연구목표, 연구내용, 연구성과를서술형으로기재 2) 국가연구개발사업 DB 를통한공개를희망하지않는경우공개가능여부란에 공개불가 " 로표시 3) 연구성과는그간의연구결과및기대성과를서술