논단 Rosetta 시스템도입과디지털콘텐츠마이그레이션추진 목차 표혜리 중앙도서관정보관리과 I. 서론 Ⅱ. 디지털자원관리시스템 Rosetta 1. 도입배경 2. 도입경과 3. 데이터모델및업무흐름 4. 구성및기능 5. 디지털콘텐츠의이용 Ⅲ. 디지털콘텐츠마이그레이션 1. 추진배경 2. 추진경과 3. 준비작업 4. 추진내용 Ⅳ. 향후계획 Ⅴ. 맺음말 I. 서론 디지털도서관팀에서는차세대학술정보시스템 Alma 가동지원을위한합의서를체결하면서 SOLARS에등록되어있던디지털콘텐츠를어떻게관리하고운영할지고민하였고, 이에따라 ExLibris사에서제공하는디지털자원관리보존을위한시스템을사용하기로결정하였다. 새로운시스템도입에따른디지털콘텐츠의효율적인마이그레이션을위해고문헌, 학위논문, 학술행사 VOD 등 16개콘텐츠유형의원문을분석하고데이터클리닝작업을진행하였다. 기존디지털콘텐츠는 2002년전자도서관운영에이어 2006년 SOLARSⅢ에서통합운영되었는데, 디지털콘텐츠유형을계속추가하여업로드하면서경로가복잡해졌다. 또한 SOLARS 시스템에구축되어있었던 MARC 데이터와서울대학교에서확장개발한 XML 데이터를
도서관보 ( 제 139 호 ) 변환하는작업이필요했다. 아울러디지털콘텐츠를서비스하는기존뷰어들이노후화로인해최신정보환경을지원하지않아이용자서비스에불편함이많았다. 대표적으로고문헌자료같은디지털콘텐츠를플러그인방식인 DjVu 뷰어로제공하는경우설치과정에서의불편함이있었으며, 모바일서비스지원도불가능하였다. 학술행사 VOD 디지털콘텐츠의경우 Microsoft사에서 DRM 시스템서비스를중단하여더이상뷰어서비스를할수없는상황이었다. 따라서디지털콘텐츠각각의특성을반영하면서도시대에부합하는뷰어의개편이필요하였다. Ⅱ. 디지털자원관리시스템 Rosetta 1. 도입배경 Alma는 2015년도입당시디지털콘텐츠를관리할수있는기능이없었고디지털콘텐츠를관리할수있는시스템인 Alma-D는개발중이어서, 서울대학교의디지털콘텐츠관리와서비스를위한새로운시스템도입이필요하였다. 2014년 9월 Alma 가동을위한합의서에서 ExLibris사가디지털자원의보존관리를위한시스템을 Alma-D가개발되기전까지무상제공하기로하였고, ExLibris사는 Digitool과 Rosetta 두개의시스템을제안하였다. 그러나 Digitool의경우업그레이드와지원이중단될예정이었으므로 Rosetta 도입계약을같은해 12월 24일체결하게되었다. Rosetta는디지털자원을효과적으로보존하고접근할수있도록설계된, 웹을기반으로하는디지털자원관리시스템이다. 오디오, 비디오와문자콘텐츠를포함한많은양의디지털데이터를저장하여관리할수있고고품질의콘텐츠보존을위하여다양한관리기능을제공하고있다. 2. 도입경과 Rosetta 의도입경과는다음과같다. Alma 가동지원을위한합의서작성 : 2014. 9. 23. - ExLibris 사 Digitool, Rosetta 제안
Rosetta 운영서버및사양검토 : 2014. 10. - 디지털콘텐츠자료관리및서비스용장비구입 기존디지털콘텐츠의 Rosetta 마이그레이션을위한회의 : 2014. 12. 17. - 디지털콘텐츠유형별마이그레이션범위확인 - Rosetta 업무흐름별환경설정및콘텐츠매칭작업등협의 Rosetta 도입계약체결 : 2014. 12. 24. Rosetta 도입 Kick-off 회의 : 2015. 1. 30. - Rosetta 프로젝트팀역할및교육일정협의 - Rosetta 구축일정및데이터마이그레이션방법논의 Rosetta 교육실시 : 2015. 3. 30. ~ 2015. 4. 3. - 참석자 : 디지털도서관팀및고문헌자료실 ExLibris사 Nir Sherwinter Rosetta Product Manager, Timothee Lecaudey Project Manager Rosetta의운영체제서브스크립션연장 : 2015. 12. 8. - 중앙도서관 DAM(Digital Asset Management, 디지털자원관리 ) 를위한 Rosetta의운영체제 (OS) 서브스크립션연장 - Rosetta의안정적인운영을위한보안업데이트및소프트웨어업그레이드지원 (Red Hat Enterprise Linux Server, 3 copies) 3. 데이터모델및업무흐름 Rosetta 는디지털자원을수집하여보존하는시스템으로전체적인구조는 PREMIS 1) 에서정의한데이터모델과용어사전을기반으로시스템의업무흐름이개발되었다. 데이터모델은아래그림과같이비트스트림 (Bit-Stream), 파일 (File), Representation ( 이하 REP), Intellectual Entity( 이하 IE) 로구성되어있다. 비트스트림은파일을이루고있는최소한의구성요건으로서독립실행형파일로전환이어려운단위이다. 이비트스트림으로구성된파일은운영체제가인식할수있는바이트의구성으로이루어진다. 이러한파일은한개이상이모여하나의 REP이되며, REP은 IE의변환에필요한구조적메타데이터를포함하고있다. IE는디지털자원오브젝트를뜻하며최소한하나 의약자 디지털아카이브를위한메타데이터요소를정의한국제워킹그룹
도서관보 ( 제 139 호 ) 이상의 REP 으로구성된다. [ 그림 1] Rosetta 데이터모델 책으로비유하자면, 책의한페이지에있는글자들이비트스트림이고, 한페이지는파일에해당한다. 각각의페이지들이모여하나의장인 REP을이루게되고이장들이모여결국한권의책인 IE를완성하는것이다. 이때 Persistent Identifier( 이하 PID) 라는고유식별번호가 IE마다부여되는데, 이는다른위치나컬렉션으로이동하더라도 IE가존재하는한변동되지않는영구번호이기도하다. 전체적인구조와업무흐름을살펴보면아래그림과같이 Deposit( 콘텐츠업로드 ), Preservation( 보존 ), Delivery( 이용 ) 으로구분된다. Deposit 은디지털콘텐츠를업로드하는일련의과정을모두포함한다. 콘텐츠의메타데이터가작성되고그에해당하는파일들이첨부되어 IE를생성한다. 구축된콘텐츠는 Rosetta의보존모듈로이동하여저장되는데이때시스템에서는 SIP(Submission Information Package) 이라는정보패키지를생성하여전송한다. 보존모듈에서는제출된정보들에대한시스템내부의검증과프로세스를진행하여 AIP(Archival Information Package) 라는보존용정보패키지를생성한다. 이때 AIP는 METS 2) XML의형식으로저장된다. 보존모듈에저장된정보는이용자들이검색할수있도록통합검색시스템 Primo로보내지게되는데이작업을 Publishing이라고하며이때보내지는정보의패키지를 DIP(Dissemination Information Package) 라고한다. 의약자로디지털자원의메타데이터를 인코딩하고전송하는표준
[ 그림 2] Rosetta 시스템모델링 4. 구성및기능 Rosetta 는사용자의권한과활동의종류에따라 Deposit, Management, Administration 세개의홈페이지로구분되어있다. [ 그림 3] Rosetta 로그인화면 Deposit 에서는메타데이터입력, 파일업로드등콘텐츠를수집하는제반의업무를 진행한다. Rosetta 에서는더블린코어를기반으로메타데이터가작성되는데, 콘텐츠의
도서관보 ( 제 139 호 ) 특성에맞게입력할메타데이터항목을만들어둔템플릿으로자료를업로드할수있다. 예를들어학술행사 VOD는 학술행사 ( 디지털도서관팀 ) 이라는생산자를선택하여 IE Entity Type을 AcadEvent 로선택한 학술행사 라는템플릿으로업로드를한다. 이렇게생산자가업로드한콘텐츠는운영서버로이동되고, 운영서버안에서 SIP 처리를하게되낟. 문제가있을경우콘텐츠를반환하고문제가없을경우업로드된콘텐츠를승인하여영구저장하게된다. [ 그림 4] Deposit 페이지 - 학술행사 VOD 업로드예시 Management는로그인하면 Deposit, Submissions, Preserved 세개의칼럼으로구분되어있다. Deposit 은콘텐츠를업로드하는일련의과정을의미하고, Submissions 에서는수집된콘텐츠등록에관한업무를처리하며, Preserved에서는콘텐츠를보존하는업무를수행할수있다. 각칼럼과관계된통계, 차트등시각화된위젯이제공됭정보를확인하는데용이하다.
[ 그림 5] Management 페이지화면 Deposit 칼럼에서의기능은앞서설명한 Deposit 페이지에서의기능과같다. Submissions 칼럼에서는 SIP와관련된작업을할수있다. 진행중이거나완료된 SIP 작업과정이나그에따른기술통계등을확인한후에러발생여부와원인도필터링하여검색할수있다.
도서관보 ( 제 139 호 ) [ 그림 6] Submissions 칼럼화면 Preserved 칼럼에서는영구보존된 IE 를검색할수있다. 고급통계기능을활용하 여각종조건에따른쿼리를만들어원하는 IE 를편리하게검색할수있고, 해당 IE 메타데이터등을수정할수도있다.
[ 그림 7] Preserved 칼럼화면 Administration페이지에서는 Rosetta의제반환경설정을할수있다. Delivery 항목에서업로드된콘텐츠의이용과관련한사항설정, IE Delivery 규칙설정, 뷰어와데이터가저장된리포지터리의설정등을할수있다. 이외에도 Rosetta 일반설정과개별세부항목설정을하여디지털콘텐츠의특성에맞는뷰어와환경을정할수있다.
도서관보 ( 제 139 호 ) [ 그림 8] Administration 페이지 -Delivery 규칙설정 5. 디지털콘텐츠의이용 승인된콘텐츠는 Publishing 모듈을통해 Primo로전송된다. 이때 Rosetta Delivery 관리모듈에서는이용자가요청한 IE의 PID를기준으로검색작업을처리하게된다. 이용자가해당콘텐츠공개범위에적절한권한을갖고있는지검토하고, Delivery 규칙관리에따라콘텐츠의파라미터를확인하고상세정보, 뷰어를선정하여제공한다. [ 그림 9] Rosetta Delivery 모델링
예를들어이용자가 Primo에서 서울대학교도서관보 라는자료를검색하여이용할때, 이콘텐츠는전체공개자료이므로누구나볼수있으며 Delivery 규칙에따라 서울대간행물 인자료는 IA Book Reader라는뷰어를사용한다. 학술행사 VOD는 JWPlayer라는뷰어를통해제공되는데, 각각의뷰어에서는공개된자료와비공개된자료의뷰어화면이다르게제공된다. [ 그림 10] Primo 에서 Rosetta 콘텐츠이용예시 [ 그림 11] 비공개디지털콘텐츠제공화면예시
도서관보 ( 제 139 호 ) 또한 Rosetta에서는컬렉션계층구조를생성하여관리할수잇다. 콘텐츠의특성에따라계층관계를세분화하여 IE를제공할수있도록해준다. 도서관홈페이지에서는디지털콘텐츠를컬렉션으로구분하여리스트를제공하고있는데, Rosetta에서생성한계층구조에따라디스플레이된다. [ 그림 12] 디지털컬렉션구성및 Rosetta 계층구조 Ⅲ. 디지털콘텐츠마이그레이션 1. 추진배경 차세대학술정보시스템 Alma 도입과함께기존 SOLARS 서버에잇었던디지털콘텐츠를 Rosetta 서버로이관하는작업을진행하였고, 그동안디지털콘텐츠별로특성화페이지를운영하여관리가이원화되었던부분을일원화하고자하였다. 그러나디지털콘텐츠의양이방대하여한번에이관하기는불가능하였으므로, 2015년부터디지털콘텐츠마이그레이션사업을추진하였다. 수차례회의를거쳐결정된순위에따라
단계적으로컬렉션을이전하기로하였으며, 이관전까지디지털콘텐츠는기존특성화페이지에서제공하기로하였다. 디지털콘텐츠를마이그레이션하는과정에서데이터클리닝작업을선행하여기존의데이터를재점검하고정제된데이터로구축하는것을원칙으로하였다. 2. 추진경과 디지털콘텐츠마이그레이션추진경과는다음과같다. 디지털콘텐츠마이그레이션을위한사전준비 : 2015. 5. 12. ~ 25. 디지털콘텐츠마이그레이션사업추진기본계획수립 : 2015. 6. 4. 디지털콘텐츠마이그레이션사업추진기본계획변경 : 2015. 6. 19. - 주요컬렉션 ( 고문헌, 학술행사 VOD) 중심으로 1차사업추진 - 학위논문원문은 dcollection으로이관 - 기타컬렉션은이후단계별로사업진행대상파일경로오류및누락페이지재정비 제1차디지털콘텐츠마이그레이션사업 : 2015. 7. 8. ~ 2015. 8. 31. - 고문헌컬렉션마이그레이션 : 파일 518,265건, 메타 142,982건 - 학술행사 VOD 컬렉션마이그레이션 : 파일 6,307건, 메타 6,307건 제2차디지털콘텐츠마이그레이션사업 : 2015. 12. 7. ~ 2016. 2. 12. - 서울대 / 기타간행물컬렉션마이그레이션 : 국내 외단행본, 국내 외연간물파일 58,773건, 메타 4,103건 제3차디지털콘텐츠마이그레이션사업 : 2016. 11. 14. ~ 2017. 2. 10. - 음악자료컬렉션마이그레이션 : 파일 6,914건, 메타 5,607건 - 디지털사진관컬렉션마이그레이션 : 파일 3,354건, 메타 3,357건 - 대학신문컬렉션마이그레이션 : 파일 84,976건, 메타 84,895건 - 대학사료컬렉션마이그레이션 : 파일 360,770건, 메타 25,349건
도서관보 ( 제 139 호 ) 3. 준비작업 디지털콘텐츠마이그레이션을위해 SOLARS에구축되어있는디지털콘텐츠를분석하여다음과같은과정으로이관준비작업이진행되었다. 이관준비작업은크게두가지로나눌수있다. 첫째, SOLARS 디지털콘텐츠를분석하고이중관리되고있는파일형식을통합하여데이터파일을변환할프로그램을개발하였다. 둘째, Rosetta 시스템의환경을설정하고뷰어를연동하였다. 디지털콘텐츠의효율적이관을위해먼저고문헌, 학위논문, 학술행사등의원문분석및데이터클리닝작업을진행하였다. 2002년전자도서관운영에이어 2006년 SOLARS에서통합운영되었던디지털콘텐츠는시스템이변경되면서복잡한경로로구축되었고파일정보가누락되거나원본파일없이서비스용파일만있는콘텐츠가존재하는경우가많았다. 복잡한디지털콘텐츠형식을재정비하고, SOLARS에구축되어있는 MARC 데이터와서울대학교에서확장개발한 XML 데이터를더블린코어데이터로변환하였다. 뷰어와관련하여다음과같은작업을하였다. 뷰어커스터마이징이이루어질경우 Alma-D에서도뷰어를커스터마이징하게되어비용이이중으로발생할수있었다. 이에기존뷰어는사용하지않는대신 Rosetta에서기본으로제공하는자체뷰어를원칙적으로사용하고, 예외적으로일부컬렉션을위해외부뷰어를사용할경우별도의어플리케이션다운이필요없는웹베이스오픈소스기반의무료뷰어를선택하였다. 이미지및책자뷰어가운데 DjVu 뷰어와 ezpdf 뷰어의경우기존프로그램을유지하기위해서는별도의개발이필요했기때문에모두 Rosetta 자체뷰어중 IA Book Reader 뷰어로대체하였다. 특히 DjVu 뷰어로서비스되던파일의경우보존용파일이누락된채로서비스용파일만남아있는경우도많았으므로보존용이없을경우서비스용파일을마이그레이션하였다. IA Book Reader 뷰어는 JPG 포맷에최적화되어있었으므로 DjVu 포맷형식을 JPG 포맷으로변환하였다. 학술행사 VOD DRM의경우 Windows 환경에서만지원되고 2015년 7월이후 Microsoft사에서 Window Media Player 뷰어의 DRM 시스템서비스를중단하여새로운뷰어가필요하게되었다. 그러나자체뷰어중적절한뷰어가없어동영상과음성을동시에처리할수있는 JWPlayer 뷰어를선택하였다.
4. 추진내용 디지털콘텐츠마이그레이션의대상파일과추진현황은아래와같다. 마이 그레이션회의를통해중요도순서대로이관순위를결정하였다. 순위콘텐츠유형이전파일포맷현재보존용서비스용파일포맷 원본자료데이터형식 건수 ( 메타 ) 사업구분 ( 저장위치 ) 1 고문헌 JPG DjVu JPG 책자 XML 142,994 1 차완료 (Rosetta) 2 학술행사 WAV MPEG2 ASF MP4 테이프파일 XML 6,880 1 차완료 (Rosetta) 3 학위논문 TIFF 400dpi PDF PDF 책자 MARC 113,765 4 서울대 / 기타간행물 5 디지털사진관 [ 표 1] 전체디지털콘텐츠마이그레이션대상파일 JPG TIFF TIFF 600dpi TIFF 4,000dpi PDF DjVu PDF 책자파일 MARC XML (2016. 12. 31. 기준 ) 1 차완료 (dcollecti on) 4,100 2 차완료 (Rosetta) JPG 600dpi JPG 사진 XML 3,357 3 차진행 6 음악작품 TIFF JPG WAV MPEG2 PDF ASF JPG MP4 악보테이프 XML 11,011 3 차진행 7 대학신문 ( 기사, 사진 ) 8 대학사료 JPG 600dpi DjVu 600dpi JPG JPG 400dpi WAV MPEG2 DjVu 400dpi ASF 책자사진 XML 86,606 3 차진행 JPG 책자 XML 25,557 3 차진행 9 학내간행물 TIFF 400dpi PDF 400dpi 책자 MARC XML 10 농학자료 11 지리학자료 JPG 600dpi JPG 4,000dpi JPG 600dpi JPG 2,000dpi 1,979 DjVu 600dpi 슬라이드 XML 44,481 DjVu 600dpi 슬라이드 XML 3,105 12 미술작품 TIFF 400dpi PDF 300dpi 책자 XML 14,549 2017 년도추진예정
도서관보 ( 제 139 호 ) JPG 600dpi WAV MPEG2 DjVu 600dpi ASF 필름 13 한국병합사료 JPG 600dpi WAV MPEG2 DjVu 600dpi ASF 책자테이프 XML 452 14 한국교육사고 JPG 400dpi WAV MPEG2 PDF 200dpi DjVu 400dpi ASF 책자테이프 XML 513 15 의학자료 JPG 600dpi JPG 4,000dpi DjVu 600dpi 슬라이드 XML 50,654 16 곤충자료 JPG 72dpi JPG 72dpi 표본 XML 4,213 합계 514,216 1차디지털콘텐츠마이그레이션은예산을확보하여계속적으로사업을진행하고있는고문헌및학술행사 VOD, 학위논문을대상으로하였다. 최종변환된디지털파일은중앙도서관에서요청한 Network File System 3) 으로연결하였으며, 지정된하위디렉토리와컬렉션에매칭될수있도록하였다. 고문헌은원문 518,265건, 메타 142,982건, 학술행사 VOD는원문 6,307건, 메타 6,307건을변환하였는데, 파일변환은자동변환프로그램을활용하였고으며변환완료된파일은원본은변환전해상도와동일한수준을유지하였다. 네트워크파일체계 클라이언트컴퓨터의사용자가네트워크상의파일을직접연결된 스토리지에접근하는방식과비슷한방식으로접근하도록도와주는프로토콜
[ 표 2] 1 차마이그레이션대상콘텐츠 구분 고문헌 학술행사 VOD 메타데이터 변환전원문 변환후원문 형식 건수 형식 건수 형식 건수 사이즈 (GB) MARC 1,132 DjVu 3,856 JPG 317,198 295.06 XML 139,147 DjVu 139,574 JPG 249,135 143.63 MP4 6,425 728.71 ASF 6,634 XML 6,694 MP3 202 13.66 WMV 60 MP4 60 4.67 고문헌의경우최종산출물은 JPG 형식이며, 하나의콘텐츠에다수의페이지가있 는경우각페이지별로 JPG 파일을생성하였다. 디지털파일은각콘텐츠별로나누 어파일이름을붙였는데, SOLARS 콘텐츠번호와 MOI 번호를준용하였다. 학술행사 VOD 의경우기본적인항목은고문헌콘텐츠와동일하며최종산출물은 VOD( 영상 ) 인경우 MP4, AOD( 음성 ) 인경우 MP3 형식으로하였고, 만약하나의콘텐 츠에다수의 AOD 와 VOD 파일이있는경우개별파일로구분해서변환하였다. 학위논문의경우관리의일원화를위해학위논문온라인제출및서비스시스템인 dcollection 으로마이그레이션하였다. 구축유형원본자료원문유형변환전변환후 고문헌책자이미지 학술행사 VOD 동영상 [ 표 3] 1 차마이그레이션변환완료파일세부내용 TIFF 400dpi JPG 400dpi DjVu A4 600dpi A3 400dpi A2 300dpi A1 200dpi ( 경성제대 ) 300 dpi VOD ASF, WMV MP4 AOD ASF, WMV MP3 JPG A4 600dpi A3 400dpi A2 300dpi A1 200dpi ( 경성제대 ) 300 dpi Bitrate : 528kbps 이상 Size : 320 240(4:3) 576 320(16:9) Video Streaming Output Bitrate : 128kbps 이상 Audio Streaming Output
도서관보 ( 제 139 호 ) 2차디지털콘텐츠마이그레이션은서울대 / 기타간행물원문 58,773건, 메타 4,103 건을대상으로진행하였다. 기본적인방식은 1차마이그레이션과동일하였으나, 데이터클리닝과정에서 IA Book Reader 뷰어와맞지않는가로형태의자료가많았으며경로가유실되어재연결해야하는파일이많아예상보다오랜시간이소요되었다. 이에따라보존인력을확보한후자동측정프로그램을이용하여가로형태자료를별도로추출한후단면분할하여세로형태의자료로만들고경로가유실된파일을보완하였다. [ 표 4] 2 차마이그레이션대상콘텐츠 구분 서울대 / 기타간행물 메타데이터 변환전파일 변환후파일 형식 건수 형식 건수 형식 건수 사이즈 DjVu 2,992 JPG 451,047 329.54 GB MARC 1,537 PDF 1,111 PDF 1,111 37.15 GB JPG 1 JPG 중복변환대상삭제 [ 표 5] 2 차마이그레이션변환완료파일기준 구축유형원본자료원문유형변환전변환후 TIFF 100~400dpi 서울대 / 기타간행물 책자 이미지 DjVu 100~400dpi DjVu 100~400dpi JPG 100~400dpi PDF 100~400dpi 3차디지털콘텐츠마이그레이션은음악자료, 디지털사진관, 대학신문, 대학사료컬렉션을대상으로진행하였다. 기본적인방식은 1차및 2차마이그레이션과동일하며, 음악자료파일 6,914건, 메타 5,607건, 디지털사진관파일 3,354건, 메타 3,357건, 대학신문파일 84,976건, 메타 84,895건, 대학사료파일 360,770건, 메타 25,349건이마이그레이션되었다.
[ 표 6] 3차마이그레이션대상콘텐츠 구분 메타데이터변환전파일변환후파일형식건수형식건수형식건수사이즈 MP4 272 23.47 GB ASF 4,631 음악자료 XML 5,607 MP3 4,339 36.80 GB PDF 2,303 PDF 2,303 61.81 GB 디지털사진관 XML 3,357 CTL_JPG 3,357 JPG 3,354 6.01 GB DjVu 9,275 JPG 9,275 대학신문 XML 84,895 JPG 75,710 JPG 75,701 318.21 GB PDF 1 PDF 0 * 중복변환대상 대학사료 XML 25,349 DjVu 25,367 JPG 360,770 254.08 GB 구축유형원본자료원문유형변환전변환후 음악자료 디지털사진관대학신문대학사료 [ 표 7] 3 차마이그레이션변환완료파일세부내용 동영상 이미지 VOD ASF MP4 Bitrate : 528kbps 이상 Size : 320 240(4:3) 576 320(16:9) Video Streaming Output AOD ASF Bitrate : 128kbps 이상 MP3 Audio Streaming Output TIFF 400dpi JPG 400dpi JPG Djvu DjVu A4 600dpi A3 400dpi A2 300dpi A1 200dpi JPG A4 600dpi A3 400dpi A2 300dpi A1 200dpi 마이그레이션작업과정은다음과같다. 각디지털콘텐츠의메타데이터다운로드및반출은 XML, MARC 데이터파싱을통한 Rosetta 시스템정의 Element를추출하는작업을우선진행한다. 이과정에서매핑룰작성및이미지서버디렉토리룰을지정한다. 이후데이터클리닝을통해정제된데이터의메타데이터를 Rosetta 시스템업로드를위한 CSV 파일로변환생성한후, 필요한정보를추가입력하여업로드용파일을만들어지정된위치의공용서버에업로드한다. 지정된서버의디렉토리아래위치해있는파일을자동으로업로드해주는 Rosetta 시스템의 NFS 템플릿을통해 Rosetta 시
도서관보 ( 제 139 호 ) 스템서버에업로드를진행하며, 업로드가끝났을경우 Rosetta 시스템검수툴을통 해에러가있는지여부를검수한다. 이후 Rosetta 시스템 Data Management 에서컬렉 션수정및메타데이터교정을거쳐통합검색시스템 Primo 로퍼블리싱하게된다. Ⅳ. 향후계획 서울대학교중앙도서관에서는개교 70주년기념전시회및책자발간등을통해사진자료의중요성을재인식하고사진자료수집을원활히하고자기존디지털사진관홈페이지를개편하였다. 또한디지털콘텐츠의유기적인구축및이용을위하여전기관에공문을발송하여서울대학교학내기관발간자료원문을수집하고, 특히 2016년도서울대학교개교 70주년기념으로추진하였던학내발간자료를수집하여서울대학교의역사와정신을공유하는기념컬렉션을만듦으로써디지털콘텐츠구축및관리의주체로서의중앙도서관역할을다할것이다. [ 그림 14] 개편된디지털사진자료관홈페이지모습
현재서울대학교중앙도서관에서사용하고있는 Rosetta 시스템은 Alma-D의개발이전까지한시적으로제공되는시스템이니만큼한정된내장뷰어, 생성하기까다롭고콘텐츠포맷마다필요한템플릿등의한계점을가지고있다. Alma-D가정식출시하게되면시스템의기능을면밀히분석한후이관할계획이다. 데이터클리닝을통해문제가있는파일을수정하고보완하여디지털콘텐츠컬렉션의서비스의질을높이며디지털콘텐츠마이그레이션으로기존서비스와동일한콘텐츠이용환경을조성하도록연동하여하며, 향후이용자들의요구를파악하여컬렉션정비를통해끊임없이소통하는디지털콘텐츠정책을운용하여야할것이다. 앞으로도곤충자료, 의학자료등디지털콘텐츠를 Rosetta 시스템으로모두마이그레이션할계획이다. 향후디지털사진관홈페이지등의개편으로디지털콘텐츠구축및마이그레이션을동시에진행할수있도록 Rosetta 시스템템플릿을기반으로하여메타데이터를작성하는표준포맷을만들어적용할예정이다. 향후서울대학교내에서기관간의프로토콜을적용하여소장기간이나생산기관에상관없이디지털콘텐츠를일괄적으로구축및관리함으로써역사적, 기록적으로중요한의미를갖는컬렉션을이루어나가도록할계획이다. 또한지속적인데이터클리닝을통해유실된원본파일의수정및보완이적시에이루어지도록하여, 수평적구조의 Dublin Core를기반으로하는디지털콘텐츠관리를정기적으로함으로써디지털콘텐츠의유실을방지할예정이다. Ⅴ. 맺음말 21세기에들어 IT 기술의급변화로인해이용자의다양한요구가증가함에따라, 서울대학교중앙도서관에서도디지털콘텐츠의관리필요성과막중한책임감을느끼지않을수없게되었다. 예를들어 3D 영상등의디지털콘텐츠는최적의뷰어를찾기위해범용성및호환성등을고려하여많은탐색이이루어지고있으며, VR 콘텐츠등새롭게나올매체와콘텐츠를수용할수있는포맷을찾기위해노력하고있다. 사업을진행하면서과거디지털콘텐츠에대한작업이특히수월하지않았다. 디지털콘텐츠마이그레이션을하면서데이터클리닝을기반작업으로진행하면서다양한목록규칙및기술방식을확인할수있었다. 또한많은메타데이터들이목록자의성향에따라나열되어있어데이터를정비하는데많은시간과비용, 노력이들어갔다.
도서관보 ( 제 139 호 ) SOLARS 시스템에서는단행본등의서지레코드와결합하여디지털콘텐츠를제공하였기때문에따로메타데이터를작성할필요가없었고, 서지레코드의관리만으로도디지털콘텐츠의데이터를함께관리할수있었다. 그러나 Rosetta 시스템을사용하면서디지털콘텐츠가서지레코드와분리되어따로관리및운영되면서, 우리도서관은단행본중심의 MARC 21 또는 KORMARC 등의기술방식과는다른디지털콘텐츠중심의 Dublin Core라는메타데이터기술방식을사용하고있다. Dublin Core가디지털콘텐츠기술방식으로주목되고있지만완전한목록의대체수단이되기위해서는보다완벽한규칙의정비와함께폭넓은합의가있어야할것이다. 원래메타데이터는자료의상세한기술보다는신속한탐색을목적으로한것이므로목록에비해식별요소가부족하고, 전거파일과같은제어수단이사용되지않아도서관의서지데이터와는질적으로차이가있기때문이다. 또한 Dublin Core의특성상단순성과범용성을전제로하기때문에자유로운기술이가능하다는장점이있는반면, 기술자의개성이강하게드러남으로써일관성을잃어버리기쉽다는점이있다. 이러한점으로말미암아, 마이그레이션사업이종료된후정리된메타데이터를기반으로디지털콘텐츠목록규칙을통일하여디지털콘텐츠의표준화된구조를갖추어야할것으로생각한다. 또한디지털콘텐츠의특성에부합하는적합한형태의뷰어및포맷을지속적으로연구하여보다안정적인관리와보존을위한노력을하여야할것이다.
[ 붙임 ] 디지털콘텐츠마이그레이션중국내고서매핑룰예시 Rosetta DC SNU MARC 비고 SIP Title (DC) 1-9 국내고서 _01 IE IE Entity Type OldBook Type (DC) 고문헌 Identifier (DC) 001 Language (DC) 008 35 필요하면코드테이블따로첨부 Subject - DDC (DC) 082 $a Contributor (DC) 100 $a $d$a 와 $d 추출시구분기호그대로출력 Contributor (DC) 110 $a Contributor (DC) 130 $a Title (DC) 245 $a $b$a 와 $b 추출시구분기호그대로출력 Title - Alternative (DC) 245 $x Title - Alternative (DC) 246 $a Relation - IsVersion of (DC) 250 $a Publisher (DC) 260 $b Date (DC) 260 $c Format (DC) 300 $a Subject (DC) 600 $a $d$a 와 $d 추출시구분기호그대로출력 Subject (DC) 650 $a Subject (DC) 653 $a REP Preservation Type REP Access Rights Policy ID (REP) O -> 1182 REP Access Rights Policy ID (REP) N -> 1181 PRESERVATION_MASTER mo_info 테이블에서 open_type 값참조하여치환 ( 전체공개 ) mo_info 테이블에서 open_type 값참조하여치환 ( 비공개 ) REP Access Rights Policy ID (REP) C -> 1182 REP Access Rights Policy ID (REP) C -> 1183 REP Access Rights Policy ID (REP) C -> 1184 File File Original Path File File Original Name mo_info 테이블에서 open_type 값이 C 인경우 -mo_copyright 테이블에서 service_ restrict 참조하여치환 ( 제한공개 ) 1)1~3 자리에 Y 값이하나라도있으면 -1184( 관내공개 ) 2)4~6 자리에 Y 값이하나라도있으면 -1183( 학내공개 ) 3)7~9 자리에 Y 값이하나라도있으면 -1182( 전체공개 ) NFS 로올릴경우 Path 정보는필수아님