대량기록물의 효율적인 처리를 위한 Database 관리방안 연구 2011.10.08 서강대학교 컴퓨터공학과 이대욱
목 차 1. 연구범위 및 내용 2. 대량기록물의 효율적인 처리를 위한 Database 구조연구 기록관리 서브시스템별 특징,기능 및 DBMS 역할 입수단 / 보존단 / 제공단 3. 인프라 변화에 대응한 Database 관리 방안 연구 대용량데이터처리기술 / 분산보존기술 / 클라우드컴퓨팅 / 저장매체 기술 4. 국산 DBMS의 벤치마크 Page 2
1. 연구범위 및 내용 대량기록물의 효율적 처리를 위한 Database 구조연구 관리대상 기록물 현황조사 중앙기록물관리시스템(CAMS)의 데이터베이스 현황 분석 대량데이터 처리를 위한 데이터베이스 사례분석 대량기록물 처리를 위한 데이터베이스 구조 분석 대량기록물 처리를 위한 기능요건 분석 데이터베이스 구조요건 및 관련기술 종합정리 인프라 변화에 대응한 Database 관리방안 연구 대용량 처리 기술 최신동향 조사 및 분석 분산 보존기술 최신동향 조사 및 분석 클라우드 최신동향 조사 및 분석 저장매체기술 최신동향 조사 및 분석 분석결과 종합 및 시사점 도출 기록물 생애주기 관리 자동화 처리를 위한 데이터베이스 스키마 개발 기록물 생애주기 정의와 관리단계 분석 생애주기에 따른 관리 자동화 대상 선정 및 데이터 베이스 요건 도출 데이터베이스 스키마 개발 대상 및 범위 선정 스키마 개발계획 수립 입수단, 보존단, 제공단 데이터베이스 스키마 개발 국산 DBMS의 벤치마크 기록관리시스템에서의 DBMS 현황조사 기록관리시스템의 서브시스템별 구성요소 및 DBMS의 역할과 특징 DBMS 기술종속성 문제의 검토 주요 DBMS의 조사 및 분석 국산 DBMS 채택의 장단점 검토 Page 3
2. 대량기록물의 효율적 처리를 위한 Database 구조연구 기록관리 서브시스템별 특징,기능 및 DBMS 역할 입수단 다양한 기록의 출처시스템이 연동될 수 있음 다양한 포맷의 SIP가 입수될 수 있 음.(NEO포맷, 생산 당시 전자문서) 다종다양한 상태의 메타데이터 종류와 분류정보 이기종 데이터베이스 관리시스템과 쉬 운 연동 입수 기록물 검정을 위한 임시 데이터 베이스 생성의 용이성 이관 시점에 대량의 기록물을 단시간 에 처리 능력 기록물 검정 규칙에 따른 속도감 있는 검증 수행능력(트리거) 단위 처리시간(response time)도 중요 하지만 높은 자료처리량(throughput) 이 요구됨 한번씩 몰리는(bursty) 데이터를 효율 적으로 처리할 수 있어야 보존단 안정적으로 보존하는 것이 가장 중요 한 기능 대용량의 기록물에 대한 저장과 보존 조치가 가능해야 함 백업 및 복구기능 장기보존에 대한 신뢰성 장기보존의 특성에 따른 DBMS에 대 한 지속적인 기술지원 가능성 및 대안 백업 및 복구와 관련된 DMBS에 대한 기술지원 가능성 및 대안 기록정보가 저장된 데이터베이스의 포 맷이 모두 공개되거나 최소한 기록물 관리기관에 포맷이 등록되어 있어야 함 Large Object관리 기능 및 XML 처리 기능 제공단 다양한 기록물의 서비스 모듈과 연동 될 수 있음(기록포탈, 홈페이지, 정보 공개시스템 등) 기록물 사용자 집단이 탐색에 필요로 하는 메타데이터를 유지하되 보존단 메타데이터와 동기화 필요(NEO 포맷 그대로 or 발췌사본) 기록물의 유형(텍스트, 이미지, 비디오, 오디오 등)별로 DIP작성을 원활하게 수행할 수 있어야 함 검색 결과나 발췌 사본인 DIP를 저장 할 수 있는 별도의 저장소 필요 동시 접속자 수가 많은 상황에서 빠른 처리 성능 빠른 처리시간(response time) 보존단으로부터 데이터 이관작업 중에 도 빠른 검색 처리 성능 별도 검색엔진 도입에 대한 고려 Page 4
2. 대량기록물의 효율적 처리를 위한 Database 구조연구 대용량기록물 처리 단계별 데이터베이스 구조 입수단 데이터베이스 구조 단일 서버로 구성하고 여러 입수처리시스템에서 동시 접속 데이터베이스 관리 스토리지 크기(테이블스페이스 크기) 추산 : 하루평균 입수 메타데이터 수 * 입수데이터의 평 균 유지기간(일) * 메타데이터 레코드의 평균크기 입수단 데이터베이스는 메타데이터가 일괄 저장 및 삭 제되는 특성이 있음. 따라서 데이터베이스 시스템의 물 리적인 블록크기를 크게 설정하여 데이터처리 효율을 높이는 것이 바람직함. 입수처리 시스템별로 메타데이터 저장을 위한 테이블 생성 - 각 입수처리 시스템별로 생성된 메타데이터 테이블들 을 하나의 통합뷰로 묶음. - 다른 시스템 처리 레코드에 영향을 주지 않고 입수처 리 시스템별로 독립적으로 관리할 수 있음. 또한 보존 단 이관 후 메타데이터 정리가 쉬움 입수처리 완료하여 보존단 이관 후 데이터베이스 저장 소(테이블스페이스) 및 전자파일 저장 스토리지에 대한 정리 필요(다음 입수처리에서 재사용) - 관리자의 수작업 혹은 자동화 처리 입수단 이관XML 입수파일저장 각급 국가기관 Online/Offline 보존단 보존단 이관 메타데이터 NEO 포맷 NEO 추출 데이터베이스 시스템 메타데이터 품질검사(포맷검사,MD검증) 품질검사 결과에 따라 NEO 재생성 가능 디지털컴퍼넌트 격리검사 격리검사 완료 Page 5
2. 대량기록물의 효율적 처리를 위한 Database 구조연구 대용량기록물 처리 단계별 데이터베이스 구조 보존단 데이터베이스 구조 분산데이터베이스 구축 - 하나의 메인 데이터베이스 시스템+다수의 기록물 유 형별 데이터베이스 시스템(전자문서,시청각,데이터셋, 웹기록 등) - 메인 데이터베이스 시스템은 기록물 유형에 상관없는 공통의 메타데이터 관리 - 기록물 유형별 상이한 메타데이터는 각 유형별 데이 터베이스 시스템에서 관리 - 영구보존 특성에 의한 대용량 메타데이터를 기록물 유형별로 나누어 분산화함으로써 처리의 효율성 - 일반적으로 기록물 유형별로 이루어지는 각종 업무들 에 유연한 대처가 가능 미러링 및 복본저장을 통한 재난,재해 등에 대비한 백업 시스템 구축 1단계 : 기존 상용 RDBMS가 지원하는 방식 이용(일반 적으로 dblink 방식) 2단계 : 전문 분산데이터베이스 이용(기술성숙도, 안정 성 등의 면에서 현재로서는 국가기록원에서 사용하기 적합하지 않음, 향후 클라우드 구축과 연계가능) 국산 DBMS 채택 고려 입수단 AIP 이관 입수단 시스템 Mirroring 성남분원 보존단 분산 데이터베이스 구성 대전본원 대전본원 성남 부산 복본저장소 기록물 유형별 서브시스템 - 전자문서 서브시스템 - 시청각 기록물 서브시스템 - 웹 기록물 서브시스템 - 데이터셋 서브시스템 Page 6
2. 대량기록물의 효율적 처리를 위한 Database 구조연구 대용량기록물 처리 단계별 데이터베이스 구조 제공단 데이터베이스 구조 보존단 제공단 메인메모리 DBMS에 대한 고려 - 최근 많은 DBMS들이 MMDBMS를 지원/지원 예정, 특히 국산 DBMS 알티베이스는 MMDBMS를 주요 특징으로 하고 있음. - 사용자 검색결과에 따라 관련 데이터를 미리 디스크 에서 메인메모리로 이동시키는 방식 고려할 수 있음. 스토리지용 디스크로 SSD 채택 필요 - 기존 하드디스크 대비 빠른 접근 속도 및 안정성 - 검색 및 블라우징 등 읽기 접근이 많은 특성에 유리 검색엔진 사용에 대한 고려 - 대량의 도서정보 메타데이터를 저장한 후 검색,대출 등의 서비스를 하고 있는 전자도서관 패키지에서 활 발하게 도입되어 사용 중 - 기존 데이터베이스 시스템에 부하를 주지 않으면서 전문 검색엔진의 도입으로 서비스 검색 속도 향상 DIP 이관 데이터저장소 DI저장소 DIP 저장소 검색엔진 웹 서버 인터넷 웹 서버 사용자 Page 7
3. 인프라 변화에 대응한 Database 관리 방안 연구 대용량 데이터 처리 기술 대용량 데이터 (Big data 혹은 Large-scale data) 일반적인 데이터베이스 관리 기술로는 허용할 수 있 는 시간 내에 다루고 처리하기 어려울 만큼 그 크기 가 큰 데이터 대용량 데이터 처리 기술이란 대용량 데이터들을 효 과적으로 다룰 수 있게 해주는 방법론 MapReduce의 등장 Google에서 정보 검색을 위한 데이터 가공(인덱스 추출, 정렬 및 역 인덱스 생성 등)을 목적으로 개발 된 분산 환경에서의 병렬 데이터 처리 기법 데이터 분산, 병렬화, 로드 밸런싱, 내결함성(Fault tolerance) 등을 처리해주는 MapReduce 라이브러 리로 구성 기존 RDBMS의 변화 기존의 강점인 수 십 년간 축적된 관계형 데이터베 이스 관리 기술로 RDBMS의 한계를 극복 RDBMS도 병렬, 분산 구조의 시스템으로의 전환 하이브리드형 DB 시스템 : 정렬, Join 연산이 필요한 부분만 메타데이터로 만들어서 처리, 다른 것들은 MapReduce 방식의 key-value DB 엔진으로 처리 주요연구분야 대형 병렬 처리(MPP : Massively Parallel Processing) 데이터 마이닝(Data Mining) 분산 파일 시스템(Distributed File System) 분산 데이터베이스(Distributed Database) 클라우드 컴퓨팅(Cloud Computing) 적용방안 검토 대용량 처리기술의 적용 대상이 되는 국가기록원 업무 - 입수단의 대규모 입수처리 업무 - 서브시스템간 대규모 이관작업 - 보존단에서의 주기적인 대규모 포맷컨버젼, 마이 그레이션 업무 동일/비슷한 업무의 대량처리 작업시 유리한 MapReduce 방식의 적용에 대한 검토 - 상단 국가기록원 업무의 특성과 유사 - 기술 성숙성 측면에서 아직 적용하기 힘듬. 지속 적인 기술변화 추이의 관찰이 필요 병렬/분산 데이터베이스에 대한 적용이 우선 필요 Page 8
3. 인프라 변화에 대응한 Database 관리 방안 연구 분산보존 기술 기술개요 대용량의 데이터를 일반적인 데이터베이스 시스템 으로 구축할 경우 확장성을 보장 받기 어려움 시스템의 구성이 복잡하여 구축 및 유지보수 비용이 증가 대용량의 데이터를 처리하기 위한 분산보존 기술에 대한 연구가 활발하게 진행 적용방안 검토 입수단의 경우 메타데이터 및 전자파일들이 단기간 에 대용량으로 입수됨으로 데이터베이스 및 스토리 지를 여러시스템으로 분할하여 병렬처리하는 방식 을 고려해야 됨. 보존단의 경우 메타데이터 및 전자파일들이 삭제되 지 않고 영구 보존되면서 지속적으로 증가됨으로 메 타데이터의 분산저장을 위한 분산데이터베이스, 전 자파일의 분산 저장을 위한 분산파일시스템의 적용 이 필요함. 주요연구분야 분산 파일 시스템(Distributed File System) 분산 데이터베이스(Distributed Database) 분산 데이터베이스 데이터가 여러 DBMS에 의해서 관리되는 다양한 데 이터베이스에 분산 다양한 종류의 기기 또는 운영체제에서 지원 네트워크에 의해 함께 연결되어 있음 모든 데이터가 마치 하나의 데이터베이스 관리 시스 템에 의해 관리되는 것처럼 운용되는 시스템 구글 Bigtable, 아파치 HBase, Hypertable 등 분산 파일 처리 기술 물리적으로 서로 다른 컴퓨터 혹은 시스템에 네트워 크로 연결이 되어 분산되어 저장되어 있는 파일들을 사용자가 쉽게 사용하고 관리할 수 있게 필요한 기 능들을 제공하는 시스템 Google File System(GFS), Hadoop Distributed File System(HDFS), Amazon S3 File System 등 Page 9
3. 인프라 변화에 대응한 Database 관리 방안 연구 클라우드 컴퓨팅 기술 기술개요 그리드 컴퓨팅 및 유틸리티 컴퓨팅 기술개념을 포괄 하면서 진화 인터넷을 활용하여 IT 자원을 서비스의 형태로 제공 서비스 제공자와의 최소한의 상호작용과 관리만을 가지고 자원의 할당이나 반환이 가능한 On- Demand 네트워크 엑세스를 위한 서비스 환경 핵심 기술 가상화 기술 대규모 분산 처리기술 서비스 프로비저닝 기술 오픈 인터페이스 기술 보안 및 개인정보 관리 기술 자원 유틸리티 기술 등 국내외 시장 및 기술동향 인터넷 기업과 이동통신 사업자를 중심으로 형성되 고 있음(NHN, 다음, KT, LG U+,, 삼성,LG 등) 주로 온라인 스토리지 및 동기화 기능이나 N스크린 과 같은 서비스 영역을 중심으로 하는 개인 클라우 드 서비스에 집중되고 있음. 적용방안 검토 현재 기술 초기단계로 표준화도 아직 이루어지지 않 은 상태임. 국가기록원은 정부기관으로 보안 문제로 외부 클라 우드 서비스의 이용은 불가함. 향후 국가기록원이 운영하고 여러 국가기관들이 이 용자가 되는 내부 클라우드에 대해 고려해 볼 만함. 국가기록원에서 구축 운영중인 많은 개별 시스템들 을 통합하는 방안으로 고려할 수 있음(2020년 대비) Page 10
3. 인프라 변화에 대응한 Database 관리 방안 연구 저장매체 기술 기술개요 지속적으로 증가하는 대용량 데이터의 저장/관리를 위해 저장매체의 선택이 중요 저장매체는 기존기술도 하루가 다르게 발전하고 새 로운 기술도 끊임없이 생겨나고 있어 그 추세에 따 른 적용이 필수적임. 주요 저장매체 기술 하드디스크 기반 스토리지 기술 플래시 메모리 기반 스토리지 기술(최근 SSD의 기 반기술) 상변화 메모리 기반 스토리지 기술 분산 파일 처리 기술 물리적으로 서로 다른 컴퓨터 혹은 시스템에 네트워 크로 연결이 되어 분산되어 저장되어 있는 파일들을 사용자가 쉽게 사용하고 관리할 수 있게 필요한 기 능들을 제공하는 시스템 Google File System(GFS), Hadoop Distributed File System(HDFS), Amazon S3 File System 등 기술 검토 내용 대용량 데이터의 처리 단계별로 볼 때 보존단, 제공 단은 데이터의 쓰기연산 대비 읽기 연산이 많으며 이는 상대적으로 쓰기대비 읽기 성능이 뛰어난 SSD 의 특성과 일치함. 현재 HDD 대비 SSD의 가격이 높으나 변화추세로 보면 가까운 미래에 SSD가 HDD를 대체할 것으로 예상됨. 상변화 메모리 기반 스토리지 등 SSD 이후의 저장 매체 기술에 대해 지속적인 기술 검토가 필요함. Page 11
4. 국산 DBMS 벤치 마크 DBMS 기술종속성의 문제성 검토 기술개요 기록관리에 있어서 기술적인 문제를 DBMS 제품에 의존하는 문제 대두 장기보존의 특징으로 인해 미래에 꾸준한 기술지원 가능성에 대한 고려필요 외산 DBMS에 대비 국산DBMS의 기술성 검토 주요 DBMS 외산DBMS: 오라클, MS SQL, IBM DB2 국산DBMS: 알티베이스, 큐브리드, 티베로 주요 비교대상 포인트 데이터타입별 인코딩 방식 차이 조사 DB Block 등 저장구조 차이 조사 백업 및 복구 방식의 차이 조사 국산DBMS의 벤치마크 조사 및 분석 국내외 DBMS의 기능/특징 비교 시사점 도출 국산DBMS 채택을 고려해 볼 가치가 있음 O 국가기록원에서 필요한 국산DBMS의 성능적 측면 O 국가기록원 요구사항에 맞는 DBMS 개발가능성 O 단순 유지보수 이상의 기술협력, 기술이전 가능성 O 외산 DBMS에 대한 기술 종속성 탈피 Page 12