56 행정정보시스템데이터세트의이해와기록관리고려사항 글. 이규철 ( 충남대학교컴퓨터공학과교수 ) 1 서론각급행정기관에서는전자정부법에의거행정업무의전자적처리원칙에따라행정핵심기반의주요업무를전자적으로생산 관리하기위해다양한행정정보시스템을구축하여운영하고있다. 이러한행정정보시스템은행정정보의생산 수집 가공 검색 제공 수신 활용을위한시스템으로업무활동의증거적성격을갖는데이터세트를생산한다. 업무의효율성및편리성을위해다양한형태의행정정보시스템이구축되어활용되고있으나, 시스템과관련된기록관리체계의부재로업무활동의증거적성격을갖는행정정보데이터세트가유실되고있는실정이다. 대부분의행정업무의처리가행정정보시스템을통해이루어짐에따라행정정보데이터세트기록관리방안의필요성이대두되고있다. 이에행정정보데이터세트에대한이해와데이터세트기록관리과정에서고려해야할사항들에대해이야기하고자한다. 이미해외에서는행정정보데이터세트에대한기록관리필요성을중요하게여기고있으며, 정부차원에서데이터세트아카이브를운영하는경우가많다. 미국은 AAD(Access to Archival Databases) 02 In-Depth Analysisa 사이트를구축하고 NARA(National Archives and Records Administration) 에서영구보존되고있는역사적데이터베이스의일부를온라인을통해서비스하고있으며, 영국은각부처의데이터베이스에축적되는통계데이터들이영국정부의의사결정과정에기초자료로정책과법률에많은영향을미치고있다고판단하여데이터세트를보존대상에포함하고있다. 각나라별로주어진상황에따라기록관리를하기위한대상및방법이상이하기때문에우리나라에서도행정업무환경에따라적합한데이터세트범위를설정하고, 이에대한기록관리프로세스를수립할필요가있다. 2 데이터세트의이해국내 외사례별데이터세트의정의를살펴보면다음과같다. 먼저, 국내의경우 2008년출판된기록학용어사전에서는 컴퓨터가처리하거나분석할수있는형태로존재하는관련정보의집합체 로정의하고있고, 공공기록물법에서는 각급행정기관에서업무상사용하고있는행정정보시스템에서생산되는문자, 숫자, 도형, 이미지및그밖의데이터 로정의하고있으며, 2007년연구되었던 행정정보시스템데이터세트기록관리방안
기록인 2016 WINTER + Vol.37 57 연구 에서는 행정정보시스템에서생산 관리되는행정정보중전자문서가첨부되지않고, 테이블형식의구조화된데이터의특징을가진집합 으로정의하고있다. 다음으로국외의경우미국 SAA(Society of American Archivists) 에서는 컴퓨터에의해분석될수있는형태의관련된정보의집합으로써 (A collection of related information, especially information formatted for analysis by a computer), 데이터나데이터베이스와같은의미로사용될수있다 (often used synonymously with data file and database) 고정의하고있고, 영국국가기록원에서는 특별한목적을위해생산된구조화된데이터집합으로 (Structured collection of data created for a specific purpose), 다양한포맷과기술로저장, 관리, 생산될수있다 (Can be stored, managed and published in a variety of formats and technologies) 고정의하고있으며, 뉴질랜드국가기록원에서는 리스트, 테이블, 스프레드시트, 데이터베이스와같이구조화, 부호화된정보로써 (Structured, encoded information found in lists, tables, spreadsheets or Databases), 숫자, 통계, 공간, 서지정보나데이터베이스와같은구조화된문서등이될수있다 (may be numeric, spatial, spectral, statistical or structured text including bibliographic data and database reports) 고정의하고있다. 각사례별정의된데이터세트의범위를비교해보면 < 그림 1> 과같이나타낼수있다. 그림에서확인할수있듯이기존에연구되었던데이터세트기록관리방안연구에서는데이터세트를좁은범위로제한하였으나, 이는다양한유형의행정정보시스템에서생산되는다양한형태의데이터세트를포괄하기에는적합하지않았다. 이에본연구팀에서는다양한유형의행정정보데이터세트를포괄할수있도록 각급행정기관에서업무상사용하고있는행정정보시스템에서생산되는관련성있는정보의집합체 라는정의 ( 안 ) 을제시하였다. < 그림 1> 데이터세트의범위 기록학용어사전 공공기록물법 SAA 영국 2007 년연구 뉴질랜드 국내데이터세트정의 국외데이터세트정의 새롭게제시한데이터세트정의에따르면행정정보시스템을통해생산되는행정업무와관련된정보들은모두데이터세트라할수있기때문에데이터세트는다양한형태로표현될수있다. 기존종이기록물과달리다양한유형을가지는데이터세트는유형에따라기록관리방법이달라지기때문에행정정보데이터세트의유형분류가필요하다. 행정정보데이터세트유형은 < 그림 2> 와같이데이터특성, 데이터처리방식, 데이터업데이트형태의 3가지축으로구분할수있는조합으로분류하였다. 데이터특성은구조화, 반구조화, 비구조화데이터로구분이되는데, 구조화데이터는관계형데이터베이스, 스프레드시트, 통계데이터, 서지정보데이터등과같이구조를갖는정형적인데이터를의미하며, 반구조화데이
58 Update 형태 1 Structured 2 Semi-structured 3 Unstructured 3 1 Read-only 2 Append-only 3 Continuous update < 그림 2> 행정정보데이터세트유형분류 2 3 2 1 1 1 2 3 1 OLTP (Online Transaction Processing) 2 OLAP (Online Analytical Processing) 3 Big Data Analysis 데이터특성 처리방식 터는 HTML, XML, JSON, Key-value pair와같이완전한정형구조를갖는데이터는아니지만태그나마커등이포함되어의미적으로정형화가가능한데이터를의미하며, 비구조화데이터는이미지, GIS, 비디오, 오디오등구조화되지않은데이터를의미한다. 또다른유형분류기준인데이터처리방식은 OLTP, OLAP, Big data analysis로구분이되는데, OLTP는 Online Transaction Processing의줄임말로서처리대상데이터에대하여단순갱신, 조회등의단위작업을온라인업무로처리하는것을의미한다. OLAP는 Online Analytical Processing의줄임말로써보유하고있는데이터를다차원적으로분석하여새롭고유용한데이터를추출하거나처리하는것을의미한다. Big data analysis는기존과다른방식의데이터처리방식이며, 대용량처리를위해분산처리나병렬처리와같은기존과다른데이터처리방식을사용한다. 마지막유형분류기준인데이터업데이트형태는 Read-only, Append-only, Continuous update로구분이된다. Read-only형태는데이터가한번생성이되고저장이되면, 이후에는해당데이터에대한조회, 읽기만수행하는것으로이러한데이터는이관대상이라고할수있다. Append-only형태는어떠한데이터가생성이되면, 이후에는해당데이터에대하여추가만되는유형으로토지대장과같이기존정보를삭제하거나변경하지않고새로운정보가추가되는형태로이러한데이터는초기생성데이터를이관한후추가되는데이터는수집대상이라고할수있다. Continuous update는데이터가지속적으로업데이트가이루어지는유형으로데이터가생성되면수정, 삭제, 추가등이자유롭게이루어지기때문에주기적으로수집이이루어져야한다. 앞서설명한것과같이데이터세트는유형이다양하기때문에그유형에따라이관, 이관후수집, 수집과같이기록관리방법을달리하여야한다. 실제행정기관에서사용중인행정정보시스템을예로들어설명하자면통계청나라통계시스템에서생산되는데이터세트는이관을해야한다. 왜냐하면통계데이터는한번조사를통해생산을하고나면변경을하지않고조회, 분석을하기때문이다. 이관후수집의예로는국토부부동산종합공부시스템을들수있다. 부동산종합공부시스템의경우에는토지, 건물등과같은각종대장류를생산하고관리하는시스템으로써토지대장은한번생성이되면소유주가바뀌거나대장내용이바뀔때마다정보를수정하는것이아니고추가하기때문에이관이후에추가되는정보에대해서는수집을해야한다. 수집의예로는산림청산림자원통합관리시스템을들수있다. 산림자원통합관리시스템은모든산림자원과관련된정보를통합해서관리하는것으로써계속적으로데이터를생산하고수정, 삭제, 조회하는기능을가지고있다. 이러한행정정보데이터세트를기록관리하기위해서는데이터유실을막기위해주기적으로수집을해주어야한다.
기록인 2016 WINTER + Vol.37 59 행정정보데이터세트는유형분류에따라이관, 이관후수집, 수집으로기록관리방법이나뉘어야하기때문에기록관리업무프로세스역시이관 / 수집으로구분되어야한다. < 그림 3> 과 < 그림 4> 는행정정보데이터세트기록관리업무프로세스를개략적으로그려놓은것이다. 그림에서볼수있듯이수집프로세스의경우에는기존의이관과달리기록관에서기록물에대한수집을실시하고이에대하여기록관에저장을하고품질검사를통해영구기록물관리기관에서보존을하게된다. 이는행정정보데이터세트를통째로기록관으로이관하는이관프로세스와는달리수집주기및방법에따라여러번수집이이루어질수도있기때문이다. 생산기관 행정정보시스템등록요청 행정정보데이터세트기록관리기준표작성 생산 이관목록작성및검증 기록관 행정정보시스템등록 행정정보데이터세트기록관리기준표취압 행정정보데이터세트기록관리기준표검토요청 검토결과반영 이관계획수립및승인요청 이관계획반영 이관목록요청 이관시행 인수및품질검사 Ⅰ 영구기록물관리기관 행정정보데이터세트기록관리기준표검토 이관계획검토 이관계획승인 인수및품질검사 Ⅱ 보존관리활용 < 그림 3> 기록관리업무프로세스 ( 안 ) - 이관 생산기관 행정정보시스템등록요청 행정정보데이터세트기록관리기준표작성 생산 수집목록작성및검증 기록관 행정정보시스템등록 행정정보데이터세트기록관리기준표취압 행정정보데이터세트기록관리기준표검토요청 검토결과반영 수집계획작성및승인요청 수집계획반영 수집목록요청 수집시행 품질검사 저장관리활용 영구기록물관리기관 행정정보데이터세트기록관리기준표검토 수집계획검토 수집계획승인 인수및품질검사 Ⅱ 보존 관리 활용 < 그림 4> 기록관리업무프로세스 ( 안 ) - 수집
60 기존종이 / 전자기록물은철 / 건구조의기록계층을이루었으나, 행정정보데이터세트는철 / 건구조로기록계층을 표현할수없기때문에새로운기록계층이마련되어야한다. 이에새롭게제안하는기록계층은 < 그림 5> 와같다. 행정 정보데이터세트의이관및보존 관리단위는 단위기능 이된다. 하나의행정정보시스템전체가단위기능으로서장 기보존대상이될수도있으며, 행정정보시스템을여러개의단위기능으로분류하여각단위기능단위로보존이될 수도있다. 데이터세트의범위는행정정보시스템에서생산되는관련성있는정보의집합체로정의하였으나, 행정업 무의효율적운영에관한규정제 3 조 ( 정의 ) 제 12 호 에의하면현재행정정보시스템에서생산되는데이터세트의대부 분은데이터베이스임을확인할수있다. 이에현재까지의행정정보데이터세트를구분하기위한기록계층은이와같 이제안하였지만, 추후새로운유형의데이터세트에대한기록계층에대한연구는추가적으로진행되어야한다. 기록계층을통해추출된데이터세트 는보존포맷을적용하여보존하여야한 다. 보존포맷은 < 그림 6> 에서볼수있 듯이 METS(Metadata Encoding and Transmission Standards) 프레임워크를 사용한다. METS 로기술된메타데이터는 자원에대한기술용, 관리용, 구조용메타 데이터를캡슐화할수있기때문에, 이를 사용하면데이터세트에대한메타데이터 뿐만아니라기존전자기록물에대한메타 데이터역시수용이가능하다. 행정정보시스템 단위기능 시리즈 데이터베이스 테이블 Row < 그림 5> 행정정보데이터세트기록계층 ( 안 ) 균일한데이터세트를대상으로하는최소기능단위중 Read 를제외한 Create, Update, Delete 연산이일어나는기능 동일한단위기능별수집또는이관된연속된행정정보데이터세트의묶음 ( 수집주기 / 시스템고도화 ) 단위기능과관계된데이터세트를구성하는데이터베이스들 각데이터베이스안의테이블들 각테이블의실제값 < 그림 6> 행정정보데이터세트장기보존포맷 ( 안 )
기록인 2016 WINTER + Vol.37 61 행정정보데이터세트는기존과다른기록계층에따라기록관리를위한단위기능추출을해야한다. 단위기 능추출은기록관리전문가, 기록물생산기관담당자, 행정정보시스템관리자간의협업및회의를통해이루어져야한다. 단위기능추출작업은기록관리에대한이해와함께행정정보시스템, 데이터세트와같이특수한개념에대한이해가필요하기때문에어떠한분야의전문가단독으로수행할수없다. 3 결언 : 데이터세트기록관리고려사항행정정보데이터세트기록관리에있어서기존의다른기록물과달리고려해야할사항들을몇가지제시하고자한다. 가장먼저행정정보데이터세트는기존기록물과다른특성을가지고있다는것을인지하여야한다. 기존종이기록물이나전자기록물은철 / 건구조를가지고있었으나, 데이터세트는기존의철 / 건구조로표현하기에는유형에따라계층이다양하게나누어지기때문에전혀다른기록계층을가지고있다. 또한, 행정정보데이터세트는유형이다양함에따라기록관리프로세스가이관, 이관후수집, 수집으로나뉘게된다. 기록관리대상인데이터세트에대한유형분류를통해기록관리방법과수집주기등에대한적절한결정이필요하다. 앞서설명한것과같이행정정보데이터세트는기존과다른기록계층에따라기록관리를위한단위기능추출을해야한다. 단위기능추출은기록관리전문가, 기록물생산기관담당자, 행정정보시스템관리자간의협업및회의를통해이루어져야한다. 단위기능추출작업은기록관리에대한이해와함께행정정보시스템, 데이터세트와같이특수한개념에대한이해가필요하기때문에어떠한분야의전문가단독으로수행할수없다. 마지막으로데이터세트에적합한보존포맷을마련하여야한다. 기존의종이 / 전자기록물에서사용되었던보존포맷을그대로사용할경우에는수용하지못하는유형의데이터세트가발생할수있다. 이에여러종류의데이터세트를모두수용할수있는 METS(Metadata Encoding and Transmission Standards) 와같은메타데이터프레임워크의사용을고려해야한다. 또한, 데이터세트는다양한행정정보시스템에서생산됨에따라서로다른포맷으로이루어질수있기때문에 SIARD 포맷과같이데이터베이스관리시스템에독립적으로사용될수있는포맷을사용하여보존하여야한다. 데이터베이스의경우데이터베이스관리시스템에종속적인형태로보존할경우, 해당데이터베이스관리시스템을제공하는업체가서비스를중단하게되어사용이불가능하게되면보존된데이터베이스내의내용을확인할수없게되기때문이다. 필자소개충남대학교컴퓨터공학과교수로 1989년부터현재까지재직중이다. 데이터베이스시스템, 전자기록관리에서부터사물인터넷, 기계학습, 시맨틱웹등의분야에서활발한연구활동을하고있다. 현재까지전체 120개프로젝트를수행하였으며, 국외논문 45편 (SCI급 36편 ), 국내저널 108편, 국외학술발표 83편, 국내학술발표 175편을게재하고, 출원 14건, 등록 18건의특허를보유하고있으며, 저서 13편을집필하였다.