untitled - PDF 무료 다운로드

경영정보학연구제 15 권제 4 호 2005 년 12 월 * 박병권 **, 이종학 *** A Multidimensional Analysis Framework for XML Warehouses Byung-Kwon Park, Jong-Hak Lee Nowadays, large amounts of XML documents are available in the Internet. Thus, we need to analyze them multidimensionally in the same way as relational data. In this paper, we propose a new framework for multidimensional analysis of XML documents, which we call XML-OLAP. We base XML-OLAP on XML warehouses where all fact and dimension data are stored as XML documents. We build XML cubes from XML warehouses. We propose a new OLAP language for XML cubes, which we call XML-MDX. XML-MDX statements target XML cubes and use XQuery expressions to designate measure, axis and slicer. They incorporate text mining operations for aggregating text data. We apply XML-OLAP to the United States patent XML warehouse to demonstrate multidimensional analysis of XML documents. Keywords:OLAP, Multidimensional Analysis, XML Warehouses, XML cube, XML-MDX 1) * 이논문은한국과학재단의해외 Post-doc. 연수지원에의하여연구되었음. ** 동아대학교경영정보과학부 *** 대구가톨릭대학교컴퓨터정보통신공학부

Ⅰ. 서론 OLAP(Online Analytical Processing) 시스템은의사결정지원을위한강력한데이터분석도구이다 [Spofford, 2001]. 그것은데이터웨어하우스 (data warehouse) 에있는방대한양의데이터를여러각도 ( 또는차원 ) 에서분석할수있도록해준다. 일반적으로데이터웨어하우스는하나의큰사실테이블 (fact table) 과여러개의작은차원테이블들 (dimension tables) 로구성된다. 사실테이블과차원테이블들은대개관계형데이터베이스에저장될수있는구조화된데이터 (structured data) 이다. 오늘날에는인터넷상에많은양의 XML 문서들이존재한다. 따라서기존의관계형데이터에대한방법과동일하게 XML 문서들을다차원적으로분석하는것이필요하다. 그러나, XML 문서의데이터모델은관계형데이터와달리트리 (tree) 구조를가지고있다. 뿐만아니라, XML 문서는텍스트 (text) 와같은비구조화된데이터를포함하고있다. 따라서 XML 문서에대한새로운다차원분석프레임워크 (framework) 가필요하다. 본논문에서는이러한다차원분석프레임워크를제안하고이를 XML-OLAP이라부른다. XML-OLAP은 XML 웨어하우스를기반으로하는데여기에는모든사실데이터와차원데이터가 XML 문서로저장되어있다. 이에대한다차원분석을위해서는다차원큐브를만들고질의할수있는질의어가필요하다. 기존의 OLAP 질의어로서 Microsoft MDX[Spofford, 2001] 가널리사용되고있으므로본논문에서는이를확장한 XML-MDX 를제안한다. XML-MDX 는 Microsoft MDX와같은구문구조를가지며 XQuery[XQuery, 2005] 와텍스트마이닝을도입한언어이다. XQuery 는 XML 문서의구조를기술하는데사용되며텍스트마이닝은 XML 문서에포함된텍스트데이터의 요약 (summarization), 분류 (classification), 주요키워드추출 (top keyword extraction) 등과같은통합연산 (aggregation) 을기술하는데사용된다. 마지막으로 XML-OLAP의효용성을보이기위하여 XML-OLAP을미국특허웨어하우스에적용한다. 미국특허웨어하우스는미국특허웹사이트 [USPTO] 로부터특허정보를추출하여 XML 문서로바꾸고이를 XML 데이터베이스에저장하여구축한다. 이를통하여 XML 문서를다차원적으로분석하는예를보인다. 본논문의구조는다음과같다. 제Ⅱ장에서는관련연구를살펴본다. 제Ⅲ장에서는 XML 웨어하우스에대하여논한다. 특히, 사실데이터와차원데이터를 XML 문서로표현하는방법에대하여논한다. 제Ⅳ장에서는 XML 웨어하우스로부터 XML 큐브를생성하는방법과 XML-MDX를이용하여 XML 큐브를질의하는방법에대하여논한다. 제 Ⅴ장에서는미국특허웨어하우스를통하여 XML 문서에대한다차원분석예를보인다. 마지막으로제Ⅵ장에서는결론을맺는다. Ⅱ. 관련연구 XML과 OLAP의결합에관한연구는다음세가지로분류할수있다. 첫째, 기존의 ROLAP 도구를그대로사용할수있도록 XML 데이터를변환하는연구이다. 둘째, 서로독립적으로존재하는 ROLAP과 XML 데이터를연동 (federation) 시키는연구이다. 셋째, XML 웨어하우스의개념적모델링에관한연구이다. 첫번째부류에속하는연구로는 Jensen[2001], Niemi[2001, 2002, 2003], Hummer[2003] 등이있다. Jensen등은인터넷상의 XML 데이터를관계형데이터로변환하여기존의 OLAP 도구를그대로사용하는방안을제안하였다. Niemi 등도사용자의 OLAP 질의를분석하여필요한데이터를인터넷상에분산된데이터웨어하우스들로부터 XML 형태로가져와 OLAP 큐브를 154 경영정보학연구제 15 권제 4 호

만드는시스템을개발하였다. Hummer[2003] 등은여러개의데이터웨어하우스를통합하여하나의가상적인데이터웨어하우스를만드는문제를연구하였다. 그들은각데이터웨어하우스의구조데이터, 사실데이터, 그리고차원데이터를기술할수있는일군의 XML 문서템플릿을제안하였다. 두번째부류에속하는연구로는 Pedersen[2002] 등의연구가대표적이다. Pedersen 등은 OLAP 질의에외부 XML 문서의내용을결합하여 OLAP 질의를확대하는문제를연구하였다. 기존의 OLAP은미리정해진차원데이터를통해서만질의할수있으나외부 XML 문서와결합하면보다확장된차원데이터에기반한질의가가능해진다. 그러나, 첫번째와두번째부류의연구들은여전히 OLAP 질의의대상이 XML 웨어하우스가아닌관계형데이터웨어하우스이다. 세번째부류에속하는연구로는 Pokorny[2001], Nassis[2004], Golfarelli[2001] 등이있다. Pokorny 등은사실데이터와차원데이터가모두 XML 문서로기술된 XML 웨어하우스에서차원계층간의참조무결성제약조건에대한형식모델을제안하였다. Nassis등은 UML을이용한 XML 웨어하우스의개념적모델설계에관하여연구하였다. Golfarelli등은 XML 데이터로부터개념스키마를자동적으로찾는문제를연구하였다. 본논문은세번째부류의연구에서한걸음더나아가 XML 웨어하우스에대한다차원분석을가능하게하는 XML-OLAP에대하여연구한다. Ⅲ. XML 웨어하우스 3.1 XML 웨어하우스데이터모델 본논문에서가정하는 XML 웨어하우스는 < 그림 1> 과같은다차원모델을가진다. 즉, 사실데이터를구성하는하나의 XML 문서집합이존재 하고, n개의차원데이터를구성하는 n개의 XML 문서집합이존재한다. Facts XML Doc XML Doc Dimension 1 XML Doc XML Doc Dimension n Dimension 2 < 그림 1> XML 웨어하우스의다차원모델사실데이터를구성하는 XML 문서집합은 Niemi등이가정한것과같이 [Niemi, 2001] 한개의사실데이터는한개의 XML 문서로표현된다. 사실데이터는기존의데이터웨어하우스처럼단순하지않고계층적트리구조를가진다. 뿐만아니라, 구조화된데이터와비구조화된데이터를모두포함한다. 사실데이터를구성하는 XML 문서집합은분석을원하는 XML 문서집합을그대로사용하면되므로재구축할필요가없다. 하나의차원데이터를구성하는 XML 문서집합은그차원의계층구조를반영하고있다. 즉, 하나의 XML 문서는최상위층구성요소 (member) 를루트로하는계층구조의한인스턴스에해당한다. 차원데이터와사실데이터를연관짓기위하여인덱스와같은보조데이터구조가사용된다. < 그림 1> 과같은다차원모델은다음과같은장점을가진다 : (1) 사실데이터와차원데이터가모두 XML 문서로기술되므로 XML 웨어하우스를쉽게구축할수있다. 특히, 사실데이터는새로이구축할필요가없다. (2) 사실데이터와차원데이터를 XML 전용데이터베이스 (native XML database) 에저장하고관리할수있다. (3) XML 문서의계층구조를이용하여차원데이터의계층구조를표현할수있다. 제 15 권제 4 호경영정보학연구 155

3.2 XML 웨어하우스구축 본논문에서는주어진기존의 XML 문서집합을사실데이터로사용하므로차원데이터를구성하는 XML 문서의생성에초점을맞춘다. 사실데이터를구성하는 XML 문서집합이주어지면이를분석하기위한차원을결정하여야한다. 이를위해서는주어진 XML 문서의개념적모델링이필요하다. UML을이용하여 XML 데이터의개념적모델링을한연구가많이있다. Jensen등은 [Jensen, 2001] XML 데이터의 DTD를이용하여자동적으로 UML 클래스다이어그램을생성하는알고리즘을제안하였다. Lujan-Mora 등은 [Lujan-Mora, 2004] UML을확장하면다차원모델링언어가될수있음을보였다. 본논문에서도그들의방법을도입하여 XML 문서의개념적모델로 UML 클래스다이어그램을사용한다. 사실데이터를구성하는 XML 문서들의개념적모델을통해사실데이터의논리적구조를이해하고분석을위한차원을정한다. Nassis등은 [Nassis, 2004] 사용자의요구사항을분석하여차원을정하고 XML 뷰를이용하여차원을표현할것을제안하였다. 그들은모든차원이사실데이터속에포함되어있다고가정하였으나, 어떤차원은사실데이터밖에서주어질수도있으므로본논문에서는각차원데이터를 XML 뷰로표현하지않고별도로생성한다. 이때각차원데이터와사실데이터의연결은색인을통해이루어진다고가정한다. 1) Ⅳ. XML 웨어하우스의다차원분석프레임워크 본장에서는 를기술한다. 분석프레임워크는 1) 이때사용되는색인구조는향후연구한다. 크게 XML 큐브를생성하는것과다차원질의를생성하는것이다. 제4.1절에서는 XQ-Cube라는새로운개념의 XML 큐브를제시하고, 제4.2절에서는 XQ-Cube에대한다차원질의어로서 XML-MDX 라는질의어를제시한다. 그리고제4.3절에서는 XML-MDX로표현된질의의처리방법을제시한다. 4.1 XQ-Cube XML 웨어하우스는사실데이터가 XML 문서들이므로 XML 문서전체를측정치로할경우, XML 웨어하우스로부터만들어지는데이터큐브는 XML 문서의통합 (aggregation) 을요구한다. 그런데, XML 문서는계층구조를가진복합객체이므로 XML 문서전체에대한통합은정의하기가어렵다. 하지만, 문서를구성하는일부숫자데이터나텍스트데이터에대한통합은정의하기가쉽다. 본논문에서는 XML 웨어하우스로부터데이터큐브를만들때문서의일부데이터를측정치로하고 XQuery[XQuery, 2005] 식을이용하여이를기술한다. 그리고, 이러한데이터큐브를 XQ-Cube라부른다. XQ-Cube에서 XQuery 식의결과가수치데이터이면 XQ-Cube는기존의관계형큐브와같아진다. 그러나, XQuery 식의결과가텍스트데이터이면이에대한통합연산이필요하다. 본논문에서는이를위해텍스트마이닝연산을도입한다. XQ-Cube는다음과같은특징을가진다. (1) XQuery 식을이용하여측정치를기술하므로같은 XML 웨어하우스로부터다양한종류의큐브를만들수있다. (2) 측정치가 XML 문서의일부이므로데이터타입에따라여러가지통합연산을적용할수있다. (3) XQ-Cube는 XQuery 식의결과값에따라기존관계형큐브가될수도있고텍스트큐브가될수도있으므로기존데이터큐브의일반화된모습이다. 156 경영정보학연구제 15 권제 4 호

4.2 XML-MDX 데이터큐브에대한질의를하기위해서는다차원질의어가필요하다. 관계형큐브를위한다차원질의어로서마이크로소프트가제안한 MDX (Multidimensional Expression Language) 언어가있다 [Spofford, 2001]. 본논문에서는 MDX를확장한다차원질의어로서 XML-MDX를제안한다. XML-MDX 는두가지명령문을가진다. 하나는 XQ-Cube를생성하기위한 CREATE XQ- CUBE 문이고, 다른하나는질의를하기위한 SELECT 문이다. CREATE XQ-CUBE 문 : < 그림 2> 는 CREATE XQ-CUBE 문의기본구조를보여주고있다. <XQ-Cube name> 은생성할 XQ-Cube의이름을명시한다. CREATE XQ-CUBE 문은 FROM 절과 WHERE 절로구성된다. 생성된 XQ-Cube는나중의사용을위해저장된다. CREATE XQ-CUBE <XQ-cube name> FROM <XQ-cube specification> [ WHERE <slicer specification> ] < 그림 2> CREATE XQ-CUBE 문의구조 FROM 절은 XQ-Cube의생성시사용될측정치를명시한다. < 그림 3> 은 BNF 표기법에따른 FROM 절의정의를보여주고있다. <XQ-Cube_ specification> 은 XQuery 식을이용한측정치를명시한다. 이때, 측정치의데이터타입에따라적절한통합연산자를지정해준다. <FROM_clause> ::= FROM <XQ-cube_specification> <XQ-cube_specification> ::= <XQuery_expression> : <aggregation_operator> ] <aggregation_operator> ::= ADD LIST COUNT SUMMARY TOPIC TOP KEYWORDS CLUSTER < 그림 3> FROM 절의구조 본논문에서는모두 7개의통합연산자를다룬다. 즉, ADD, LIST, COUNT, SUMMARY, TOPIC, TOP KEYWORDS 그리고 CLUSTER 이다. 이중 ADD 연산자는수치데이터를위한것이고, 나머지연산자들은모두비수치데이터를위한것이다. LIST 연산자는측정치를모두나열하라는것이고, COUNT 는측정치의개수를구하는것이며나머지는모두텍스트마이닝연산자들이다. SUMMARY, TOPIC, TOP KEYWORDS 는텍스트의요약, 주제, 주요키워드를각각뽑는것이고, CLUSTER 는전체텍스트의군집 (cluster) 을구하는것이다. WHERE 절은선택적인데, 절단 (slicing) 에사용될차원의멤버 (member) 를지정한다. 즉, 지정된차원의멤버에대해서 XQ-Cube를절단한다. < 그림 4> 는 BNF 표기법으로명시한 WHERE 절의정의이다. <slicer_specification> 은절단자 (slicer) 를명시하는데 XQuery 식의튜플 (tuple) 로서명시한다. 튜플내의각 XQuery 식은차원의멤버를지정한다. <slicer_specification> 에명시되지않은나머지차원들은 XQ-Cube 의축이된다. <WHERE_clause> ::= WHERE <slicer_specification> <slicer_specification> ::= ( <XQuery_expression> {, <XQuery_expression> } ) < 그림 4> WHERE 절의구조 SELECT 문 : < 그림 5> 는 SELECT 문의구조를보여주고있다. SELECT 문은 MDX의 SELECT 문과같이 SELECT, FROM, WHERE 절을가진다. FROM 절은 CREATE XQ-CUBE 문을통해생성된 XQ-Cube의이름을가리킨다. SELECT <axis 0 specification>, <axis 1 specification>,... FROM <XQ-Cube name> [ WHERE <slicer specification> ] < 그림 5> SELECT 문의구조 제 15 권제 4 호경영정보학연구 157

SELECT 절은 SELECT 결과큐브의축을명시한다. < 그림 6> 은 BNF 표기법으로명시한 SELECT 절의정의를보여주고있다. 각각의 <axis_specification> 이하나의축을명시한다. XML 웨어하우스가가진차원의개수가축의최대개수이다. 하나의 <axis_specification> 은여러개의 XQuery 식과축의이름으로구성된다. XQuery 식의결과값들은그축의멤버를이룬다. 즉, 한축을구성하는각멤버마다하나의 XQuery 식이존재한다. 각축은축번호를가지며축의이름은 MDX와동일한방법으로정해진다. 즉, X- 축은 0, Y-축은 1, Z-축은 2 등이다. <index> 는축번호를가리킨다. 처음 5개의축 (AXIS(0), AXIS(1), AXIS(2), AXIS(3), 그리고 AXIS(4)) 에대해서는 COLUMNS, ROWS, PAGES, SECTIONS, CHAPTERS 등의별명을각각사용할수있다. <SELECT_clause> ::= SELECT <axis_specification> {, <axis_specification> } <axis_specification> ::= <XQuery_expression_set> ON <axis_name> <XQuery_expression_set> ::= { <XQuery_expression> {, <XQuery_expression> } } <axis_name> ::= COLUMNS ROWS PAGES SECTIONS CHAPTERS AXIS(<index>) < 그림 6> SELECT 절의구조 SELECT 문의 WHERE 절의정의는 CREATE XQ-CUBE 문의 WHERE 절과동일하다. <slicer_ specification> 은 FROM 절에명시된 XQ-Cube 를절단한다. 그리고, SELECT 절과 <slicer_ specification> 에모두명시되지않은차원은최상위멤버인 ALL' 값으로절단한다. XML-MDX 는마이크로소프트 MDX에비해다음과같은장점을가진다. (1) XQuery 식만사용하므로배우기가쉽고그처리도기존의 XQuery 엔진을그대로이용할수있다. (2) 축과절단자를명시할때조건식을사용할수있다. 마이크로소프트 MDX 는차원계층구조의경로식만명시할수있다. 4.3 XML-MDX 질의처리 본절에서는 XML-MDX 로기술된다차원질의의처리방법을논한다. < 그림 7> 은 XML- MDX 질의처리기의아키텍춰를보여주고있다. XML- MDX Parser 는사용자로부터질의를받아들이고처리된질의의결과를반환하는역할을한다. XQ- Cube 생성기는 XQuery 엔진과텍스트마이닝엔진을이용하여 XQ-Cube 를만드는역할을한다. XQuery 엔진은 XML-MDX 질의에명시된 XQuery 를처리하는역할을하며텍스트마이닝엔진은텍스트데이터에대한통합연산을처리하는역할을한다. XQ-Cube Constructor XML-MDX Parser XQuery Engine XML Warehouse Text Mining Engine < 그림 7> XML-MDX 질의처리기 CREATE XQ-CUBE 문은다음과같은순서로처리된다. (1) XML-MDX 파서가질의를파싱하여 FROM 절과 WHERE 절로나눈다. (2) XQ-Cube 생성기는 FROM 절에명시된측정치를가지는 XQ-Cube 를생성한다. (3) WHERE 절에명시된대로절단을한다. (4) 측정치의통합이필요하면 FROM 절에명시된통합연산자를이용한다. 측정치가텍스트데이터이면텍스트마이닝엔진을이용한다. SELECT 문은다음과같은순서로처리된다. (1)XML-MDX 파서가질의를파싱하여 SELECT, FROM, WHERE 세개의절로나눈다. (2) XQ- Cube 생성기가 FROM 절에명시된 XQ-Cube를로드한다. (3) WHERE 절에명시된대로 XQ- Cube를절단한다. (4) 결과큐브를 SELECT 절에명시된축순서대로선회 (pivoting) 한다. (5) 결과큐브를사용자에게반환한다. 158 경영정보학연구제 15 권제 4 호

<uspatent> <title> <text> Rule based database security system and method </text> </title> <abstract> <text> A rule-based database security system and method are disclosed. </text> </abstract> <inventor> <name> Cook; William R. </name> <addr> Redwood City, CA </addr> </inventor> <patent> <no> 6,820,082 </no> <applno> 541227 </applno> </patent> <registeredon> <date> November 16, 2004 </date> </RegisteredOn> <filedon> <date> April 3, 2000 </date> </FiledOn> <claim> <number> 1 </number> <text> A method for processing requests from a user to perform an act </text> </claim> </uspatent> < 그림 8> XML 로기술된미국특허문서예 Ⅴ. 미국특허웨어하우스다차원분석 본장에서는 를미국특허웨어하우스에적용해본다. 먼저, XML로기술된미국특허문서들이주어져있다고가정한다. < 그림 8> 은 XML 문서로표현된미국특허의한예를보여주고있다. 미국특허문서를분석하여 < 그림 9> 와같은 UML 클래스다이어그램기반개념적모델을수립한다. 개념적모델을통하여다차원분석에사용할차원을결정한다. < 그림 10> 은미국특허분석에사용할네개의차원에대한계층구조를보여주고있다. 모든차원은모두최상위멤버로서 ALL 을가지고있다. 차원 Appl.Time 과 Reg.Time 은특허가출원된날짜와등록된날짜를각각나타낸다. 그들은모두 year 와 month 라는두가지수준을가진다. 차원 Inventor 는특허발명자를나타내며 Institution Type, Institute, 그리고 Inventor 의세가지수준을가진다. 차원 Topic 은특허의주제를나타내며 High, Middle, 그리고 Low 의세가지수준을가진다. < 그림 9> 미국특허문서의개념스키마 제 15 권제 4 호경영정보학연구 159

Appl. Time All Year Month Reg. Time All Year Month Inventor All Inst.Type Institute Inventor < 그림 10> 차원계층구조 Topic All High Middle Low <high area = software > <middle area = database > <low area = model /> <low area = language /> </middle> <middle area = AI > <low area = Vision /> </middle> </high> < 그림 11> 은 Appl.Time 차원에대한 XML 문서의한예를보여주고있다. 출원년도가 1998년도에관한것이다. 년도의하위수준으로는월이있고 1998년도에는출원월이 3월과 9월이있다. <year num = "1998"> <month num = "3" name = Mar. /> <month num = "9" name = Sep. /> </year> < 그림 11> Appl.Time 차원데이터 XML 문서 < 그림 12> 는 Inventor 차원에대한 XML 문서의한예를보여주고있다. 발명자이름은 Il-Yeol Song 이고소속된기관이름은 Drexel 이며기관타입은 university 이다. <insttype name = university code = 001 > <institute name = Drexel addr = Philadelphia, PA > <inventor name = Il-Yeol Song" addr = Philadelphia, PA /> </institute> </insttype> < 그림 12> Inventor 차원데이터 XML 문서 < 그림 13> 은 Topic 차원에대한 XML 문서의한예를보여주고있다. 최상위수준의분야는 software 이고, 중간수준의분야는 database 와 AI 이다. database 에대한하위수준의분야는 model 과 language 이고, AI 에대한하위수준의분야는 Vision 이다. < 그림 13> Topic 차원데이터 XML 문서 < 그림 14> 는 XQ-Cube 를생성하는 XML-MDX 문의한예를보여주고있다. 생성할 XQ-Cube 의이름은 XQ-Cube-1 이다. FROM 절의 XQuery 식은 XQ-Cube-1 의측정치를명시하고있다. 즉, /cd/uspatent 라는 collection에있는 XML 문서들의 //patent/no 를구한다. 통합연산자 COUNT 는 //patent/no 의개수를세며그결과가 XQ-Cube-1 의측정치가된다. WHERE 절은절단자를명시하고있으며 Appl.Time 차원에대해서는 ALL, Reg.Time 차원에대해서는 2000 보다큰 year 만선택하고나머지는버린다. CREATE XQ-CUBE XQ-Cube-1 FROM col( /db/uspatent )//patent/no : COUNT WHERE ( col( /db/appltime )/ALL, col( /db/regtime )//year[@num>2000] ) < 그림 14> XQ-Cube 생성예 < 그림 15> 는만들어진 XQ-Cube에대한 XML- MDX 질의문의한예를보여주고있다. 먼저 WHERE 절에명시된절단자에의해 XQ-Cube-1 에서 RegTime 이 2002 보다큰 year 만선택되고나머지는버린다. 질의결과로반환될큐브는 SELECT 절에명시된축을가진다. COLUMNS 는 XML 과 OLAP 이라는두개의 topic 을가지고, ROWS는이름이 university 와 industry 인두개의 insttype 을가진다. < 그림 16> 은 160 경영정보학연구제 15 권제 4 호

< 그림 15> 의질의에대한결과의한예를보여주고있다. SELECT { col( /db/topic )//high[@topic= XML ], col( /db/topic )//high[@topic= OLAP ] }ON COLUMNS { col( /db/inventor )//insttype[@name= university ], col( /db/inventor )//insttype[@name= industry ] } ON ROWS FROM XQ-Cube-1 WHERE ( col( /db/regtime )//year[@num > 2002] ) < 그림 15> XML-MDX 질의예 XML OLAP university 126 435 industry 267 672 < 그림 16> 질의결과예 < 그림 17> 은측정치가텍스트데이터인 XQ- Cube를생성하는 XML-MDX 문의한예를보여주고있다. 생성할 XQ-Cube의이름은 XQ-Cube- 2 이고측정치는특허제목의주요키워드이다. < 그림 18> 은 XQ-Cube-2 에대한 XML-MDX 질의문의한예를보여주고있으며 < 그림 19> 는그질의에대한결과의한예를보여주고있다. CREATE XQ-CUBE XQ-Cube-2 FROM col( /db/uspatent )//title/text : TOP KEYWORDS WHERE ( col( /db/appltime )/ALL, col( /db/regtime )//year[@num=2003], col( /db/regtime )//year[@num=2004] ) < 그림 17> XQ-Cube 생성예 SELECT { col( /db/regtime )//year[@num=2003], col( /db/regtime )//year[@num=2004] } ON COLUMNS { col( /db/inventor )//insttype[@name= university ], col( /db/inventor )//insttype[@name= industry ] } ON ROWS FROM XQ-Cube-2 WHERE ( col( /db/topic )//high[@area= AI ], col( /db/topic )//high[@area= database ] ) < 그림 18> XML-MDX 질의예 university industry 2003 2004 ML, Genome,... Robot, Vision,... < 그림 19> 질의결과예 Ⅵ. 결론 XML, Sequence,... Grid, Stream,... 본논문에서는 를제안하였다. 본논문에서가정한 XML 웨어하우스는사실과차원데이터를모두 XML 문서로표현한다. XML 문서를다차원적으로분석하기위해 XQ-Cube라는새로운타입의 XML 큐브를제안하였다. XQ-Cube는 XQuery 식에의해기술된측정치를가지며측정치가텍스트데이터인경우통합시텍스트마이닝연산자를사용한다. 그리고, XQ-Cube에대한다차원질의어로서 XML-MDX를제안하고미국특허 XML 웨어하우스를통하여 XML-MDX 의사용예를보였다. 본논문에서제안한다차원분석프레임워크는인터넷상에존재하는방대한양의 XML 문서들을효과적으로분석하는데기여할수있으리라믿는다. 본논문의공헌은다음과같다. (1) XML 문서의다차원분석을위하여 XML-OLAP이라는새로운프레임워크을개발하였다. XML-OLAP 은 XML 문서를다차원적으로분석할수있는최초의프레임워크이라고생각한다. 특히, XML-MDX 질의어는 MDX에 XQuery를결합하여 XML 문서의계층적트리구조를잘반영할수있다. (2) XML 문서에포함된텍스트데이터의통합을위해텍스트마이닝연산을도입하였다. 이는텍스트마이닝기술이 OLAP과결합할수있는메카니즘을제공한다. 본논문의향후연구는다음과같다. (1) XML- 제 15 권제 4 호경영정보학연구 161

OLAP은하나의프레임워크로서아직완전히구현되지못했다. 따라서, 구현이완성되면그성능을평가해보는것이시급하다. (2) XML 웨어하우스구축시에차원데이터의생성과더불어색인도함께구축된다. 이색인은차원과사실데이터를연결하는기능을수행하는데이 에적합한색인구조를연구하여야한다. (3) XML-OLAP은텍스트데이터통합을위하여텍스트마이닝연산을도입하였다. 향후, 외부의텍스트마이닝연산을 XML-OLAP에플러그인 (plug-in) 할수있는메카니즘을제공할계획이다. < 참고문헌 > [1] Abello, A., Samos, J., and Saltor, F., "Understanding Facts in a Multidimensional Object- Oriented Model," In Proc. The 4th ACM Intl Workshop on Data Ware-housing and OLAP (DOLAP01), Atlanta, 2001, pp. 32-39. [2] Conallen, J., Building Web Applications with UML, Addison Wesley, 2000. [3] Gofarelli, M., Rizzi, S., and Vrdoljak, B., "Data Warehouse Design from XML Sources," In Proc. The 4th ACM Intl Workshop on Data Warehousing and OLAP (DOLAP01), Atlanta, 2001, pp. 40-47. [4] Hummer, W., Bauer, A., and Harde, G., "XCube - XML For Data Warehouses," In Proc. The 6th ACM Intl Workshop on Data Warehousing and OLAP (DOLAP03), New Orleans, Louisiana, 2003, pp. 33-40. [5] Jensen, M.R., Mller, T.H., and Pedersen, T.B., "Specifying OLAP Cubes on XML Data," Journal of Intelligent Information Systems, Vol. 17, No. 2/3, 2001, pp. 255-280. [6] Jensen, M.R., Mller, T.H., and Pedersen, T.B., "Converting XML Data To UML Diagrams For Conceptual Data Integration," In Proc. The 1st Intl Workshop on Data Integration Over The Web, 2001, pp. 17-31. [7] Katz, H., XQuery from the Experts - A Guide to the W3C XML Query Language, Addison Wesley, 2004. [8] Lujan-Mora, S., Trujillo, J., and Vassiliadis, P., "Advantages of UML for Multidimensional Modeling," In Proc. the 6th Intl Conf. on Enterprise Information Systems (ICEIS 2004), ICEIS Press, Porto (Portugal), 2004, pp. 298-305. [9] Nassis, V., Rajugan, R., Dillon, T.S., and Rahayu, W., "Conceptual Design of XML Document Warehouses," In Proc. Data Warehousing and Knowledge Discovery, 6th International Conference, DaWaK 2004, Zaragoza, Spain, 2004, pp. 1-14. [10] Niemi, T., Nummenmaa, J., and Thanisch, P., "Constructing OLAP Cubes Based on Queries," In Proc. The 4th ACM Intl Workshop on Dara Warehousing and OLAP (DOLAP01), Atlanta, 2001. [11] Niemi, T., Niinimaki, M., Nummenmaa, J., and Thanisch, P., "Constructing an OLAP Cube from Distributed XML Data," In Proc. The 5th ACM Intl Workshop on Data Warehousing and OLAP (DOLAP02), McLean, 2002, pp. 22-27. [12] Niemi, T., Niinimaki, M., Nummenmaa, J., and Thanisch, P., "Applying grid technologies to XML based OLAP cube construction," In Proc. The 5th Intl Workshop on Design AND Management Of Data Warehouses (DMDW03), Berlin, Germany, 2003. 162 경영정보학연구제 15 권제 4 호

[13] Pedersen, D., Riis, K., and Pedersen, T.B., "XML-Extended OLAP Querying," In Proc. The 14th Intl Conference on Scientific and Statistical Database Management (SSDBM02), 2002, pp. 195-206. [14] Pedersen, D., Riis, K., and Pedersen, T.B., "Query Optimization for OLAP-XML Federations," In Proc. The 5th ACM Intl Workshop on Data Warehousing and OLAP (DOLAP02), McLean, 2002, pp. 57-64. [15] Pokorny, J., "Modelling Stars Using XML," In Proc. The 4th ACM Intl Workshop on Dara Warehousing and OLAP (DOLAP01), Atlanta, 2001, pp. 24-31. [16] Rusu, L.I., Rahayu, W., and Taniar, D., "On Building XML Data Warehouses," In Proc. Intelligent Data Engineering and Automated Learning - IDEAL 2004, 5th International Conference, Exeter, UK, 2004, pp. 293-299. [17] Spofford, G., MDX Solutions with Microsoft SQL Server Analysis Services, John Wiley & Sons, 2001. [18] Sullivan, D., Document Warehousing and Text Mining, John Wiley & Sons, 2001. [19] Theodoratos, D., "Exploiting Hierarchical Clustering in Evaluating Multidimen-sional Aggregation Queries," In Proc. The 6th ACM Intl Workshop on Data Ware-housing and OLAP (DOLAP03), New Orleans, Louisiana, 2003, pp. 63-70. [20] USPTO (United States Patent and Trademark Office), http://www.uspto.gov/ [21] XML Path Language (XPath) 2.0, W3C Working Draft, Feb. 2005, http://www.w3. org/tr/xpath20/ [22] XQuery 1.0: An XML Query Language, W3C Working Draft, Feb. 2005, http://www.w3. org/tr/xquery/ [23] Zhang, J., Ling, T.W., Bruckner, R.M., and Tjoa, A.M., "Building XML Data Warehouse Based on Frequent Patterns in User Queries," In Proc. Data Ware-housing and Knowledge Discovery, 5th International Conference, DaWaK 2003, Prague, Czech Republic, 2003, pp. 99-108. 제 15 권제 4 호경영정보학연구 163

저자소개 박병권 (Park, Byung-Kwon) 서울대학교공과대학산업공학과를졸업하였고, KAIST 경영과학과에서공학석사, KAIST 전산학과에서공학박사를취득하였다. 삼성전자 ( 주 ) 컴퓨터개발실주임연구원과중앙연구소선임연구원으로근무하였다. 현재동아대학교경영정보과학부조교수로재직중이다. 주요관심분야는정보검색, XML 데이타베이스, XML OLAP, XML Stream, 비즈니스인텔리전스, SOA 등이다. 이종학 (Lee, Jonghak) 경북대학교전자공학과를졸업하였고, 한국과학기술원전산학과에서공학석사, 박사를취득하였다. 정보처리기술사와금성통신 ( 주 ) 부설연구소주임연구원, 한국통신연구개발본부선임연구원으로근무하였다. 현재대구가톨릭대학교컴퓨터정보통신공학부교수로재직중이다. 주요관심분야는객체데이타베이스, 다차원파일구조, 물리적데이터베이스설계, 데이터웨어하우스, 생물정보학등이다. ꁯ 이논문은 2005 년 5 월 25 일접수하여 2 차심사를거쳐 2005 년 11 월 30 일게재확정되었습니다. 164 경영정보학연구제 15 권제 4 호