Journal of the Society of Korea Industrial and Systems Engineering Vol, 31, No. 2, pp.104 111, June 2008. 연관규칙과순차패턴을이용한프로세스마이닝 정소영 권수태 전주대학교정보시스템학과 A Process Mining using Association Rule and Sequence Pattern So Young Chung Soo Tae Kwon Department of Information System, Jeonju University A process mining is considered to support the discovery of business process for unstructured process model, and a process mining algorithm by using the associated rule and sequence pattern of data mining is developed to extract information about processes from event-log, and to discover process of alternative, concurrent and hidden activities. Some numerical examples are presented to show the effectiveness and efficiency of the algorithm. Keywords:Process Mining, Business Process, Data Mining, Association Rule, Sequence Pattern 1. 서론 1) 경영환경의변화가가속화되면서많은기업들은환경변화에빠르게적응하기위하여인프라구축, 처리생산성향상, 기업내부의역량강화, 경쟁력확보등의노력을기울이고있다. 특히, 비즈니스프로세스의혁신을통해경쟁력을향상시키기위해점점그중요성이높아지고있는비즈니스프로세스관리 (BPM:Business Process Management) 에관심을가지고있다. BPM은기업내혹은기업과기업, 고객과기업사이에일어날수있는비즈니스프로세스를효율적으로구축하고관리하기위한것으로, 비즈니스프로세스를시스템차원에서관리하여프로세스에대한자동화와생산성및효율성의확대, 프로세스에대한지식을축적하고분석 개선하는것을목적으로한다. 또한 BPM의핵심기술인워크플로우시스템은자동화와프로세스설계, 프로세스단위구분등을위해 < 그림 1> 과같이목적단위간의흐름을분석 통제 관리하여, 정확하고신속한처리, 효과적인정보제공과실시 간통제등을할수있다. 그리고체계적이고계속적인워크플로우평가와분석을통해비즈니스프로세스혁신을수행할수있다. <Business process management> 협력사 관계사 Workflow System 프로세스진행명세관리 프로세스 / 조직에대한유연성제공 시스템확장기반마련 < 그림 1> 비즈니스프로세스와워크플로우시스템 고객 BPM 이나워크플로우시스템을통해비즈니스프로세스를효율적으로수행 관리하기위해서는비즈니스프로세스상의모든수행자들과지속적인의사소 논문접수일 :2008년 03월 26일 논문수정일 :2008년 06월 04일 게재확정일 2008년 06월 10일 교신저자 kstfms@jj.ac.kr
연관규칙과순차패턴을이용한프로세스마이닝 105 통을통해비즈니스프로세스에대한지식을습득하여에대한정보를명세화시켜야한다. 하지만, 비즈니스프로세스가직관적이거나표준적인행동에기반을두지않고, 특성에따라각각의정보시스템을사용하여각시스템에서규정한형식에따라비즈니스프로세스의수행에대한정보를저장하기때문에프로세스정보를명세화하는것은쉽지않다. 따라서본연구에서는기업에서이용하는각정보시스템의프로세스수행정보가저장되어있는트랜잭션로그 (transaction log) 를대상으로, 많은양의데이터를효과적으로분석하고유용한정보를발견하는데이터마이닝의연관규칙과순차패턴을적용하여보다효율적이고효과적인프로세스를발견하고자한다. 본논문의구성은다음과같다. 제 2 장에서프로세스마이닝과기존연구에대해설명하고, 제 3 장에서는연관규칙과순차패턴을이용한프로세스마이닝알고리즘에대해기술한다. 제 4 장에서는개발된알고리즘의적용사례와성능평가를위한비교실험을수행하고, 제 5 장에서는본연구의결과및향후연구방향을제시한다. 2. 프로세스마이닝 프로세스마이닝은기업의비즈니스프로세스에서일어나는처리기록을바탕으로유용한정보를발견 (discover) 하는것을목적으로하며, 프로세스마이닝의결과는기업의비즈니스프로세스혁신에활용될수있다 [2]. < 그림 2> Staffware 로그파일예 미축적되어있는트랜잭션로그데이터의분석을통해프로세스를발견하여프로세스를개선할수있도록하는것이다. 우선 < 표 1> 과 < 표 2> 의이벤트로그를대상으로선택실행과동시실행프로세스를설명하면다음과같다. < 표 1> 이벤트로그 Ⅰ 인스턴스수행자시간 Case 1 A 홍길동 2006. 02. 01 12:00 Case 2 A 홍길동 2006. 02. 01 14:00 Case 1 B 김을동 2006. 02. 01 13:50 Case 2 C 강나리 2006. 02. 01 16:10 Case 1 D 정지훈 2006. 02. 01 16:00 Case 2 D 정지훈 2006. 02. 02 09:00 < 표 2> 이벤트로그 Ⅱ 인스턴스 수행자 시간 Case 1 A 홍길동 2006. 02. 01 12:00 Case 2 A 홍길동 2006. 02. 01 14:00 Case 1 B 김을동 2006. 02. 01 13:50 Case 1 C 강나리 2006. 02. 01 14:00 Case 2 C 강나리 2006. 02. 01 16:10 Case 2 B 김을동 2006. 02. 02 09:00 Case 1 D 정지훈 2006. 02. 02 09:00 Case 2 D 정지훈 2006. 02. 02 13:00 < 표 1> 의이벤트로그 I 에서프로세스인스턴스기준으로 Case 1 은 A B D, Case 2 는 A C D 의순서로실행되며, 비즈니스프로세스상의는 A, B, C, D 네가지가있지만 Case 별트랜잭션을보면 A, B 또는 C, D 로세개의만을실행한다. 즉, 각각의트랜잭션을보면프로세스는 A 로시작하고, A 의수행이끝나면 B 와 C 중하나를실행한후 D 를실행하고종료되는것을알수있다. B 와 C 는선행 A 의실행후선택적으로수행되므로선택실행프로세스 (alternative route) 라하며, < 그림 3> 과같이표현한다. 비즈니스프로세스상의모든는기업내부의정보시스템인 ERP, CRM, SCM, Workflow 등에서수행되고, 이들정보시스템에서는모든트랜잭션 (transaction) 을 < 그림 2> 와같이이벤트형식으로프로세스인스턴스 (instance), (activity), 의수행자 (performer), 수행시간등으로기록한다. 이러한이벤트로그에서의미있는정보와지식을추출해내는프로세스마이닝은이 A B alternative C < 그림 3> 선택실행프로세스흐름도 D
106 정소영 권수태 한편, < 표 2> 의이벤트로그 Ⅱ 를보면 Case 1 은 A B C D, Case 2 는 A C B D 순서로프로세스가실행된다. 비즈니스프로세스상의는 A, B, C, D 네가지이고이네가지를모두실행하지만, Case 별트랜잭션을보면의실행순서가다른것을알수있다. 즉, A 로시작하여 D 로끝나지만, B 와 C 는 B C 혹은 C B 의순서로실행되며 B 와 C 가프로세스내에서병렬적으로동시에실행이된다. 이때 B 와 C 는선행 A 의실행후동시에병렬적으로수행되는동시실행프로세스 (concurrency route) 라하고, < 그림 4> 와같이표현한다. A B concurrency D 초기해를생성하기때문에구조화된프로세스모델이없는경우에는프로세스추출이어렵다. 또한페트리넷의점화규칙을이용하여도출된해들의적응도를평가하는시간과비용 (cost) 이매우높았으며, 데이터양이증가할수록알고리즘의효과성은급격하게낮아졌다. 그리고유전자알고리즘은세밀한해의탐색이어렵기때문에비즈니스프로세스상의모든와간의세세한프로세스흐름관계를탐색하는데는어려움이있다. 본연구에서는기업의트랜잭션로그를대상으로동시실행프로세스, 선택실행프로세스그리고중요한프로세스이지만수행빈도가낮아발견되지못하는비즈니스프로세스를발견하기위하여 < 그림 5> 와같이데이터마이닝의순차패턴과연관규칙을이용한프로세스마이닝알고리즘을개발하고자한다. C < 그림 4> 동시실행프로세스흐름도 프로세스마이닝은조직모델분석, 기업성과분석, 체계적인프로세스수행을위한프로세스분석에대한연구가이루어지는데, 세가지관점 ( 가어떻게진행되는지에대한프로세스관점, 수행자가누구인지에대한조직관점, 어느사건에대한수행자또는프로세스흐름에대한특성이무엇인지에대한사건관점 ) 등으로구분할수있으며, 이들중프로세스관점의연구가가장활발히진행되고있다. Agrawal et al.[4] 은워크플로우관리시스템의로그를기반으로비즈니스프로세스를모델링하는방법을제시하였으며, Cook and Wolf[5] 는뉴럴네트워크, 순수알고리즘, 마코브 (Markovian) 방법으로프로세스데이터를분석하여소프트웨어공학에서프로세스모델을개선하는연구를하였고, Herbst[6] 는워크플로우시스템에기계학습알고리즘 (Machine learning algorithm) 을이용하여워크플로우프로세스모델을개선하는연구를하였다. 한편, Aalst et al.[3] 는 α-algorithm 을이용하여선택실행프로세스를고려한워크플로우프로세스모델을재발견 (rediscovery) 하는연구를수행하였고, Aalst et al.[1] 와 Medeiros et al.[7] 은선택실행프로세스뿐만아니라동시실행프로세스를고려한비즈니스프로세스개선과발견을위해유전자알고리즘을이용하였다. 이들은유전자알고리즘을적용하기위해비즈니스프로세스를 Petri Net 으로표현하여 Casual Matrix 를구성하였고, 페트리넷의점화규칙을이용하여적응도를평가하였다. 하지만이미구조화된프로세스모델을기반으로 Casual Matrix < 그림 5> 데이터마이닝을이용한프로세스발견 3. 프로세스마이닝알고리즘기업의프로세스는시작에서마지막까지수행되는순서가존재하고여러서브프로세스 (sub-process) 들이포함되어있으며, 기업의트랜잭션로그에는트랜잭션이발생할때마다데이터들의누적이끊임없이진행된다. 이렇게누적되어있는기업의데이터에서비즈니스프로세스를발견하기위해서는와간의순서와연관성을찾아야하는데, 대량의데이터에서숨겨진지식, 패턴, 관계를발견하여의사결정에활용할수있도록하는데이터마이닝기법중연관규칙과순차패턴은이를찾는데아주유용한방법론이다. 연관규칙은하나의트랜잭션내에서동시에발생하는항목간의연관성을발견하는것으로비즈니스프로세스내의동시에발생하는를발견하는데유용한기법이며, 순차패턴은연관규칙에시간변이를추가한것으로트랜잭션내항목들의시간적관계를찾아비즈니스프로세스내의순서를발견하는데유용하다. 이러
연관규칙과순차패턴을이용한프로세스마이닝 107 한두기법의특징을동시에고려할경우효율적으로비즈니스프로세스를발견할수있다. < 표 1> 과 < 표 2> 의프로세스인스턴스별트랜잭션에연관규칙을적용하여프로세스내의간의지지도와신뢰도를계산하면 < 표 3> 과같으며, 연관규칙의지지도와신뢰도에의해트랜잭션내의간의연관성을파악할수있다. 즉, 이벤트로그 I의 B C(C B) 의경우지지도와신뢰도값이 0.0으로서 B와 C 간의연관성은없으며, 이를제외하고는모두연관성이있다고판단할수있다. < 표 3> 이벤트로그 Ⅰ, Ⅱ 의간지지도 (S) 와신뢰도 (C) 이벤트로그 I 이벤트로그 Ⅱ A B A C A D B C B D C D (B A) (C A) (D A) (C B) (D B) (D C) S C S C S C S C S C S C 0.5 0.5 0.5 0.5 1.0 1.0 0.0 0.0 0.5 1.0 0.5 1.0 0.5 1.0 0.5 1.0 1.0 1.0 0.0 0.0 0.5 0.5 0.5 0.5 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 주 ) S(A1 A2) = A1 A2 가포함된트랜잭션수 / 전체트랜잭션수 C(A1 A2) = A1 A2 가포함된트랜잭션수 /A1 이포함된트랜잭션수. < 표 1> 과 < 표 2> 에순차패턴을적용한결과는 < 표 4> 와같으며, 각이벤트로그로부터프로세스실행순서를추출할수있음을알수있다. 이벤트로그 I 이벤트로그 Ⅱ < 표 4> 이벤트로그 Ⅰ, Ⅱ 의순차패턴 발견된순차패턴 A B D( 길이 :3) A C D( 길이 :3) A B C D( 길이 :4) A C B D( 길이 :4) 연관규칙과순차패턴의결과를동시에고려해보면, 이벤트로그 I 의경우는순차패턴의결과로부터 A 로시작하고 A 의수행후 B 혹은 C 가수행된후마지막으로 D 가수행되며, 연관규칙의결과에서 B C(C B) 의지지도와신뢰도값이 0.0 이므로 B 와 C 는모든트랜잭션에서서로독립적인라는것을알수있다. 즉, 이벤트로그 I 의경우는 A 가수행된후 B 또는 C 중하나를선택하여수행하고마지막으로 D 를수행하는선택실행프로세스라는결론을도출할수있다. 한편, 이벤트로그 Ⅱ 의경우는순차패턴의결과로부터 A 로시작하고 A 가수행된후 B 와 C 혹은 C 와 B 가실행되고마지막으로 D 가수행되며, 연관규칙의결과에서 B C(C B) 의지지도와신뢰도값이 1.0 이므로 B 와 C 는연관성이있는로정방향뿐만아니라역방향의지지도와신뢰도를만족하는것을알수있다. 즉, 이벤트로그 Ⅱ 의경우는 A 수행후 B 와 C 를실행 (B C 또는 C B) 하고, 이두 (B 와 C) 가모두실행된후 D 를실행하는동시실행프로세스라는결론을도출할수있다. 따라서본연구에서는순차패턴과연관규칙을동시에고려하여이벤트로그에서동시실행프로세스, 선택실행프로세스그리고중요한프로세스이지만수행빈도가낮아발견되지못하는비즈니스프로세스를발견하는알고리즘을개발하였다. 순차패턴과연관규칙을동시에고려한프로세스마이닝의알고리즘을단계별로기술하면다음과같다. Step 1: 이벤트로그에서인스턴스별의실행순서를탐색한다. Step 2: 최소지지도를만족하는시작를추출하고프로세스의 start activity 로설정한다. Step 3:Step 1 에서탐색한순서에서이웃한 X 와 Y 의정방향 (X Y) 과역방향 (Y X) 지지도와신뢰도를계산한다. Step 4: 프로세스에연결된 (activity X) 와인접하는이지만아직연결되지않은 (activity Y) 들의정방향 (X Y) 지지도와신뢰도가최소지지도및신뢰도를만족하면연결한다. Step 5: 만약 X 와연결된가 2 개이상이라면선택실행프로세스로설정한다. Step 6: 프로세스에연결된 (activity X) 와인접하는 (activity Y) 가이미프로세스에연결되어있을경우, 역방향 (Y X) 의지지도와신뢰도가최소지지도및신뢰도를만족하면 X 와 Y 를서로동시에실행되는동시실행프로세스로설정하고, 그렇지않다면단순히연결만한다. Step 7: 모든가연결될때까지 Step 4 에서 Step 6 까지를반복실행한다. < 그림 6> 은본연구의알고리즘을자바프로그램언어의문법에따라표현한것이다. 처음 initialize() 메소드에서는트랜잭션로그파일에서각프로세스인스턴스의트랜잭션을생성한다. 다음 sequencediscoverd() 메소드에서는인스턴스별의실행순서를탐색한다. 두번째단계의 startextract() 메소드에서는트랜잭션의맨처음의지지도를계산하여최소지지도를만족하는를도출하여시작로한다. rightcalculator() 와 leftcalculator() 메소드에서는 sequencediscoverd() 메소
108 정소영 권수태 드에서추출된인스턴스별실행순서에서길이가 2 인빈번한패턴을추출하여정방향과역방향지지도와신뢰도를계산한다. ProcessFlow() 메소드에서는최소지지도와최소신뢰도를만족하는들을연결하여기본적인프로세스를도출하고, 역방향의최소신뢰도를만족하는지의여부에따라선택실행과동시실행을설정한다. 여기서최소지지도와최소신뢰도값은 0.0~0.3 사이의값을임의로설정한다. 만약최소지지도와최소신뢰도를너무작게하거나크게하면잘못된트랜잭션을도출할수도있다. 마지막으로추출된결과에따라프로세스의흐름을도출하고종료한다. 중맨처음실행되는들이되며이들중최소지지도를만족하는가시작가된다. 즉, 시작의대상는 A 와 B 가되고, 이중최소지지도 (0.15) 를만족하는 A( 지지도 0.889) 가시작가된다. 세번째단계에서는 Step 1 에서탐색한실행순서에서이웃한들을도출해야되는데, 이는길이가 2 인순차패턴을실행하면된다. 실행결과 A B, A E, B C, B D, B G, C D, C F, D C, D F, E G, F G 가추출되고, 추출된 X 와 Y 의정방향 (X Y) 과역방향 (Y X) 지지도와신뢰도를계산하면 < 표 6> 과같은결과를얻을수있다. public void BPMining( ) { int num ; initialize( ) ; for (num = 0 ; num<eventlogsize ; num++) { sequencediscoverd( ) ; for (num = 0 ; num < sequencesize ; num++) { startextract( ) ; rightcalculator( ) ; leftcalculator( ) ; ProcessFlow( ) ; public void ProceeFlow() { double minsup = MinSupport( ) ; double mincon = MinConfidence( ) ; for (num = 0 ; num < sequencesize ; num++) { FlowConnection( ) ; 4. 실험및비교분석 4.1 알고리즘의실험결과 < 그림 6> 본연구의알고리즘 본연구에서제시한알고리즘의실험을수행하기위하여 < 표 5> 와같이수 7 개, 프로세스인스턴스수 9 개, 로그수는 38 개로로그파일을생성하였다. 그리고, 최소지지도와신뢰도의값은 0.15 로설정하였다. 알고리즘의첫번째단계로로그파일에서인스턴스별의실행순서를탐색하면 A B C D F G, A E G, A E G, A B D C F G, B G, A B C D F G, A E G, A E G, A B D C F G 의실행순서가도출된다. 두번째단계에서프로세스시작를추출하게되는데, 시작의대상은인스턴스별의실행순서 < 표 5> 이벤트로그 Ⅲ 인스턴스 수행자 시간 Case 1 A 홍길동 2006. 02. 01 09:00 Case 6 A 배상환 2006. 02. 01 09:05 Case 2 A 김수자 2006. 02. 01 09:15 Case 7 A 김필승 2006. 02. 01 09:30 Case 3 A 홍길동 2006. 02. 01 11:45 Case 8 A 배상환 2006. 02. 01 11:50 Case 1 B 정지훈 2006. 02. 01 12:00 Case 6 B 김 별 2006. 02. 01 13:00 Case 4 A 김수자 2006. 02. 01 13:30 Case 9 A 김필승 2006. 02. 01 13:30 Case 2 E 이주근 2006. 02. 01 15:00 Case 7 E 이상성 2006. 02. 01 15:00 Case 5 B 정지훈 2006. 02. 01 15:45 Case 1 C 홍정만 2006. 02. 01 16:00 Case 6 C 이빛나 2006. 02. 01 16:00 Case 4 B 정지훈 2006. 02. 01 17:00 Case 5 G 강나리 2006. 02. 01 17:00 Case 9 B 김 별 2006. 02. 01 17:00 Case 2 G 강나리 2006. 02. 02 09:00 Case 7 G 문우섭 2006. 02. 02 09:00 Case 3 E 이주근 2006. 02. 02 09:30 Case 8 E 이상성 2006. 02. 02 09:30 Case 1 D 김을동 2006. 02. 02 10:00 Case 6 D 송 빈 2006. 02. 02 10:00 Case 3 G 강나리 2006. 02. 02 13:00 Case 8 G 문우섭 2006. 02. 02 13:00 Case 1 F 김수자 2006. 02. 02 14:00 Case 6 F 김필승 2006. 02. 02 14:00 Case 4 D 김을동 2006. 02. 02 14:30 Case 9 D 송 빈 2006. 02. 02 14:30 Case 4 C 홍정만 2006. 02. 03 09:00 Case 9 C 이빛나 2006. 02. 03 09:00 Case 4 F 김수자 2006. 02. 03 12:00 Case 9 F 김필승 2006. 02. 03 12:00 Case 1 G 강나리 2006. 02. 03 13:00 Case 6 G 문우섭 2006. 02. 03 13:00 Case 4 G 강나리 2006. 02. 03 16:45 Case 9 G 문우섭 2006. 02. 03 16:45
연관규칙과순차패턴을이용한프로세스마이닝 109 < 표 6> 이웃한간의지지도와신뢰도 순차 정방향역방향지지도신뢰도지지도신뢰도 1 A B 0.4 0.5 0.0 0.0 2 A E 0.4 0.5 0.0 0.0 3 B C 0.2 0.4 0.0 0.0 4 B D 0.2 0.4 0.0 0.0 5 B G 0.1 0.2 0.0 0.0 6 C D 0.2 0.5 0.2 0.5 7 C F 0.2 0.5 0.0 0.0 8 D F 0.2 0.5 0.0 0.0 9 E G 0.4 1.0 0.0 0.0 10 F G 0.4 1.0 0.0 0.0 iteration 4: D 와인접하면서정방향의최소지지도와신뢰도를만족하는 F 는이미프로세스에연결되어있고, 역방향의최소지지도와신뢰도를만족하지않으므로단순히연결만함 iteration 5: E 와인접하면서정방향의최소지지도와신뢰도를만족하는 G 를연결 Step 4 에서 Step 7 까지의반복실행중단계별프로세스도출결과는다음과같다. iteration 0: 두번째단계에서도출된 A 로시작 iteration 1: A 와인접하지만연결되지않은 B 와 E 가정방향최소지지도와신뢰도를만족하므로 A 와 B, E 를연결하고선택실행으로설정 iteration 6: F 와인접하면서정방향의최소지지도와신뢰도를만족하는 G 는이미프로세스에연결되어있고, 역방향의최소지지도와신뢰도를만족하지않으므로단순히연결만함 iteration 2: B 와인접하지만연결되지않은 C, D, G 중 C 와 D 가정방향최소지지도와신뢰도를만족하므로 B 와 C, D 를연결하고선택실행으로설정 모든가연결되었으므로알고리즘은종료되고, iteration 6 에서얻어진프로세스가 < 표 6> 의이벤트로그 Ⅲ 로부터연관규칙과순차패턴을적용하여발견된프로세스의결과이다. 4.2 성능평가를위한비교실험 iteration 3: C 와인접하지만연결되지않은 F 가정방향의최소지지도와신뢰도를만족하므로우선연결하고, 정방향의최소지지도와신뢰도를만족하면서인접한 D 는이미프로세스에연결되어있고역방향최소지지도와신뢰도를만족하므로동시실행으로설정 본연구에서제시한알고리즘의효과성과효율성을평가하기위하여 Medeiros et al.[7] 이제시한유전자알고리즘과본연구의알고리즘을비교분석하였다. 이를위하여 Aalst et al.[1] 이제시한이벤트로그 < 표 7> 을대상으로자바프로그래밍언어로알고리즘들을구현하여 Pentium4-2.93GHz 의윈도우즈 2000 서버운영체제에서실험하였다. < 표 7> 을대상으로 Medeiros et al.[7] 이제시한유전자알고리즘과본연구의알고리즘으로도출한프로세스의결과는 < 그림 7> 과같이동일하게나타났다. 그러나, 동일한이벤트로그로각알고리즘을반복실험한
110 정소영 권수태 결과수행시간과프로세스일치도의평균값에있어서는차이가나타났으며, 실행결과는 < 표 8> 과같고, 본연구의알고리즘이 Medeiros et al.[7] 의알고리즘에비해수행시간과프로세스일치도에서좋은결과를보여주고있음을알수있다. 여기서, 프로세스일치도 = 한시간도많이걸려세밀한해의탐색이이루어지지않아동시실행프로세스나선택실행프로세스를완벽하게추출하지못하기때문이다. 반면본연구는와간의순서와연관성을동시에고려하여프로세스에서의실행순서와프로세스실행에있어서의들의관계에따라프로세스를탐색하였기때문에동시실행과선택실행프로세스를보다효과적이고효율적으로추출할수있었다. n = 의수 MissingRelationOfActivities = 간잘못연결된개수 < 표 7> Aalst et al.[1] 의이벤트로그예 event log 수 /case 수 < 표 8> 반복실험결과비교 Medeiros et al.[7] 프로세스시간 ( 초 ) 일치도 프로세스일치도 본연구 시간 ( 초 ) Case 수행자시간 18/4 99.3% 7.02 100% 0.44 Case 1 A John 9-3-2004:15.01 Case 2 A John 9-3-2004:15.12 Case 3 A Sue 9-3-2004:16.03 Case 3 D Carol 9-3-2004:16.07 Case 1 B Mike 9-3-2004:18.25 위의결과에대한타당성을검증하기위하여 < 그림 8> 과같은보다복잡한프로세스를갖는로그를생성한후, 각알고리즘을실행시킨결과는 < 표 9> 와같다. Case 1 H John 10-3-2004:9.23 Case 2 C Mike 10-3-2004:10.34 Case 4 A Sue 10-3-2004:10.35 A B alternative D concurrency E F J L Case 2 H John 10-3-2004:12.34 Case 3 E Pete 10-3-2004:12.50 Case 3 F Carol 11-3-2004:10.12 C H concurrency G I K Case 4 D Pete 11-3-2004:10.14 Case 3 G Sue 11-3-2004:10.44 Case 3 H Pete 11-3-2004:11.03 Case 4 F Sue 11-3-2004:11.18 Case 4 E Clare 11-3-2004:12.22 Case 4 G Mike 11-3-2004:14.34 Case 4 H Clare 11-3-2004:14.38 event log 수 /case 수 < 그림 8> 타당성검증을위한프로세스 < 표 9> 반복실험결과비교 Medeiros et al.[7] 프로세스시간 ( 초 ) 일치도 프로세스일치도 본연구 시간 ( 초 ) 29/4 88.7% 475.67 100% 0.47 A alternative D B C E concurrency F G < 그림 7> < 표 7> 의프로세스결과 그이유로 Medeiros et al.[7] 의알고리즘은 casual matrix 의초기해가어떻게생성되는지에따라해의정확성과탐색시간이달라지고, 해의적응도를평가하기위 H < 표 9> 의결과로부터데이터양이많아지고프로세스가복잡해질수록 Medeiros et al.[7] 의연구는초기해와해의적응도평가의문제점으로인해세밀한해의탐색이이루어지지않아동시실행프로세스나선택실행프로세스를완벽하게추출하지못하였을뿐만아니라, 유전자의적응도를평가할때마다트랜잭션로그를계속해서탐색하기때문에알고리즘수행시간이급격하게증가함을알수있었다. 반면에본연구에서제시한알고리즘은첫번째단계에서트랜잭션로그파일에있는데이터를탐색하여인스턴스별실행순서를추출한후순차패턴과연관규칙을이용한알고리즘을수행하기때문에알고리즘의수행시간이로그파일의크기에크게
연관규칙과순차패턴을이용한프로세스마이닝 111 영향받지않아 Medeiros et al.[7] 의알고리즘보다더효율적이고도효과적인결과를얻을수있었다. 5. 결론 본연구는기업의트랜잭션로그를대상으로동시실행프로세스, 선택실행프로세스그리고중요한프로세스이지만수행빈도가낮아발견되지못하는비즈니스프로세스를발견하기위해데이터마이닝의순차패턴과연관규칙을이용한프로세스마이닝알고리즘을제시하였다. 본논문에서제시한알고리즘의성과측정을위하여 Medeiros et al.[7] 의알고리즘과비교분석을실시하였고, 데이터양이많아지고프로세스가복잡해질수록정확도와수행시간에있어 Medeiros et al.[7] 에비해본연구의알고리즘이동시실행과선택실행프로세스를보다효과적이고효율적으로추출할수있음을보여주었다. 향후연구에서는루프백 (loop-back) 을고려한비즈니스프로세스를발견하는연구를수행할계획이며, 이와함께비즈니스프로세스의유기적인리소스를통합하는연구를계속하고자한다. 참고문헌 [1] Aalst, W. M. P. van der, Medeiros, A. K. A. de, and Weijters A. J. M. M.; Genetic Process Mining, Lecture notes in computer science, 3536 48-69, 2005. [2] Aalst, W. M. P. van der, Reijers, H. A., Weijters, A. J. M. M., Dongen, B. F. van, Alves de Medeiros, A. K., Song, M. S., and Verbeek, H. M. W.; Business process mining:an industrial application, Information systems, 32(5):713-732, 2007. [3] Aalst, W. M. P. van der, Weijters, A. J. M. M., and Maruster, L.; Workflow Mining:Discovering Process Models from Event Logs, IEEE Transactions on Knowledge and Data Engineering, 16(9):1128-1142, 2004. [4] Agrawal, R., Gunopulos, D., and Leymann, F.; Mining Process Models from Work-flow Logs, In 6th International Conference on Extending Database Technology, 469-483, 1998. [5] Cook, J. E. and Wolf, A. L.; Discovering Models of Software Processes from Event Based Data, ACM Transactions on Software Engineering and Methodology, 7 (3):215-249, 1998. [6] Herbst J.; A Machine Learning Approach to Workflow Management, Lecture Notes in Computer Science, 1810: 183-194, 2000. [7] Medeiros, A. K. A. de, Weijters A. J. M. M., and Aalst, W. M. P. van der; Genetic Process Mining:A Basic Approach and Its Challenges, Lecture Notes In Computer Science, 3812:203-215, 2006.