엔터프라이즈검색기술동향 정한민 * 이승우 * 성원경 ** 세계적으로정보량이매년두배정도씩증가한다는보고처럼기업이보유한정보역시급속히증가하고있다. 과거의단순엔터프라이즈검색엔진으로는대량의정보속에서원하는정보만을사용자별로특화시켜제공한다는것은이미불가능하게되었다. 최근엔터프라이즈검색은수많은정보중에서사용자가요구하는정보를어떻게잘분류하고시각화하여보여줄것인가에대한정보분류및시각화를포함하는정보접근방식의효율성에초점을맞추고있다. 이에따라본고에서는해외에서의검색서비스적용사례와국내에서의검색엔진기능및요구사항을분석함으로써이러한추세가엔터프라이즈검색에서어떻게실현될수있는지를파악하고자한다.
I. 서론 2005 년 10 월가트너보고서에의하면엔터프라이즈검색의범위가내부정보에대한통합검색에서내ㆍ외부정보의통합검색으로그범위가확대되고있으며, 정보접근방식에있어서도접근의효율성을높일수있도록기능을추가하는방식으로발전하고있다 [2]. 결국기업이보유하고있는그룹웨어, 지식관리시스템, 문서관리시스템등에대한통합검색외에해당기업에필요한유관기관홈페이지, 국내ㆍ외보고서, 연구자료, 학술정보등외부전문지식정보를주기적으로모니터링하고수집하여업무에활용할수있도록하는내ㆍ외부통합검색이엔터프라이즈검색의방향이될것으로예측되고있는것이다. 이러한예측이의미하는바는사용자별로맞춤검색결과를제시할수있도록하는개인화검색과외부정보의지속적인수집을가능하게하는외부정보수집및분석이중요한기능이될것이라는것이다. 이러한흐름은 2006 년개최된 Enterprise Search Summit 2006 에서도확인되는데급증하는기업정보에대한단순통합검색에서컨설팅을포함하는고급검색서비스로엔터프라이즈검색이진화하고있다고한다 [3]. 차세대검색의핵심키워드로검색결과에대한접근방식을새롭게제시하는효과적인네비게이션, 분류법 (Taxonomy), 클러스터링기술을활용한효과적인정보접근을가능하도록하는정보분류, 정보검색방식을개인에따라차별화하여서비스하는개인화 (Personalization) 가대두되었다. 이에대한검증은 Moving Beyond Search: P&G Case Study 와 Machine-Based Sentiment Analysis 의사례를통해서도이루어졌는데, 사용자중심의검색과정보접근방식의다양화가실제업무의생산성향상을이끌었다고한다. 본고에서는엔터프라이즈검색에대한기술동향을국내ㆍ외로나누어살펴보고, 검색서비스특징을집중적으로분석함으로써향후엔터프라이즈검색이나아갈바를살펴보도록한다. II. 해외기술동향 최근엔터프라이즈검색에서는효과적인정보접근과분류기술, 개인화등이부각되고 있다. 개인 PC 내의문서뿐만아니라, 기업전체, 공공웹사이트등검색대상이
확대ㆍ통합되고, 효과적인정보접근을위한네비게이션기술과분류및군집화기술이검색결과에실제적용되고있다. 또한, 다양한유형의사용자에대응하기위해개인별로차별화된검색서비스가중요시되고있다. 본장에서는이러한최신기술들이해외엔터프라이즈검색서비스에서어떻게적용되고있는지몇가지사례를통해살펴보고자한다. 1. Procter & Gamble P&G(Procter & Gamble) 연구자들은기존검색엔진결과로부터관련없는것들을걸러내는데너무많은시간을소비하고있는데반해중요한정보를놓치는경우가많다는것을깨달았다. 이런문제점을해결하기위해 P&G 는 Vivisimo[10] 기술인 Velocity Search Platform 을이용하여검색결과를지능적으로분류해주는통합검색도구를개발하였다. 이도구는사용자가관심있는주제에관해폭넓게훑어볼수도있고특정문서를깊이있게찾아볼수도있게해준다. 또한초보자도학습없이쉽게그리고직관적으로사용할수있다는특징을가진다. 게다가자동분류가검색순간에실시간으로이루어지므로서비스를유지하는데드는공간을많이요구하지도않는다. 2. Inxight
Inxight 는텍스트분석을위한종합솔루션을제공한다 [6]. Inxight SmartDiscovery Awareness Server 는검증된엔터프라이즈검색엔진이며, 개체명추출기인 ThingFinder 와결합하여검색결과를자동으로분류해준다. 이는사용자가검색결과에있는사람, 회사, 장소, 개념등의정보를기준으로검색결과를걸러낼수있게하는특화된기능이다. 또한, 개인화검색을통해새로갱신된개인관심정보를자동으로알려준다. Inxight Search Extender for Google 은 Google Search Appliance 와 Google Desktop 을확장하여문서와문서내의정보를좀더간편하게찾을수있도록도와준다. ThingFinder 는 7 개언어로 35 개유형의개체들을추출할수있으며, 목록과패턴기반으로맞춤개체를추가할수도있다. Inxight StarTree, TableLens, 그리고 TimeWall 등은강력한시각화도구로서사용자가관련성과트렌드를쉽게파악할수있도록도와준다. 3. CISCO 에적용된 Second Opinion CISCO 는출판콘텐츠에대한신속한대응을위해검색과자동화된감정분석을결합한 Second Opinion 시스템을도입하였다. Second Opinion 은출판미디어, 분석미디어, 고객만족에대한서베이, 블로그등을분석하여종합적으로보고하는시스템이다. 현재 12,000 여개의웹출판사이트와 Lexis-Nexis 를통한인쇄출판물로부터 13 개의 CISCO 기술분야,
36 개의경쟁사, 550 개의제품라인, 45,000 여개이상의회사들에대한데이터를수집한다. 내부적으로는 Lexalytics 의 Salience Server 를기반으로순수통계처리와품사태깅, 문장과단락구조분석, 단어의미와어조 (Tone) 에대한통계분석등을수행한다. 이과정을통해서사람 / 장소 / 상표 / 회사등의개체명을찾고이에연관된어조를할당하고나아가문서의어조를결정한다. 또한특정개념에따라분류를수행하고개체와분류사이의관계까지도파악한다. 비공식적이긴하지만, 자동어조분석은사람에의한분석과 80~85% 정도일치하는것으로나타났다. CISCO 는 Second Opinion 을사용함으로써자사관련기사및경쟁기업의기사를수집하여전체적인트렌드를파악할수있었다고보고하고있다. 4. ISYS ISYS 는포털, 인트라넷, 그리고인터넷등의네트워크환경에서기업콘텐츠를위한강력하고확장성있는검색기능을제공한다. 기업전체의데이터에대한단일접속점을제공할수있도록하기위해 ISYS 검색엔진은 30 개언어로된 150 가지이상의파일형식을색인 / 검색 / 브라우징할수있다. 이를위해각파일형식에대한응용프로그램을별도로설치할필요가없다는장점도가진다. 메뉴를통해질의를쉽게작성할수있게하며, Hit-to-hit
네비게이션기능을통해긴문서를스크롤할필요없이검색어가나타난위치로바로이동할수있도록한다. 또한검색결과에대한분류기능과함께개체명추출기능을제공한다. 사용자의검색패턴과행위에대한요약보고기능을통해서는사용자를보다잘이해하고그에따라서비스를최적화할수있도록한다. ISYS 의엔터프라이즈검색엔진은 ISYS:desktop 과 ISYS:web, ISYS:sdk 등세가지로구성되는데검색, 네비게이션, 그리고디스커버리도구를포함한다. ISYS:desktop 은 LAN 기반데스크탑검색을, ISYS:web 은웹기반검색을제공한다. ISYS:sdk 는검색엔진을 DLL, COM, Java, SOAP,.NET 인터페이스를통해제공한다. III. 국내기술동향 IT 시장분석기관 KRG 의검색엔진시장동향분석에따르면 2005 년국내검색엔진솔루션시장규모는약 200 억원이며, 2007 년까지연평균 20.4% 성장하여약 265 억원이될것으로전망된다 [8]. 시장을세분화하여살펴보면웹검색시장, 엔터프라이즈검색시장, 전자상거래검색시장으로나눌수있다. 엔터프라이즈검색시장은코리아와이즈넛, 쓰리소프트, 다이퀘스트, 코난테크놀로지등이장악하고있다. 이들간에도강점을드러내는분야가있는데, 쇼핑몰의경우다이퀘스트, 인터넷의경우코난테크놀로지, 일반기업의경우쓰리소프트, 공공부문의경우코리아와이즈넛이상대적인우위를점하고있었다. 그렇지만, 최근영역확장을통해윈백 (Win Back) 현상이잦아지면서각업체의고유시장구분이서서히사라지고있다 [9]. 엔터프라이즈검색의경우기업안팎의정보를통합검색함으로써경영전략을수립하는데적극활용하려는움직임이커지면서메일, 게시판, 인트라넷 (Intranet), 지식관리시스템 (Knowledge Management System), 자료관시스템, 기업정보포탈 (Enterprise Information Portal) 등으로그수요가확대되고있다. 이에따라엔터프라이즈검색엔진도특화되면서인트라넷전용검색엔진, 정보수집및분석시스템의출시도잇따르고있다. 본장에서는각검색엔진업체를대표하는엔터프라이즈검색엔진을분석함으로써엔터프라이즈검색엔진에게요구되는기능및기술발전방향을살펴보고자한다. 1. 코리아와이즈넛의 Search Formula-1 Enterprise Edition Search Formula-1 Enterprise Edition 은대용량, 고속처리를강점으로커스터마이징이
용이할수있도록유연성과확장성을고려하여개발된검색엔진이다. 최근에검색엔진에게요구되고있는대용량분산처리, 다양한플랫폼및 DBMS 지원, 동적색인, 검색엔진통합관리기능을모두포함한다 [11]. 특히, Search Formular-1 Enterprise Edition 을단일서버용, 공공기관 / 중견기업용, 정부부처 / 대기업용으로구분한 3 가지패키지 (Premium PKG, Extended PKG, Standard PKG) 형태로제공한다. Search Formula-1 Enterprise Edition 은 Multi-tier 구조로서분산환경에서의설치가 용이하며, 브로커를이용한컬렉션별검색이가능하다. 엔터프라이즈인터넷포탈분야에서 최다실적을보유하고있을정도로안정된검색성능을선보이고있다.
2. 다이퀘스트의 Mariner2 문서수의급격한증가에대응하기위해 PC 급서버에서도 2,000 만건이상을검색할수있는검색엔진 이라는컨셉으로 2005 년다이퀘스트에서출시한 Mariner2 는완전분산검색구조, 비동기식처리, 색인 DB 압축기법을특징으로가진다 [5]. 특히, 완전분산검색구조는대부분의엔터프라이즈나포탈검색엔진들이채택하고있던브로커방식의검색메커니즘한계를극복하고자완전분산이가능하도록전체검색엔진을관리하는관리서버, 검색요청을처리하는검색서버, 문서내용을저장하는문서서버, 색인을수행하는색인서버등 4 개의독립서버모듈로분할구성된다. 이를통해기업검색환경에맞추어부하에따라독립서버들의수를조절할수있는탄력적인형태로검색엔진을운용할수있다. 또한, 무중단서비스를위해검색엔진의예외상황을모니터링하고추적하는모듈을탑재하고이메일, SMS, 클라이언트도구등을통해실시간알람을운영자에게제공한다.
3. 쓰리소프트의 Verity K2 Enterprise Verity K2 Enterprise 는비즈니스기회인지및창출, 신속한업무프로세스구축, 효과적인전략수립을위해기업내에존재하는다양한정보들을보다효율적으로관리및활용하는지적자산관리기반검색엔진을표방하고있다 [4]. 엔터프라이즈검색의강자답게보안기능에많은신경을쓰고있다. K2 Ticket Server 는 LDAP, NT Domain, UNIX 인증을기본으로제공하며 SSO(Single Sign On) 환경을지원한다. Collection-Level Security 를위해서는컬렉션별로보안그룹을설정할수있게하며, Document-Level Security 를위해서는 Lotus Notes, Documentum, MS Exchange 등다양한저장서버에접근하고필터링을수행함으로써권한별접근검색이가능하도록한다.
4. 코난테크놀로지의 Docruzer Docruzer 는다른엔터프라이즈검색엔진과달리다국어교차검색, 자동언어번역, 이미지검색, 내용기반음악검색등다양한콘텐츠에대한부가검색서비스를제공하는것을특징으로한다 [7]. 이는코난테크놀로지가디지털아카이빙 (Digital Archiving) 기술을별도로확보하고있기때문이며, 검색서비스와의결합을통해시너지효과를주고있다.
5. 인트라넷검색현재거의모든기업이나공공기관등에서자체적인인트라넷을구축하고있다. 여기에는그룹웨어 (Groupware), 지식관리시스템, 자료관시스템등이포함되며이들간의다양한결합을통해정보를통합관리, 검색할수있는체계로구성된다. 엔터프라이즈검색엔진에있어서도이러한정보시스템트렌드를따라가고자인트라넷에특화된버전을출시하기시작하고있다. 코난테크놀로지의 Docruzer Intranet 은그룹웨어, 자료관시스템, 지식관리시스템, 기업정보포탈을지원하기위해전문검색, 통합검색, 시스템유형별검색및색인조건지원등의기능을강화하였다 [7]. 하나의화면에서각내부시스템들을통합검색할수있도록하여검색시간낭비를줄이고업무효율을높이고자한것이다. 쓰리소프트의 Verity Ultraseek 역시인터넷및인트라넷전용검색엔진으로서기업내에존재하는다양한유형의문서 (HTML, XML, Files, DBMS, Lotus Notes 등 ) 에대한색인및검색서비스를제공한다 [4]. 특히, 유니코드기반의다국어검색을통해글로벌기업이보유한다양한언어로작성된정보를원활히검색할수있도록해준다. 그렇지만, 이러한특화검색엔진이다른엔터프라이즈검색엔진과완전히구분된다기보다는인트라넷검색에보다적합하도록패키징된형태라고보는편이맞다. 최근대부분의
기업들이상기요구사항들을기본적으로요구하는추세이기때문이다. 6. 정보수집및분석기업내ㆍ외의다양한저장소에산재되어있는정보를신속하게수집하고이를의사결정에직접적으로연관시키는것이기업의핵심경쟁력으로이어진다는사실때문에정보수집의중요성이더욱커지고있다. 이러한배경에따라정보를수집하고분석하는시스템을정보검색과결부시키려는노력이검색엔진업체들을통해수년전부터이루어져왔다. 코리아와이즈넛의 WISE CIMS 는원하는다수의정보원으로부터정보를실시간으로수집, 분류, 검색할수있는기능을갖추고있다 [11]. WISE CIMS 의특징을살펴보면, 전문가가선별한수백개의다양한정보원으로부터실시간으로정보를추출하고주제별, 출처별자동분류를통해사용자에게구조적인정보체계를제공하는 Information Quality, 자동분류, 주제별디렉터리, 정보출처별섹션, 검색, SSO, 뉴스레터서비스등을제공하는 Easy Search & Push, 분류체계, 자동검색어, 사용자화면, 뉴스레터에대한개인화기능을제공하는 Personalization 등이있다. 쓰리소프트의 Dyano Enterprise 는뉴스, 풍문수집및자동분류시스템으로서인터넷에산재해있는게시물들에대한전문적인수집과수집된자료들을미리정의된검색어를적용하여자동으로필터링하거나정해진분류에따라실시간으로자동분류한다 [4]. 특히, 수집을위한 SIGAWin2 와분류를위한 K2 Profiler 는검색기능을제공하는 Verity K2
Developer 와결합하여주요웹사이트들로부터원하는정보를신속히제공받을수있도록 해준다. 웹로봇의구동상태및수집통계확인, 첨부파일수집, 이미지수집, 수집정보원별 수집주기설정, 특정단어포함문서적출등다양한기능을제공한다. IV. 결론 검색시장중가장치열한각축전을벌이고있는엔터프라이즈검색에대해검색엔진들을통해국내ㆍ외로나누어기술동향을살펴보았다. 기업고객이엔터프라이즈검색엔진에요구하는기능들을파악해보면앞으로의검색방향을어렵지않게예측할수있다. 여러검색엔진업체들은향후검색기술이개인화검색, 데스크탑검색, 멀티미디어검색으로발전할것이라고예측하고있다 [1],[2],[5]. 그렇지만, 아직까지이들에대한시장이확실히열려있지않은상황이라당분간검색엔진업체들은검색시장에서비중이큰엔터프라이즈검색에집중하면서지속적인연구를병행해나갈것으로보인다.
정보의수와유형이급격히많아짐에따라분산환경에서안정적으로통합검색을제공할것을기업들이엔터프라이즈검색엔진기능으로서요청하고있으며아직까지는대부분의검색엔진이이러한요구사항을만족시키고있다. 그렇지만최근들어다양한정보유형에맞춤방식으로검색서비스를차별화하여적용하려는경향이나타나고있는데, 조인스닷컴이그좋은예라고할수있다 [5]. 고객입장에서는다양한종류의정보를각각의성격에맞게이용자에게시기적절하게서비스되어야함을요구하는것이당연하기때문이다. 이러한추세는웹 2.0 과도무관하지않은데, 그이유는개방, 공유, 협력, 참여를위한 플랫폼으로서의웹 에서 UCC(User Created Contents) 의중요성이더욱커지고있으며, 이에따라다양한유형의콘텐츠를지식이란이름으로기업들도자체적으로생성ㆍ확보하려는시도를적극적으로하고있기때문이다. 도서서평, 지식마일리지등이대표적인기업에서의 UCC 도입사례로서이러한콘텐츠유형은앞으로더욱다양해질것이며, 그수또한급격히
늘어날것으로예상된다. 결국, 향후늘어나는정보의수와유형에차별적이고신속하게대처하기위해서는기존엔터프라이즈검색엔진의점진적인수정ㆍ보완보다는새로운개념으로재설계하고구현하려는혁신적연구가뒤따르지않으면엔터프라이즈검색시장에서살아남기힘들것으로판단된다. < 참고문헌 > [1] 쓰리소프트, Recommendation Engine & Personalized Search, KM&EDM Korea Conference Fall, 2006. [2] 코리아와이즈넛, Personal Workplace 의완성, KM&EDM Korea Conference Fall, 2006. [3] Enterprise Search Summit, 2006. [4] http://www.3soft.com/ [5] http://www.diquest.com/ [6] http://www.inxight.com/ [7] http://www.konanatech.co.kr/ [8] http://www.krgweb.com/ [9] http://www.swinsight.or.kr/ [10] http://www.vivisimo.com/ [11] http://www.wisenut.co.kr/