(Microsoft Word - Q1\271\351\274\255_\303\326\301\276)



Similar documents
[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 하는 Tabulator와 Sindice에 기반한 데이터 매쉬업 및 브라우징 서비스인 sig.ma는 꼭 한번 경험해 봐야 할 대상이 다. 또한, SemaPlorer나 DBpedia Mobile 경우는 LOD

SIGIL 완벽입문

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

Microsoft Word WP_9.Linked Open Data_2010_3.doc


wtu05_ÃÖÁ¾

Windows 8에서 BioStar 1 설치하기

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

**09콘텐츠산업백서_1 2

5월전체 :7 PM 페이지14 NO.3 Acrobat PDFWriter 제 40회 발명의날 기념식 격려사 존경하는 발명인 여러분! 연구개발의 효율성을 높이고 중복투자도 방지할 것입니다. 우리는 지금 거센 도전에 직면해 있습니다. 뿐만 아니라 전국 26

PathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.

슬라이드 1

- 2 -

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

....pdf..

[Brochure] KOR_TunA


아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

SBR-100S User Manual

CR hwp

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

041~084 ¹®È�Çö»óÀбâ

View Licenses and Services (customer)

<B3EDB9AEC0DBBCBAB9FD2E687770>

Windows Live Hotmail Custom Domains Korea

Office 365, FastTrack 4 FastTrack. Tony Striefel FastTrack FastTrack

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

È޴ϵåA4±â¼Û

PDF_Compass_32호-v3.pdf

Semantic Search and Data Interoperability for GeoWeb

H3250_Wi-Fi_E.book

슬라이드 1

<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>

Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집


Microsoft PowerPoint - chap02-C프로그램시작하기.pptx


Drucker Innovation_CEO과정

01정책백서목차(1~18)

PowerPoint Presentation

Microsoft PowerPoint - kimswld ppt

iOS5_1±³

미디어 및 엔터테인먼트 업계를 위한 Adobe Experience Manager Mobile

152*220

Microsoft Word WP_8.Geospatial Ontology_2010_3.doc

52 l /08

춤추는시민을기록하다_최종본 웹용

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규


04 Çмú_±â¼ú±â»ç

연구노트

160322_ADOP 상품 소개서_1.0

내지(교사용) 4-6부

ÃѼŁ1-ÃÖÁ¾Ãâ·Â¿ë2


피해자식별PDF용 0502

Microsoft PowerPoint - chap01-C언어개요.pptx

0.筌≪럩??袁ⓓ?紐껋젾 筌

오토 2, 3월호 내지최종

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

hwp

* pb61۲õðÀÚÀ̳ʸ

<C1DF29B1E2BCFAA1A4B0A1C1A420A8E85FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

2ÀåÀÛ¾÷

CC hwp

마켓온_제품소개서_ key

KAKAO AI REPORT Vol.01

Straight Through Communication

......




CSG_keynote_KO copy.key

歯이

슬라이드 1

41호-소비자문제연구(최종추가수정0507).hwp

멀티미디어 콘텐츠 접속을 위한 사용자인증 시스템_교열(박세환, ).hwp

810 & 는 소기업 및 지사 애 플리케이션용으로 설계되었으며, 독립 실행형 장치로 구성하거 나 HA(고가용성)로 구성할 수 있습니다. 810은 표준 운영 체제를 실행하는 범용 서버에 비해 가격 프리미엄이 거의 또는 전혀 없기 때문에 화이트박스 장벽 을

나하나로 5호


ÀÌ·¯´×_³»Áö1-1ÃÖÁ¾

?

서현수

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

04 특집

Web Scraper in 30 Minutes 강철

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

2

XSS Attack - Real-World XSS Attacks, Chaining XSS and Other Attacks, Payloads for XSS Attacks

신영_플랜업0904내지_출력

..,. Job Flow,. PC,.., (Drag & Drop),.,. PC,, Windows PC Mac,.,.,. NAS(Network Attached Storage),,,., Amazon Web Services*.,, (redundancy), SSL.,. * A

트렌드29호가제본용.hwp

1. 파일 명명규칙

게시판과 같은 구조화되지 않은 텍스트를 대상으로 주제 분류 와 예상 답변을 제시하는 방식으로 그 뼈대는 일반적인 텍스트 기반 정보 검색(IR) 기법을 기반으로 하고 있다. 이는 정보 검색에 대한 가장 일반적인 분야로서 텍스트 분석, 자연어 처리, 기계 학습과 같은 분야

<C1A4C3A5B8DEB8F05FC1A C8A35FB0F8B0F8B5A5C0CCC5CD20B0B3B9E6B0FA20B0ADBFF8B5B52E687770>

소식지수정본-1

ICT EXPERT INTERVIEW ITS/ ICT? 차량과 인프라 간 통신(V2I) Nomadic 단말 통신(V2P) 차량 간 통신(V2V) IVN IVN [ 1] ITS/ ICT TTA Journal Vol.160 l 9


178È£pdf

RHEV 2.2 인증서 만료 확인 및 갱신

Transcription:

2010년 4월 솔트룩스 copyright(c) 2010 by Saltlux 1 www.saltlux.com

CONTENTS 1. CEO 인사말 2. [White Paper]다시 보는 시맨틱 웹 그리고 시맨틱 기술 3. [Column]시맨틱 검색이 왜 필요할까? 4. [Tech Dictionary]스마트폰 시대의 정보검색, 모바일 검색 5. [Use Case]삼성전자 신기술 센싱 및 트렌드 분석 6. [Use Case]부산지식네트워크 BKMnet 7. [Use Case]대통령 기록포털 콘텐츠 구축 8. [Use Case]KT 온라인 명함관리 서비스 9. [Special Article]시맨틱 웹 전문기업 솔트룩스, 하이퍼커넥티비티 세상을 준비하다. 10. [Press Release]솔트룩스, 정보간 관계 통합 분석 자료 `한눈에` 11. [Press Release]솔트룩스, 시맨틱 통합 검색 솔루션 GS인증 획득 12. [Press Release]신소프트웨어 상품대상 일반SW 부문, 솔트룩스 인투 디스커버리 13. [Press Release][IT 대항해시대]닻을 올려라(2) - 솔트룩스 14. [Press Release]검색업계, 시맨틱 에 사활 15. [Product]시맨틱 통합 검색 솔루션, [IN2]Discovery 16. [Product]시맨틱 기반 지식네트워크 분석 솔루션, STORM SSAMZIE 17. 솔트룩스 소개 copyright(c) 2010 by Saltlux 2 www.saltlux.com

CEO Greetings 안녕하십니까? 솔트룩스는 시맨틱 검색과 데이터 지능화 전문 기업입니다. 솔트룩스는 국내외 500여 고객과의 협력을 통해 탁월한 실무 역량을 확보해 왔으며, 차별화된 시맨틱 검색 및 분석 제품과 높은 수준의 컨설팅 서비스를 제공, 아시아 최고의 가치기업 으로 발전하고자 합니다. 솔트룩스는 시맨틱 검색/분석 그리고 데이터 지능화 부문의 아시아 1위 기업으로 자리매김 하고 있으며, 한국을 넘어 글로벌 IT 시장을 향한 대항해를 시작하였습 니다. 2008년 세계 10대 시맨틱 기술 기업 으로 선정된 바 있는 솔트룩스는 한국기업으로는 유일하게 EU로부터 FP6, FP7 프로젝트를 수주해 수행하고 있으며, 웹 표준 기구인 W3C에 그 성공사례가 공식 게재되는 성과를 얻었습니다. 또한 지난 3월 인투 디스커버리 가 시맨틱 검색엔진 최초로 GS(Good Software)인증 및 지식경제부로부터 신소프트 웨어 상품대상 을 수상하는 쾌거를 이루었습니다. 디스커버리 는 키워드 기반 통합 검색엔진의 한계를 뛰어넘는 기 업용 시맨틱 검색엔진입니다. 사용자는 디스커버리 를 통해 방대한 정보의 의미를 분석하고 관련 주제를 자동 추출, 의미 기반한 확장 검색을 수행할 수 있습니다. 특히, 비정형 데이터 분석과 지능화의 강점을 살려, 키워드 기반의 단순 정보 검색 개념에서 시맨틱 분석을 통해 연관관계를 밝혀내고, 정보와 사람의 네트워크를 융합 분석하는 시맨 틱 지식 네트워크 분석 분야로 그 개념과 범위를 넓혀가고 있습니다. 엔터프라이즈 시맨틱 검색 1위 기업 솔트룩스! 이제, 솔트룩스는 명실상부한 시맨틱 검색 및 데이터 지능화 부문의 아시아 최고 기업으로 발돋움하여, 진정한 고객 성공을 위한 최고의 협력자가 되겠습니다. 감사합니다. 솔트룩스 대표이사, 이경일 copyright(c) 2010 by Saltlux 3 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 다시 보는 시맨틱 웹 그리고 시맨틱 기술 이경일, 솔트룩스 대표이사 [1부] 1. 다섯 관점 시맨틱 웹 2. 데이터의 웹 * 이 White Paper는 마이크로소프트웨어 잡지에 4월부터 6월까지 연재되는 내용으로서, 2부와 3부는 차후 배포되는 백서에서 제공이 될 것입니다. 1. 다섯 관점 시맨틱 웹 시맨틱 웹(Semantic Web), 사람들은 그 첫 얘기가 시작 된지 10년이나 되었는데, 성공사례를 발견하기 어렵다고 말한다. 몇몇은 시맨틱 웹의 비전은 실패했다 라고도 한다. 그러나 실상 시맨틱 웹의 그 첫 꿈은 20년 전, 현재의 웹(The Web)이 제안되던 바로 그날, 젊은 팀 버너스-리(Sir. Tim Berners-Lee)에 의해 이미 시작되었다. 어찌 보면 정 보의 민주화, 혁신적 경제 패러다임과 영웅들을 만들어 낸 지금의 웹이 팀 에게는 꿈을 향한 디딤돌 정도 였는지도 모른다. 그림 1.은 열정적 과학자 팀 버너스-리가 1989년 CERN(유럽핵물리입자연구소)에서 웹을 처음 디자인할 때 그린 그림이다[3]. 이 그림은 웹이 발명되기 그 이전, 그의 머리 속에 지금의 Linked Data 세상이 얼마나 명확히 그 려져 있었는지 분명하게 보여주고 있다. 그림 1. 팀 버너스-리와 그가 1989년 디자인한 웹의 세상 바야흐로 웹 브라우저의 경계를 넘어, URI와 HTTP가 사용되는 모든 영역이 웹으로 규정 되고 있다. 시맨틱 웹이 구체화되어 온 지난 10년, 경험이 서로 다른 진영에서 서로 다른 관점으로 시맨틱 웹이 발전되어 왔고, 그 활용 영 역이 확대되며 단편적으로 정의 내리기 점점 힘들어 지고 있다. 물론, 웹 관점에서는 Linked Data와 LOD(Linking Open Data)가 향후 놀라운 변화를 만들어 낼 것이라 확신 하지만, LOD가 시맨틱 웹 전체를 대변한다 말하기는 어 려울 것이다. LOD는 가장 중요한 시맨틱 웹의 서브 토픽(sub-topic)이라 할 수 있다[5]. 그림 2처럼 5 개의 서로 다른 관점으로 시맨틱 웹 혹은 시맨틱 기술을 바라볼 수 있다. URI 및RDF 기반의 데이 터 웹은 데이터 중심으로 기존 웹을 확장한다는 개념이다. 기존 웹이 사람을 위한 웹이라면, 이 관점에서는 기계가 읽고 쓸 수 있는 웹, 데이터가 부착된, 데이터가 유통되는 웹으로 설명할 수 있다. 지식 표현 관점에서 시맨틱 웹은 정보의 표현을 넘어 인간 지식을 명시적으로 표현, 공유, 재활용할 수 있는 웹으 로 정의할 수 있다. 지식 표현 관점에서는 온톨로지가 중요 관심 대상이 된다. 데이터 지능화 관점은 기계가 웹과 네트워크에 있는 개별정보를 지능화 하고 방대한 지식을 스스로 처리해 인간과 copyright(c) 2010 by Saltlux 4 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 상호작용 하도록 돕겠다는 목표와 연결된다. 웹 기반 추론(inference) 기술과 의사 결정 지원 시스템, 상황인지 시스 템 등 다양한 연구 분야가 있다. 그림 2. 시맨틱 웹을 바라보는 5개의 관점 데이터 상호 운용 및 데이터 모델 관점에서, 시맨틱 웹은 새로운 산업적 가능성을 제시하고 있다. 기존 ER모델에 기반한 table 구조의 데이터베이스는 그래프 형태의 데이터를 표현하기 적합하지 않은 면이 있다. 특히, Join에 대한 시스템 부담이 그러하다. 의미 메타데이터 및 그래프 구조의 메타데이터 체계로서 시맨틱 웹 기술은 데이터 상호 운영과 SEA(Semantic Enterprise Architecture)와 같은 이미 기반 시스템 아키텍처 구현에 중요한 기반이 되고 있다. 마지막으로, 시맨틱 검색으로 대변되는 정보 검색 관점에서 시맨틱 웹을 바라볼 수 있다. 냉정히 말해, 시맨틱 웹 과 시맨틱 검색을 한 통에 넣어 설명하기는 어려운 면이 있다. 특히, 시맨틱 검색은 구현 방식에 따라 시맨틱 웹 표 준과 부합되지 않는 면이 있다. 그러나, 시맨틱 메타데이터 및 시맨틱 네트워크의 자동 추출, 웹 온톨로지의 활용 등 분명 그 연관 관계가 크다 할 수 있다. 이제 본격적으로 이상의 5가지 관점에서 바라보는 시맨틱 웹과 그 기술을 3부에 걸쳐서 구체적으로 고찰해 보기로 하자. 2. 확장된 웹, 데이터의 웹 2.1 시맨틱 웹 표준 다시 보기 1998년 W3C의 디렉터인 팀 버너스-리와 그의 동료들은 시맨틱 웹에 대한 비전과 로드맵 작성을 시작한다[6]. 1999년 본격 착수된 표준화 준비에서 팀은 다음과 같이 이야기 한다. 나는 컴퓨터가 웹 상에 있는 모든 데이터를 분석할 능력을 가지게 되는 그런 웹을 꿈꾼다. 시맨틱 웹이 이를 가능하게 할 것이다. 그는 시맨틱 웹 로드맵 작성 을 요청하며, 다음과 같이 시맨틱 웹을 정의한다. 시맨틱 웹은 바로 데이터의 웹이다. 이는 어떤 의미에서 글로벌 데이터베이스 같은 것으로 기계가 읽고, 처리할 수 있는 웹을 의미한다. 이러한 꿈은 세계의 수많은 지원자들과 함 께 지난 10년간 다양한 관점에서 연구되고 현실화되어 왔다. copyright(c) 2010 by Saltlux 5 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 그림 3. 시맨틱 웹 아키텍처 : 2000년(왼쪽)과 2007년 이후(오른쪽) 그림 3은 시맨틱 웹 아키텍처(시맨틱 웹 케이크)의 발전 모습을 보이고 있다. 여러 상이한 버전이 있어 혼란스러 운 것이 사실이지만, 이 두 그림이 가장 대표적인 아키텍처 구성이라 하겠다. 왼쪽 그림은 2000년 팀 버너스-리가 제안한 아키텍처 원형이고, 오른쪽 그림은 2007년 이후 대표적으로 사용되고 있는 아키텍처이다. 전체적으로 원형 에 큰 변화 없이 발전되어 왔다. 초창기에 비해 RDF(Resource Description Framework)가 강조되고, 질의 언어로 SPARQL이 추가 표준화 되었다. 또한 웹 온톨로지 언어인 OWL과 규칙을 다루는 RIF가 세분화 및 구체화 되었다. 종종 사람들은 지식표현(Knowledge representation), 논리(Logic), 추론(Inference, Reasoning)과 같은 용어 때문에 20년 전의 AI와 어떤 차이가 있는지 혼란스러워 한다. 2부에서 구체적으로 다루겠지만, 시맨틱 웹이 AI로부터 영향 받는 것이 사실이지만, 시맨틱 웹이 AI라 말할 수는 없다[9]. 가장 큰 차이를 든다면, 시맨틱 웹의 근간이 바로 URI 에 기반한 데이터 집합이라는 것이다. 물론, 온톨로지를 포함해 스키마 없이 온전한 시맨틱 을 얘기하기 힘들지만, 단위 데이터 표현이 URI에 기반한다는 것과 RDF 그래프로 데이터 웹의 근간이 구현된다는 점에서 그 목적과 시작 점이 과거의 AI와 크게 다름을 이해할 수 있다. RDF, RDFS, OWL, RIF 등의 표준에 대해서는 수 많은 참조 자료가 있 으니, 본 기고에서는 제외하기로 한다. 단, 2부에서 이제 막 표준화가 된 OWL2에 대해서는 조금 더 살펴보도록 한 다. 2.2 SPARQL 그리고 Triple Store 우리가 관계형 데이터베이스를 배울 때 가장 처음 접하게 되는 것이 SQL일 것이다. 마찬가지로, 데이터의 웹으로 서 시맨틱 웹이 실용화되는데 결정적 역할을 하는 것이 바로 RDF 질의 언어(query language)이자 프로토콜인 SPARQL이다. SPARQL은 긴 과정을 거쳐 2008년 W3C에 의해 표준화 되었으며[11], 웹이 하나의 거대한 데이터베이 스가 되기 위한 핵심 도구가 되었다. 질의 언어로서 SPARQL은 다음의 네 가지 질의 형식(form)을 가진다. SELECT : 질의 패턴과 일치하는 트리플 데이터 전체 혹은 일부를 선택된 변수에 대해 리턴 ASK : 질의 패턴과 일치되는 데이터가 있는지 없는지 부울린 값 (yes/no)로 리턴 DESCRIBE : URI 혹은 질의 패턴과 일치하는 리소스를 RDF 그래프로 리턴 CONSTRUCT : 질의 패턴과 일치된 데이터 집합을 찾고, 교체 변수로 구성된 템플릿 형태의 RDF 그래프를 생성 자, 이제 이 중 몇몇을 짧게 살펴보자, 우선 웹 어딘가에 트리플 데이터 셋이 다음과 같이 있다고 가정 하자. 참 고로, 트리플 표현은 Turtle(Terse RDF Triple Language)을 사용해 봤다[12]. Data : @prefix foaf: <http://xmlns.com/foaf/0.1/>. _:a foaf:name "Tony LEE". _:b foaf:name "Albert AHN". _:c foaf:name Kono KIM. copyright(c) 2010 by Saltlux 6 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 _:a foaf:mbox <mailto:tony@saltlux.com>. _:b foaf:mbox <mailto:albert@saltlux.com>. _:a foaf:age 41. _:b foaf:age 38. _:c foaf:age 43. 간단한 질의를 해 보자. foaf:name과 foaf:mbox를 가지는 모든 리소스를 찾아서, 그들의 이름과 이메일 주소를 같 이 출력한다. Query : Result : PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT?name?mbox WHERE {?x foaf:name?name.?x foaf:mbox?mbox } name Tony LEE Albert AHN mbox <mailto:tony@saltlux.com> <mailto:albert@saltlux.com> FILTER를 사용해 결과 데이터에 대한 조건(value constraint)을 부여해 보자. Query : Result : PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT?name?age?mbox WHERE {?x foaf:name?name.?x foaf:age?age. FILTER?age > 40.?x foaf:mbox?mbox } name age mbox Tony 41 <mailto:tony@saltlux.com> LEE 일부 조건 매칭을 시도해 보자. 기본적으로 SELECT/WHERE 문은 전체 조건이 매칭된 데이터집합만 리턴하게 된 다. 그러나, 실제 트리플 세상은 빈 데이터가 많이 존재하고, 어떤 데이터가 빠져 있는지 미리 알기가 매우 어렵다. 이 경우 OPTIONAL 키워드를 사용하면 되는데, 형식은 OPTIONAL {?s?p?o}의 형태이다. 아래의 예처럼, Kono KIM 에게 mbox 데이터가 없지만, 결과에 Kono KIM이 포함되게 된다. Query : Result : PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT?name?age?mbox WHERE {?x foaf:name?name.?x foaf:age?age. FILTER?age > 40. OPTIONAL {?x foaf:mbox?mbox} } name age mbox Tony 41 <mailto:tony@saltlux.com> LEE Kono KIM 43 SELECT에 대해 간단히 맛보기를 했는데, GRAPH, FROM NAMED, DISTINCT, UNION, ORDER BY, LIMIT, OFFSET 등 매우 유용한 표현들이 많이 있다. SQL과 마찬가지로 SPARQL을 잘 쓰기 위해서는 다양한 실전 연습이 필요할 것이 다. 이제 CONSTRUCT 문을 살펴보자. CONSTRUCT는 지정된 그래프 템플릿에 따라, 매칭된 데이터 집합으로부터 RDF 그래프를 생성한다. 아래 예는 FOAF로 부터 인명과 그들의 e-mail 주소를 찾아, vcard 트리플 그래프를 생성하 는 과정을 보여 준다. copyright(c) 2010 by Saltlux 7 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 Query : PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX vcard: <http://www.w3.org/2001/vcard-rdf /3.0#> CONSTRUCT {?x vcard:n _:v. _:v vcard:name?name. _:v vcard:email?mbox } WHERE {?x foaf:name?name.?x foaf:mbox?mbox } Result : PREFIX vcard: <http://www.w3.org/2001/vcard-rdf /3.0#> _:v1 vcard:n _:y. _:y vcard:name Tony LEE. _:y vcard:email <mailto:tony@saltlux.com> _:v2 vcard:n _:z. _:z vcard:name Albert AHN _:z vcard:email <mailto:albert@saltlux.com> 그 외 ASK나 DESCRIBE 등을 살펴봐야겠으나, 지면 관계상 맛보기 수준에서 이만 줄여야겠다. 보다 상세한 내용 은 SPARQL Query Language for RDF[13] 를 참조 하기 바란다. 이제 SPARQL을 가지고 당장 뭘 해볼 수 있을까? 뒤의 LOD 부분에서 다시 얘기를 하겠지만, 이미 엄청난 데이터 가 웹에 공개되고 있고, 방대한 시맨틱 데이터에 직접 SPARQL로 질의를 해 볼 수 있다. 우선, data.gov.uk[14]를 방 문해 보기로 하자. 첫 화면에서 너무나도 예쁜 파란색 RDF 로고가 보인다. data.gov.uk는 팀 버너스-리의 노력뿐 아 니라 국가적 필요성에 의해 추진되고 있는 영국 정부의 데이터 공개 사이트이다. 이 사이트에서는 인구통계, 경제, 교육, 환경 등 3002종의 방대한 데이터베이스가 공개되어 있다. 더욱 놀라운 것은 상단 메뉴에서 SPARQL을 통해 이들에 바로 접근, 질의할 수 있다는 것이다. 그림 4처럼 상단 메뉴에서 SPAQRL을 선택하고, SPARQL 질의를 직접 입력해 보자. Datasources에는 Analytics, Education, Environment, Finance, Transport, Statutory Notice 등의 6항목이 있다. 질의 결과는 XML 혹은 JSON 중에 선택할 수 있다. 그림 4. Data.gov.uk 사이트와, SPARQL 테스트 페이지 그럼, 첫 SPARQL 질의를 해보자. 일단 data source를 Education으로 놓고, data format은 JSON으로 한다. 런던 행 정 구역에 위치한 모든 학교의 이름과 주소를 질의해 보자. 여기서 주의할 점은, OPTIONAL을 사용한 것이다. 왜냐 하면, 혹 학교 중 주소 정보 일부가 누락 될 수도 있기 때문이다. 인내심을 가지고 2~3초를 기다리면, JSON 형태의 copyright(c) 2010 by Saltlux 8 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 결과 값을 받아 볼 수 있다. 2부에서 얘기가 되겠지만, 대부분의 트리플 저장소는 추론 기능을 가지고 있고, SPARQL 질의를 수행하는 과정에서 자동으로 추론이 진행된다. 온톨로지 표현 수준과 추론의 범위는 SPARQL 질의 성능에 큰 영향을 미친다. Query : PREFIX sch-ont: <http://education.data.gov.uk/def/school/> SELECT?name?address1?address2?postcode?town WHERE {?school a sch-ont:school; sch-ont:establishmentname?name; sch-ont:districtadministrative <http://statistics.data.gov.uk/id/local-authority-district/00aa>. OPTIONAL {?school sch-ont:address?address.?address sch-ont:address1?address1 ; sch-ont:address2?address2 ; sch-ont:postcode?postcode ; sch-ont:town?town. } } ORDER BY?name Result : {"sparql":{"head":{"variable":[{"@attributes":{"name":"name"}}, {"@attributes":{"name":"address1"}},{"@attributes":{"name":"address2"}}, {"@attributes":{"name":"postcode"}},{"@attributes":{"name":"town"}}]}, "results":{"result":[ {"binding":[{"@attributes":{"name":"name"},"literal":"barbican Playgroup"}, {"@attributes":{"name":"address1"},"literal":"01 & 02 Level"}, {"@attributes":{"name":"address2"},"literal":"andrewes House"}, {"@attributes":{"name":"postcode"},"literal":"ec2y 8AX"}, {"@attributes":{"name":"town"},"literal":"london"}]}, {"binding":[{"@attributes":{"name":"name"},"literal":"buffer Bear @ Barts & the London"}, {"@attributes":{"name":"address1"},"literal":"surgery House"}, {"@attributes":{"name":"address2"},"literal":"st Bartholomew's Hospital"}, {"@attributes":{"name":"postcode"},"literal":"ec1a 7BE"}, {"@attributes":{"name":"town"},"literal":"london"}]},. 동일한 data source에 보다 복잡한 형태의 SPARQL 질의를 해보자. 영국 내에서 2008년도 학교 문을 닫은 곳이 있다면, 그 학교의 소속 의회 선거구를 찾는 것이 가능할까? 다음과 같이 FILTER를 사용해 SPARQL 질의를 작성할 수 있다. 결과는 독자께서 직접 확인해 보시길 바란다. Query : prefix sch-ont: <http://education.data.gov.uk/def/school/> prefix xsd: <http://www.w3.org/2001/xmlschema#> prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> SELECT DISTINCT?cons?label WHERE {?school a sch-ont:school; sch-ont:establishmentname?name ; sch-ont:establishmentstatus sch-ont:establishmentstatus_closed ; sch-ont:closedate?date ; sch-ont:parliamentaryconstituency?cons. copyright(c) 2010 by Saltlux 9 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술?cons rdfs:label?label. FILTER (?date > "2008-01-01"^^xsd:date &&?date < "2009-01-01"^^xsd:date) } ORDER BY?cons 또 다른 재미있는 사례를 미국에서 찾아보자, 미국 통계청은 US Census Data를 공개하고 있으며, 이 자료는 10억 개의 트리플로 변환되어, RDF 파일 형태로 제공 받을 수 있다. 물론 SPARQL을 통해서 질의도 가능하다. 일단 http://www.rdfabout.com/demo/census/를 방문해서 관련 자료를 읽어보자. 그리고, http://www.rdfabout.com/demo/census/sparql.xpd를 방문해서, 미국에 대한 여러 통계 정보를 직접 질의 해 보자. 예를 들어, 미국 상원위원 이름과 그 소속 주의 인구를 인구 수 기준으로 정렬해 출력해 볼 수 있다. SPARQL 질의와 그 결과는 다음과 같다. 참고로, 출력 결과를 HTML table로 설정하였다. Query : PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX usgov: <http://www.rdfabout.com/rdf/schema/usgovt/> PREFIX pol: <http://www.rdfabout.com/rdf/schema/politico/> PREFIX census: <http://www.rdfabout.com/rdf/schema/census/> PREFIX time: <http://pervasive.semanticweb.org/ont/2004/06/time#> PREFIX xsd: <http://www.w3.org/2001/xmlschema#> SELECT?name?statename?population WHERE {?person foaf:name?name ; pol:hasrole [ time:to [ time:at?enddate ] ; pol:foroffice [ pol:represents?state ] ].?state rdf:type usgov:state; dc:title?statename; census:population?population. FILTER(?enddate = "2006-12-31"^^xsd:date?enddate = "2008-12-31"^^xsd:date?enddate = "2010-12-31"^^xsd:date). } ORDER BY DESC(?population) Result : name population statename Barbara Boxer 33871648 California Kirsten Gillibrand 18976457 New York Charles Schumer 18976457 New York George LeMieux 15982378 Florida Roland Burris 12419293 Illinois Arlen Specter 12281054 Pennsylvania George Voinovich 11353140 Ohio John Isakson 8186453 Georgia Richard Burr 8049313 North Carolina Evan Bayh 6080485 Indiana Patty Murray 5894121 Washington Christopher Bond 5595211 Missouri... 통찰력 있는 독자라면, 아마 정신이 번쩍 들었으리라 믿는다. 웹 그 자체가 하나의 방대한 데이터베이스가 되는 비 copyright(c) 2010 by Saltlux 10 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 전이 조용히 실현되어 가고 있으며, 그 혁신적 파장은 분명 기존의 WWW 만큼이나 대단할 것이기 때문이다. 혹시, 주의 깊은 독자라면, rdfabout.com에서 SPARQL Endpoints 라는 용어를 봤을 것이다. 이것과 관련해서는 뒤의 Linked Data 부분에서 다시 설명하겠다. SQL이 RDB에 대한 표준 질의 언어인 것처럼, Oracle, MS SQL, MySQL에 대응되는, SPARQL을 지원하는 시맨틱 데 이터베이스들이 존재한다. 트리플을 저장, 관리한다 하여, 일반적으로 트리플 저장소 - Triple Store 혹은 Semantic Repository 등으로 불리고 있다. 이미 필자가 알고 있는 것만해도 30종이 넘는다[16]. 필자가 몸담고 있는 회사에도 SOR 이라는 이름의 초대용량 트리플 저장소를 보유, 공급하고 있다. 해외의 대표적 상용 트리플 저장소로 AllegroGraph와 BigOwlim, OntoBroker, Oracle 등을 들 수 있고, Mulgara나 Virtuoso 등과 같은 오픈소스 및 무료로 사용 가능한 저장소도 쉽게 구할 수 있다. 트리플 저장소의 성능은 대용량 처리 수준, 데이터 로딩 속도, 질의 속도, 추론의 성능 등 크게 네 가지 관점으로 평가해 볼 수 있다. 여러 문제가 지적됨에도, 보통의 경우 Lehigh 대학에서 제안된 LUBM[17] 벤치마킹 셋이 성능을 측정, 평가하는데 유용이 사용되고 있다. 과거 몇 년간 과연 트리플 저장소의 대용량 처리가 어디까지 가능할지, 또 는 추론 엔진의 대용량 처리는 불가능 할지 모른다는 부정적 전망들이 많았다. 다행스럽게도 최근 몇 년간의 기술 발전은 이런 근심을 빠르게 해소해 주고 있다. 필자의 회사가 참여하는 EU의 FP7 프로젝트인 LarKC 컨소시엄에서 는 현재 1천억(100 Billion) 개의 트리플을 저장하고 SPARQL 질의 처리 가능한 엔진을 개발 완료하였고, IEEE의 공식 인증을 기다리고 있다[18]. 2부에서 자세히 다루겠지만 추론의 경우도 RDFS++ 혹은 OWL Horst 수준에서는 100억 개 이상의 트리플에 대해 1~2초 미만의 실시간 추론 성능을 확보하게 되었다. 이러한 성능의 향상은 바야흐로 시맨 틱 웹과 그 관련 기술의 상용화를 빠르게 현실화 시켜가고 있다. 2.3 Linked Data와 LOD Cloud 앞에서 우리는 RDF, SPARQL을 중심으로 데이터 웹 관점에서의 시맨틱 웹을 살짝 경험해 보았다. 데이터 웹에 대 한 비전은 최근 3년 동안 Linked Data 운동과 함께 빠르게 확산, 현실화 되고 있다. 만약 기존 웹이 하이퍼텍스트 기반이 아닌, 즉 정보가 연결되어 있지 않은 상태로 인터넷에 올라가는 것이라면, 단언컨대 지금의 성공은 존재할 수 없었을 것이다. 마찬가지로 시맨틱 웹은 단순히 개별 데이터가 등록, 유통되는 웹을 얘기하지 않는다. 시맨틱 웹 에서 데이터는 상호 연결되어 있어야 하며, 사람과 기계가 그 연결을 따라 연관 데이터를 찾아 탐험할 수 있어야만 한다. 팀 버너스-리는 Linked Data에 대한 네 가지 원칙을 제시한 바 있다[19]. 1. 개체(things)를 식별하기 위해 URIs를 사용해야 한다. 2. 개체들이 사람 혹은 기계에 의해 참조 및 역참조 되기 위해서 HTTP URIs가 사용 되야 한다. 3. 어떤 개체의 URI가 역참조 될 때, RDF, SPARQL 등의 표준을 따르는 유용한 정보(meta-data)가 제공 되야 한 다. 4. 연관된 개체(데이터)가 쉽게 발견되기 위해서 상호 연결(link)되어 있어야 한다. 이러한 원칙과 데이터의 웹에 대한 열망은 W3C의 Linking Open Data 프로젝트를 통해 꽃을 피우고 있다. 2007년 초 시작된 LOD 프로젝트는 2년 만에 놀라울 정도로 확대, 발전되고 있다. 그림 5는 LOD wiki 사이트에 공개된 Linking Open Data 지도이다. 2009년 7월까지 총 121개의 데이터 셋에 대해 130억 개 가량의 트리플이 1.4억 개의 RDF 링크로 상호 연결되어 있다. copyright(c) 2010 by Saltlux 11 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 그림 5. Linking Open Data 지도 (2009년 7월) 더욱 중요하고 놀라운 것은 TBL의 4대 원칙에 따라 모든 데이터 셋이 시맨틱 웹 표준을 따르고 있으며, 그 중 대 다수는 SPARQL endpoint를 제공하고 있다는 것이다[22]. SPARQL endpoints는 SPARQL protocol을 지원하는 질의 처 리 RESTful 웹 서비스이다. 기본적으로 HTTP GET 요청을 통해 원격에 있는 SPARQL endpoint에 질의가 전달된다. GET /sparql?query=prefix+rd.. HTTP/1.1 Host : dbpedia.org User-agent : my-sparql-client/0.1 질의 처리 결과는 XML, JSON, RDF, NTriples, Turtle, HTML 등 다양한 형식으로 제공된다. SPARQL endpoints는 구 조적으로 federate query를 가능하게 하며, 궁극적으로는 웹 전체를 하나의 시맨틱 데이터베이스로 구성하기 위한 매우 중요한 요소가 될 것이다. 그림 5의 데이터 지도를 보면, 중심에 위치해 유난히 많이 연결된 데이터 셋이 보인다. 바로 DBpedia이다. DBpedia[23]는 베를린 자유대학과 라이프치히 대학의 공동 연구로 2007년도에 시작되었다. 이 프로젝트는 Wikipedia로부터 구조 데이터를 자동 추출해, RDF로 변환하고, SPARQL을 통해 질의할 수 있도록 하고 있다. 초기에 는 Wikipedia 영어 페이지의 infobox로부터 데이터를 추출하기 시작 했지만, 현재는 다양한 방법으로 구조 데이터 를 추출하고, 14개 언어에 대해 총 290만개의 정보 개체와 479만개의 단위 정보를 RDF로 변환 제공하고 있다. 그럼, 실제 DBpedia에 어떤 데이터가 들어 있는지 확인해 보자. DBpedia의 데이터를 확인하는 방법은 크게 세가지가 있 다. SPARQL endpoint인 http://dbpedia.org/sparql 에 직접 질의하는 방법과, 데이터 파일을 다운로드 받는 법, 그리 고 브라우저를 통해 HTML 형태의 데이터를 보는 방법 등이 가능하다. 마지막 방법은 무척 쉽다. 웹 브라우저를 띄 우고, 주소창에 http://dbpedia.org/page/korea 를 입력하는 식으로 한국에 대한 데이터를 한눈에 확인할 수 있다. 그런데, 어딘가 상당히 이상한 점이 발견된다. 그림 6의 왼쪽처럼, Wikipedia 한국 페이지의 infobox에는 몇몇 통 계 정보만 존재하는데, DBpedia에는 한국에 대한 상당한 양의 데이터가 추출되어 있다. 심지어 누가 한국에서 태어 났고, 누가 죽었고, 어떤 드라마가 있는지 등등. 이러한 데이터는 어떻게 추출된 것일까? 이미 눈치를 챘겠지만, 바 로 위키 주제들을 서로 연결하고 있는 링크를 해석한 것이다. 앞에서 얘기한 것처럼, 링크는 데이터를 풍성하게 하 고, 연관된 정보를 발견하도록 돕는다. DBpedia 데이터 역시 트리플로 구성되어 URI로 상호 연결되어 있으므로, 관 련 데이터를 자유롭게 탐색해 나갈 수 있다. copyright(c) 2010 by Saltlux 12 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 그림 6. Wikipedia의 Korea inforbox와 dbpedia.org의 Korea 데이터 sheet 진정한 성공을 원한다면, 머리는 구름 위에 있어도 그 발은 땅을 굳게 디디고 있어야 한단다. 시맨틱 웹의 비전이 나 LOD의 발전은 분명 미래에 대한 수 많은 가능성을 제시하고 있다. 하지만, 우리는 현재의 한계와 도전 과제들을 명확히 이해해야만 한다. LOD에서 발견되는 가장 큰 과제를 다음과 같이 정리해 볼 수 있다. 1. 품질 문제 : LOD에는 사람이 정성 들여 만든 데이터 셋과, 기계가 자동으로 생성한 데이터 셋이 동시에 존재 하고 있다. 기계가 자동 생성한 데이터의 경우, 종종 심각한 오류가 보고되고 있다. 즉, 부분적으로 데이터의 정확도를 신뢰할 수 없다는 것이고, 데이터의 유효성 또한 확인할 방법이 없는 것이다. 현재는 데이터를 공 개 하는 일이 우선이겠지만, 향후에는 어떻게 품질과 유효성을 유지할 수 있을 지가 큰 과제가 될 것이다. 2. 중복 문제 : 동일한 의미의 데이터가 서로 다른 이름 혹은 URI로 LOD에 동시 연결되어 있는 문제이다. 거의 모든 데이터 셋이 오랜 기간 개별 구축되어 왔기 때문에, 이들의 중첩과 중복 문제를 해결 하기란 정말 쉽지 않다. 중복 데이터는 데이터 량을 증가시킬 뿐 아니라, 서비스 단계에서 서비스 품질과 만족감을 저하시킨다. owl:sameas를 통해 문제를 해결하는 방안이 시도되고 있다. 중요한 데이터에 대해서는 수작업이 고려되고 있으며, 자동화할 방법도 연구되고 있다. 3. 일관성 문제 : 시맨틱 웹의 발전 관점에서 심각한 문제 중 하나이다. 일관성(consistency)은 논리적 추론을 위 한 중요한 전제 조건이다. 동일한 사안에 대해 서로 다른 답이 제시될 때, 어디에서 오류가 시작되었는지를 판단하기 어려울 수 있다. 특히, 그래프 구조의 시맨틱 네트워크에서 오류를 찾아내기란 무척이나 쉽지 않다. 검증된 온톨로지와 추론 기술이 LOD 전체에 폭넓게 적용될 수 있다면, 일관성 문제를 개선될 수 있을 것이 다. 그러나 이는 당분간 기대하기 어렵다. 현재, 여러 문제가 있음에도 LOD에 대한 열기는 당분간 식지 않을 것으로 판단된다. 품질 문제를 포함해 LOD 전 체는 분명 여러 한계가 있지만, 각 도메인 별 전문 연구자들이 이러한 한계를 해소해 나가고 있다. 특히, LOD를 활 용하는 응용 서비스들이 빠르게 늘어나고 있는 것은 좋은 징조라 하겠다. 2.4 데이터 웹 기반의 응용 서비스들 지난 2년간 LOD 기반해 매우 다양한 응용 시스템이 개발되어 왔다. 무엇보다도, 검색부분의 응용이 가장 활발히 연구되었다. 그 중 가장 주목할 만한 시스템이 바로 Sindice이다. Sindice는 DERI의 연구프로젝트로 시작되었다. Sindice는 웹 상에 공개된 RDF와 microformat을 크롤링하고, 인덱싱과 검색을 수행한다. 트리플로 검색이 가능할 뿐 아니라, 검색된 개체의 데이터를 바로 참조하는 것이 가능하다. 참고로 Sindice는 필자가 몸담고 있는 솔트룩스로부 터 Best Paper Award를 수상하기도 했다. 검색과 연결된 재미있는 서비스가 바로 sameas.org이다. 이 서비스는 Linked Data URI 혹은 Sindice를 통해 키워드로 검색된 URI들 중 동일 의미를 가진 것들을 묶어서 출력해 준다. 앞 에서 거론한 중복 문제를 해결하는데 큰 도움이 될 것이다. LOD를 위한 다양한 브라우징 서비스도 선보이고 있다. FireFox 플러그인 및 Ajax기반의 데이터 브라우징을 제공 copyright(c) 2010 by Saltlux 13 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 하는 Tabulator와 Sindice에 기반한 데이터 매쉬업 및 브라우징 서비스인 sig.ma는 꼭 한번 경험해 봐야 할 대상이 다. 또한, SemaPlorer나 DBpedia Mobile 경우는 LOD 데이터와 지도, 각종 멀티미디어 정보를 매쉬업하여 서비스가 가능함을 제시하고 있다. 바이오 산업은 LOD가 활용되고 있는 매우 중요한 응용 분야 중 하나이다. 솔트룩스와 협 력 연구를 하고 있는 스웨덴의 세계적 제약 회사인 에스트로제네카는 LOD의 바이오 및 의료 데이터를 통합 연계하 여, 추론 시스템과 연동함으로 신약 개발 부문에 활용하고 있다. 2010년을 정점으로, 상상했던 것 이상의 다양한 서비스들이 제시되고, 실험되고, 실패할 것이며, 그 중의 일부는 아마도 대단한 성공의 기회를 거머쥐게 될 것이다. 특히, 올해는 대한민국 정부도 국가 데이터를 공개하겠다고 선언 했다. 이러한 세계적 변화들은 새로운 웹이 현실화 되는 과정을 가속화 시킬 것이다. 그림 7. Sindice.com과 sameas.org 서비스 최근 HTML5가 큰 관심을 받고 있다. 오디오, 비디오와 같은 멀티미디어 콘텐트의 표준화된 인터페이스 제공과 HTML 만으로 RIA 환경 구현이 가능하게 될 것이란 기대가 사람들을 들뜨게 하고 있다. HTML5가 가지고 올, 또 다 른 큰 변화 중 하나가 바로 Microdata, RDFa로 대변되는 마이크로포멧의 대중화일 것이다. HTML5가 표준화 완료되 고 본격 보급된다면, RDFa 형태로 XHTML 내에 부분적으로 사용되던 마이크로포멧이 웹 상에서 포괄적으로 활용될 것이다. 이미 구글과 야후 등 선도 업체에서는 검색 서비스의 향상과 랭킹 성능 향상을 위해 시맨틱 메타데이터를 활용하기 시작했다. 1부에서는 이미 여러 차례 기고 되었던 시맨틱 웹 개념이나, RDF, OWL과 같은 얘기들은 과감하게 다루지 않았다. LOD 중심의 최근 동향을 제시하며, 데이터의 웹으로서 시맨틱 웹이 어떤 발전 과정을 거치고 있는지 요약해서 설 명하였다. 다음 2부에서는 지식 표현과 시맨틱 웹 기반 추론에 대해 보다 깊게 고찰해 보도록 하자. [2부] 1. 지식의 표현 2. 데이터 지능화 [3부] 1. 데이터 상호운용 2. 시맨틱 검색과 분석 3. 실행 전략과 향후 전망 - 참고 자료 - [1] http://www.w3.org/standards/semanticweb/ [2] http://en.wikipedia.org/wiki/semantic_web#practical_feasibility [3] http://www.w3.org/2001/12/semweb-fin/w3csw [4] http://www.w3.org/designissues/linkeddata.html [5] http://en.wikipedia.org/wiki/linked_data#linking_open_data_community_project copyright(c) 2010 by Saltlux 14 www.saltlux.com

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 [6] http://www.w3.org/designissues/semantic.html [7] http://www.w3.org/2000/talks/1206-xml2k-tbl/ [8] http://www.w3.org/2007/talks/0130-sb-w3ctechsemweb [9] http://www.w3.org/designissues/rdfnot.html [10] http://www.w3.org/2009/sparql/wiki/main_page [11] http://www.w3.org/tr/rdf-sparql-query/ [12] http://www.w3.org/teamsubmission/turtle/ [13] http://www.w3.org/tr/2005/wd-rdf-sparql-query-20050419/ [14] http://data.gov.uk/home [15] http://www.rdfabout.com/demo/census/sparql.xpd [16] http://en.wikipedia.org/wiki/triple_store [17] http://swat.cse.lehigh.edu/projects/lubm/ [18] http://blog.larkc.eu/?p=1911 [19] http://www.w3.org/designissues/linkeddata.html [20] http://esw.w3.org/topic/sweoig/taskforces/communityprojects/linkingopendata [21] http://esw.w3.org/topic/taskforces/communityprojects/linkingopendata/datasets/statistics [22] http://esw.w3.org/topic/sparqlendpoints [23] http://dbpedia.org/about copyright(c) 2010 by Saltlux 15 www.saltlux.com

[Column] 시맨틱 검색이 왜 필요할까? 시맨틱 검색이 왜 필요할까? 김건오, 솔트룩스 기술이사 시맨틱 검색에 대해 많이 회자되면서 시맨틱 검색의 정의나 방향에 대한 얘기도 많이 쏟아져 나오고 있다. 시맨 틱 검색에 대한 정의의 방향이야 말로 시맨틱스 가 필요한 대상이 아닌가 할 정도다. 예를 들면, 문장이나 단락에 기술된 주제를 파악하고 이를 대상으로 검색하는 것 이라는 정의에서 사용자의 검색 의도와 의미를 정확히 파악해 주는 검색 이라는 정의도 있고, 기술적으로는 RDF 와 같은 시맨틱 웹 기술을 사용한 검색 이라고 범위를 좁혀 사 용하는 경우도 있다. 정의는 나름 해야겠지만, 잠시 생각을 다른 방향으로 틀어 보면, 우리에게 왜 시맨틱 검색이 필요한 걸까라는 질 문을 하게 된다. 아주 오래 전에 엠파스에서 자연어 검색 이라는 용어를 사용하면서, 자연어 검색은 기존 키워드 검색 보다 검색어를 입력하기가 훨 편하다는 장점과 혜택을 강조했었다. 여기에는 사람은 기계와는 달리 문장으로 생각을 표현하거나 검색 의도를 표현하기에 더 친숙하다는 배경이 있다. 우리에게 왜 자연어 검색이 필요하냐는 질 문을 하면, 그 대답은 위와 같이 사람은 검색식 보다는 자연어 문장에 더 익숙하기 때문이라고 답하면 될 것이다. 너무 당연한 얘기를 길게 썼는데, 다시 시맨틱 검색이라는 주제로 돌아오면 얼마 전에 심리학과 교수가 쓴 행복 에 걸려 비틀거리다 (원제: Stumbling on happiness, Daniel Gilbert 지음) 라는 책을 읽으면서 우리에게 시맨틱 검색 이 필요한 이유를 발견하는 계기를 가졌다. 심리학 연구 결과, 뇌는 현실을 있는 그대로 반영하지 않고 왜곡하여 정 보를 받아들이거나 채워서 저장한다고 한다. 위 책에서 소개한 실험 내용 중 일부이다. 먼저 아래 단어 목록을 읽고, 손으로 이 목록을 재빨리 가린다. 침대, 휴식, 깨어 있는, 피곤함, 꿈, 일어나기, 졸기, 담요, 꾸벅꾸벅, 선잠, 코골기, 낮잠, 평화, 하품하기, 나른한 다음의 단어들 가운데 목록에 없던 단어는 무엇인가? 침대, 졸기, 잠자기, 가솔린 많은 사람들이 가솔린만을 선택하지만, 실제로는 잠자기라는 단어도 목록에 없던 단어인데, 사람의 뇌는 각각의 단어를 모두 기억하기 보다는 단어의 핵심, 즉 잠자기와 관련된 단어의 집합이라고 저장을 하기에 잠자기라는 단어 를 명확히 본 기억이 있다는 확신을 한다고 한다. 사람의 뇌는 이처럼 주제를 파악하여 기억하려 함으로써, 없던 사실을 채워 넣기도 한다는 사실인데, 시맨틱 검색 이 나열된 단어만이 아닌 그 단어들의 관련성과 핵심을 파악(주제, 의미)하기란 점에서 사람을 닮은 검색이 시맨틱 검색이라는 생각도 해 보았다. 이처럼 사람의 뇌는 기계적으로 있는 그대로 인식하여 저장하지는 않을 뿐만 아니라 모호한 자극과 여러 가지 의 미로 해석이 가능한 상황에서 맥락(Context), 빈도(Frequency), 최신성(Recency) 등에 영향을 받아 자극을 받아들이 고 해석한다고 한다. 예를 들어 Bank 라는 단어를 보게 되면, 은행인지, 강둑인지를 판단해야 하는데 주변에 사용된 단어를 보고 판단하고(Context), 평소에 자주 사용한 의미로 해석하고(Frequency), 최근에 사용한 의미로 쓰려는 경 향이 크다는 말이다. 이제 내가 던진 질문에 자답을 해야겠다. 시맨틱 검색이 필요한 이유는 사람은 실제 자극(단어)에 반응하지 않고 의미에 반응하기 때문이라고 본다. 아울러 개인의 선호, 시간 장소 등 주변 맥락, 여러 사용자 들의 사용 빈도, 지식 생성 시기 등과 같은 사람의 인지 심리적 특성을 닮은 기능을 갖춘 시맨틱 검색이 더욱 사람들에게 만족스런 결과 를 제시할 수 있을 것이다. 왜냐면, 사람의 뇌가 자극을 이해하고 저장하는 방식이 <시맨틱 스럽기> 때문이다. copyright(c) 2010 by Saltlux 16 www.saltlux.com

[Tech Dictionary] 스마트폰 시대의 정보검색, 모바일 검색 스마트폰 시대의 정보검색, 모바일 검색 안태성, 솔트룩스 시맨틱 그룹 수석부장 1. 모바일 검색 개요 1.1 모바일 검색의 정의 - 피처폰, 스마트폰, MID(Mobile Internet Device)등 휴대용 단말기를 통해 단말기 내, 인터넷 웹, 파일 등의 필요 한 정보를 찾는 정보검색 1.2 모바일 검색의 등장배경 - 스마트폰의 성능 증가: 수백 MHz 수준의 CPU 및 수 GB의 대용량 저장 메모리 채용으로 몇년 전 PC 수준의 성능을 가져옴 - 혁신적 UI 및 전용 OS 등장: 햅틱, 멀티 터치 등의 화면 터치 기술과 윈도 모바일 및 아이폰 OS 등의 스마트 폰 전용 OS 발전 - 무선 인터넷 요금 인하: 스마트폰 전용 요금제 등장과 더불어 무선 인터넷 사용 요금의 인하 1.3 모바일 검색의 요구사항 항목 설명 접근방법 화면 적합성 모바일 기기는 대부분 PC에 비해 작은 화면을 가지고 있다. 모바일 검색은 이러한 작은 화면에 적합한 형태로 중요한 소수의 검색 결과 를 사용자에게 제공할 수 있어야 한다. 이렇게 하기 위해서는 재현율 재현율보다 정확율 향 상 비주얼 출력 보다는 정확률을 높여야 한다. 입력 편의성 모바일 기기는 작은 키보드, 터치스크린 등 PC 키보드보다 입력 편의 비주얼 리스트 선택 성과 속도가 낮다. 그렇기 때문에 사용자의 최소 입력으로 검색이 가 등의 혁신적 UI 도입 능한 사용자 인터페이스를 갖춰야 한다. 낮은 네트워크 용량 사용 무선 인터넷을 통해 검색을 수행하기 때문에 무선 인터넷 요금 등의 부담을 덜기 위해 최소한 네트워크를 사용해야 한다. 텍스트 및 압축 알고 리즘을 활용한 검색 적은 Footprint 일반 PC 대비 상대적으로 느린 CPU와 저장 공간을 사용하기 때문에 HW 자원의 소모가 적어야 한다. 전용 Apps 혹은 텍스 트 기반 검색 2. 모바일 검색의 분류 및 구성요소 2.1 모바일 검색의 종류 (시장조사기관: jupitor research 분류) 분류 설명 적용 사례 일반 웹 검색 (General WAP 브라우저나 풀브라우저로 구분한 것이 아니고 현재 위치정보 구글 웹 검색 Web Search) 없이 일반적인 쿼리를 기반으로 하는 검색 휴대폰 내부 검색 (On 내장 메모리나 SD, CF 등의 외장 메모리(미디어) 등에 있는 파일 등의 윈도모바일용 모바일 Device Search) 정보를 검색하는 것으로 주로 주소록, 문자 검색 등 휴대폰의 내부 서치 기능 요소의 데이터를 검색하는 것이 대표적이다 지역 검색 (Local 휴대폰 내장 GPS 등을 사용하여 사용자의 위치 정보를 기반으로 주 모바일 야후 거기검색 Search) 변의 지역 정보와 연계 사용자 관심 지역을 검색한다. 야후, 다음 등 포털을 중심으로 근처 맛집을 검색하는 등의 LBS가 제공되고 있으나, 아직 지역정보의 충분성과 최신성이 부족하여 계속 발전하고 있다 이동통신사 내 콘텐츠 SHOW, NATE 등의 이통사에서 제공하는 포탈(초기 화면)에서 원하는 SHOW, NATE 포털 검색 (On Portal 정보나 컨텐츠를 검색하는 것을 말한다. Content Search) 기타 포탈 내에 콘텐츠 네이버, 다음, 야후 등의 포털 사이트 내의 콘텐츠를 검색하는 형태를 아이폰 용 다음 검색 검색 (Off Portal 의미한다. 검색의 효과성을 위해 검색 전용 응용프로그램을 무료로 Content Search) 배포하기도 한다. copyright(c) 2010 by Saltlux 17 www.saltlux.com

[Tech Dictionary] 스마트폰 시대의 정보검색, 모바일 검색 2.2 모바일 검색의 구성요소 요소 휴대용 기기 검색 전용 UI 검색 엔진 메타 정보 SNS(Social Network Service) 설명 애플의 아이폰, 삼성의 옴니아폰, LG의 인사이트폰, HTC, 소니에릭슨의 Xperia 등의 스마트폰, IPAD, IPOD Touch 등의 WIFI 연결 디바이스, PMP등의 멀티미디어 기기의 WIFI 연결 구글 웹검색과 같은 Text 기반의 검색, EVRI 아이폰 Apps 같은 그래프 UI 에서 선 택 형식의 다양한 검색 입력 방식 및 결과 출력 방식 기존 검색보다 사용자의 profile, 현 위치 등의 다양한 Context 정보를 입력하고 이 를 기반으로 최적의 검색 결과를 검색하는 추론 기술과 지능형 요소를 탑재한 검색 엔진 온톨로지(RDF, OWL), 토픽맵, URI, DOI 등의 메타데이터 표현 체계를 사용한 콘텐츠 의 분류 및 정보 저장 트위터 등과 같은 사회망 기반 서비스와 결합한 실시간 검색 기능 제공 3. 모바일 검색의 기술 요소 및 주요 사례 3.1 모바일 검색의 기술 요소 요소 설명 질의 처리 기술 사용자의 자연어 질의 처리를 위한 언어분석 기술 및 주요 용어와 개체명을 인식하 는 특성 추출 및 개체명 인식 기술 지능형 검색 엔진 RDF/OWL 등으로 구성된 지식베이스를 검색하는 Semantic Search(Sparql, SWRL)와 사용자의 상황정보와 콘텐츠를 결합한 상황인지 검색 네트워크 WIFI(802.11 a/g/n 표준기술), HSDPA, Wibro 등의 3G 기술 및 이후 LTE와 Wibro Advanced 기술 메타 정보 RSS, RDF, OWL, ATOM등의 구조적 정보 기술 및 RDFa, GRDDL, Microformat 등의 콘 텐츠 처리, 가공, 재사용 기술 미디어기술 MPEG4 등의 동영상 검색 결과 스트리밍 처리 및 MPEG7을 이용한 내용기반 검색 기능 제공, mobile DRM을 활용한 저작권 콘텐츠 검색 및 제공 기술 3.2 모바일 검색의 주요 사례 - 지역 검색 다음, 구글, 야후 등과 같은 포털을 중심으로 GPS 정보 등을 활용한 지역검색 기능을 제공하고 있다. 사용자 위 치, 주변 지역정보, 사용자 평판 정보를 복합적으로 분석하고 이를 기반의 최적의 위치를 추천하는 형식이다. copyright(c) 2010 by Saltlux 18 www.saltlux.com

[Tech Dictionary] 스마트폰 시대의 정보검색, 모바일 검색 - 모바일 웹 검색 야후의 One Search, 구글 모바일 검색 등 모바일 기기에서 웹을 통해 접속할 수 있는 작은 화면의 웹 사이트를 구 축하고 이를 통해 검색할 수 있도록 한다. 특히 스마트 폰 뿐만 아니라 피처폰에서도 검색할 수 있는 작은 규모로 구성제공하고 있다. 4. 모바일 검색의 성공을 위한 고려사항 및 발전 방향 4.1 모바일 검색 성공 고려사항 -웹 검색의 중요성인 필터링+사용성+비즈니스 모델과 더불어 모바일 환경의 위치, 사회망, 푸시, 행위, 연락정보, 히스토리를 잘 결합한 검색 서비스 제공 필요 - 다양한 모바일 기기에서 효과적인 사용성을 제공할 수 있는 UX 측면의 연구 및 UI 개발 중요 4.2 모바일 검색의 발전 방향 증감현실(Augmented Reality)을 활용한 검색과 공간지리정보와의 결합을 통한 위치 기반 검색 서비스가 유비쿼터 스 환경에 적합한 형태로 발전할 것으로 예상한다. copyright(c) 2010 by Saltlux 19 www.saltlux.com

[Use Case] 삼성전자 신기술 센싱 및 트렌드 분석 삼성전자 신기술 센싱 및 트렌드 분석 박형준, 솔트룩스 SD영업1팀 부장 프로젝트 개요 고객사 : 삼성전자 분야 : KMS 시스템 프로젝트 명 : 삼성전자 신기술 센싱시스템 구축사업 프로젝트 수행기간 : 2009년 10월 ~ 2009년 12월 적용솔루션: [IN2]DISCOVERY, [IN2]TopicRank, [IN2]TMS, NLP URL : 삼성전자 내부 시스템 고객사 소개 삼성전자는 대한민국을 대표하는 글로벌기업으로 첨단기술 및 제품의 전세계적인 Trend 를 이끌고 있다. 한국을 메 모리 분야 및 LCD 강국으로 성장시킨 전략적 행보 및 경쟁사 및 시장을 한발 앞선 투자와 기술개발은 성공적인 기 업성장 대표모델로 평가 받고 있고 기존 선도적인 가전 및 전자제품 벤더들에 비해 지속적인 성장을 이룩하고 있다. 현재 삼성전자가 생산하는 제품으로는 반도체, 광학소자 등 기술기반이 되는 제품 군으로부터 화이트가전, 모바일, Display, AV제품, 각종 IT기기 등 전자제품 전 분야에 걸쳐 업계 최상위 제품군을 가지고 있다. 삼성전자 홈페이지 (http://www.sec.co.kr) 도입배경 삼성전자에서 생산하고 있는 제품들은 IT기술을 응용한 모든 영역에 걸쳐 생산되고 있어 각 제품 이나 단위기술들 이 요구하는 기술정보 역시 특정 분야에 국한되지 않고 기술 전 분야에 관련되어 있다. 이러한 특성으로 인해 삼성 전자가 보유하고 이해하며 응용해야 하는 기술이 너무나 광범위해졌고 대규모 지식처리가 필수적으로 수행되어야 하는 결과를 가져왔다. 특히 Digital Conversion 으로 표현되는 복합응용기술 활용의 시대적 흐름은 기존 지식처리 방식으로는 해결하기 힘든 과제를 부여하게 되었고 다음 단계에서도 선도적인 위치를 차지하기 위해서는 이를 꼭 해결해야 했다. copyright(c) 2010 by Saltlux 20 www.saltlux.com

[Use Case] 삼성전자 신기술 센싱 및 트렌드 분석 도전과제 본 사업에 있어서 가장 큰 도전과제는 KMS에 축적되어 있는 내부 지식(Content)들과 함께KISTI(한국과학기술정보연 구원)와의 MOU 계약을 통해 공급받게 된 해외학술자료, 국내 학술회의 정보, 각종 연구보고서, 해외과학기술 동향 분석 정보 등 대량의 기술문서를 어떻게 자산화하고 효율적으로 분석해낼 수 있는 시스템을 구축하는 것이다. 단순한 질의에 의해 쏟아져 나오는 검색결과 리스트로는 의미 있는 정보를 얻거나 지식네트워크 전체를 바라볼 수 없다. 특히 신기술 창출이나 활용에 대한 최신 트렌드를 알아내는 부상기술 센싱은 업계의 기술을 선도하고 있는 삼성전자로서는 확보해야만 하는 요소였다. 적용 솔루션 삼성전자 신기술 센싱 시스템은 정보분석 솔루션인 [IN2]TMS, 연관관계정보 분석을 위한 [IN2]TOPIC RANK, 정보검 색을 담당하는 [IN2]Discovery 와 각종 자연어처리 모듈 등을 적용하여 KMS 시스템 내의 다양한 지식문서와 KISTI 로부터 유입되는 대용량의 기술문서들을 분석하여 신기술 트렌드 분석, 특정 기술의 연관기술관계망 분석, 다양한 기술 검색 서비스 등 기존 시스템에서 제공하지 못한 차별화된 기능들을 제공한다. 구축 및 도입 효과 [삼성전자 기술센싱 시스템 프로세스] 단순 검색 기능으로는 개별 기술, 혹은 개별 키워드에 대한 단순 나열의 결과 밖에는 얻을 수 없었고 이 제한된 기 능으로 전체 기술네트워크를 바라보거나 기술분석 트렌드를 알아내는 것은 불가능에 가까운 일이었다. 솔트룩스의 [IN2] 솔루션을 활용해 구축한 신기술 센싱 시스템은 나무가 아닌 숲을 바라볼 수 있는 능력과 적용기술 혹은 관심 기술의 트렌드 정보의 제공이 가능해 거대하고 개별적인 기술이슈를 가진 삼성전자 조직 구성원들의 기술 탐색 욕 구를 충족시킬 수 있었다. 이는 기존 시스템 Open 이후 기존 KMS 접속 및 사용자를 3~5배 증가시켜 삼성전자 지식관리 활동을 비약적으로 copyright(c) 2010 by Saltlux 21 www.saltlux.com

[Use Case] 삼성전자 신기술 센싱 및 트렌드 분석 증가 및 개선시킨 효과를 가져왔다. [삼성전자 신기술 센싱 기술분석 화면] [삼성전자 신기술 센싱 부상기술(트랜드) 분석 화면] copyright(c) 2010 by Saltlux 22 www.saltlux.com

[Use Case] 부산 지식 네트워크 BKMnet 부산 지식 네트워크 BKMnet 이제욱, 솔트룩스 SD영업2팀 부장 프로젝트 개요 고객사 : 재단법인 부산인적자원개발원 분야 : 산 학 연/HR 분야 프로젝트 명 : 부산지식네트워크(BKMnet) 서비스 시스템 프로젝트 수행기간 : 2009년 10월 ~ 2009년 12월 적용솔루션: [IN2]DISCOVERY, [IN2]쌈지, [IN2]TopicRank, STORM_SOR, NLP URL : http://www.bkmnet.net "사람을 통해 지식을 네트워크화 하여 향후 지식네트워크의 허브 서비스 실현의 기반을 마련하였습니다." 고객사 소개 부산인적자원개발원은 국가인적자원개발 기본계획 과 부산광역시 인적자원개발 및 과학기술진흥에 관한 조례 에 근거하여 지역인적자원개발을 통한 지역인적자원양성 및 지역 경제발전을 촉진하기 위해 전국 최초로 산 학 연 관 이 공동으로 설립한 재단이다. 부산인적자원개발원은 지역특성에 적합한 인적자원개발정책 및 사업을 추진하고 지역인적자원 관련 지표개발 및 정 보의 생성, 유통, 활용을 통한 정보 인프라 구축, 지역사회 관련기관이 공동으로 참여하는 지역인적자원개발협의체 를 구성, 운영하여 인적자원 중심의 지역혁신 네트워크 구축을 통해 우수한 인적자원개발을 통한 국가 경쟁력 강화 와 국민의 삶의 질 향상이라는 비전을 가지고 있다. 부산인적자원개발원 홈페이지 (http://www.bhrdi.or.kr) 도입배경 부산지식네트워크(BKMnet)는 부산 내 활동 또는 부산 출신 지식인 전문가로 구성되는 네트워크로, 지식인들의 지식, 관심, 경력 등을 기반으로 신뢰 가능한 소셜 네트워크(Social Network)를 구축하는 것을 목적으로 한다. 부산에는 지 copyright(c) 2010 by Saltlux 23 www.saltlux.com

[Use Case] 부산 지식 네트워크 BKMnet 식인 자원은 풍부하나 활용할 수 있는 기반이 취약하고, 지역 내 현장실무전문가를 위한 인재관리 시스템은 전무한 현실이라 일반 시민, 기업체, 정부기관, 언론기관, 개별 전문가를 위한 지식 및 지식인 검색 서비스를 기본으로 하여 전문가 추천 및 사안별 상담 서비스의 제공, 기술 지식 거래를 위한 지식 검색 및 지식거래장터 조성, 지식인 사이 의 공동작업 환경 및 상호교류를 위한 커뮤니티 형성의 요구가 함께 대두 되고 있다. 도전과제 본 사업에 있어서 가장 큰 도전과제는 신뢰할 수 있는 DB 구축 부문 이었다. 신뢰성을 보장하기 위해 DB 구축 시 현장 직접 방문 등을 통하여 수집 하여 행정안전부 개인정보 사용 및 활용에 대한 법적 문제도 함께 해결 하였고 행정정보 데이터베이스 표준화 지침과 국가연구업적통합정보(KRI: Korean Researcher's Information)의 필드 명을 모 두 준수함으로써 재활용 및 확장성 용이하도록 구축 하였다. 이렇게 모아진 DB는 인물 정보 및 관계정보 온톨로지 를 구축하여 향후 지식네트워크의 허브 서비스 실현을 위해 시맨틱(의미기반) 검색과 인물과 정보간의 지식 네트워 크와 연관관계를 분석하여 인물 관계망 지도 및 시각화 하는 것이었다. copyright(c) 2010 by Saltlux 24 www.saltlux.com

[Use Case] 부산 지식 네트워크 BKMnet 적용 솔루션 시맨틱(의미기반) 검색 솔루션인 [IN2]DISCOVERY, 개체명 분석과 연관관계정보 분석을 위해 [IN2]TOPIC RANK와 [IN2]쌈지를 적용한 부산지식네트워크(BKMnet)의 검색 서비스는 인물정보와 함께 외부관련 정보를 수집하여, 이용 자의 프로파일 및 콘텍스트를 이용하여 이용자들 간의 연결망을 분석, 시각화하여 전문가 검색, 인물관계망 관계 검 색, 인물관계망 지도 등을 구현하였다. 또한, 온톨로지 기반의 지식을 표현하고 관리하기 위해 RDF, OWL을 지원하 는 시맨틱 웹 표준 기술이 적용된 STORM_SOR_TRIPLE STORE를 통해 인물정보 및 관계 정보를 온톨로지 기반 지식 베이스로 구축하였고 이를 통해 이용자 프로파일 및 특성을 활용하여 개인 맞춤형 검색, 추천 서비스 등을 가능하 게 하였다. [부산지식네트워크(BKMnet) 목표 시스템 구성도] copyright(c) 2010 by Saltlux 25 www.saltlux.com

[Use Case] 부산 지식 네트워크 BKMnet 구축효과 및 개선사항 기존 포털에서 키워드 매칭 방식에 익숙한 사용자들이 부산인적자원개발원의 부산지식네트워크(BKMnet)의 시맨틱 (의미기반) 검색, 인물과 정보간의 지식 네트워크와 연관관계를 분석하여 인물 관계망 지도 및 시각화 등의 선도 서 비스를 직접 체험한 이후, 월 평균 방문객 및 이용자수가 3배 이상으로 증가하였다. 또한, 서로 다른 전문가와 지식 수요자들이 상호 연결될 수 있은 부산지식네트워크(BKMnet) 서비스를 통해 약 300명의 수요 조사 참여자들 중 86% 이상이 인터넷을 통한 전문지식 확보에 호감을 보였으며, 87%가 이를 통해 전문지식을 공유하겠다고 밝혔다. 더욱 고무적인 점은 유료 서비스에 대한 부정적인 시각을 많이 가지고 있는 우리나라의 현실 속에서 부분적 유료 서비스에 대해서도 상당한 수용성을 보여주었다는 점이다. 부산지식네트워크(BKMnet) 사업은 국내뿐만 아니라 세계적으로 벤치마킹이 될 누구도 시도해 보지 않은 도전적이 며 혁신적인 사회 관계망 서비스(SNS)이다. 향후 지식네트워크의 허브 서비스 실현을 위해 향후 가장 큰 도전 과제 는 대용량, 고품질, 고신뢰 DB를 지속적으로 유지하고 발전 시키는 것이다. 아울러, 차별화된 서비스 모델과 선도 기술의 운영 플랫폼 구축을 통해 체계적이고 효율적인 운영관리를 통해 지속적인 서비스 질의 향상을 이루어야 한 다. [부산지식네트워크(BKMnet) 인물관계망 구축 화면] 향후 발전방향 부산지식네트워크 사업은 궁극적으로 창조적 지식도시 부산 만들기의 사명을 가지고 2013년까지 지식 네트워크 허 브 서비스 실현을 위해 G10 지식 전문가 포털, 2만 스타 전문가 확보, 30만 지식 서포터즈 양성의 3대 핵심 목표를 가지고 있다. 이를 위해 사업 파트너(BP)와 연계한 전문 콘텐츠 유료 서비스, 영어, 일어를 포함한 다국어 서비스 확 대, 지식 파크와 같은 대형 사업 추진, 모바일 확장과 프리미엄 멘토링 서비스를 통해 지식 전문가 포털을 구축하는 것이다. copyright(c) 2010 by Saltlux 26 www.saltlux.com

[Use Case] 대통령 기록포털 콘텐츠 구축 대통령 기록포털 콘텐츠 구축 안준형, 솔트룩스 SD영업2팀 부장 프로젝트 개요 고객사 : 행정안전부 국가기록원 대통령기록관 분야 : 공공부문 프로젝트 명 : 09년 대통령기록포털 콘텐츠 구축 사업 프로젝트 수행기간 : 2009년 5월 ~ 2009년 10월 적용솔루션: [IN2]DOR, [IN2]TMS, 지식맵, 분류체계 URL : http://www.pa.go.kr 고객사 소개 대통령기록관은 국가운영의 최고 결정권자인 대통령과 그 보좌/자문/경호기관의 생산한 국정의 핵심기록인 대통령 기록물을 수집/정리/보존하고 국민들이 활용할 수 있도록 서비스하는 영구기록물관리 기관이다. 2007년 개관하여 역대 대통령기록물이 전문적, 과학적인 방법으로 관리 될 수 있도록 정리/기술하고, 보존환경을 구 축하는데 많은 노력을 하고 있으며, 대통령기록물이 다양한 분야에서 폭넓게 연구되고, 지식정보로 활용될 수 있도 록 전지/열람 서비스를 제공하고, 증가하는 국민들의 기록정보요구에 부응하기 위하여 대통령기록 포털을 구축하여 대국민 서비스를 시행하고 있다. 대통령 기록포털은 역대 대통령에 관한 주요 정보와 웹 기록, 문서, 동영상 등 주 요 대통령기록물을 온라인 콘텐츠화 하였고, 소장하고 있는 대통령기록물에 대한 검색기능 등을 제공하는 통합정보 시스템으로 국민들이 대통령기록물에 관하여 편리하게 이용할 수 있도록 구축하였다. [대통령기록관: http//www.pa.go.kr] 도입배경 대통령과 관련된 콘텐츠(웹기록, 정책간행물, 동영상, 사진)에 집대성 된 대통령기록물에 대한 대 국민 검색 및 열람 의 편의성을 제공하여 대국민 친화적인 IT기술 기반의 서비스 구축을 추진하며, 대통령기록관에서 수집, 발굴, 연구 를 통해 정리된 대통령 콘텐츠를 대국민에게 제공하여 보존중인 대통령기록물을 활용할 수 있도록 지식자원화하고 지속적인 제공체계 확보를 통해 대통령기록물의 대국민 서비스 기반 구축과 국민의 국정이해도 증대 기반 마련을 목적으로 한다. copyright(c) 2010 by Saltlux 27 www.saltlux.com

[Use Case] 대통령 기록포털 콘텐츠 구축 도전과제 본 사업은 이용자를 세분화한 신규 4대 콘텐츠 구축과 기 구축 콘텐츠 내실화, 대국민 기록물 열람편의성 강화를 위한 기록물 열람기능 강화, 장애인 등 소수계층의 웹사이트 이용성 제고를 위한 웹 접근성 체계 적용, 그리고 관련 행사 등 홍보 매체물 관리 기능의 구축을 범위로 하고 있다. 대통령기록포털 콘텐츠를 분석하여 용어를 추출하며, 추출된 용어를 활용하여 지식맵, 개체명 사전 등의 기반정보를 구축하고 콘텐츠의 단일접근 검색시스템을 구현한다. 또한 사용자의 검색 패턴 및 트렌드를 분석하여 사용자가 검 색 이후 확장 검색을 할 수 있도록 단계별 검색기능 제공 및 연관 정보를 제공하는 검색시스템을 구현한다. 결론적 으로, 사용자의 검색 의도를 파악하고 관련된 기록물 정보를 제공하는 보다 지능적인 검색서비스 제공해야 한다. 확장검색 단일 접근점 기반정보 구축 기록물 추천 검색이용패턴분석 단일 접근점 제공 기반 정보 구축 패턴추적을 통한 로그수집 선별기준에 따른 로그 분석 분류에 따른 주요키워드 정의 및 콘텐츠 매핑 지식맵을 통한 단일 접근점 강화 지식맵 정의 콘텐츠 분석을 통한 개체명 사전 구축 추천서비스 주제분야에 따른 기록물 추천 사용자 참여에 따른 랭킹 조절 고려사항 사용자 검색의도 파악 기록물 접근성 향상 검색기능 강화 사용자의 검색 의도를 파악하고 관련된 기록물 정보를 제공 대통령기록물 접근성 향상을 위한 검색 기능 구현 역사학 또는 기록학 분야 전문가를 통한 지식맵 구축 검색기능 강화를 위한 확장 검색 전용 서버 추가 텍스트마이닝 엔진도입 적용 솔루션 텍스트 마이닝 솔루션인 [IN2]TMS를 이용하여 방대한 대통령기록물 콘텐츠에 대하여 자동으로 특성을 추출하고 해 당 기록물의 고유한 문서특징을 분석하였다. 이를 기반으로 사용자가 검색한 특정 기록물에 대하여 유사문서 검색 이 가능하도록 하였으며, 해당 문서에 대한 핵심 키워드, 주제문장 추출뿐만 아니라 자동요약 기능을 제공함으로 사 용자가 기록물에 대한 빠른 이해가 가능하도록 하였다. 또한, 기존의 키워드 중심의 통합검색을 지능형 검색엔진 [IN2]DOR을 적용하여 지식맵 기반의 단일 접근성을 제공하게 되었다. 주요 검색 기능으로는 데이터 분석을 통한 유 copyright(c) 2010 by Saltlux 28 www.saltlux.com

[Use Case] 대통령 기록포털 콘텐츠 구축 사어 검색, 연관어 검색, 추천어 검색 기능을 제공하였으며, 사용자의 검색 이용패턴과 로그분석을 통하여 지능형 추천 서비스가 가능하도록 구현 되었다. 구축효과 및 개선사항 대통령기록물 검색에 대하여 기본검색, 상세검색, 계층검색, 빠른검색, 지식맵 검색 등의 다양한 접근방식을 제공함 으로 사용자에게 기록물 검색에 대한 편의성을 극대화 하였다. 이는 검색에 대하여 잘 모르는 일반 사용자가 원하 는 대통령기록물에 대한 접근 비용을 최소화하여 서비스 만족도를 향상시켜 서비스 이용자 수를 구축 이전에 비해 약 3배 이상 증가하였다. 또한, 기록물 콘텐츠에 업무특성 맟 자료에 맞는 분류체계를 구성하고 지식맵을 통한 단일 접근성을 제공함으로 기 록물 연람 편의성을 강화하였다. 이는 일반 사용자도 쉽게 기록물 분류에 대하여 쉽게 이해하여 빠른 정보 검색이 가능하도록 하였다. 향후 발전방향 대통령 웹 기록 서비스 시스템의 구축 이후, 민원인의 이용형태에 대한 분석을 통한 재배치 및 디자인 등의 변경을 위하여 콘텐츠 관리 시스템의 도입이 필요하며, 이를 위해 초기부터 해당 사항을 고려한 시스템 설계와 구현이 필 요하다. 이를 통해 대국민 이용편의성 증대와 내부 담당자의 업무 편의성 등을 지속적으로 발전하고 진화하는 시스 템의 구축이 가능하다. 특히 대통령 기록물에 대하여 규칙기반의 자동분류 시스템을 적용하여 수집/생산되는 기록 물이 내부 분류체계에 의하여 자동으로 분류됨으로 내부 기록물 담당자의 업무 편의성 및 생산성을 극대화 시킬 수 있다. copyright(c) 2010 by Saltlux 29 www.saltlux.com

KT 온라인 명함관리 서비스 김태현, 솔트룩스 SD영업1팀 차장 프로젝트 개요 고객사: KT 분야: 민간기업/정보통신 분야 프로젝트 명: 온라인 명함서비스의 명함교환과 관리를 위한 서비스 프로젝트 수행기간: 2009년 6월 ~ 2009년 12월 적용솔루션: [IN2]DOR, STORM_SOR TripleStore, Ontology Tech. 고객사 소개 케이티(KT)는 컨버전스에 기반한 혁신으로 글로벌 IT 리더로 도약하는 국내 유무선통합 서비스 트렌드를 선도하는 최고의 기업이다. 도입배경 KT에서 보유하고 있는 온라인 명함 서비스 제작 도구와 연동하여 온라인 명함을 생성하고 전송하거나 다른 사용자 들로부터 받은 명함들을 관리할 수 있는 명함철과 이를 관리할 수 있는 기능, 그리고 보유한 명함 정보들을 이용하 여 사화관계를 구성하고 관리할 수 있도록 하고 온라인 명함 서비스를 보다 편리하게 사용할 수 있도록 데스크탑과 모바일 폰에서의 온라인 명함 관리 서비스를 제공한다. 도전과제 본 사업은 온라인명함관리를 통해 생성되는 소셜 네트워크를 활용하여 인맥을 관리하고 나아가 효율성을 극대화 하 는데 그 목적이 있다. 효율성 극대를 위한 방법으로 데스크탑 및 모바일 전용 명함철을 개발하여 표준화된 내외부 의 명함을 관리 배포를 하고 배포 및 수집된 명함을 사회관계망 플랫폼에서 활용될 수 있도록 한다. 적용 솔루션 시맨틱 검색을 위한 [IN2] 플랫폼 기반에 시맨틱 비즈니스 플랫폼인 STORM TM 의 온톨로지 트리플 스토어인 SOR_TripleStore를 적용하였다. copyright(c) 2010 by Saltlux 30 www.saltlux.com

[Use Case] KT 온라인 명함관리 서비스 구축효과 및 개선사항 사용자 별로 산재되어 있는 온라인 명함을 하나의 통합된 서비스로 관리함으로써, 온라인 명함의 관리가 쉬워지며, 데스탑이나 폰을 이용하여 쉽게 서비스에 접근/이용이 가능하며 또한 명함에 다양한 추가적인 정보(생일, 메모, 인 상, 성격 등)과 인맥의 최근 소식 등을 저장/열람할 수 있으므로 자칫 소홀해 질 수 있는 인맥 관리를 보다 편리하 게 할 수 있으므로 효율적인 인맥관리가 가능하다. KT가 보유하고 있는 온라인 명함 저작 도구와 연동하여 표준 사회관계 정보 메타데이터를 기반으로 명함을 생성하 고, 데스크탑이나 폰에서 다른 사용자들에게 이메일, 웹 콘텐트, 메신저와 같은 외부 어플리케이션이나 SMS/MMS와 같은 다양한 방법으로 명함을 전송할 수 있는 기능, 수신한 명함들을 저장/관리할 수 있는 기능을 통해 오픈소셜네 트워크 환경을 구성할 수 있다. 향후 발전방향 온라인 명함을 통해 만들어진 소셜네트워크를 기존의 페이스북과 같은 사회망과 연계함으로써 개인간의 새로운 관 계를 발견하고, 사회관계에 대한 새로운 우선순위를 이해할 수 있는 View를 제공할 수 있도록 구축하는 것이다. " 온라인 명함을 데스크탑 또는 모바일 환경에서 실시간으로 상대방과 전자명함을 상호 교환하여 사회관계망을 형 성할 수 있는 오픈소셜네트워크 환경을 구성하였습니다 ". copyright(c) 2010 by Saltlux 31 www.saltlux.com

[Special Article] 시맨틱 전문기업 솔트룩스, 하이퍼커넥티비티 세상을 준비하다. 시맨틱 전문기업 솔트룩스, 하이퍼커넥티비티 세상을 준비하다. 현재 우리의 세상은 이질적 기술의 융합과 새로운 단말 및 서비스의 개발을 통해 모바일 IT 환경으로 빠르게 진화 하고 있다. 이러한 변화는 IT 중심의 하이퍼 커넥티비티 세상으로의 진입을 가속화 시키고 있다. 캐나다의 에나벨 콴 하세 교수가 처음 제안한 하이퍼 커넥티비티 (hyper-connectivity)는 한 명의 사용자가 다수의 단말로 다수의 어플리케이션을 사용하며, 다양한 네트워크를 통해 다수의 사람들과 정보에 접근하게 된다는 개념이 다. 스마트폰이나 텔레메틱스, IPTV 등 이미 우리는 이러한 융합 서비스 환경에 매우 익숙해지고 있다. 이러한 세상의 변화는 자연어 처리에서 정보검색, 텍스트마이닝과 시맨틱 기술로 검색업계의 에반젤리스트로 시장 을 개척해 온 솔트룩스에게는 더욱 의미가 있고 더욱 많은 기회를 가져다주는 변화라 할 수 있겠다. 세계 10대 시맨틱 웹 기업인 솔트룩스는 이미 2000년대 중반부터 모바일 환경에서의 지능형 융합 서비스를 위한 인프라 기술을 제공해 왔다. 특히, 솔트룩스는 이질적 서비스 환경에서의 시맨틱 상호 운용성 확보와 모바일에서의 서비스 개인화 및 지능형 서비스 추천에 있어 세계적 기술을 보유한 것으로 인정 받고 있다. 또한 기술 사례가 웹 표준 기구인 W3C에서 선도 성공 사례로 공식 인정되었으며, 국내에서 유일하게 EU로부터 FP6와 FP7 프로젝트를 수주해 수행하고 있다. 시맨틱 웹 기술로 하이퍼커넥티비티 세상을 준비하고 있는 솔트룩스, 차세대 트리플 스타 제품 확보와 글로벌 산학 연 협력 및 경쟁, 지능형 서비스 인프라 확보 등 세가지 전략을 통해 아시아를 넘어 세계적인 지식 서비스 전문기 업으로서 발돋움하겠다는 계획이다. 1. 차세대 트리플 스타 제품 확보 - 시맨틱 통합검색엔진 [IN2]Discovery(인투 디스커버리) - 하드웨어 일체형 검색포털 시스템 [IN2]SearchBox(인투 서치박스) - 시맨틱 비즈니스 플랫폼 STORM(스톰) 2010년 지식경제부로부터 신소프트웨어 상품대상을 받은 '인투 디스커버리'는 세계 최초로 상용화에 성공한 진정한 의미의 시맨틱 검색 엔진으로, 품질에서 까다롭기로 유명한 일본과 유럽에 판매되어 이미 그 기술력을 인정받고 있 다. 2009년 일본 최대 IT쇼인 인터롭도쿄에서 그랑프리를 수상한 '인투 서치박스'는 하드웨어 일체형 검색 포털 시스템 으로, 경쟁 제품인 구글 어플라이언스에 비해 기능, 성능, 가격 모두에서 월등한 우위를 차지하고 있다. 기획 단계에 서부터 글로벌 제품으로 포지셔닝한 인투 서치박스 는 국내보다는 일본과 영어권에서 먼저 출시되었으며, 에이전트 기능을 추가하여 오는 3월 인투 서치박스 2.0 을 출시할 예정이다. 국내 유일의 시맨틱 비즈니스 플랫폼인 '스톰'은 대용량 온톨로지 처리와 추론 엔진을 탑재하고 있으며, 비정형데이 터로부터 의미 메타데이터를 자동 추출, 온톨로지 변환, 지능형 분석을 수행하는 시스템이다. 스톰 은 현재 모바일 서비스 개인화, 맞춤형 서비스 추천, 상황인지와 U-City 시스템, 모바일 소셜 네트워크 분석, 지식 네트워크 분석 등 의 인프라 엔진으로 포괄적으로 사용되고 있다. 2. 글로벌 산학연 협력과 경쟁 솔트룩스는 소프트웨어 벤처기업으로는 드물게, 국내 뿐 아니라 글로벌 산학연 협력 체계를 확보하고 세계 시장에 서 직접 경쟁하고 있다. copyright(c) 2010 by Saltlux 32 www.saltlux.com

[Special Article] 시맨틱 전문기업 솔트룩스, 하이퍼커넥티비티 세상을 준비하다. 국내로는 ETRI, KAIST, 서울대, 숭실대, 경북대, 건국대 등과 긴밀한 산학연 협력 체계를 갖추고 있을 뿐 아니라, EU 의 FP6, FP7 연구 프로젝트에 직접 참여함으로, 지멘스, 에스트로제네카, SAP 등의 세계적인 기업과 VU, 쉬필드, 인 스부룩 대학 등의 세계적 석학들과 공동 연구를 진행하고 있다. 이러한 국제 협력은 솔트룩스의 원천 기술 및 지적 재산권 확보, 국제 인지도 향상 뿐 아니라, 다양한 사업 기회를 제공해 주고 있다. 국제 협력은 결국 세계 시장을 공략하기 위한 솔트룩스의 교두보 역할을 하고 있다. 궁극적으로 기업은 세계 시장 에서 무한 경쟁에 직면해야 하며, 경쟁에서 반드시 승리해야 한다. 솔트룩스는 제품 기획부터 세계 시장을 타깃하고 있을 뿐 아니라, 일본, 중국, 베트남, 영국 지사 설립을 통해 제품의 현지화와 글로벌 영업, 마케팅을 열정적으로 진 행하고 있다. 특히, 세계적 전시회나 컨퍼런스에 적극적으로 참여하여, 고객을 직접 확보하고, 세계 각 지역의 다양 한 파트너와의 협력을 통한 글로벌 비즈니스 생태계를 확보해 나가고 있다. 3. 지능형 서비스 인프라 확보 전략 솔트룩스는 시맨틱 웹 비전 달성을 위한 인프라 시스템을 구축하고 국내외 공공기관 및 대기업과도 활발하게 상생 적 사업 협력을 하고 있다. 최근 삼성전자의 지식관리시스템에 도입된 신기술 센싱 시스템의 경우, 방대한 비정형 정보를 지능적으로 분석하여, 한 눈에 기술 트렌드와 그 상관관계를 이해할 수 있도록 했다. 부산시에서 추진하는 BKMnet에는 시맨틱 소셜 네트 워크 분석 기술이 국내 최초로 적용되어, 지식 전문가 찾기와 지식 커뮤니티 활성화를 가능케 하고 있다. 최근 수주 한 서울시의 다국어 지원 이미지 아카이빙 시스템이나, 국토지리정보원의 시맨틱 웹 기반의 지능형 지리정보 서비 스 시스템 개발 등은 지능형 서비스 인프라 구축을 통해 미래 지향적, 협력적 성장 동력 확보를 추진해 가는 좋은 예라 하겠다. 솔트룩스의 이경일 대표는, "과거 국내 IT 기업들이 해외의 성공사례를 따라하는 방식으로 큰 성장을 했다면, 이제 리더가 된 우리는 더 이상 같은 방법으로 경쟁에서 살아 남기 힘들다 며, 특히 10년 간 오히려 후퇴한 소프트웨어 산업의 생존과 세계적 경쟁력 확보를 위해서는, 기업가 정신의 회복과 산학연관의 협력적 생태계, 국내 대기업과의 장기적 협력 구조 확보가 절실하다." 고 강조한다. 또한 이 대표는 향후 세상 모든 사람들이 자유롭게 지식 소통 하도록 돕겠다 는 회사 사명에 걸맞게, 보다 적극적 인 해외 개척과 국제 협력을 통해 선도 시장에서 경쟁 우위를 점하고, 명실상부한 글로벌 챔피언이 되겠다는 포부 를 밝혔다. copyright(c) 2010 by Saltlux 33 www.saltlux.com

[Press Release] 솔트룩스, 정보간 관계 통합 분석 자료 한눈에 솔트룩스, 정보간 관계 통합 분석 자료 한눈에 2010-02-02 디지털타임스 진화하는 검색솔루션 솔트룩스는 시맨틱 웹 및 마이닝 기술을 기반으로 기업용 검색엔진을 개발하는 기업으로 시맨틱 기술을 상용화한 최초의 기업이기도 하다. 현재 시맨틱 분석 검색 시장의 오피니언 리더답게 시맨틱 통합 검색엔진인 [IN2]Discovery(인투 디스커버리)를 기반으로 기업용 검색의 지능화를 앞당기고 있다. 2008년 세계 10대 시맨틱 기술 기업 으로 선정된 바 있는 솔트룩스는 Larkc (Large Knowledge Collider) 프로젝트 중 FP6, FP7(한화 100조원 규모) 등 유럽의 시맨틱 연구 프로젝트에 한국 기업으로는 유일하게 참여하고 있다. FP7 프로젝트는 대용량 시맨틱 컴퓨팅이 가능한 플러그인 기반의 통합 플랫폼을 구축하여 결국 모든 웹을 저장하고 검 색할 수 있게 하는 것이 최종 목표이며, 한국 기업인 솔트룩스도 이러한 시맨틱 웹 세상을 만들어 가는 데에 큰 역 할을 하고 있다. 특히 비정형 데이터 분석과 지능화의 강점을 살려, 단순히 정보를 찾아주는 IR(Information Retrieval) 개념에서 시맨 틱 정보분석을 통해 연관관계를 밝혀내고, 정보의 네트워크에 사람의 네트워크까지 접목시킨 시맨틱 소셜 네트워크 분야까지 검색엔진의 범위를 넓히고 있다. 이 회사는 시맨틱 통합 검색엔진인 `인투 디스커버리 를 기반으로 기업용 검색의 지능화를 앞당기고 있다. 인투 디 스커버리는 저장되어 있는 정보데이터에서 적합한 정보만을 찾아주는 키워드 기반 통합검색과는 달리 수많은 정보 데이터를 분석하고, 그 분석한 결과에서 적합한 정보를 찾아주는 의사결정에 탁월한 결과를 제시할 수 있는 솔루션 으로 검색결과의 재현율에 정확률과 연결성까지 높인 정보와 사람의 통합 지식 네트워킹을 가능하게 한 시맨틱 통 합 검색 솔루션이다. 따라서 검색 결과로 보여지는 정보 외에도 숨은 정보까지 빠르게 발견하고, 정보간의 관계를 통합적으로 분석하여 한눈에 이해 및 활용이 가능하며, 플랫폼 가상화 기술을 통해 10억 건 이상의 초 대용량 검색까지 가능하다. 특히 온톨로지와 추론 기술 기반의 쌈지 라는 기능은 이메일 등 회사 내의 문서들로부터 의미적 관계를 발견, 다양 한 관점에서의 분석을 통해 특정 업무에 대한 개인별 업무밀접도 및 중심성 분석을 가능하게 하였으며, 이를 통해 사내 주요 지식의 전문가 및 연결할 수 있는 인물(커넥터)에 대한 검색이 가능하다. 솔트룩스는 지난 해 국토지리정보원(시맨틱 기술 기반 사용자 맞춤형 공간정보/인문지리정보 통합 서비스 체계 구 축), 부산인적자원부(온톨로지 기반 표준 분류 체계 및 지식 표현을 이용한 전문가 소셜 네트워크) 및 대통령 기록 관, KT, 삼성전자(신기술 센싱), 국가기록원, 차병원, 서울시청 등에 시맨틱 및 온톨로지 기술 기반의 솔루션을 구축 했다. 2010년 솔트룩스는 상반기에 소셜서치 및 분석 기능을 강화한 시맨틱 통합검색 솔루션 [IN2]Discovery 2.0 과 하반 기에 시맨틱 비즈니스플랫폼 STORM(스톰)과 시맨틱 검색 서비스플랫폼 Owlim(아울림) 시즌 2 를 출시할 계획이다. 특히 2010년은 시맨틱 분석 검색 기업으로서 엔터프라이즈 시맨틱 1위 기업으로, 2015년에는 시맨틱 기술 기반의 세계적인 지식 서비스 전문기업으로 자리매김할 계획이다. copyright(c) 2010 by Saltlux 34 www.saltlux.com

[Press Release] 솔트룩스, 시맨틱 통합 검색 솔루션 GS인증 획득 솔트룩스, 시맨틱 통합 검색 솔루션 GS인증 획득 2010-02-16 아이뉴스 24, 디지털타임스 솔트룩스(대표 이경일, www.saltlux.com)는 시맨틱 통합 검색 솔루션 [IN2]Discovery(인투 디스커버리) 로 GS인증을 획득했다고 밝혔다. 인투 디스커버리는 키워드 일치 방식이 아닌 단어의 의미로 정보를 검색하며, 질의어의 의미에 따라 관련 주제의 자동 분석 및 확장 검색까지 가능한 시맨틱 통합 검색 솔루션이다. 특히 키워드 기반 통합검색과는 달리 수많은 정 보데이터를 분석하고, 그 분석한 결과에서 적합한 정보를 찾아주는 솔루션으로 검색결과의 재현율 뿐 아니라 정확 률과 연결성까지 높인 제품이다.. 또한 비정형 데이터 분석에 탁월한 이 제품은 10억 개 이상의 비구조 정보를 의미적으로 통합할 뿐 아니라, 표면에 나타나 있지 않은 지식을 발견하고 내외부 지식의 균형 잡힌 활용까지 가능한 강력한 차세대 기업용 시맨틱 검색엔 진이다. 솔트룩스 시맨틱 디스커버리 사업본부 김일정 이사는 2008년 세계 10대 시맨틱 기술 기업으로 선정이 된 후 한국 기업으로는 유일하게 유럽의 대형 시맨틱 연구 프로젝트에도 참여하고 있다 며, 이번 인증 또한 시맨틱 검색엔진으 로는 국내 첫 GS 인증인 만큼 시맨틱 검색 1위 기업으로서 더욱 적극적인 연구개발과 공격적인 영업활동에 집중할 것 이라고 말했다. copyright(c) 2010 by Saltlux 35 www.saltlux.com

[Press Release] 신SW 상품대상 일반SW 부문, 솔트룩스 인투 디스커버리 신SW 상품대상 일반SW 부문, 솔트룩스 인투 디스커버리 2010-03-03 전자신문 솔트룩스(대표 이경일)의 시맨틱 통합 검색 솔루션 인투 디스커버리(IN2 Discovery) 가 신SW상품대상 1 2월 일반SW 부문 수상작에 선정됐다. 인투 디스커버리는 키워드 기반 통합 검색의 한계를 뛰어넘었다. 의미와 개념, 정보 관계에 기반한 기업용 검색엔진 이다. 이 통합 검색 솔루션은 검색 2.0 기술과 플랫폼 가상화 기술 텍스트 마이닝 및 온톨로지와 추론도 가능한 시맨틱 기술 지식 시각화 기술 등이 더해진 제품이다. 의미 개념 주제별 검색과 검색어 추천 개체 검색 자동 요약 이미지 검색은 물론이고 내외부 지식 네트워킹 기능도 있 다. 특히 지식 유통 구조 분석, 지식 소비 트렌드 분석, 연관 지식 관계 트렌드 분석을 구현한 지식 생산 트렌드 분 석 기능이 이용자들로부터 인기를 얻었다. 또 이 솔루션은 키워드 일치 방식이 아닌 단어의 의미로 정보를 검색하며, 질의어 의미에 따라 관련 주제의 자동 분석과 확장 검색까지 가능하다. 10억개 이상의 비구조 정보를 의미적으로 통합하고 정보의 검색과 분석 시간을 20% 이상 절약할 수 있다. 특히 표면에 나타난 정보의 숨어 있는 지식을 발견하고 내외부 지식의 균형잡힌 활용까지 가능한 강력한 차세대 기 업용 검색엔진이다. 인투 디스커버리에 있는 온톨로지와 추론 기술을 기반으로 개발된 쌈지 기능은 e메일 등 회사 내의 문서들로부터 의미적 관계를 발견한다. 다양한 관점을 분석해 특정 업무에 대한 개인별 업무 밀접도 및 중심성 분석을 가능케 한 다. 이를 통해 사내 주요 지식 전문가 및 연결할 수 있는 인물(커넥터)에 대해서도 검색할 수 있다. 솔트룩스 관계자는 인투 디스커버리는 조직 내 흩어져 있는 방대한 구조 비구조적 정보를 다양한 각도로 분석해 copyright(c) 2010 by Saltlux 36 www.saltlux.com

[Press Release] 신SW 상품대상 일반SW 부문, 솔트룩스 인투 디스커버리 사내 유용한 지식자산으로 활용할 수 있도록 돕는 제품 이라며 검색 솔루션 하나로 더 나은 의사결정을 위한 업무 영역까지 빠르고 쉽게 발견할 수 있을 만큼 효율적 이라고 강조했다. 인터뷰-이경일 사장 -제품 개발 배경은. 인투 디스커버리는 기존 통합 검색엔진인 인투 디오알(IN2 DOR)의 기능에 시맨틱 기술과 텍스트 마이닝 기술이 접목됐으면 좋겠다는 고객 요구에 맞춰 개발이 시작됐다. 이후 고객 요구사항 외에 정보 간의 관계성과 연결성, 이 를 통한 정보의 지식화와 자산화, 업무 통찰력 확보를 위한 기능을 추가로 개발하게 됐다. 과거에는 정보가 힘이었다. 하지만 앞으로의 힘은 수많은 정보를 다른 방식으로 연결하고 해석하며 행동으로 전환 함에서 오기 때문에 각각의 지식을 통합하고, 알고 있던 기존 지식에 연결 및 적용하는 능력이 기업의 성과를 규정 할 것이다. -제품 영업 및 마케팅 전략은. 하이엔드 시장을 타깃으로 한 영업과 마케팅 활동을 통해 시맨틱 검색 기술 시장의 대중화와 확장에 기여할 계획 이다. 시맨틱 검색 기술 관련 시장에서 선두적인 기업이라는 이미지를 시장에 각인시키겠다. -수출 현황 및 계획은. 2005년부터 유럽과 미국 시장 공략을 본격화하고 있다. 100조원 규모의 FP6 FP7 등 유럽의 대형 시맨틱 연구 프 로젝트에 한국 기업으로는 유일하게 참여하고 있다. 2008년 일본 지사 및 베트남 연구개발(R&D) 센터를 설립했다. 유럽뿐만 아니라 아시아 시장까지 개척하고 있다. -올해 매출 목표는. 80억원가량의 매출을 올릴 수 있을 것이다. -향후 신제품 개발 및 출시 계획은. 하반기에 시맨틱 비즈니스 플랫폼 스톰(STORM)과 시맨틱 검색 서비스 플랫폼 아울림(Owlim)을 출시할 계획이다. 미래 산업의 핵심 기술인 시맨틱 기술을 기반으로 한 제품과 서비스로 세계적인 지식 서비스 전문기업으로 발전하 겠다. copyright(c) 2010 by Saltlux 37 www.saltlux.com

[Press Release] [IT 대항해시대]닻을 올려라(2) 솔트룩스 [IT 대항해시대]닻을 올려라(2) - 솔트룩스 2010-03-04 전자신문 글로벌 산학협력 통해 시장 공략 강화 솔트룩스(대표 이경일 www.saltlux.com)가 대항해 시대를 헤쳐나갈 키워드는 협력 이다. 국내 대기업 대학은 물론 해 외대학 기업과 연계하는 글로벌 산학연 협력체계를 구축한다. 글로벌 산학협체계로 세계 시장 공략에 고삐를 죄고 있다. ETRI, KAIST, 서울대, 숭실대, 경북대, 건국대 등 국내 대학 은 물론 EU의 FP6, FP7 연구 프로젝트에 직접 참여해 지멘스 에스트로제네카 SAP 등의 다국적 기업과 VU, 쉬필드, 인스부룩 대학 등 해외 유명 학교들과 공동연구에 나섰다. 국내 공공기관 대기업과도 상생에 나선다. 삼성전자의 지식관리시스템에 도입된 신기술 센싱 시스템은 방대한 비정 형 정보를 지능적으로 분석해 한 눈에 기술 트렌드와 상관관계를 이해할 수 있도록 했다. 부산시에서 추진하는 BKMnet에는 시맨틱 소셜 네트워크 분석 기술이 국내 최초로 적용되어, 지식 전문가 찾기와 지식 커뮤니티 활성화 를 가능케 했다. 인투 디스커버리 는 세계 최초로 상용화에 성공한 시맨틱 검색 엔진이다. 일본과 유럽에 수출해 기술력을 인정받았 다. 이 같은 노력으로 이 회사의 전략 상품들이 속속 성과를 내고 있다. 지난해 일본 최대 IT쇼인 인터롭도쿄에서 그랑프리를 수상한 인투 서치박스 는 하드웨어 일체형 검색 포털 시스템 으로, 경쟁 제품인 구글 어플라이언스에 비해 기능, 성능, 가격 모두에서 월등한 우위를 차지했다. 기획 단계부터 글 로벌 제품으로 개발해 오히려 국내보다 일본과 영어권에서 먼저 출시되기도 했다. 이 달 중으로 인투 서치박스 2.0 이 출시된다. 국내 유일의 시맨틱 비즈니스 플랫폼인 스톰 은 모바일 서비스 개인화, 맞춤형 서비스 추천, 상황인지와 u시티 시스 템, 모바일 소셜 네트워크 분석, 지식 네트워크 분석 등의 인프라 엔진으로 사용된다. 이경일 솔트룩스 사장은 최근 10년간 오히려 퇴보한 소프트웨어 산업의 생존과 세계적 경쟁력 확보를 위해서는 기 업가 정신의 회복이 절실하다 며 모든 이들이 자유롭게 지식을 소통케 하겠다는 회사의 사명 전파에 최선을 다해 명실상부한 글로벌 기업으로 거듭나겠다 며 포부를 밝혔다. copyright(c) 2010 by Saltlux 38 www.saltlux.com

[Press Release] 검색업계, 시맨틱 에 사활 검색업계, 시맨틱 에 사활 2010-03-12 아이티데일리 시맨틱 으로 신규수요 창출해 매출확대 나설 것 검색솔루션은 국내SW시장에서 유일하게 외산SW를 제치고 국내 SW업체들이 활약하고 있는 분야다. 그럼에도 불구, 제품에 대한 중요성이 유럽 일본 등에 비해 비교적 저평가되고 있다는 분석이다. 또 SW 유통이 SI 등 통합 형태로 가고 있어 SW분리발주가 실질적 효과를 거두지 못한다거나, 한정돼 있는 시장에 서의 치열한 점유율 경쟁은 검색솔루션 업계의 난제로 지적되고 있다. 업계는 이 같이 정체되며 레드오션 시장으로 전락한 검색솔루션 시장의 해방구로 해외시장진출 과 시맨틱 을 꼽았 다. 특히 시맨틱 검색은 기존 검색사업을 강화시키고 신규수요를 창출해 매출확대에 크게 기여할 것이란 게 업계 시각이다. 특히 지난해 국내 검색엔진 시장에서 시맨틱 기술로 선전한 업체들 중, 솔트룩스는 2000년 초반부터 시맨틱 기술을 연구, 상용화 해왔다는 점에서 주목된다. 솔트룩스는 지난 1, 2월 시맨틱 통합 검색 솔루션 인투 디스커버리 가 신SW상품대상에 선정됐을 만큼, 시맨틱 검색 에 자부심을 갖고 지속적인 관심을 쏟고 있는 기업 중 하나다. 인투 디스커버리는 의미와 정보 관계에 기반한 기업 용 검색엔진으로 플랫폼 가상화 기술, 온톨로지와 추론이 가능한 지식 시각화 기술 등이 더해진 제품이다. 이 업체는 전체 사업 중 80%가 검색 매출이며, 이 중 64%가 시맨틱 검색이다. 따라서 키워드 검색 시장 전체에서 매출기준으로 보면 솔트룩스가 15%의 점유율을 차지하지만, 시맨틱 검색 자체로 비교했을 때는 솔트룩스가 가장 많은 매출을 올리고 있다는 것이 솔트룩스의 설명이다. 현재 이 회사는 최근 3년간 55~65억 원의 매출을 기록하고 있으며, 4~5억 원의 순이익을 내고 있으며, 총 매출의 40%를 R&D에 투자하고 있다. 또 전체 60명의 직원 중 개발자 및 컨설팅 조직 인원이 45명이나 차지하고 있다. 올해 솔트룩스는 시맨틱 검색을 비롯해 검색된 문서를 분석하는 비정형데이터 통합분석을 합친 시맨틱+분석=마이 닝 형태로 제품 개발에 박차를 가할 계획이다. 그러나 업계 일부에서는 시맨틱 검색 서비스가 앞으로 나아가야 할 방향은 많지만, 관련 시스템과의 완벽한 인터그 랙션 등 진정한 시맨틱 기술 을 구현하기에는 아직까지 한계가 있다고 지적한다. 솔트룩스 이경일 대표는 시맨틱에 대한 회의론을 관점의 차이 로 규정하고, 시맨틱을 바라보는 관점은 다양하지만 시맨틱이 기술적으로 한계가 많았다면 고객사의 요구도 없었을 것 이라며, 오는 2015년 이후에는 현재 검색에 대한 모든 부분이 시맨틱화 될 것으로 전망한다 고 말했다. copyright(c) 2010 by Saltlux 39 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 시맨틱 통합 검색 솔루션, 인투 디스커버리 - 비정형 정보의 지식화 - 통합적 이해와 빠른 활용 - 지식 생산성 향상, 비용 절감 개요 [IN2]Discovery는 조직 내 흩어져 있는 방대한 정보를 다양한 각도로 예리하게 관찰하고 재 조직화, 분석하여 지식 화하고 숨겨진 문제와 가치를 발견, 조직의 지식자산으로 재활용할 수 있도록 해주는 시맨틱 통합 검색 솔루션이다. 키워드 기반 통합검색의 한계를 뛰어넘는 검색의 새로운 패러다임으로서, 회사 및 조직의 방대한 양의 구조/비구조 적 데이터 및 정보(콜센터 로그, 블로그, 이메일 등)의 지능적 텍스트 분석(Text Analytics)을 통해 업무에 관한 중대 한 인사이트(critical insight)를 발견하게 하는 확장성 높은 기업용 정보 분석 플랫폼이다. 검색 2.0, 플랫폼 가상화, 텍스트마이닝, 온톨로지와 추론, 지식 시각화 기술 등 혁신적 첨단 기술이 상호 융합되어 있다. 개념 고기능 통합 검색 검색 2.0 기술과 클라우드 컴퓨팅 기술에 기반한 대용량 통합 분석과 이미지 검색, 다국어 검색, 표/그래프 등의 문서 개체 검색을 지원 시맨틱 검색 텍스트 마이닝과 시맨틱 웹 기술을 적용, 개념/의미 기반 검색과 패싯 필터, 자동 분류, 자동 군집, 주제별 검색과 연관정보 추천을 지원 비정형 데이터 분석 시맨틱 마이닝과 온톨로지 추론 기술을 활용, 암묵지의 생성, 유통, 소비 등 지식 생태계에 대한 분석과 활용, 지 식네트워크 분석을 지원 주요기능 연관 검색어 추천 사용자의 질의어에 대하여 통계기반의 Co-Concurrence(공기어)분석을 통하여 연관어, 유의어를 제공하는 것으로 사용자가 사전에 인식하지 못하는 관련용어를 제공하여 원하는 검색결과로의 접근과 검색에 대한 재현률을 증가 시켜 준다. copyright(c) 2010 by Saltlux 40 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 검색어 자동완성 사용자가 입력한 키워드의 초성/중성/종성을 기준으로 유사한 키워드를 제공하여 빠른 검색 질의어를 찾을 수 있 도록 도와 준다. 또한 개체명 사전을 제공하여 사용자에게 보다 더 정확한 검색질의어를 제공해준다. 자동요약(미리보기)/개체검색 인투 디스커버리의 미리보기 기능은 해당 문서에 대하여 주요키워드, 간략보기, 중요문을 추출하여 사용자가 문 서의 다운로드 없이 문서 내용을 이해할 수 있도록 하며, 개체검색 기능을 통해 문서 내 이미지, 차트, 표, 그래프 등 개체정보로의 빠른 이동을 제공한다. 이미지 검색 문서 내 이미지를 추출하여 사용자에게 보여 줌으로 문서를 다운로드 받지 않고 문서 내 내용을 직관적으로 이 해할 수 있어 사용자에게 빠른 지식의 이해를 지원해준다. copyright(c) 2010 by Saltlux 41 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 주제별 검색 질의어의 의미에 따라 관련 주제를 자동분석, 확장 검색해준다. 주제별 카터고리와 주제별 군집은 검색 편의성 향상뿐만 아니라 사고와 분석의 지평을 넓혀준다. 패싯필터링 문서의 메타정보를 분석하여 검색결과에 대한 필터링을 제공함으로 사용자가 원하는 부분에 대한 정보 네비게이 션을 지원한다. 자동요약/군집/분류 인투 디스커버리는 텍스트마이닝의 모든 기능을 포함하고 있으며, 보다 진보된 알고리즘이 적용된 자동군집엔진 과 자동분류 시스템은 방대한 정보를 재조직화 하고, 보다 빠르고 정확하게 핵심정보에 접근, 관리할 수 있도록 한다. copyright(c) 2010 by Saltlux 42 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 연관정보검색(토픽랭크/토픽탐색) 조직 내/외부의 다양한 정보를 수집, 통합, 연계하여 정보 네트워크를 구성하고 이를 소셜 네트워크와 통합함으로 온전한 지식 네트워크를 구성, 활용 할 수 있도록 해준다. 문서/검색어 트렌드 분석 조직 내/외부에서 생성되는 문서/검색어에 대한 분석과 통계, 입력 토픽별 동향 분석뿐 아니라 생성조직, 개인에 대한 분석도 가능, 두 개 이상의 토픽을 상호 비교함으로 지식활동 동향을 깊게 이해할 수 있다. 기술 트렌드 분석 개인별 이슈가 되고 있는 주제 혹은 특정조직 및 회사전체에 이슈가 되고 있는 주제에 대한 분석, 통계를 보여주 며 지식소비에 대한 현황을 제시해준다. copyright(c) 2010 by Saltlux 43 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 내외부 정보통합 위젯과 매시업(Mash-up)을 통해 외부 서비스를 동적으로 연결하고, 내부 정보와 통합할 수 있도록 했으며, 특히 아울림 서비스 시스템과 연동되어 외부의 뉴스, 블로그, 특허 등의 전문 정보를 내부의 지식과 연계, 통합 분석할 수 있다. 개념/관계검색 문서로부터 의미메타데이터를 자동으로 추출하고, 온톨로지 기반의 지식베이스를 자동으로 구축한다. 검색어의 개념(자동차/소나타 등) 혹은 그들의 관계(관련인물 등)로 검색 정확도를 높이며, OWL DL기반의 추론엔진이 탑재 되어 있다. 맞춤형 정보/전문가 추천 개인별 관심정보에 대하여 개인 스크랩을 설정하면 관련된 최근 관심 키워드에 따른 내외부의 문서를 추천해주 며, 또한 내/외부 관련인물 및 전문가를 추천해준다. (RSS 기능 포함) copyright(c) 2010 by Saltlux 44 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 인맥정보관리 내/외부 인물에 대한 전문분야, 관심 정보 등을 등록하면 해당 인물과 관련이 있는 내/외부 지식정보를 자동으로 추천해 주는 기능이다. 지식 네트워크 분석 특정 주제 및 업무에 대한 전사적 지식네트워크를 분석하고, 이들의 협력 네트워크 구조를 이해하고 전문가와 커 넥터를 발견할 수 있다. 관리자 기능 : 서버/인덱스 관리 인덱스 서버, 검색 서버, TMS 서버 등 등록된 모든 서버를 관리하며, 등록된 예약작업을 확인, 신규 색인 작업을 수행/관리한다. copyright(c) 2010 by Saltlux 45 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 관리자 기능 : 모니터링 모니터링 메뉴는 시스템의 자원사용현황, 서버 별 생성 로그에 대한 실시간 조회, 시스템 이벤트 로그 조회 기능 을 제공한다. 관리자 기능 : 통계 검색어 추이, 검색 트래픽, 검색 실패어, 급상승 검색어, 문서 색인통계, 개인과 조직의 활용 통계 등 다양한 통계 정보를 확인할 수 있다. 관리자 기능 : 사전관리 제품에서 사용되는 다양한 사전을 관리하는 기능으로 인기 검색어, 자동완성 사전, 유의어 사전, 텍스트 마이닝에 서 사용하는 불용어와 사용자 정의 사전에서 사용하는 키워드를 등록, 수정, 삭제 및 CSV 파일로 업로드/다운로 드 할 수 있는 기능을 제공한다. copyright(c) 2010 by Saltlux 46 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 시스템 구성 [IN2]Discovery는 JAVA 기반의 가상화 플랫폼 구조를 가지고 있으며, SOA를 포함한 다양한 표준 아키텍처를 지원한 다. [IN2] Indexer/Searcher [IN2] Indexer 서버는 인덱스(역파일)의 생성과 문서의 생성/삭제 등의 인덱스와 관련된 기능을 담당하고, [IN2] Searcher 서버는 인덱스(역파일)에서 어플리케이션에서 요청한 질의를 분석하여 검색을 수행, 결과를 전달한다. 두 서버는 동일 프로세스 내에서 운영이 가능하며, 시스템 구성에 따라 인덱스(역파일)를 공유하여 분산된 환경에서 도 동작이 가능하다. [IN2] TMSTagger 검색 대상 문서에 대해 검색키워드를 추출하며, 자체 개발한 고성능 형태소 분석기를 포함한다. [IN2] IndexAgent SCRIPT(XML)를 해석하여, 데이터베이스에서 데이터를 가져와 [IN2] Indexer에 색인을 요청한다. Scheduler가 내장되어 있어 색인 주기를 조정 가능 JDBC를 지원하는 모든 데이터베이스에 사용 가능, ex) ORACLE, MS-SQL, MYSQL, DB2 등 DOMINO 데이터베이스(Notes)의 경우 DIIOP 프로토콜을 사용이 가능합니다. [IN2] Navigator 문서를 서버에서 내려 받아, 해당 검색어가 존재하는 위치로 이동시켜 준다. ActiveX로 제공 URL을 지정하면 HTTP 통신을 사용해서 문서를 내려받음 [IN2] DICSearcher 데이터베이스에서 단어목록을 읽고, 어플리케이션 요청에 따라 자동완성 단어 검색, 동의어 단어 검색, 텍스트 용 어에 대한 하이퍼링크 추가 작업을 수행한다. 데이터베이스에서 읽어 들일 방법은 SCRIPT(XML)로 지정 Scheduler가 내장되어 있어 주기적으로 데이터를 다시 읽어 들임 [IN2] ServerAgent 관리서버([IN2] Admin)의 요청에 따라 [IN2] 서버들을 제어하는 역할을 한다. copyright(c) 2010 by Saltlux 47 www.saltlux.com

[Product] 시맨틱 통합 검색 솔루션, [IN2]Discovery 서버들의 시작 또는 중지 등의 제어 서버들 로그와 시스템 자원(메모리, 디스크, CPU)을 모니터링 데이터베이스에서 사용자 사전 및 불용어 사전 등을 내려 받아 [IN2] TMSTagger가 사용하는 사전 데이터 를 교체하는 역할 [IN2]Admin은 [IN2]서버들을 관리하기 위한 웹 베이스 관리도구 [IN2]Admin을 사용하지 않는 경우 [IN2] ServerAgent는 동작 시킬 필요없음. 각 시스템에 하나만 운영함. [IN2] CAMEO 질의어 통계, 색인 통계, 로그 이벤트 등을 하나의 서버에서 관리한다. 주기적으로 검색어 통계 연산을 수행 각 시스템에 있는 로그들을 [IN2]ServerAgent를 통해 수집하여, 데이터베이스에 통합하여 기록 MySQL 5.0이상을 기본 데이터베이스로 사용 도입효과 [IN2]Discovery를 통해 비정형 정보의 지식화, 정보의 통합적 이해와 빠른 활용, 검색/분석 시간 절약, 지식 생산성 향상, 비용절감의 효과를 누릴 수 있다. copyright(c) 2010 by Saltlux 48 www.saltlux.com

[Product] 시맨틱 기반 지식 네트워크 분석 솔루션, STORM SSAMZIE 시맨틱 기반 지식 네트워크 분석 솔루션, 쌈지 - 온톨로지와 추론 기술 기반의 지식 네트워크 분석 시스템 - 이메일 등 조직 내 문서들로부터 의미적 관계를 발견 - 다양한 관점에서의 분석을 통해 특정 업무에 대한 개인별 업무밀접도 및 중심성 분석 - 정보와 사람의 통합 지식 네트워킹을 통한 조직의 의사결정을 위한 인사이트 제시 개요 쌈지는 조직 내에 존재하는 문서들의 의미적 관계를 정의/발견하고, 이를 이용하여 사용자에게 보다 정확한 의미적 결과를 전달하는 시맨틱 기반 지식 네트워크 분석 및 검색 솔루션 이다. 쌈지가 구현하는 시맨틱 검색은 비구조적 인 데이터에서 구조적인 데이터를 추출, 의미정보 변환을 통해 용어간 또는 콘텐트 간 관계 분석과 연결, 의미구조 데이터와 비구조적/구조적 데이터간 연결을 통해 지식 통합을 수행하며, 의미정보 분석 결과에 대한 서비스 연결 제공을 의미한다. 조직 내의 문서들로부터 의미적 관계를 발견하여 통합된 지식을 생성 다양한 관점에서의 분석을 통해 사용자에게 의미 있는 결과를 제공 네트워크 기반의 시맨틱 분석/검색 목적 조직 내 지식 통합 제공 이메일/문서 등 부서/사용자 별로 분산되어 있는 지식으로부터 통합된 지식을 생성 조직 내 다양한 지식 흐름 정보 제공을 통한 지식 그룹간 소통 기회 제공 네트워크 내에 특정 주제 또는 불특정 그룹에 대한 정보를 제공함으로써 사용자 또는 그룹간 소통의 기회 를 활발히 제공 조직 내 지식 보유자와 지식 제공자간 분석정보를 통한 업무간극 최소화 각 사용자/그룹 별 지식 생성, 제공, 보유에 대한 분석을 통해 사용자/그룹 별 업무 조율 극대화 쌍방향 정보 공유 활성화를 통한 업무 능력 향상 업무와 혹은 조직과 관련된 정보를 쉽게 발견 및 접근할 수 있게 함으로써 업무 능력 향상 목표 쌈지는 조직 내에 존재하는 메타정보를 온톨로지와 연계하여 문서간 관계를 정의하며, 사용자에 의해 정의된 문서 의 의미적 정보를 바탕으로 문서간 연관관계를 도출하고, 이를 시각화된 박스를 통해 제공한다. 문서에 존재하는 메타 정보 및 사용자 정의 메타정보를 온톨로지 매핑을 통해 문서에 대한 관계 및 속성 정보를 정의 copyright(c) 2010 by Saltlux 49 www.saltlux.com

[Product] 시맨틱 기반 지식 네트워크 분석 솔루션, STORM SSAMZIE - 문서, 사용자, 프로젝트, 제품, 조직, 이벤트에 개념 범위 내에서 메타정보를 제한 - 도메인 특성에 맞는 온톨로지 확장 방법 제공 사용자에게 결과로써 명확한 의미 박스를 전달 - 검색 또는 태깅을 위한 시각화 - 용어간 관계정보를 활용한 시각화 - 문서 내 존재하는 Entity에 대한 description 기능을 기존 속성정보 표현에서 관계 정보까지 표현 시스템 구성 쌈지는 수집 문서를 이메일 문서만으로 한정하여 개발하였으며, 데이터 수집을 위한 Data Aggregator, 수집된 데이 터 분석을 위한 Data Analyzer, 지식 네트워크 생성 및 분석을 위한 Network Analyzer 등으로 구성되어 있고, 기존 제품인 [IN2]DOR(통합검색엔진)과 [IN2]SOR(시맨틱프레임워크), TopicRanker를 통해 SSAMZIE Web Application과 연 동하게 된다. 아키텍쳐 시스템 구성도 지식 네트워크 구성 쌈지는 조직 내 이메일 정보를 개인 에이전트를 통해 개별 정보를 수집하여 제목/시간/본문/첨부파일/발신자/수신자 등 기본적인 메타정보를 식별하고 개체명 분석을 통해 관련 개체(Entity)를 사람/회사/제품/프로젝트/기술/이벤트 등 으로 추출하여 분석과정을 거친 후 1차 네트워크 정보를 구성한다. 이렇게 구성된 1차 네트워크 정보를 분석하여 추가적인 네트워크 정보를 생성하고, 지식의 흐름과 중심성 등을 파악할 수 있는 네트워크 분석 정보를 생성하여 지식 저장소를 통해 관리하게 된다. copyright(c) 2010 by Saltlux 50 www.saltlux.com

[Product] 시맨틱 기반 지식 네트워크 분석 솔루션, STORM SSAMZIE 시스템 흐름 쌈지는 이메일 데이터 수집 데이터 분석 네트워크 데이터 구성(지식베이스 구축) 검색 서비스 의 과정으로 이루 어진다. 개체명 추출 쌈지는 메일 내용의 형태소 분석 과정을 거쳐 추출된 텍스트 결과에 NE 사전을 기반으로 필터링하여 개체명을 추 출하며, 형태소 분석된 텍스트 결과와 개체 태깅된 결과를 랭킹하여 통합 feature 정보를 추출하게 된다. 온톨로지 구성 쌈지는 이메일 정보의 수집/분석/요약 과정을 통해 생성된 정보들을 시맨틱 검색에 활용되기 위해서 온톨로지 인스 턴스 형태로 변환하여 Knowledge Repository에 저장한다. 인스턴스 생성은 데이터베이스에 존재하는 정보들을 트리 플 형태의 데이터로 변환하는 과정으로 각 온톨로지 컨셉에 대한 매핑 규칙을 작성하고, 온톨로지 인스턴스화 모듈 을 통해 실행하여 트리플 데이터 파일을 만들고, 이를 SOR을 통해 로딩하여 Knowledge Repository를 구축하게 되 는 것이다. copyright(c) 2010 by Saltlux 51 www.saltlux.com

[Product] 시맨틱 기반 지식 네트워크 분석 솔루션, STORM SSAMZIE 쌈지 인스턴스 생성 쌈지 온톨로지 스키마 네트워크 분석 쌈지는 내부의 문서 결과뿐 아닌 웹 어플리케이션 서비스를 통해 다양한 형태의 외부의 의미 있는 정보들을 다양한 형태의 그래프와 맵의 형태로 사용자에게 제공한다. 개인 및 조직에 대한 주제 동향 : 회사 내/외부로 유통되는 문서(이메일)들에서, 최근 기간 동안 가장 빈번 하게 발생되는 주요 개체 정보를 제공. 회사 전체 문서에서의 최근 동향과 로그인한 사용자가 소유한 문 서에서의 최근 동향으로 구분. 최근 동향 그래프 사용자별 업무 긴밀성과 업무 중심성 분석 : 로그인 사용자와 특정 개체로 연결된 네트워크 정보를 그래 프 형태로 제공. 네트워크정보에는 해당 개체와 관련된 문서를 주고 받은 인물들과 그 문서들에서 같이 출현되는 관련 개체들이 포함. 업무 중심성은 해당 개체에 대해 다른 사용자들보다 높은 연관성이 있음을 말함. 나의 네트워크 그래프 나의 업무중심 그래프 copyright(c) 2010 by Saltlux 52 www.saltlux.com

[Product] 시맨틱 기반 지식 네트워크 분석 솔루션, STORM SSAMZIE 업무 긴밀성과 개체 관련성 : 특정 개체로 연결된 전체 네트워크 정보를 그래프 형태로 제공. 나의 네트워 크와 마찬가지로 해당 개체와 관련된 인물들과 관련된 다른 개체 정보를 볼 수 있으며, 각 사람 별 또는 각 개체 그룹 별로 기준을 달리 하여 다양한 형태의 그래프를 제공. 쌈지 네트워크 그래프 업무 중심성과 사용자 간 업무 긴밀성 - 특정 개체로 연결된 인물 네트워크 정보를 그래프 형태로 제공. - 이는 해당 개체에 대해 업무 중심성이 높은 인물과 그들과 업무 긴밀성이 높은 관련 인물들의 연결 정 보로서, 해당 개체에 대한 전문가와 그들로부터의 지식의 흐름을 보여줌. - 다수의 개체로 검색된 경우는 각 개체의 네트워크 정보를 같이 보여줌으로써, 서로 다른 지식 그룹 간 의 연결을 볼 수 있음. 전문가(Maven)와 연결자(Broker)발견 업무 중심성 네트워크 그래프 copyright(c) 2010 by Saltlux 53 www.saltlux.com

[Product] 시맨틱 기반 지식 네트워크 분석 솔루션, STORM SSAMZIE 관련 통계 - 특정 개체 또는 특정 인물과 관련된 통계 정보를 리스트와 그래프로 제공. - 통계 정보에는 검색 키워드 관련 인물 및 관련 개체, 검색 키워드 관련 업무 중심 인물 및 업무 긴밀도, 두 인물 간의 주요 관련 개체 등이 있음. - 제공되는 그래프는 통계 기준에 따라, 사용자 별 시간대, 사용자 별 개체, 시간대 별 개체, 기간 별 개체 로 구분됨. 주요 토픽 & 이메일 검색 결과 - 분석된 이메일 문서를 기반으로 관련된 토픽 정보를 제공. 토픽 정보는 전체 문서들에서 검색 키워드와 관련된 토픽 정보와 특정 사용자(또는 두 사용자 간)의 문서에서의 주요 토픽 정보가 있음. - 수집된 문서(이메일)에 대한 검색 결과 리스트와 주요 개체 키워드가 포함된 상세 보기를 제공 copyright(c) 2010 by Saltlux 54 www.saltlux.com