슬라이드 1

Similar documents
Microsoft Word WP_8.Geospatial Ontology_2010_3.doc

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 하는 Tabulator와 Sindice에 기반한 데이터 매쉬업 및 브라우징 서비스인 sig.ma는 꼭 한번 경험해 봐야 할 대상이 다. 또한, SemaPlorer나 DBpedia Mobile 경우는 LOD

슬라이드 1

정보기술응용학회 발표

<4D F736F F F696E74202D20C0DAB7E130355FBFC2C5E7B7CEC1F6B1B8C3E02E707074>

PowerPoint 프레젠테이션


Semantic Search and Data Interoperability for GeoWeb

Microsoft PowerPoint - kimswld ppt

Semantic Search and Data Interoperability for GeoWeb

03-최신데이터

160322_ADOP 상품 소개서_1.0

슬라이드 1

목차 I. 검색엔진의 발전 II. 개인화 서비스 III. 검색 개인화 IV. 오픈베이스의 개인화 검색 V. 결론 검색의 진화와 개인화의 역할 KM&ECM CONFERENCE

00-CourseSyllabus

¸ð¹ÙÀÏÇÖµµÅ¥

Microsoft Word WP_9.Linked Open Data_2010_3.doc

Microsoft Word - 정한민.doc

<C3D6C0E7C3B528BAB8B5B5C0DAB7E1292D322E687770>

문헌분류이론 13 주차 ( 김유영 / ) p. 2 {0/1990/NU/S+ +4/ 년 /NN/S}; 10월 {6/10/NU/S+8/ 월 /UM/S}; 팀 {10/ 팀 /NN/S}; 버너스 {12/ 버너스 /NR/S}; 리에 {16/ 리에 /NR/S}; 의

DW 개요.PDF

슬라이드 1

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

김기남_ATDC2016_160620_[키노트].key

Intra_DW_Ch4.PDF

Microsoft PowerPoint - MetadataandOntology.ppt

<4D F736F F F696E74202D20C0DAB7E130335FC1F6BDC4C1A4BAB8B8DEC5B8B5A5C0CCC5CD2E707074>

<4D F736F F F696E74202D F785FBCD2B0B3BCAD5FC8B8BBE7BCD2B0B320C6F7C7D42E BC8A3C8AF20B8F0B5E55D>

大学4年生の正社員内定要因に関する実証分析

SchoolNet튜토리얼.PDF

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

<C1A4BAB8BBEABEF720B9CEB0A3B9E9BCAD2DC3D6C1BE2E687770>

untitled

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

슬라이드 1

untitled

KD hwp

<4D F736F F F696E74202D E DB0FCB0E820BBE7BBF3BFA120C0C7C7D120B0FCB0E820B5A5C0CCC5CDBAA3C0CCBDBA20BCB3B0E8>

자궁내막증 진단과 추적에서의 혈액 표지자의 유용성

Portal_9iAS.ppt [읽기 전용]

Data Industry White Paper

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

ecorp-프로젝트제안서작성실무(양식3)

Microsoft PowerPoint - XP Style

(주)나우프로필의 이동형 대표 개편의 방향이 시민참여를 많이 하는 방향이라, 홈페이지 시안 이 매우 간편해져서 소통이 쉬워질 것 같다. 다만 웹보다 모바일 이용자가 지속적으로 급증하는 추세이므로 이에 적합한 구조가 되도록 보장해야 한다. 소셜미디어전략연구소 배운철 대표


<C1DFB7C2B1B8B5BFBFA120C0C7C7D120B1E2C6F7C0AFB5BF2E687770>

歯MW-1000AP_Manual_Kor_HJS.PDF

Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우

11월 2일자(다시).hwp

슬라이드 1

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

게시판과 같은 구조화되지 않은 텍스트를 대상으로 주제 분류 와 예상 답변을 제시하는 방식으로 그 뼈대는 일반적인 텍스트 기반 정보 검색(IR) 기법을 기반으로 하고 있다. 이는 정보 검색에 대한 가장 일반적인 분야로서 텍스트 분석, 자연어 처리, 기계 학습과 같은 분야

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

슬라이드 제목 없음

<313220BDC9C1D82DB0CBBBF620C5B0BFF6B5E520C8AEC0E5C0BB20C0CCBFEBC7D120BFC2C5E7B7CEC1F620C0DAB5BF20BBFDBCBA20BDC3BDBAC5DB20B0B3B9DF2E687770>

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

Slide 1

untitled

Microsoft Word - ijungbo1_13_02

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp.1-25 DOI: * An Analysis on Content

Microsoft PowerPoint - 27.pptx

Microsoft PowerPoint PLM Best Practice - Semantic Processing of Eng Doc in PLM Env - F [호환 모드]

03-1영역형( )

목 록( 目 錄 )

02-1기록도전( )

Voice Portal using Oracle 9i AS Wireless

Microsoft Word - IT기획시리즈.doc

Scopus 한국어이용가이드-3차수정

CRM Fair 2004

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

(......).hwp

인터넷 검색엔진

About

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

08SW

PowerPoint 프레젠테이션

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2


on ScienceDirect User Guide

Mstage.PDF

DBPIA-NURIMEDIA

의사소통장애(1~7)

2/21

untitled

5월전체 :7 PM 페이지14 NO.3 Acrobat PDFWriter 제 40회 발명의날 기념식 격려사 존경하는 발명인 여러분! 연구개발의 효율성을 높이고 중복투자도 방지할 것입니다. 우리는 지금 거센 도전에 직면해 있습니다. 뿐만 아니라 전국 26

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

No Slide Title

PowerPoint 프레젠테이션


Opinion Mining Platform & Case Studies

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

<C1F6B8AEC1A4BAB82DC3D6C1BEC0CEBCE E687770>

2013 <D55C><ACBD><C5F0><BC31><C11C>(<CD5C><C885>).pdf

R을 이용한 텍스트 감정분석

Microsoft Word - 황미녕

<C5D8BDBAC6AEBEF0BEEEC7D C1FD2E687770>

DIY 챗봇 - LangCon

Transcription:

2008 년 ebiz 연구회세미나 웹기반텍스트마이닝기술과사례 2008.09.18 발표자 : 이경일

1. 정보검색의도전 2. 검색의새로운시도 3. 기술과서비스현정보검색환경의문제와도전 2

Search 2.0 : 검색서비스의발전? 키워드검색세상을지나 분석과이해의세상이온다. 정보들의의미와상호관계를 밝히는서비스가핵심. 3

정보검색 : 무한의단위정보접근 천육백칠십만문서, 백육십칠만페이지의검색결과가우리에게무슨의미인가? 검색기술발전 무한대 정보의접근단가무료 부분들을모아도온전한 전체가되지못함 ( 에드워드윌슨, 통섭 ) 4

정보검색 : 이해하지못하고사용 주어진정보를점점 덜이해하고사용 (C.P. Snow) 정보의바닷속에빠져 지혜의빈곤에허덕 ( 에드워드윌슨 ) 5

정보검색 : 지식의파편화 왜냐하면 : 지식은빠르게파편화, 진정한 이해는더어려워짐. ( 로버트루번스타인 ) 6

정보검색 : 효율성이온전성을손상 쪼개서 나열하고 경로를 압축함 웹 : 지식의연결고리, 온전한지식생성의개방성과구조적가능성을보유 검색엔진 : 접근효율성 향상, 연결된고리를끊고, 지식을쪼개며, 경로를압축, 온전성을손상 쪼개진지식을한데모아도, 온전한전체가못됨 7

해답은있는가? 정보접근경쟁력 해석, 연결, 적용의경쟁력 과거 : 정보가힘 미래 : 엄청난정보를해석, 행동으로전환하는것이진정한힘 미래사회의핵심역량은개별 지식을통합, 연결, 기존지식에 적용하는능력 (Peter Drucker, 2004~2006) 드러커교수의마지막통찰 개별지식의통합과연결 8

검색서비스의미래는 조각난지식 (Fragmented Knowledge) 연결된지식 (Defragmented Knowledge) 지식의대통합 (The Unity of Knowledge) 검색엔진이압축하고, 쪼개놓은지식을 온전하게 재조직화하는서비스 우주의모든정보를연결하고그들의관계를이해할수있는환경을제공하는서비스 9

왜우리는 관계 에열광을하는가 10

연결된정보가주는통찰력 부토암살 유가상승, 금가상승, 세계주가하락, 달러하락 도대체왜?????? 국가지불불능 신용등급하락 세계경제악화 미대선 총선연기 이슬람유일핵보유 미국 견제 친미 지역정정불안 파키스탄 하버드유학 대통령 딸 베나지르부토 알리부토숙청 무샤라프 지도자 쿠데타 독재 정적 군부 강금 민주운동 대선변수 테러강경정책 테러성공 국제불안 이슬람세력확대 석유생산지위협증가 태러 미국의견제 반미 이슬람 이슬람극단단체 11

1. 정보검색의도전 2. 검색의새로운시도 3. 기술과서비스 국내외의검색 2.0 서비스사례 12

검색서비스의발전방향 3 세대검색과 Search 2.0 Technology Advancements Technology Advancements 3 세대검색 UI Enhancements Clustered Search - Vivisimo, Ask Intent-Driven Search - Yahoo Mindset Search for Meaning (A.I) - Hakia, Powerset Personalized Search - Collarity Social Search - Rollyo, Swicki Mash-up and UI Enhancements Preview Powered Search - Snap SearchMash Live.com 2 세대검색 Vertical Domain Vertical Domain 1 세대검색 키워드검색 랭킹 연결과통합 Job - SimplyHired.com Travel - Sidestep.com Health - Healthline.com Blogs - Technorati 13

해외사례 : 정보클러스터링 - 관련정보의군집 유사도기준으로검색결과및키워드군집 정보분포 / 관계의이해와관심정보집단에의접근성 ASK.COM VIVISIMO.COM CLUSTY.COM 14

국내사례 : 정보클러스터링 - 관련정보의군집 전자도서관, 학술정보검색서비스 Powered by [IN2] 15

국내사례 : 정보클러스터링 - 관련정보의군집 지능형특허검색, 침해가능한선행특허발견과분석 Powered by [IN2] 16

해외사례 : 의미분석을통한정보연결 정보의의미분석과의미구조인덱싱 (triple 추출 ) 사용자자연언어질의분석과의미인덱스검색 LEXXE.COM POWERSET.COM 17

국내사례 : 의미분석을통한정보연결 Powered by [IN2] 18

국내사례 : 의미분석을통한정보연결 의미메타데이터및온톨로지기반정보검색 교수학습 Powered by [IN2] 19

해외사례 : 토픽중심의정보연결 토픽중심의정보검색과시각화 Map 저장 Social Search Preview Summary Topic 관련 Topics 스폰서 Map KARTOO.COM 20

국내사례 : 토픽중심의정보연결 의미기반맞춤형정보제공 (Semantic Mining + RSS) Powered by [IN2] 21

해외사례 : 검색사용자의연결 검색결과에대한투표로검색품질향상 개인및그룹선호에따른검색랭킹조절 COLLARITY.COM SWICKI.COM 22

국내사례 : 검색사용자의연결 [IN2] 의검색결과투표 / 추천및군집 / 분류의개인화 Powered by [IN2] 23

해외사례 : Mash-up 과 UI 개선 AJAX 에기반해 UI 를개선, 편의성강화 Mash-Up 을통해검색기능을확장 SNAP.COM SEARCHMASH.COM 24

국내사례 : Mash-up 과 UI 개선 Interactive 한 UI 와 Mash-up 을통한정보확장 KISTI 검색 (OntoFrame 외 ) 25

1. 정보검색의도전 2. 검색의새로운시도 3. 기술의구현 시맨틱기반검색기술과구현방안 26

정보검색의정확률과재현률올리기 정확률 시맨틱 (semantic meta-data : semantic annotation, triple) Text Mining (IE, NE, Clustering, Classification) Human Computing, Collective Intelligence (user comment, evaluation, tag) Personalization, Intent Driven Ranking Search 2.0 Search 1.0 고품질형태소분석 랭킹기술 (Page Rank) 손맛 ( 지식인등 ) 유의어사전 ( 시소러스 ) 온톨로지 (Subsumption 리즈닝 ) Text Mining (Word Clustering) Meta-search, Mash-up 재현률 27

검색의진화 : 약한시맨틱을거쳐강한시맨틱으로 약한시맨틱 ( 정보마이닝 ) 강한시맨틱 ( 시맨틱웹기술 ) 정보추출, 개체명인식, 단어의의미모호성해소를시도하고, 정보군집, 분류, 요약등의정보관계도출문서로부터의미메타데이터 (RDF 등 ) 를추출, 생성하고의미표현체계 (Ontology) 를통해연역적추론가능 Modal Logic First Order Logic Logical Theory Is Disjoint Subclass of with Description Logic transitivity property DAML+OIL, OWL UML Conceptual Model RDF/S Is Subclass of Semantic Interoperability XTM Extended ER Thesaurus Has Narrower Meaning Than ER DB Schemas, XML Schema Structural Interoperability From less to more expressive Strong semantics Taxonomy Relational Model, XML weak semantics Is Sub-Classification of Syntactic Interoperability 28

지식의연결과약한시맨틱 : 정보마이닝 정보군집 The Web 정보분류 정보요약 모든정보는그들의공통된 특징 을파악함으로분석된다. 정보마이닝은정보의특징을추출하고, 이를통해다른정보와의관계를분석한다. 29

정보수집기질의분석기랭킹계산 검색기( 형태소분출인정보수집기약한시맨틱기반정보검색시스템 기존의키워드기반검색시스템 The The Web Web 키워색드추석) 기정보마이닝기반검색시스템 키워드인텍스 The The Web Web 형태소분석개체명인식키워드인텍스 특성추출기 특성색인기 색인기특성정보인텍스 질의분석기랭킹계산 검색기정보마이닝 ( 군집, 요약, 분류 ) 30

약한시맨틱 ( 정보마이닝중심 ) 현재는정보마이닝중심의약한시맨틱이적용된검색서비스의시대 특 징 Reasoning / Recommendation Relation / Meaning-based Search RDF / OWL / Semantic Metadata Meaning Extraction Word / Document Clustering Summarization / Classification Named Entity / Feature Extraction XML Weak Semantics Strong Semantics 특성 ( 키워드, 개체명, 테그 ) 추출 정보의구조와통계에기반 공기어분석, LSI/LSA 등 정보군집과분석 자동분류와요약 시연 31

지식의연결과강한시맨틱 한채연 27 세 여자 가정적인도대체바람둥이알사람수없 그냥는사람능력있는젊은사람남자 양성애자행복한사람 (???) (?) 사람이름나이성별키 ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) 167cm ( 배우자 / 애인 ) 이경일 임수전 ( 소속 ) 28세 26세 X 1:1 ( 자녀 ) 남자여자 공통된특징외에, 다른정보 183cm개체와의관계가매우중요 165cm ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) 시맨틱기술은정보간의제약조건과, 상관관계 분석 / 발견 정재훈 25 세 남자 180cm ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) X 여 : 남 솔트룩스 시맨틱웹기업 서울시강남구 O O 이혜원 4 세 여자 95cm ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) 쏘이더스 연예기획사 서울시강남구 32

정보수집기질의분석기랭킹계산 검색기( 형태소분출인정보수집기/ RDF 추출기강한시맨틱기반정보검색시스템 기존의키워드기반검색시스템 The The Web Web 키워색드추석) 기시맨틱기술기반검색시스템 키워드인텍스 The The Web Web 키워드인텍스 랭킹계산 Semantic The Web (RDF, RDFa) 형태소분석개체명/ 관계인식Triple 생성기 ( 및시맨틱어노테이션 ) Triple 색인기 색인기지식베이스 Triple 질의및추론기 질의분석기검색기Ontology, Rules 33

강한시맨틱 ( 시맨틱웹중심 ) 미래는시맨틱웹중심의강한시맨틱이적용된검색서비스의시대 특 징 Reasoning / Recommendation Semantic Network Analysis Ontology driven data-integration Semantic Metadata Extraction Word / Document Clustering Summarization / Classification Named Entity / Feature Extraction XML Weak Semantics Strong Semantics 의미메타데이터자동생성 (RDF, Semano, GRDDL) 대용량지식베이스에질의 온톨로지, 규칙기반추론 개인맞춤형정보추천 상황인지기반검색서비스 시연 34

OWLIM.COM 보이는검색아울림 아울림 : 세상의지식을아우르다. 아울림의비전 세상모든지식을연결하고, 그연관관계를밝히며, 인류에게통찰력을제공한다. 35

문제의식 1 : 숲을볼수없다. 수많은나무는보이는데숲이보이지않는다. 오늘, 도대체세상엔어떤일이? 인터넷세상은어떻게돌아가고있지? 경제는, 정치는, 스포츠는? 저뒷편엔분명중요한 것이많이있을텐데 36

문제의식 2 : 지식이파편화되어있다. 지식정보가파편화되어전체를이해하기힘들다. 쪼개서나열하고경로를압축함 연결을무시하고파편화되어숨겨지고 37

문제의식 2 : 지식이파편화되어있다. 흩어진정보의연관성을이해하기어려우며, 좀처럼숨겨진정보를찾기어렵다. 38

문제의식 3 : 키워드선정의어려움. 뭐가있는지모르기때문에질문할수없다. 오후내내원하는것을찾지못하고검색에매달려본사람이라 면, 원하는것을찾을수있는적합한단어들을생각해내는것 이그리쉽지않은일이라는것을알고있을것이다. 분명답이있다는것을알고있지만, 그것을찾기위한적합 한단어조합을생각해내기힘들다. 존바텔 (Jhon Batel), 구글스토리 닐포스트맨 : 우리가듣는대답은모두질문에대한답변이다. S. 토빈웹스터 : 정확한답을찾으려면우선적합한질문을해야한다. 39

시연 40

아울림의인프라 GRID Architecture 41

아울림 시즌 1 의 < 혁신성 > 오늘의세상이, 숲이보이는검색 숨겨진지식이보이는검색 진실을관점에따라다르게보는검색 시간의흐름과트랜드가보이는검색 변화하는정보생태계를관찰하고, 관련지식을지능적으로배달해주는서비스 42

찾기 의 3 가지의미 Finding Search Discovery 무엇을찾을지구체적으로알고있다. 어떤범위안에서대상을꼼꼼히살펴본다. 뭐가나올지구체적으로모르고있다. 성공 : 만족 ( 안심 ) 실패 : 분노 성공실패 : 만족 : 실망 성공실패 : 높은만족 : 작은실망 43

아울림의접근법 Owlim.com Google.com 인프라세미 - 그리드시스템클러스터링시스템 핵심기술시맨틱토픽랭크페이지랭크 저장방법트리플시맨틱인덱스역파일키워드인덱스 검색방법시맨틱검색 (Discovery) 키워드검색 (Search) 사업영역 Semantic Web, Web 3.0 The Web, Web 2.0 Database of Intention 웹콘텐트시맨틱DB 사용자쿼리, RF./ 개인화 DB 관점, 시간별토픽Net DB 웹콘텐트 URI, Link DB 사용자쿼리로그 DB 44

구글의 Page Rank Page Rank : 문서간의링크연결을기반으로보다많이참조되는문서의랭킹이높아지는모델 45 45

솔트룩스의토픽랭크 Topic Rank 생성절차는분석, 통계처리, 연관도측정, 네트워크구성으로나뉨. DOC 문서분석 solutions set types diophantine algorithms minimal systems linear equations strict construction systems constraints 어휘통계정보 compatibility inequations components nonstrict bounds 각어휘별연관도측정 natural Upper 토픽간의네트워크구성 Criteria numbers 46 46

개발예정서비스 : 트랜드분석 47

개발예정서비스 : 평판분석 쇠고기? 촛불집회? FTA? 미국? 이명박? 손석희? 소녀시대? SONY? 그랜저? 햅틱? Anycall SPHW2500? Show vs. T 48

개발예정서비스 : 네트워크연산 이명박 ~ 이건희 이건희 ~ 홍라희 부시 ~ 이명박 이경일 ~ 이명박 미국 ~ 베나지르부토 삼성 ~ LG FTA ~ 쇠고기 49

개발예정서비스 : UI 개선 50

개발예정서비스 : 토픽 51

개발예정서비스 : 개인관점가지기 보이는검색아울림 이제너만의관점을가져봐!! 우리모두는 < 관점 > 이다른데, 왜같은검색결과를가져야하지? 우파 : 좌파 반미 : 친미 젊은사람 : 나이든사람 남자 : 여자 한국인 : 외국인 그리고 나 : 다른사람 52

Knowledge Communication Company, Saltlux! 세상은쪼개진정보를연결, 분석, 조망할 수있는서비스를요구하고있습니다. 솔트룩스의사명은 세상모든사람들이자 유롭게지식소통하도록돕는것 입니다. 끊임없는기술개발을통해세상모든지식 의연관관계를밝혀가겠습니다. 53

감사합니다. 135-848 서울특별시강남구대치동 967 덕일빌딩 T 02-3402-0081 F 02-3402-0082 U www.saltlux.com 54