2008 년 ebiz 연구회세미나 웹기반텍스트마이닝기술과사례 2008.09.18 발표자 : 이경일
1. 정보검색의도전 2. 검색의새로운시도 3. 기술과서비스현정보검색환경의문제와도전 2
Search 2.0 : 검색서비스의발전? 키워드검색세상을지나 분석과이해의세상이온다. 정보들의의미와상호관계를 밝히는서비스가핵심. 3
정보검색 : 무한의단위정보접근 천육백칠십만문서, 백육십칠만페이지의검색결과가우리에게무슨의미인가? 검색기술발전 무한대 정보의접근단가무료 부분들을모아도온전한 전체가되지못함 ( 에드워드윌슨, 통섭 ) 4
정보검색 : 이해하지못하고사용 주어진정보를점점 덜이해하고사용 (C.P. Snow) 정보의바닷속에빠져 지혜의빈곤에허덕 ( 에드워드윌슨 ) 5
정보검색 : 지식의파편화 왜냐하면 : 지식은빠르게파편화, 진정한 이해는더어려워짐. ( 로버트루번스타인 ) 6
정보검색 : 효율성이온전성을손상 쪼개서 나열하고 경로를 압축함 웹 : 지식의연결고리, 온전한지식생성의개방성과구조적가능성을보유 검색엔진 : 접근효율성 향상, 연결된고리를끊고, 지식을쪼개며, 경로를압축, 온전성을손상 쪼개진지식을한데모아도, 온전한전체가못됨 7
해답은있는가? 정보접근경쟁력 해석, 연결, 적용의경쟁력 과거 : 정보가힘 미래 : 엄청난정보를해석, 행동으로전환하는것이진정한힘 미래사회의핵심역량은개별 지식을통합, 연결, 기존지식에 적용하는능력 (Peter Drucker, 2004~2006) 드러커교수의마지막통찰 개별지식의통합과연결 8
검색서비스의미래는 조각난지식 (Fragmented Knowledge) 연결된지식 (Defragmented Knowledge) 지식의대통합 (The Unity of Knowledge) 검색엔진이압축하고, 쪼개놓은지식을 온전하게 재조직화하는서비스 우주의모든정보를연결하고그들의관계를이해할수있는환경을제공하는서비스 9
왜우리는 관계 에열광을하는가 10
연결된정보가주는통찰력 부토암살 유가상승, 금가상승, 세계주가하락, 달러하락 도대체왜?????? 국가지불불능 신용등급하락 세계경제악화 미대선 총선연기 이슬람유일핵보유 미국 견제 친미 지역정정불안 파키스탄 하버드유학 대통령 딸 베나지르부토 알리부토숙청 무샤라프 지도자 쿠데타 독재 정적 군부 강금 민주운동 대선변수 테러강경정책 테러성공 국제불안 이슬람세력확대 석유생산지위협증가 태러 미국의견제 반미 이슬람 이슬람극단단체 11
1. 정보검색의도전 2. 검색의새로운시도 3. 기술과서비스 국내외의검색 2.0 서비스사례 12
검색서비스의발전방향 3 세대검색과 Search 2.0 Technology Advancements Technology Advancements 3 세대검색 UI Enhancements Clustered Search - Vivisimo, Ask Intent-Driven Search - Yahoo Mindset Search for Meaning (A.I) - Hakia, Powerset Personalized Search - Collarity Social Search - Rollyo, Swicki Mash-up and UI Enhancements Preview Powered Search - Snap SearchMash Live.com 2 세대검색 Vertical Domain Vertical Domain 1 세대검색 키워드검색 랭킹 연결과통합 Job - SimplyHired.com Travel - Sidestep.com Health - Healthline.com Blogs - Technorati 13
해외사례 : 정보클러스터링 - 관련정보의군집 유사도기준으로검색결과및키워드군집 정보분포 / 관계의이해와관심정보집단에의접근성 ASK.COM VIVISIMO.COM CLUSTY.COM 14
국내사례 : 정보클러스터링 - 관련정보의군집 전자도서관, 학술정보검색서비스 Powered by [IN2] 15
국내사례 : 정보클러스터링 - 관련정보의군집 지능형특허검색, 침해가능한선행특허발견과분석 Powered by [IN2] 16
해외사례 : 의미분석을통한정보연결 정보의의미분석과의미구조인덱싱 (triple 추출 ) 사용자자연언어질의분석과의미인덱스검색 LEXXE.COM POWERSET.COM 17
국내사례 : 의미분석을통한정보연결 Powered by [IN2] 18
국내사례 : 의미분석을통한정보연결 의미메타데이터및온톨로지기반정보검색 교수학습 Powered by [IN2] 19
해외사례 : 토픽중심의정보연결 토픽중심의정보검색과시각화 Map 저장 Social Search Preview Summary Topic 관련 Topics 스폰서 Map KARTOO.COM 20
국내사례 : 토픽중심의정보연결 의미기반맞춤형정보제공 (Semantic Mining + RSS) Powered by [IN2] 21
해외사례 : 검색사용자의연결 검색결과에대한투표로검색품질향상 개인및그룹선호에따른검색랭킹조절 COLLARITY.COM SWICKI.COM 22
국내사례 : 검색사용자의연결 [IN2] 의검색결과투표 / 추천및군집 / 분류의개인화 Powered by [IN2] 23
해외사례 : Mash-up 과 UI 개선 AJAX 에기반해 UI 를개선, 편의성강화 Mash-Up 을통해검색기능을확장 SNAP.COM SEARCHMASH.COM 24
국내사례 : Mash-up 과 UI 개선 Interactive 한 UI 와 Mash-up 을통한정보확장 KISTI 검색 (OntoFrame 외 ) 25
1. 정보검색의도전 2. 검색의새로운시도 3. 기술의구현 시맨틱기반검색기술과구현방안 26
정보검색의정확률과재현률올리기 정확률 시맨틱 (semantic meta-data : semantic annotation, triple) Text Mining (IE, NE, Clustering, Classification) Human Computing, Collective Intelligence (user comment, evaluation, tag) Personalization, Intent Driven Ranking Search 2.0 Search 1.0 고품질형태소분석 랭킹기술 (Page Rank) 손맛 ( 지식인등 ) 유의어사전 ( 시소러스 ) 온톨로지 (Subsumption 리즈닝 ) Text Mining (Word Clustering) Meta-search, Mash-up 재현률 27
검색의진화 : 약한시맨틱을거쳐강한시맨틱으로 약한시맨틱 ( 정보마이닝 ) 강한시맨틱 ( 시맨틱웹기술 ) 정보추출, 개체명인식, 단어의의미모호성해소를시도하고, 정보군집, 분류, 요약등의정보관계도출문서로부터의미메타데이터 (RDF 등 ) 를추출, 생성하고의미표현체계 (Ontology) 를통해연역적추론가능 Modal Logic First Order Logic Logical Theory Is Disjoint Subclass of with Description Logic transitivity property DAML+OIL, OWL UML Conceptual Model RDF/S Is Subclass of Semantic Interoperability XTM Extended ER Thesaurus Has Narrower Meaning Than ER DB Schemas, XML Schema Structural Interoperability From less to more expressive Strong semantics Taxonomy Relational Model, XML weak semantics Is Sub-Classification of Syntactic Interoperability 28
지식의연결과약한시맨틱 : 정보마이닝 정보군집 The Web 정보분류 정보요약 모든정보는그들의공통된 특징 을파악함으로분석된다. 정보마이닝은정보의특징을추출하고, 이를통해다른정보와의관계를분석한다. 29
정보수집기질의분석기랭킹계산 검색기( 형태소분출인정보수집기약한시맨틱기반정보검색시스템 기존의키워드기반검색시스템 The The Web Web 키워색드추석) 기정보마이닝기반검색시스템 키워드인텍스 The The Web Web 형태소분석개체명인식키워드인텍스 특성추출기 특성색인기 색인기특성정보인텍스 질의분석기랭킹계산 검색기정보마이닝 ( 군집, 요약, 분류 ) 30
약한시맨틱 ( 정보마이닝중심 ) 현재는정보마이닝중심의약한시맨틱이적용된검색서비스의시대 특 징 Reasoning / Recommendation Relation / Meaning-based Search RDF / OWL / Semantic Metadata Meaning Extraction Word / Document Clustering Summarization / Classification Named Entity / Feature Extraction XML Weak Semantics Strong Semantics 특성 ( 키워드, 개체명, 테그 ) 추출 정보의구조와통계에기반 공기어분석, LSI/LSA 등 정보군집과분석 자동분류와요약 시연 31
지식의연결과강한시맨틱 한채연 27 세 여자 가정적인도대체바람둥이알사람수없 그냥는사람능력있는젊은사람남자 양성애자행복한사람 (???) (?) 사람이름나이성별키 ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) 167cm ( 배우자 / 애인 ) 이경일 임수전 ( 소속 ) 28세 26세 X 1:1 ( 자녀 ) 남자여자 공통된특징외에, 다른정보 183cm개체와의관계가매우중요 165cm ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) 시맨틱기술은정보간의제약조건과, 상관관계 분석 / 발견 정재훈 25 세 남자 180cm ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) X 여 : 남 솔트룩스 시맨틱웹기업 서울시강남구 O O 이혜원 4 세 여자 95cm ( 배우자 / 애인 ) ( 소속 ) ( 자녀 ) 쏘이더스 연예기획사 서울시강남구 32
정보수집기질의분석기랭킹계산 검색기( 형태소분출인정보수집기/ RDF 추출기강한시맨틱기반정보검색시스템 기존의키워드기반검색시스템 The The Web Web 키워색드추석) 기시맨틱기술기반검색시스템 키워드인텍스 The The Web Web 키워드인텍스 랭킹계산 Semantic The Web (RDF, RDFa) 형태소분석개체명/ 관계인식Triple 생성기 ( 및시맨틱어노테이션 ) Triple 색인기 색인기지식베이스 Triple 질의및추론기 질의분석기검색기Ontology, Rules 33
강한시맨틱 ( 시맨틱웹중심 ) 미래는시맨틱웹중심의강한시맨틱이적용된검색서비스의시대 특 징 Reasoning / Recommendation Semantic Network Analysis Ontology driven data-integration Semantic Metadata Extraction Word / Document Clustering Summarization / Classification Named Entity / Feature Extraction XML Weak Semantics Strong Semantics 의미메타데이터자동생성 (RDF, Semano, GRDDL) 대용량지식베이스에질의 온톨로지, 규칙기반추론 개인맞춤형정보추천 상황인지기반검색서비스 시연 34
OWLIM.COM 보이는검색아울림 아울림 : 세상의지식을아우르다. 아울림의비전 세상모든지식을연결하고, 그연관관계를밝히며, 인류에게통찰력을제공한다. 35
문제의식 1 : 숲을볼수없다. 수많은나무는보이는데숲이보이지않는다. 오늘, 도대체세상엔어떤일이? 인터넷세상은어떻게돌아가고있지? 경제는, 정치는, 스포츠는? 저뒷편엔분명중요한 것이많이있을텐데 36
문제의식 2 : 지식이파편화되어있다. 지식정보가파편화되어전체를이해하기힘들다. 쪼개서나열하고경로를압축함 연결을무시하고파편화되어숨겨지고 37
문제의식 2 : 지식이파편화되어있다. 흩어진정보의연관성을이해하기어려우며, 좀처럼숨겨진정보를찾기어렵다. 38
문제의식 3 : 키워드선정의어려움. 뭐가있는지모르기때문에질문할수없다. 오후내내원하는것을찾지못하고검색에매달려본사람이라 면, 원하는것을찾을수있는적합한단어들을생각해내는것 이그리쉽지않은일이라는것을알고있을것이다. 분명답이있다는것을알고있지만, 그것을찾기위한적합 한단어조합을생각해내기힘들다. 존바텔 (Jhon Batel), 구글스토리 닐포스트맨 : 우리가듣는대답은모두질문에대한답변이다. S. 토빈웹스터 : 정확한답을찾으려면우선적합한질문을해야한다. 39
시연 40
아울림의인프라 GRID Architecture 41
아울림 시즌 1 의 < 혁신성 > 오늘의세상이, 숲이보이는검색 숨겨진지식이보이는검색 진실을관점에따라다르게보는검색 시간의흐름과트랜드가보이는검색 변화하는정보생태계를관찰하고, 관련지식을지능적으로배달해주는서비스 42
찾기 의 3 가지의미 Finding Search Discovery 무엇을찾을지구체적으로알고있다. 어떤범위안에서대상을꼼꼼히살펴본다. 뭐가나올지구체적으로모르고있다. 성공 : 만족 ( 안심 ) 실패 : 분노 성공실패 : 만족 : 실망 성공실패 : 높은만족 : 작은실망 43
아울림의접근법 Owlim.com Google.com 인프라세미 - 그리드시스템클러스터링시스템 핵심기술시맨틱토픽랭크페이지랭크 저장방법트리플시맨틱인덱스역파일키워드인덱스 검색방법시맨틱검색 (Discovery) 키워드검색 (Search) 사업영역 Semantic Web, Web 3.0 The Web, Web 2.0 Database of Intention 웹콘텐트시맨틱DB 사용자쿼리, RF./ 개인화 DB 관점, 시간별토픽Net DB 웹콘텐트 URI, Link DB 사용자쿼리로그 DB 44
구글의 Page Rank Page Rank : 문서간의링크연결을기반으로보다많이참조되는문서의랭킹이높아지는모델 45 45
솔트룩스의토픽랭크 Topic Rank 생성절차는분석, 통계처리, 연관도측정, 네트워크구성으로나뉨. DOC 문서분석 solutions set types diophantine algorithms minimal systems linear equations strict construction systems constraints 어휘통계정보 compatibility inequations components nonstrict bounds 각어휘별연관도측정 natural Upper 토픽간의네트워크구성 Criteria numbers 46 46
개발예정서비스 : 트랜드분석 47
개발예정서비스 : 평판분석 쇠고기? 촛불집회? FTA? 미국? 이명박? 손석희? 소녀시대? SONY? 그랜저? 햅틱? Anycall SPHW2500? Show vs. T 48
개발예정서비스 : 네트워크연산 이명박 ~ 이건희 이건희 ~ 홍라희 부시 ~ 이명박 이경일 ~ 이명박 미국 ~ 베나지르부토 삼성 ~ LG FTA ~ 쇠고기 49
개발예정서비스 : UI 개선 50
개발예정서비스 : 토픽 51
개발예정서비스 : 개인관점가지기 보이는검색아울림 이제너만의관점을가져봐!! 우리모두는 < 관점 > 이다른데, 왜같은검색결과를가져야하지? 우파 : 좌파 반미 : 친미 젊은사람 : 나이든사람 남자 : 여자 한국인 : 외국인 그리고 나 : 다른사람 52
Knowledge Communication Company, Saltlux! 세상은쪼개진정보를연결, 분석, 조망할 수있는서비스를요구하고있습니다. 솔트룩스의사명은 세상모든사람들이자 유롭게지식소통하도록돕는것 입니다. 끊임없는기술개발을통해세상모든지식 의연관관계를밝혀가겠습니다. 53
감사합니다. 135-848 서울특별시강남구대치동 967 덕일빌딩 T 02-3402-0081 F 02-3402-0082 U www.saltlux.com 54