09' Trend - 새로운검색을위한시도들 2008. 12. 모란소프트주식회사 조영환
Agenda 검색서비스의 History 검색을위한개발환경의변화 새로운검색을위한시도들 새로운 UI : 키워드맵과감성컬러링 컨텐츠가공 : 정보량측정, 주제어추출, 주제어평가 사람과정보 : 사용자프로파일, 메신저, 검색에이전트 새로운검색서비스의성공요건 Page 2
두개의곡선 Log Graph Sigmoid curve 기술 사람 Page 3
검색서비스 10 년 10 years anniversary 야후! 2005.3 다음 2007.2 Ask Jeeves 2007.4 야후! 코리아 2007.10 구글 2008.9 네이버 2009.6 Page 4
Ask.com Ask Jeeves 사람에의한질문형질의어작성 자연어분석기술강조 초기네이버의참조 Site 훌륭한서비스컨셉과 Site 디자인 But 5% MS (comscore 집계 ) Page 5
검색엔진유입률의변화 : 2002-2008 80 70 60 50 40 컨텐츠컨텐츠컨텐츠!!! 30 20 10 0 야후네이버엠파스다음기타 Page 6 2002 2003 2003 2003 2003 2004 2004 2004 2004 2005 2005 2005 2005 2006 2006 2006 2006 2007 2007 2007 2007 2008 2008 2008
검색전쟁 : 2002-2004 60 TV CF - Knowledge Naver, Yahoo, Empas TV CF - Freshness Daum TV CF - Local Yahoo TV CF - Ranking Empas 50 40 30 20 야후네이버엠파스다음기타 10 0 2002.4 2003.1 2003.2 2003.3 2003.4 2004.1 2004.2 2004.3 2004.4 2005.1 Page 7
검색전쟁 : 2002-2004 2001 년 : 디렉토리검색의한계노출 야후는자체적인검색솔루션이없었고, 웹검색도소프트와이즈에외주 엠파스는기존의서치솔루션엔진에서코난테크놀로지엔진으로교체작업 백과사전, 영어사전이통합검색결과에포함됨 -> 네이버의완승 2002 년 : 통합검색과 Q&A 네이버는포토앨범으로독보적인이미지 DB 보유, 지식인이라는 Q&A 서비스와검색의결합 다음이네이버의검색솔루션을이용한통합검색서비스오픈 2003 년 : 오버추어진출 다음이오버추어와제휴, TV 광고개시, 카페검색노출 네이버가컨텐츠독점개시 - 전문자료, 백과사전, 책본문등 2004 년 : 로컬검색의실패 야후의로컬서비스 " 거기 " 론칭및 TV 광고 네이버의지식 in 서비스강화및카페서비스개시 다음의검색엔진교체및다양한실험적서비스, 카페서비스에대한과신 Page 8
2004 년을추억하며 2단구성, 개인화된 Summary, 연관검색어 etc Smart But not a Content Page 9
검색광고시장 : 2003 ~ 검색광고비중이증가 인터넷광고비중이증가 Page 10
2008 년의검색시장 Page 11
2008 년의검색쿼리 Page 12
2008 년에는 검색엔진벤처들의투자유치실패 기술기반검색엔진인구글서비스가시장에서전혀인정받지못하는상황 엠파스와야후의지속적인약세, 다음은카페를내세워현상태유지 네이버의기술적, 개념적진전은없어보이는상태, 마케팅전략!!! Page 13
아마도 2009 년에는 컨텐츠, 어텐션분석의기반이마련될예정 Hadoop 이주요검색엔진의연구용용도로확대 다양한쿼리분석, 어텐션분석, 컨텐츠분석이시도될것으로예측 의미분야기술적인진보는기대하기어려울듯 감성분석에서새로운서비스가나올가능성은있지만, 효과는의문 서비스기획위주의경쟁이예상됨 기술적인진보는시간이필요하고컨텐츠의증가노력은식상해지고있는예상 과거의사례 : 네이버지식 in, 다음감성사전, 엠파스 Ranking, 야후거기, 네이트통 서비스의성공은 " 대부분의검색어 " 에노출될수있고, 검색결과화면의품질을향상시키는무엇. ( 예 : 검색어순위, 연관검색어, Reputation, 추천, 정보요약등 ) Page 14
Back to School : 정보검색의 Position 잠시, 학교로돌아가보면 정보검색 (Information Retrieval, IR) 은구조화되지않은데이터를다루는것 일반적으로 Text 이지만오디오, 이미지, 비디오, protein sequence 등 IR 시스템은데이터의통계적현상을다루는것 데이터의의미를이해하려고하지않음 검색과인접한분야들 RDBMS 는 Structured data 를다룸 NLP( 자연어처리, Natural Language Processing) 는 unstructured text 에대해서의미 (meaning, semantics) 를다룸 최근의 IR approach 는단어의의미를다루려는다양한시도가진행되고있는중 Page 15
Back to School : 검색기술의 Trends? [ CMU 강의교제 ] Page 16
Back to School : 검색의확장 Question Answering Cross Language IR Classification Information Extraction Summarization Topic Detection & Tracking Recommender Systems Page 17
Back to School : 검색의평가 학교에서의검색성능 0.9 컨텐츠인지도 0.8 0.7 System A precision 검색속도 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 System B System C 1 recall 시장점유율 Page 18
Back to School : 학교에는없는것 교수님은모르는검색기술 사용자 Behavior -> attention Attention 웹 Log 에모든 attention 이기록되어있음 검색쿼리, IP 주소, 시간등 Knowledge from Attention Collective Intelligence 지식은컨텐츠에만있지않고, 그컨텐츠를소비하는행동에도존재한다. Long tail 에대한대응 사람이일일이대응하기에는채산성이나오지않음 쿼리 1 개당 10 원수익발생 값싼컴퓨터로대량의계산을통해서만들수밖에 Page 19
검색 10 년의요약 현재는키워드검색시대, 검색 3종세트를기본 UI 로하고있다. 검색창, 검색버튼, 검색결과 디렉토리검색 ( 홈페이지찾기 ) 키워드검색 ( 정보찾기 ) 통합검색 ( 편집검색 ) 웹검색 정보검색 Page 20
컨텐츠업보로부터탈출? 아직은 Page 21
검색기술의진화 초기의검색기술 빠른속도의 String compare 를위해서역색인의개념이적용됨 웹의태동에따른검색기술의진화 인터넷의대중화에따른검색니즈발생, 대용량검색볼륨 거대메모리와 Web2.0 에따른검색기술의진화 통계적언어분석과머신러닝적용 Page 22
검색광고와새로운시도 - 컨텐츠분석, 어텐션분석 2000 년이후검색엔진의수익모델발명 Off-line yellow page ( 전화번호부 ) 의 Online 모델 키워드광고 소액광고주들에게고객을만날수있는가장효과적인매체로인정받음 검색키워드분석과부정클릭탐지등의기술이적용 컨텐츠광고 컨텐츠에매칭되는광고를제공하여, 컨텐츠 page view 를키워드광고플렛폼화 컨텐츠 PV 가검색쿼리보다 100 배이상의볼륨을가지므로컨텐츠분석이중요해짐 광고주평가고려 부정적인내용에는광고부착을회피하는등내용에기반한광고부착 좋은어텐션을많이받고있는페이지에광고부착 내용에기반한검색으로발전 검색에서추천으로, " 찾는다 " vs. " 알려준다 " 검색결과를문서제목과단어주변요약대신에문장을직접보여주는형식으로요약 Page 23
기술적인 Edge : Semantic for long tails 단어의의미에대한한계와극복 최근거대장비와거대컨텐츠의사용이가능하면서단어의의미에대한처리가가능해지고있는것같음 처리가가능해진분야 : mutual information, latent semantics, semantic chunking Matrix 의크기 = M * N ( 예 : 명칭 1000 만개 * 10 억개문서, 10 억개 Tag * 10 억개문서 ) 문장, 문서의의미분석과대화의도분석에는여전히한계가있음 Mutual Information 두단어가어느정도같이나타나는지의여부 Latent Semantics Analysis 단어에대해서수백개정도의 dimension 으로 mapping Semantic Chunking 의미있는사건, 상황등을찾아내는것 Semantic Tagging 초대용량의 matrix 연산을위해서거대컴퓨팅환경이필요 Page 24
새로운검색플랫폼이필요한이유.. 데이터가너무많고크다. Count 하는일이중요하다. 여러개의값싼컴퓨터에나눠처리할수밖에 Page 25
검색을위한개발환경의변화 거대장비의필요성 전체웹검색등대용량디스크장비가필요 사용자의검색로그에서 " 추천검색어 ", " 검색어자동완성 ", " 검색인기도 " 등의가공이필요 Machine Learning 기법도입 검색의관점변화 검색광고의생산성향상필요 컨텐츠의이해가필요... 이해? Semantic, Understanding? 단어의출현빈도측정수준 같이나타나는단어빈도측정 일부의미적분류사용 일부감성적표현사용 $758,000 $278,000 Page 26
Hadoop in Yahoo! Page 27
Why hadoop? 빈도수계산, 머신러닝, 추천시스템등을위한오픈소스하드웨어인프라역할 Page 28
새로운검색을위한시도들 새로운 UI 키워드맵 감성컬러링 컨텐츠가공 정보량측정 주제어추출 주제어평가 사람과정보 사용자프로파일 메신저 검색에이전트 새로운모습 컨텐츠가공 새로운플랫폼 대용량장비대용량컨텐츠, 어텐션 Page 29
새로운 UI Small window Touch UI Personal History 문자보다는그림이더어울리는 UI Snippet -> sentence or phrase 정보를아날로그적축약으로읽히도록화면구성 Page 30
새로운 UI 키워드맵 Tag Cloud 트랜디한정보에대한쉬운탐색이가능 관련태그를통해자유로운이동이가능 Tag 는 " 찾는다 " 보다는 " 알려준다 " 에적합 검색 3 종세트에서독립가능성 Small Window 에적합한 UI 김윤아부부직찍자우림김윤아-김형구부부 김윤아김형구스타파파라치연예인부부 티엔터테인먼트김윤아부부신라호텔다이너 스티홀손재익강호동-이효진부부임창정-김환숙부부신동엽-선혜윤부부김수로-이경화부부 노총각탈출가족연예인주영훈 - 이윤미웨딩마 치과거김윤아수요예술무대이쁜김윤아 Page 31
새로운 UI 감성컬러링 Sentiment 색깔과크기등에감성과정보를부여 문서를읽지않아도정보를종합판단할수있음 영화평점, 쇼핑몰고객 Collective intelligence for long tail objects, events 간접적인추천의효과를발휘 Page 32
컨텐츠가공 정보량측정 모든문서를찾아내야하는가? 모든문서를추천의대상으로두어야하는가? 정보량측정방식 한트 : 문서내의언어적특성 : 길이, 구어체, 맞춤법, 전문용어사용도, 흔하지않은 phrase 등 문서전체집합에대한객관적정보량측정은불가능 (?) 할수도있지만, Tag 혹은주제어단위의정보량측정은가능성이있음 Page 33
컨텐츠가공 주제어추출 주제어 (Tag) 는정보를찾는 3 번째방식 1) 분류명탐색 -> 2) 키워드탐색 -> 3) 주제어탐색 트랜디한정보에대한쉬운탐색이가능하고, 관련태그를통해자유로운이동이가능함 주제어의수준 1) 단어 -> 2) 명칭 -> 3) 이벤트 이벤트태그는 Semantic chunk 혹은 Phrase 의수준 ( 최진실 + 사망, 선플 + 운동, 랭스턴 + 런칭 ) 입력문서 자동태그추출기 시스템추천 TAG NLP 엔진 기존 UCC 학습 DB Social Tagging Auto Tagging Page 34
컨텐츠가공 주제어 (Tag) 평가 Online Reputation 특정사건혹은최근관심사등의평가 / 감성의부분만을관찰 평가패턴 / 감성패턴을 DB 화하고문서의내용과비교 대상 : 저자의감정, 저자의판단 평가패턴과주제어연결이기술적 / 언어적한계 감성사전 Page 35
사람과정보 사용자프로파일 Tag-based User profile 개인용장비 : 개인의읽은것, 쓴것에대한 History 를반영하여화면구성 Contents Profile : ( 읽은 / 쓴 ) 글에부착된 { (Tag, 평가, 중요도 ) } 를개인의프로파일로정의 문서와사람에대해서 Tag 기반의유사도연산이가능하게됨 정보와사람, 사람과사람의거리를계산할수있기때문에 Clustering, Classification, Recommand 가능 예 : 블로그서비스에서의태그 Page 36
사람과정보 메신저 메신저 중독성이강함 Search -> Communication -> Meeting ^^;; 사람과사람이만나는방법 수익모델과연동이쉽고모바일에적합 Page 37
사람과정보 검색에이전트 검색에이전트 사람을대신하여정보를수집, 필터링하는작은프로그램 가장쉬운예는경쟁사홈페이지전부긁어오기로부터 검색엔진들의 Open API 를통해정보를수집하고, 개인프로파일과연산 에이전트간의동맹, 정보공유가가능 Page 38
새로운검색서비스의성공요건 검색은페이지번호가 키워드 혹은 "Tag" 인책? 어떤키워드의페이지에는광고주가관심을가지고있다. 키워드로번호매김이가능하다면, 광고주와의연결이가능하지않을까? => 새로운검색기술의돌파구 키워드 광고 제목본문요약 New Windows 에적합한책 (?) 을만드는노력이필요 서비스의성공은 " 대부분의검색어 " 에노출될수있고, 검색결과화면의품질을향상시키는무엇. Longtail 쿼리에대해서도뭔가찾아내어야함 사용자의마음속에있던무엇이화면에나타나야함 Page 39
실패한기술과성공한기술 현재살아남은기술 ^^;; 성공한기술 : 도구 대용량, 분산저장시스템 다단계역색인구성과검색결과캐싱시스템 검색어자동완성, 검색키워드순위, 연관검색어추천 실패한기술 : 인공지능 개인화검색 : 개인화된검색순위, 개인화된검색컨텐츠, 개인화된검색 UI ( 야후개인화등 ) 직답형결과 : 질문에대한대답을제공 (" 서울의인구수는?") 검색결과분류 : 검색결과를자동분류하고분류명을부여 ( 와이즈넛, 비비시모등 ) Page 40
기술의완결성과 Entropy 사용자의판단이명확할수있는기술요소의위험성 새로운검색기술의가능성 낮은엔트로피의검색기술을높은엔트로피의검색대상으로 Shift 동영상, 이미지, 음성등대상 media 변환 오류가능성을낮추는의미처리기술의도입 통계적처리와언어분석을병행 엔트로피 : 정답셋의명확성 결과 Set 대용량, 분산저장시스템 다단계역색인 검색결과캐싱 검색어순위 높은엔트로피 연관검색어추천 검색어자동완성 검색결과분류 낮은엔트로피 개인화된검색순위 검색결과분류명칭 직답형결과 오류가능성 Page 41
기존이 Player 들과 New kids on the block 현재의 winner 들에게도운영, 개선하여야하는일이너무많음 10~20% URL 이매달바뀜 Spam 이지속적으로지능적으로바뀌고있음 검색쿼리가 time sensitive 해지는경향이있음 새로운 player 들, New kids on the block 새로운파라다임을가지고시장에진출 지금까지모든새로운 player 들은비료의신세가된듯 새로운진화요인들 New Window, 모바일과 Touch UI 비즈니스인텔리젼스, Opinion mining P2P, Chatting Online Reputation New window (touch UI) P2P, Chatting Page 42
결론 키워드검색의다음은 Tag 기반의무엇인가가될것같다. 검색컨텐츠와더불어사용자어텐션 DB 가중요한지식자원이되며 Hadoop 등대용량컨텐츠분석인프라가공급됨으로써 새로운 UI 와서비스플렛폼을탄생시킬것이다. Keyword search Color Cloud & Touch UI Page 43