Google Inc. is an American public corporation, earning revenue from advertising related to its Internet search, , online m

Similar documents
DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

김기남_ATDC2016_160620_[키노트].key

27 2, * ** 3, 3,. B ,.,,,. 3,.,,,,..,. :,, : 2009/09/03 : 2009/09/21 : 2009/09/30 * ICAD (Institute for Children Ability

°í¼®ÁÖ Ãâ·Â

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

09권오설_ok.hwp

À±½Â¿í Ãâ·Â

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

10김묘선

09오충원(613~623)

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Microsoft PowerPoint - XP Style

歯3이화진

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

#Ȳ¿ë¼®

45-51 ¹Ú¼ø¸¸

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti


<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

CMS-내지(서진이)

±èÇö¿í Ãâ·Â

融合先验信息到三维重建 组会报 告[2]


Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: * A Study on Teache

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

about_by5

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

pdf 16..

UPMLOPEKAUWE.hwp

Chap 6: Graphs

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

- 1 -

DBPIA-NURIMEDIA

Output file

,.,..,....,, Abstract The importance of integrated design which tries to i

02이용배(239~253)ok

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

강의지침서 작성 양식

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

<31372DB9DABAB4C8A32E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

6.24-9년 6월

<31335FB1C7B0E6C7CABFDC2E687770>

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

정보기술응용학회 발표

0125_ 워크샵 발표자료_완성.key

04서종철fig.6(121~131)ok

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Ch 1 머신러닝 개요.pptx

2

Portal_9iAS.ppt [읽기 전용]

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

06_ÀÌÀçÈÆ¿Ü0926

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

Microsoft Word - KSR2014S042

04-다시_고속철도61~80p

~41-기술2-충적지반

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

<BED6C7C3BCD2BDBA5F4B5350BBFDBBEABCBA31C0E5312D32302E70312E504446>

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

제19권 제3호 Ⅰ. 문제제기 온라인을 활용한 뉴스 서비스 이용은 이제 더 이 상 새로운 일이 아니다. 뉴스 서비스는 이미 기존의 언론사들이 개설한 웹사이트를 통해 이루어지고 있으 며 기존의 종이신문과 방송을 제작하는 언론사들 외 에 온라인을 기반으로 하는 신생 언론사

노동경제논집 38권 4호 (전체).hwp

< FC3D6C1BEBCF6C1A45FB1E2B5B6B1B3B1B3C0B0B3EDC3D E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

<332EC0E5B3B2B0E62E687770>

,, (, 2010). (, 2007).,,, DMB, ,, (, 2010)., LG., (, 2010) (, ,, ) 3, 10, (, 2009).,,. (, 2010)., (, 2010). 11

½Éº´È¿ Ãâ·Â

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

05( ) CPLV12-04.hwp

44-4대지.07이영희532~

1-2-2하태수.hwp

Something that can be seen, touched or otherwise sensed

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

untitled


2 大 韓 政 治 學 會 報 ( 第 18 輯 1 號 ) 과의 소통부재 속에 여당과 국회도 무시한 일방적인 밀어붙이기식 국정운영을 보여주고 있다. 민주주의가 무엇인지 다양하게 논의될 수 있지만, 민주주의 운영에 필요한 최소한의 제도적 조건은 권력 행사에서 국가기관 사이의

<31325FB1E8B0E6BCBA2E687770>

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

11¹Ú´ö±Ô

Intro to Servlet, EJB, JSP, WS

인문사회과학기술융합학회

2: [9] 3 3: [9] 4 3 1, 3 (Seifert Surfaces) 3

DW 개요.PDF

大学4年生の正社員内定要因に関する実証分析

SchoolNet튜토리얼.PDF

Voice Portal using Oracle 9i AS Wireless

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

PowerPoint 프레젠테이션

퍼스널 토이의 조형적 특성에 관한 고찰

Transcription:

Mathematical Modeling Lecture Google Matrix and Its Modeling information retrieval Models 2009. 11. 9 Sang-Gu Lee, Duk-Sun Kim Sungkyunkwan University sglee@skku.edu

http://www.google.com Google Inc. is an American public corporation, earning revenue from advertising related to its Internet search, e-mail, online mapping, office productivity, social networking, and video sharing services as well as selling advertising-free versions of the same technologies. Google has also developed an open source web browser and a mobile operating system. The Google headquarters, the Googleplex, is located in Mountain View, California. As of March 31, 2009 (2009-03-31), the company has 19,786 full-time employees. The company is running thousands of servers worldwide, which process millions of search requests each day and about 1 petabyte of user-generated data every hour. A Google matrix is a particular stochastic matrix which is used by Google's PageRank algorithm. The matrix represents a graph with edges representing links between pages. The rank of each page can be generated iteratively from the Google matrix using the power method. However, in order for the power method to converge, the matrix must be stochastic, irreducible and aperiodic.

Vector Space Model Term by Document Matrix 사용자검색어 : 아기건강지도

Vector Space Model 사용자검색어 ( 아기건강지도 ) 에대하여 4 번문서가중요도가높음!

개선된문서검색시스템 Latent Semantic Indexing(LSI) Term by Document Matrix 에 Singular Value Decomposition 을이용 Non-negative Matrix Factorization(NMF) Web Search Engine SVD 의느린속도를극복하기위하여새롭게개발된방법 엄청나게증가한각종데이터에대하여빠른검색을할수있는새로운시스템의필요성이부각되기시작함

Web Search Engine 의구성 Index Module 인터넷으로부터자료를모아서데이터베이스에저장하는역할 ( 자동화된프로그램 (Bot) 이역할을수행 ) Query Module 네이버의자연어검색시스템같은사용자가주는 Query 를분석하는역할 Rank Module Index Module 로부터데이터베이스에저장된자료를이용하여다양한방법을통해중요도의순위를정하는역할

구글 (Google) 의검색시스템 Index Module Crawling + Indexing 병행 Ranking 계산을위하여구글행렬을만들어계산함 Query Module 단순구문분석방법을이용 ( 단어로부터추출하는방식 ) From Vector Space Model Rank Module PageRank

Google Matrix 와 PageRank Row Stochastic Matrix Google Matrix Hyperlink 행렬로부터구해진 Stochastic Matrix 검색엔진이보유한자체산출된중요도 PageRank Vector (Peron Vector) Row Stochastic Matrix Google Matrix

Google Matrix 와 PageRank 1 2 3 7 4 5 6

Google Matrix 와 PageRank Alpha 값으로 0.9 를할당하여계산 1 2 3 7 4 5 6 중요도순서 : 4 2 3 5 6 1 7

구글행렬에서의 Damping Factor Alpha 값을어떻게정할것인가? A. N. Langville and C. D. Meyer (2005) Deeper inside PageRank, Internet Math., Vol. 1, pp. 335-380. Alpha 값의 Perturbation 을추적함으로서적절한 alpha 값을확인하였다. 즉, Alpha 가 1 에가까워질수록 condition number 는증가하고, 그결과값의오차도많이생기게된다. 따라서 Google 은 Alpha 값에대하여 Alpha=0.85 를채택하고있다.

다른고유벡터를적용한다면? Alpha 값으로 0.9 를할당하여계산 1 2 3 7 4 5 0.72 에해당하는다른 Eigenvector 를적용 6 중요도순서 : 4 2 3 1 7 5 6 Second Eigenvector 에대한관심이최근상승중 Taher H. Haveliwala and Sepandar D. Kamvar, The Second Eigenvalue of the Google Matrix, Google Technical Report, June, 2003

서울시 지하철 총 389개의 역 1호선에서 8호선으로 8개노선 분당선, 중앙선, 인천지하철과 연계 구글행렬로 분석 각 역을 노드로 판단 양방향으로 값을 가지는 그래프로 판단함

구글행렬로 생성 389x389 크기의 Large Sparse Matrix Mathematica를 통한 연산 Perron Vector를 찾기위하여 고유값을 구함 구해진 고유값으로부터 가장 큰 고유값에 해당하는 고유벡터를 산출 고유벡터를 계산해 줌

분석결과 I Pagerank 최고역 : 왕십리역, 종로 3 가역 해당두역은현재지하철노선도에서가장많은노선과교차하는환승역임 지하철역들의 Pagerank 지하철역들간의 Pagerank 임 분석결과 II Pagerank 가높은순위에들어가는역들 대체적으로여러노선이만나는환승역임을알수있음 만일자체산출중요도에지하철사용승객에대한비율이있었다면중요도가바뀌게됨 -> 현실적인사용모델을제시할수있음

분석결과 I 구글행렬의정보집적도 Pagerank 최고역 : 왕십리역, 종로 3 가역 해당두역은현재지하철노선도에서가장많은노선과교차하는환승역임 여러노선이만나는환승역을수치적계산만을통하여산출할수있음 Pagerank는그래프구조상에서집적도가높은노드를산출하는데효과적인방법을제시함 이러한방법은복잡도가높은다양한모델에활용될수있음. 분석결과 II Pagerank 가높은순위에들어가는역들 대체적으로여러노선이만나는환승역임을알수있음 만일자체산출중요도에지하철사용승객에대한비율이있었다면중요도가바뀌게됨 -> 현실적인사용모델을제시할수있음

Korean IT environments 한국내에검색서비스시장에적합한검색모델이제시되어야하며, 이를위하여현재까지검증된국제적검색모델인 PageRank 을한국내의검색시장의환경에알맞게적용해야한다. 서울신문 2008 년 4 월 18 일자해외인기사이트구글 유튜브 세컨드라이프 한국선안통하네

Policies 구글은최대한빨리구글을떠나게하는것이목표다. 사용자가구글이라는검색사이트에온이유는어떤정보를찾기위함이다. 따라서구글은사용자가구글에오래머물면실패한것으로보며, 최대한빨리원하는정보가있는문서로가게만드는일을목표로삼고있다. 사용자가구글사이트에서머무르는시간이짧을수록구글사이트에서광고를보는시간도줄어들고광고수익도줄어든다. 하지만원하는정보를빨리찾을수있기때문에이후에도사용자는계속구글을이용할것이고, 결과적으로구글사용빈도가늘어광고수익도늘것이라는장기적인믿음을가지고있다. 때문에아직도구글은다른사이트로가는검색관문 (portal) 으로역할을수행하고있다. ' 보내기철학 ' ' 붙잡기철학 ' 네이버의목표는사용자를최대한오래네이버에머무르게하는것이다. 오래머무르면서많은페이지를볼수록광고를더많이보게되고, 광고수익이늘어나기때문이다. 이를위해네이버는검색하려고온사람조차좀더오래네이버에머물수있도록노력한다. 검색엔진으로시작한네이버가다른사이트로보내주는포탈 (portal= 관문 ) 의성격을포기하고토탈서비스 (total service= 종합서비스 ) 사이트로변하고있는이유는사용자를붙잡으려는 ' 붙잡기철학 ' 을가지고있기때문이다.

New Model with Google Matrix 기존모델행렬 내부연결모델행렬 Naver, Daum, Paran 기존모델 내부연결모델

Ideas Kirkland(2005) 의 Google 행렬의 Perturbation 연구

New Model with Google Matrix 1 2 3 7 4 5 6 : Portal Site Area Main Idea : 기존의 S 를구하는것에 Portal Site 부분에대하여별도의연결성을추가하여계산을하고, 이를통한가중치를부여함으로서, 자체보유하고있는컨텐츠의노출도를증가시키는방안임 앞의예와동일

New Model with Google Matrix 1 2 3 7 4 5 6 : Portal Site Area 중요도순서 : 2 3 4 1 5 6 7 이전중요도순서 : 4 2 3 5 6 1 7

New Model with Google Matrix 1 2 3 7 중요도순서 : 2 3 4 1 5 6 7 4 5 6 : Portal Site Area 중요도순서 : 2 3 1 4 7 5 6 Alpha 와 Beta 값을적절하게조정하므로서자회사가보유한문서의중요도를조정하여노출할수있게되며, 이를통하여좀더개선된검색엔진을개발할수있다.

[Brin et al, 1998] S. Brin and L. Page (1998) The anatomy of a large-scale hypertextual web search engine, Comput. Networks ISDN Systems, 33 pp. 107 117. [Page et al, 1998] S. Brin & L. Page & R. Motwami and T. Winograd (1998) The PageRank Citation Ranking: Bringing Order to the Web, Technical report, Computer Science Department, Stanford University, Stanford, CA [Deerwester et al, 1990] S. Deerwester & S. Dumais & G. W. Furnas & T. K. Landauer and R. Harshman (1990) Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, Vol. 41 No. 6, pp.391-407. [Brand, 2006] M. Brand (2006) Fast Low-Rank Modifications of the Thin Singular Value Decomposition. Linear Algebra and Its Applications Vol. 415, pp. 20-30. [Meyer, 2000] C. D. Meyer (2000) Matrix Analysis and Applied Linear Algebra, SIAM, Philadelphia [Berry, 2001] M. W. Berry (2001) Computational Informatioan Retrieval, SIAM, Philadelphia [Zha et al, 1998] H. Zha & O. Marques and H. D. Simon (1998) A subspace-based model for information reteival with applications in latent semantic indexing, Lecture Nores Comp. Sci., Vol 1457, pp. 29-42 [Lee et al, 1999] D. D. Lee and H. Sebastian Seung (1999) Learning the parts of objects by non-negative matrix fractorization, Nature, Vol. 401, pp. 788-791 [Lee et al, 2001] D. D. Lee and H. Sebastian Seung (2001) Algorithms for the non-negative matrix factorization, Adv. Neur. Inform. Proc., Vol. 13, pp. 556-562 [Paatero et al, 1994] P. Paatero and U. Tapper (1994) Positive matrix factorization : a non-negative factor model with optimal utilization of error estimates of data values, Environmetrics, Vol 5, pp. 111-126 [Paatero et al, 1997] P. Paatero and U. Tapper (1997) Least squares formulation of robust non-negative factor analysis, Chemomet. Intell. Lab. Sys., Vol. 37, pp.23-35 [Kleinberg, 1999] Jon Kleinberg (1999), Authoritative sources in a hyperlinked environment, Journal ACM, Vol 46, pp. 604-632. [Langville, 2006] A. N. Langville and C. D. Meyer (2006) Google's PageRank and Beyond : The Science of Search Engine Rankings, Princeton University Press, Princeton, NJ [Langville, 2005] A. N. Langville and C. D. Meyer (2005) Deeper inside PageRank, Internet Math., Vol. 1, pp. 335-380. [Gross et al, 2003] Gross, Jonathan L., and Yellen, Jay (2003), Handbook of Graph Theory. CRC Press. ISBN 1-58488-090-2. [Leeuw, 2006] Jan de Leeuw, Principal component analysis of binary data by iterated singular value decomposition, Computational Statistics & Data Analysis 50 (2006) 21 39 [Haveliwala et al, 2003] Taher H. Haveliwala and Sepandar D. Kamvar, The Second Eigenvalue of the Google Matrix, Google Technical Report, June, 2003