4 장질의언어 목차 4.1 소개 4.2 키워드기반질의 4.3 패턴정합 4.4 구조질의 4.5 질의프로토콜 4.6 연구동향및쟁점 4.7 참고문헌고찰 최신정보검색론 Chapter 4 1
4.1 소개 질의언어 : 검색모델에의존 - 연관문서를찾기위해문서의내용 ( 의미 ) 과 문서의구조 ( 텍스트의구문 ) 를이용 관련기술 - 동의어확장, 시소러스와스테밍을이용, 불용어제거 종류 - 키워드기반질의언어 : 단순단어와구, 불리안연산자 - 패턴정합 : 복잡한질의 - 텍스트구조에대한질의 : 특정텍스트모델에매우의존적 - 인터넷과 CD-ROM 출판사에서사용되는표준프로토콜 최신정보검색론 Chapter 4 2
4.2 키워드기반질의 직관적, 작성용이, 빠른순위화 -> 널리사용 종류 단일단어질의 문맥질의 불리안질의 자연언어 최신정보검색론 Chapter 4 3
4.2.1 단일단어질의 정의 알파벳은문자와분리자로나누어지며, 단어는분리자로둘러싸인문자열 - 질의단어들중어느하나라도포함하고있는문서들이검색 - 검색된문서는질의와의연관도에따라서정렬 - 문헌에서의단어출현빈도에대한두가지통계값 단어빈도 (tf) : 어떤단어가한문헌내에서몇번나타났는가 역문헌빈도 (idf) : 단어가출현한문헌수의역수 - 텍스트에서나타난정확한위치에대한정보 최신정보검색론 Chapter 4 4
4.2.2 문맥질의 문맥 ( 근접한다른언어 ) 에나타난단어검색 구 (Phrase) 단일단어질의의열 예 ) enhance retrieval -> enhance the retrieval 근접도 (proximity) 단어혹은구사이에허용되는최대거리값과함께제공 예 ) enhance retrieval within 4 enhance the power of retrieval 최신정보검색론 Chapter 4 5
4.2.3 불리안질의 질의구문트리 단말노드는기본질의, 내부노드는연산자 AND translation OR syntax syntactic 그림 4. 1 질의구문트리의예. 이트리는 translation 을포함하며, syntax 나 syntactic 중 어느하나라도포함하는모든문서를검색한다. 최신정보검색론 Chapter 4 6
OR 4.2.3 불리안질의 ( 계속 ) e1 연산자 e2 e1 혹은 e2 를만족시키는모든문서, 중복제거 AND e1 과 e2 둘다만족시키는모든문서 BUT e1을만족시키지만 e2를만족시키지않는모든문서 - 고전적인불리안시스템검색된문서에대한순위가제공되지않음 > 퍼지불리안, 확장불리안 : 순위제공 최신정보검색론 Chapter 4 7
4.2.4 자연언어 불리안질의 자연언어질의의단순한추상화 벡터모델 문헌과질의모두 용어 - 가중치 벡터로간주 질의벡터와유사한문헌벡터검색 최신정보검색론 Chapter 4 8
패턴의정의 4.3 패턴정합 어떤텍스트조각에서출현해야하는구문적자질 종류 - 단어 : 문자열, 기본패턴 - 접두사 : 단어의앞에나타나는문자열예 ) comput* : computer, computation, computing - 접미사 : 단어의마지막인문자열예 ) *ters : computers, testers, painters - 부분문자열 : 단어의내부에나타내는문자열예 ) *tal* : coastal, talk, metallic 최신정보검색론 Chapter 4 9
4.3 패턴정합 ( 계속 ) 범위 사전순서상에서두문자열사이에있는어떤문자열과도정합 예 ) head 와 hold 의범위 : hoax, hissing 오류허용 단어와오류임계값. ( 철자오류검색 ) 단어간의유사도모델 : Levenshtein 거리 ( 편집거리 ) 두문자열을같게만들기위한문자삽입, 삭제, 치환의최소수 예 ) flower 와 flo wer 의편집거리는 1 최신정보검색론 Chapter 4 10
4.3 패턴정합 ( 계속 ) 정규표현식 문자열과연산자들을이용한보다일반적인패턴 합집합 : e1 과 e2 가정규표현식이라면 (e1 e2) 는 e1 혹은 e2 와정합 연쇄 : (e1, e2) 는 e1 바로다음에 e2가인접 반복 : 만약 e가정규표현식이라면 (e*) 는 e가 0번혹은그이상연속 예 ) pro(blem tein) (s ε) (0 1 2)* (ε는빈문자열 ) -> problem02, proteins. 최신정보검색론 Chapter 4 11
4.3 패턴정합 ( 계속 ) 확장패턴 정규표현식의부분집합 문자클래스 미리정의된문자집합내의임의문자와정합 대소문자간의정합, 글자범위의사용, 여집합, 열거, 대표문자 조건표현 : 패턴의일부로나타나거나나타나지않아도좋은부분 텍스트내임의문자열과정합되는대표문자 예 ) flo 로시작하여 ers 로끝나는패턴 : flowers, flounders 패턴의일부는정확하게정합, 다른부분은오류포함도가능 최신정보검색론 Chapter 4 12
4.4 구조질의 a) 양식형태의고정구조 b) 하이퍼텍스트구조 c) 계층적구조 최신정보검색론 Chapter 4 13
4.4.1 고정구조 예 ) 전자우편 발신자, 날짜, 제목, 내용필드 - 필드 데이터베이스테이블의열에대응 관계모델 (relational model) 과연결 - 질의 SQL(Structured Query Language) 확장 Oracle, Sybase, SFQL (4.5 절참고 ) 최신정보검색론 Chapter 4 14
4.4.2 하이퍼텍스트 방향성그래프 (Directed Graph) 노드는텍스트 링크는노드사이혹은노드내어떤위치사이에존재하는연결 브라우징과웹탐색결합 WebGlimpse 전통적인항해와 현재노드의인접노드내용에의한검색기능제공 최신정보검색론 Chapter 4 15
4.4.3 계층적구조 [ 그림 4.3] 예 : 책의한페이지, 도식적인모형, 그림을검색하기위한파싱된질의 최신정보검색론 Chapter 4 16
4.4.3 계층적구조 ( 계속 ) 고정텍스트구조와하이퍼텍스트구조의중간 예 ) 서적, 논문, 법률문서, 구조화프로그램 계층적구조는하이퍼텍스트보다간단하기때문에빠른질의처리알고리즘을적용 종류 PAT 표현 겹침 (overlapped) 리스트 참조리스트 인접노드 트리정합 최신정보검색론 Chapter 4 17
4.4.3 계층적구조 ( 계속 ) 계층적모델의예 PAT 표현 텍스트구조에대한새로운색인없이텍스트인덱스를이용 겹침 (overlapped) 리스트 PAT 수식을발전 한영역내지역이서로겹치는것은허용 중첩 (nest) 되는것은불허 참조리스트 구조화텍스트의정의와탐색을공통의언어를사용하여통합 인접노드 구조는정적이고계층적이어서여러개의독립적인구조가같은텍스트에정의 트리정합 트리포함 (tree inclusion) 연산에의존 최신정보검색론 Chapter 4 18
4.5 질의프로토콜 텍스트데이터베이스검색 Z39.50 1995 년 ANSI 와 NISO 에서표준으로인정 클라이언트와호스트데이터베이스관리기사이에표준인터페이스를이용하여서지정보검색 서버와클라이언트가세션을연결하는방법, 정보를통신하고교환하는방법정의 초기에는서지정보 ( 기계가독형목록레코드 :MARC) 위주였으나점차다른형태의정보도검색할수있도록확장 최신정보검색론 Chapter 4 19
4.5 질의프로토콜 ( 계속 ) WAIS Wide Area Information Service ( 광역정보서비스 ) 1990 년대초반웹이유행하기전에많이사용되던프로토콜 WAIS 의목표는네트워크출판프로토콜과인터넷을통하여데이터베이스를검색 최신정보검색론 Chapter 4 20
4.5 질의프로토콜 ( 계속 ) CD-ROM 출판분야에서의질의프로토콜 CCL: Common Command Language( 공통명령언어 ) Z39.50에기반한 NISO의제안 (Z39.58 혹은 ISO8777) 19개의대화명령어정의, 고전적불리안모델에기반 CD-RDx(Compact Disk Read only Data exchange) 클라이언트-서버구조를사용하며대부분의플랫폼에구현 고정길이필드영상및음성을허용 CIA, NASA, GSA와같은미국국가기관이지원 최신정보검색론 Chapter 4 21
4.5 질의프로토콜 ( 계속 ) SFQL Structured Full-text Query Language ( 구조화전문질의언어 ) SQL 에기반, 클라이언트 - 서버구조사용 항공우주분야에서표준으로채택 문서는관계테이블에서하나의행으로표시, SGML 을이용해태깅 예 ) Select abstract from journal.papers where title contains "text search 불리안및논리연산, 시소러스, 근접연산, 대표문자, 반복등을표시하기위한특수문자지원 최신정보검색론 Chapter 4 22
4.6 연구동향및쟁점 Model Boolean Vector Probabilistic BBN( 신념망 ) Queries allowed word, set operation Words words words 표 4.1 질의유형과모델간의관계 시각적질의언어 시각메타포 (metaphore): 초보자의복잡한불리안질의작성에도움 사용자인터페이스의시각화 (10 장참조 ) 최신정보검색론 Chapter 4 23
4.6 연구동향및쟁점 ( 계속 ) [ 그림 4, 4] 질의유형과구조화방법 최신정보검색론 Chapter 4 24
4.7 참고문헌고찰 고전적질의언어 ( 단순패턴, 불리안모델, 고정구조 ) Fulcrum, Verity 등현재상용시스템및 Glimpse[540], Igrep[26] 과같은비상용시스템에기초 퍼지불리안모델 : [703] Levenshtein 거리 : [504] 와 [25] Soundex : [445], 서로다른유사모델의성능비교는 [595] 정규식에대한설명은 [373], 확장패턴의여러언어는 [837] 하이퍼텍스트에대한고전적소개 [181] WebGlimpse 시스템 [539] 계층적텍스트 [41] 최신정보검색론 Chapter 4 25