4장 질의 언어

Similar documents
1장.indd

Chap 6: Graphs

PHP & ASP

MySQL-.. 1

¾Ë·¹¸£±âÁöħ¼�1-ÃÖÁ¾

00목차

01....b

2007백서-001-특집

(291)본문7

Windows 8에서 BioStar 1 설치하기

Microsoft PowerPoint - Regular Expresssions.ppt

DBMS & SQL Server Installation Database Laboratory

Microsoft PowerPoint 웹 연동 기술.pptx

EA0015: 컴파일러

HLS(HTTP Live Streaming) 이용가이드 1. HLS 소개 Apple iphone, ipad, ipod의운영체제인 ios에서사용하는표준 HTTP 기반스트리밍프로토콜입니다. 2. HLS 지원대상 - 디바이스 : iphone/ipad/ipod - 운영체제 :

15 홍보담당관 (언론홍보담당) 김병호 ( 金 秉 鎬 ) 16 (행정담당) 박찬해 ( 朴 鑽 海 ) 예산담당관 17 (복지행정담당) 이혁재 ( 李 赫 在 ) 18 (보육담당) 주사 이영임 ( 李 泳 任 ) 기동근무해제. 19 (장애인담당) 박노혁 ( 朴 魯 爀 ) 기동

Microsoft PowerPoint - 27.pptx

untitled

<30352D30312D3120BFB5B9AEB0E8BEE0C0C720C0CCC7D82E687770>

歯mp3사용설명서

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

소만사 소개

Scopus 한국어이용가이드-3차수정

90

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

1. Windows 설치 (Client 설치 ) 원하는위치에다운받은발송클라이언트압축파일을해제합니다. Step 2. /conf/config.xml 파일수정 conf 폴더에서 config.xml 파일을텍스트에디터를이용하여 Open 합니다. config.xml 파일에서, 아

강의 개요

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

Cloud Friendly System Architecture

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

chap 5: Trees

쉽게 풀어쓴 C 프로그래밊

388

......

5장 SQL 언어 Part II

<C1A62038B0AD20B0ADC0C7B3EBC6AE2E687770>

11. 텍스트를위한 화일 DBLAB, SNU 텍스트를위한화일 u 텍스트데이타로구성된문서 (documents) 나텍스트필드 (text field) 를포함하고있는레코드검색에이용할수있는화일 텍스트 (text): 긴문자열로구성된데이타 ( 예 ) 학생의자기소개, 신문기사, 사전

Microsoft PowerPoint Python-DB

[Brochure] KOR_TunA

The Pocket Guide to TCP/IP Sockets: C Version

강의 개요

PowerPoint Presentation

160322_ADOP 상품 소개서_1.0

06장.리스트

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

JAVA PROGRAMMING 실습 08.다형성

목차 BUG 문법에맞지않는질의문수행시, 에러메시지에질의문의일부만보여주는문제를수정합니다... 3 BUG ROUND, TRUNC 함수에서 DATE 포맷 IW 를추가지원합니다... 5 BUG ROLLUP/CUBE 절을포함하는질의는 SUBQUE

PowerPoint 프레젠테이션

문서 템플릿

Microsoft PowerPoint - 10Àå.ppt

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

1. 기술배경 NFV는 Consortium of Service Provider들에의해서만들어졌다. 현재 Network Operation은규모가큰전용 Hardware appliances가계속해서증가하고있다. 새로운 Network Service를 Launching할때마다에

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion



Data structure: Assignment 1 Seung-Hoon Na October 1, Assignment 1 Binary search 주어진 정렬된 입력 파일이 있다고 가정하자. 단, 파일내의 숫자는 공백으로 구 분, file내에 숫자들은

슬라이드 1

Data structure: Assignment 3 Seung-Hoon Na December 14, 2018 레드 블랙 트리 (Red-Black Tree) 1 본 절에서는 레드 블랙 트리를 2-3트리 또는 2-3-4트리 대한 동등한 자료구조로 보고, 두 가지 유형의 레

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

Introduction to KoreaMed, Synapse, KAMJE Press and XMlink

untitled

02장.배열과 클래스

PowerPoint 프레젠테이션

PowerPoint Presentation

Chapter ...

JVM 메모리구조

PowerPoint Presentation

PowerPoint Presentation

2002년 2학기 자료구조

구축환경 OS : Windows 7 그외 OS 의경우교재 p26-40 참조 Windows 의다른버전은조금다르게나타날수있음 Browser : Google Chrome 다른브라우저를사용해도별차이없으나추후수업의모든과정은크롬사용 한

Chapter 4. LISTS

C# Programming Guide - Types

SQL

PowerPoint 프레젠테이션

Portal_9iAS.ppt [읽기 전용]

게시판 스팸 실시간 차단 시스템

Microsoft PowerPoint - 사본 - OAS09-사무자동화 기술(DB).ppt

Microsoft PowerPoint OECDiLibrary 매뉴얼_KERIS

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

Chapter 1

<4D F736F F F696E74202D E20B3D7C6AEBFF6C5A920C7C1B7CEB1D7B7A1B9D62E >

PowerPoint 프레젠테이션

Microsoft Word - ijungbo1_13_02

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

0. 들어가기 전

자궁내막증 진단과 추적에서의 혈액 표지자의 유용성

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

자연언어처리

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

MVVM 패턴의 이해

Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우

Observational Determinism for Concurrent Program Security

[로플랫]표준상품소개서_(1.042)

빅데이터분산컴퓨팅-5-수정

8 장데이터베이스 8.1 기본개념 - 데이터베이스 : 데이터를조직적으로구조화한집합 (cf. 엑셀파일 ) - 테이블 : 데이터의기록형식 (cf. 엑셀시트의첫줄 ) - 필드 : 같은종류의데이터 (cf. 엑셀시트의각칸 ) - 레코드 : 데이터내용 (cf. 엑셀시트의한줄 )

PowerPoint 프레젠테이션

on ScienceDirect User Guide

5장. JSP와 Servlet 프로그래밍을 위한 기본 문법(완성-0421).hwp

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Java Programing Environment

Transcription:

4 장질의언어 목차 4.1 소개 4.2 키워드기반질의 4.3 패턴정합 4.4 구조질의 4.5 질의프로토콜 4.6 연구동향및쟁점 4.7 참고문헌고찰 최신정보검색론 Chapter 4 1

4.1 소개 질의언어 : 검색모델에의존 - 연관문서를찾기위해문서의내용 ( 의미 ) 과 문서의구조 ( 텍스트의구문 ) 를이용 관련기술 - 동의어확장, 시소러스와스테밍을이용, 불용어제거 종류 - 키워드기반질의언어 : 단순단어와구, 불리안연산자 - 패턴정합 : 복잡한질의 - 텍스트구조에대한질의 : 특정텍스트모델에매우의존적 - 인터넷과 CD-ROM 출판사에서사용되는표준프로토콜 최신정보검색론 Chapter 4 2

4.2 키워드기반질의 직관적, 작성용이, 빠른순위화 -> 널리사용 종류 단일단어질의 문맥질의 불리안질의 자연언어 최신정보검색론 Chapter 4 3

4.2.1 단일단어질의 정의 알파벳은문자와분리자로나누어지며, 단어는분리자로둘러싸인문자열 - 질의단어들중어느하나라도포함하고있는문서들이검색 - 검색된문서는질의와의연관도에따라서정렬 - 문헌에서의단어출현빈도에대한두가지통계값 단어빈도 (tf) : 어떤단어가한문헌내에서몇번나타났는가 역문헌빈도 (idf) : 단어가출현한문헌수의역수 - 텍스트에서나타난정확한위치에대한정보 최신정보검색론 Chapter 4 4

4.2.2 문맥질의 문맥 ( 근접한다른언어 ) 에나타난단어검색 구 (Phrase) 단일단어질의의열 예 ) enhance retrieval -> enhance the retrieval 근접도 (proximity) 단어혹은구사이에허용되는최대거리값과함께제공 예 ) enhance retrieval within 4 enhance the power of retrieval 최신정보검색론 Chapter 4 5

4.2.3 불리안질의 질의구문트리 단말노드는기본질의, 내부노드는연산자 AND translation OR syntax syntactic 그림 4. 1 질의구문트리의예. 이트리는 translation 을포함하며, syntax 나 syntactic 중 어느하나라도포함하는모든문서를검색한다. 최신정보검색론 Chapter 4 6

OR 4.2.3 불리안질의 ( 계속 ) e1 연산자 e2 e1 혹은 e2 를만족시키는모든문서, 중복제거 AND e1 과 e2 둘다만족시키는모든문서 BUT e1을만족시키지만 e2를만족시키지않는모든문서 - 고전적인불리안시스템검색된문서에대한순위가제공되지않음 > 퍼지불리안, 확장불리안 : 순위제공 최신정보검색론 Chapter 4 7

4.2.4 자연언어 불리안질의 자연언어질의의단순한추상화 벡터모델 문헌과질의모두 용어 - 가중치 벡터로간주 질의벡터와유사한문헌벡터검색 최신정보검색론 Chapter 4 8

패턴의정의 4.3 패턴정합 어떤텍스트조각에서출현해야하는구문적자질 종류 - 단어 : 문자열, 기본패턴 - 접두사 : 단어의앞에나타나는문자열예 ) comput* : computer, computation, computing - 접미사 : 단어의마지막인문자열예 ) *ters : computers, testers, painters - 부분문자열 : 단어의내부에나타내는문자열예 ) *tal* : coastal, talk, metallic 최신정보검색론 Chapter 4 9

4.3 패턴정합 ( 계속 ) 범위 사전순서상에서두문자열사이에있는어떤문자열과도정합 예 ) head 와 hold 의범위 : hoax, hissing 오류허용 단어와오류임계값. ( 철자오류검색 ) 단어간의유사도모델 : Levenshtein 거리 ( 편집거리 ) 두문자열을같게만들기위한문자삽입, 삭제, 치환의최소수 예 ) flower 와 flo wer 의편집거리는 1 최신정보검색론 Chapter 4 10

4.3 패턴정합 ( 계속 ) 정규표현식 문자열과연산자들을이용한보다일반적인패턴 합집합 : e1 과 e2 가정규표현식이라면 (e1 e2) 는 e1 혹은 e2 와정합 연쇄 : (e1, e2) 는 e1 바로다음에 e2가인접 반복 : 만약 e가정규표현식이라면 (e*) 는 e가 0번혹은그이상연속 예 ) pro(blem tein) (s ε) (0 1 2)* (ε는빈문자열 ) -> problem02, proteins. 최신정보검색론 Chapter 4 11

4.3 패턴정합 ( 계속 ) 확장패턴 정규표현식의부분집합 문자클래스 미리정의된문자집합내의임의문자와정합 대소문자간의정합, 글자범위의사용, 여집합, 열거, 대표문자 조건표현 : 패턴의일부로나타나거나나타나지않아도좋은부분 텍스트내임의문자열과정합되는대표문자 예 ) flo 로시작하여 ers 로끝나는패턴 : flowers, flounders 패턴의일부는정확하게정합, 다른부분은오류포함도가능 최신정보검색론 Chapter 4 12

4.4 구조질의 a) 양식형태의고정구조 b) 하이퍼텍스트구조 c) 계층적구조 최신정보검색론 Chapter 4 13

4.4.1 고정구조 예 ) 전자우편 발신자, 날짜, 제목, 내용필드 - 필드 데이터베이스테이블의열에대응 관계모델 (relational model) 과연결 - 질의 SQL(Structured Query Language) 확장 Oracle, Sybase, SFQL (4.5 절참고 ) 최신정보검색론 Chapter 4 14

4.4.2 하이퍼텍스트 방향성그래프 (Directed Graph) 노드는텍스트 링크는노드사이혹은노드내어떤위치사이에존재하는연결 브라우징과웹탐색결합 WebGlimpse 전통적인항해와 현재노드의인접노드내용에의한검색기능제공 최신정보검색론 Chapter 4 15

4.4.3 계층적구조 [ 그림 4.3] 예 : 책의한페이지, 도식적인모형, 그림을검색하기위한파싱된질의 최신정보검색론 Chapter 4 16

4.4.3 계층적구조 ( 계속 ) 고정텍스트구조와하이퍼텍스트구조의중간 예 ) 서적, 논문, 법률문서, 구조화프로그램 계층적구조는하이퍼텍스트보다간단하기때문에빠른질의처리알고리즘을적용 종류 PAT 표현 겹침 (overlapped) 리스트 참조리스트 인접노드 트리정합 최신정보검색론 Chapter 4 17

4.4.3 계층적구조 ( 계속 ) 계층적모델의예 PAT 표현 텍스트구조에대한새로운색인없이텍스트인덱스를이용 겹침 (overlapped) 리스트 PAT 수식을발전 한영역내지역이서로겹치는것은허용 중첩 (nest) 되는것은불허 참조리스트 구조화텍스트의정의와탐색을공통의언어를사용하여통합 인접노드 구조는정적이고계층적이어서여러개의독립적인구조가같은텍스트에정의 트리정합 트리포함 (tree inclusion) 연산에의존 최신정보검색론 Chapter 4 18

4.5 질의프로토콜 텍스트데이터베이스검색 Z39.50 1995 년 ANSI 와 NISO 에서표준으로인정 클라이언트와호스트데이터베이스관리기사이에표준인터페이스를이용하여서지정보검색 서버와클라이언트가세션을연결하는방법, 정보를통신하고교환하는방법정의 초기에는서지정보 ( 기계가독형목록레코드 :MARC) 위주였으나점차다른형태의정보도검색할수있도록확장 최신정보검색론 Chapter 4 19

4.5 질의프로토콜 ( 계속 ) WAIS Wide Area Information Service ( 광역정보서비스 ) 1990 년대초반웹이유행하기전에많이사용되던프로토콜 WAIS 의목표는네트워크출판프로토콜과인터넷을통하여데이터베이스를검색 최신정보검색론 Chapter 4 20

4.5 질의프로토콜 ( 계속 ) CD-ROM 출판분야에서의질의프로토콜 CCL: Common Command Language( 공통명령언어 ) Z39.50에기반한 NISO의제안 (Z39.58 혹은 ISO8777) 19개의대화명령어정의, 고전적불리안모델에기반 CD-RDx(Compact Disk Read only Data exchange) 클라이언트-서버구조를사용하며대부분의플랫폼에구현 고정길이필드영상및음성을허용 CIA, NASA, GSA와같은미국국가기관이지원 최신정보검색론 Chapter 4 21

4.5 질의프로토콜 ( 계속 ) SFQL Structured Full-text Query Language ( 구조화전문질의언어 ) SQL 에기반, 클라이언트 - 서버구조사용 항공우주분야에서표준으로채택 문서는관계테이블에서하나의행으로표시, SGML 을이용해태깅 예 ) Select abstract from journal.papers where title contains "text search 불리안및논리연산, 시소러스, 근접연산, 대표문자, 반복등을표시하기위한특수문자지원 최신정보검색론 Chapter 4 22

4.6 연구동향및쟁점 Model Boolean Vector Probabilistic BBN( 신념망 ) Queries allowed word, set operation Words words words 표 4.1 질의유형과모델간의관계 시각적질의언어 시각메타포 (metaphore): 초보자의복잡한불리안질의작성에도움 사용자인터페이스의시각화 (10 장참조 ) 최신정보검색론 Chapter 4 23

4.6 연구동향및쟁점 ( 계속 ) [ 그림 4, 4] 질의유형과구조화방법 최신정보검색론 Chapter 4 24

4.7 참고문헌고찰 고전적질의언어 ( 단순패턴, 불리안모델, 고정구조 ) Fulcrum, Verity 등현재상용시스템및 Glimpse[540], Igrep[26] 과같은비상용시스템에기초 퍼지불리안모델 : [703] Levenshtein 거리 : [504] 와 [25] Soundex : [445], 서로다른유사모델의성능비교는 [595] 정규식에대한설명은 [373], 확장패턴의여러언어는 [837] 하이퍼텍스트에대한고전적소개 [181] WebGlimpse 시스템 [539] 계층적텍스트 [41] 최신정보검색론 Chapter 4 25