문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 1 1. 주제어선정 : 연습 대상논문 : 황명권, 공현장, 정관호, 김판구. OWL/RDF(S) 도메인온톨로지검색시스템설 계, 추계학술발표회논문집, vol.32, no.2 1.1. Document-oriented approach >> Count-references Method 1.1.1. 형태소분석 서울대학교지능형데이터베이스연구실에서공개배포중인, 웹에서분석가능한 JAVA기반의형태소분석기를이용해, 대상논문 OWL/RDF(S) 도메인온톨로지검색시스템설계 의형태소분석을하였다. (http://ids.snu.ac.kr/wiki/morpheme_analyzer_demo) < 표 1> 형태소분석결과 Log in / create account Home About IDS Members Research Publications Projects Achievements Lectures Mem. Only Morpheme Analyzer Demo From IDSlab Jump to: navigation, search 문장이나단락을입력하고버튼을누르면분석결과가나타납니다. 품사태깅정보를참고하세요. < 논문본문내용 > 1990 년 10 월팀버너스리에의해웹이개막된이후웹은질과양적으로눈부신성장을거쳐왔다. 중략 이는향후에연구해야할과제이다. < 분석시간 0.171seconds> 1990 년 {0/1990/NU/S+4/ 년 /UM/S}; 왔다 {5 5/ 오 /V V/S+5 6/ 았 /EP/S/TM+56/ 다 /EM/S/ED/NM};
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 2 {0/1990/NU/S+ +4/ 년 /NN/S}; 10월 {6/10/NU/S+8/ 월 /UM/S}; 팀 {10/ 팀 /NN/S}; 버너스 {12/ 버너스 /NR/S}; 리에 {16/ 리에 /NR/S}; 의해 {19/ 의해 /NN/S}; {19/ 의하 /AJ/S+21/ 여 /EM/S/CN/SU}; {19/ 의하 /AJ/S+21/ 여 /EM/S/ED/NM}; 웹이 {22/ 웹 /NN/S+23/ 이 /JO/S/CL/SB}; 개막된 {25/ 개막되 /VV/S+28/ ㄴ /EM/S/FM/DT}; 이후 {29/ 이후 /NN/S}; 웹은 {33/ 웹 /NN/S+34/ 은 /JO/S/CL/SB}; 질과 {36/ 질 /NN/S+37/ 과 /JO/S/CN}; 양적으로 {39/ 양적 /NN/S+41/ 으로 /JO/S/CL/AD}; {39/ 양 /NN/S+40/ 적 /NN/S/FM/DT+41/ 으로 /JO/S/CL/AD}; 눈부신 {44/ 눈부시 /AJ/S+47/ ㄴ /EM/S/FM/DT}; 성장을 {48/ 성장 /NN/S+50/ 을 /JO/S/CL/OB}; 거쳐 {52/ 거치 /VV/S+54/ 어 /EM/S/CN/SU}; {5 5/ 오 /V V/S+5 6/ 았 /EP/S/TM+56/ 다 /EM/S/CN/DP}; {57/./SY/S}; 1997 년 {59/1997/NU/S+63/ 년 /UM/S}; {59/1997/NU/S+ +63/ 년 /NN/S}; W3C {66/W3C/NR/S}; World {70/WORLD/NR/S}; Wide {76/WIDE/NR/S}; Web {81/WEB/NR/S}; Consortium {85/CONSORTIUM/NR/S}; 최초로 {99/ 최초 /NN/S+101/ 로 /JO/S/CL/AD}; RDF {104/RDF/NR/S}; Resource {108/RESOURCE/NR/S}; Descriptio {117/Descriptio/SY/S}; Framework {129/FRAMEWORK/NR/S}; 모델과 {140/ 모델 /NN/S+142/ 과 /JO/S/CN}; 구문에 {144/ 구문 /NN/S+146/ 에 /JO/S/CL/AD}; 하략 1.1.2. 용어정제형태소분석결과추출된, 명사및복합명사형태의단어를대상으로, 작성자의주관에따라수작업으로불용어, 단순고빈도어를제거한후, 어간 어근형태로변환하고띄어쓰기없이복합명사를결합시키는용어정제작업을하였다. 검색 ˇ 시스템 검색시스템 1.1.3. KrKwic 프로그램을이용한내용분석 > 단어빈도 (TF) 분석 KrKwic : 컴퓨터내용분석을위한소프트웨어중, 심리학분야에서대중적으로사용된 LIWC 프로그램을변형한프로그램이며, 사회네트워크적알고리즘에기반한 Fulltext 소프트웨어를한국어메시지분석을위하여변형한프로그램 (http://www.hanpark.net/board_read.asp?catalogid=hanpark&language=ko&no=50433&boa rdcode=ko_q1w2e3r4_class&go=&field=&keyword=&page=1) 박한우, Loet Leydesdorff, 한국어의내용분석을위한 KrKwic 프로그램의이해와적용 : Daum.net 에 서제공된지역혁신에관한뉴스를대상으로, Journal of the Korean Data Analysis Society, Vol 6, No 5, 2004. 12, pp 1377-1387
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 3 < 표 2> 대상논문단어빈도분석결과 빈도 WORD 빈도 WORD 빈도 WORD 44 온톨로지 2 RANKINGMODULE 1 QUEUE 24 도메인 2 RESNIK 1 REPOSITORY 15 워드넷 2 RETRIEVALMODULE 1 RESOURCEDESCRIPTIONFRAMEW 12 RDF 2 W3C 1 개념 12 검색시스템 2 검색시스템구조 1 개념매칭기준 11 JACCARD 2 대표개념 1 국제표준 10 OWL 2 도메인분류모듈 1 랭킹정보 9 도메인온톨로지 2 매칭개념 1 반의어 8 색인온톨로지 2 상위어 1 사용자중심 8 크롤러 2 어휘 1 상위개념 7 완전성 2 온톨로지구축도구 1 색인 7 유사도측정수식 2 온톨로지언어 1 속성 6 검색모듈 2 웹 1 수식 6 랭킹모듈 2 인터페이스 1 웹페이지분석 6 분류모듈 2 재사용 1 유의어 5 개념분석 2 재사용성 1 의료정보 5 웹페이지 2 큐 1 인터넷비즈니스 4 유사도 2 링크문서 1 자바워드넷라이브러리 4 유사도측정 1 CRAWLER 1 전자상거래 4 인스턴스 1 DAML 1 정보검색 3 HTML파서 1 DOMAINCLASSIFYINGMODULE 1 지식공유 3 SYNSET 1 INDEX 1 지식관리 3 개념매칭 1 JAVAWORDNETLIBRARY 1 팀버너스리 3 계층구조 1 KAON 1 파서 3 동의어 1 OIL 1 프린스턴대학 3 시맨틱웹 1 OILED 1 하위어 3 온톨로지구축 1 ONTOLOGY 1 헤더분석 3 우선순위 1 ONTOLOGYLANGUAGE - - 3 저장소 1 PRINCETONUNIVERSITY - - 3 지식정보 1 PROTEGE - - 단어빈도분석결과, < 표 2> 와같이대상논문에서 4 번이상출현한용어를색인어로선정하였 다. 1.2. Request-Oriented Approach 대표어 관련어 하위어 상위어 온톨로지언어 온톨로지 OWL; RDF(S); Ontology; 도메인온톨로지개념정의 ; DAML+OIL 지식정보 ; 재사용성 ; Semantic network; 온톨로지구축도구시소러스 ; Thesaurus; 시맨틱웹 ; semantic web Protege; OILED; KAON 워드넷 ; WordNet OWL RDF(S) Jaccard 유사도 검색시스템 온톨로지언어 ; w3c; 매칭기준 ; 국제표준 워드넷 ; WordNet; Jaccard공식 ; 자질축소 온톨로지크롤러 ; ontology crawler; 도메인분류모듈 ; Domain classifying Module; 랭킹모듈 ; RankingModule; 검색모듈 ; RetrievalModule; < 표 3> 대상논문의개념어구조 - 온톨로지 동의어 헤더분석 ; HTML 파서 ; Rensik 방식 ; SYNSET; 대표개념 ; 용어계층구조 ; 상위어 ; 하위어 ; 동의어 유사도 ; 완전성 ; 온톨로지 ; 클러스터링 ; 자동분류 ; 문헌클러스터 온톨로지 ; 색인온톨로지
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 4 대상논문에서색인자의주관에따라, 대표어 ( 주제어 ) 5 개를선정하고, 각대표어의관련어, 하위어, 상위어를정리하여개념구조를작성하였다. 개념구조에서중복어와하위어를제외하여 색인어로선정하였다. Domain-Oriented 또는 User-Oriented approach 시, 해당학문분야의용어사전나개론서를참조하여주로쓰이는용어 개념을정리!! 1.3. 용어 (subject terms) 선정결과및용어통제 1.3.1. 용어선정결과비교 Document-Oriented Request-Oriented 용어통제 LCSH 국립중앙도서관주제명표목표 온톨로지 Ontologies (Information retrieval) 온톨로지 온톨로지 지식정보 knowledge sharing 지식표현 UT Classification 지식공유 재사용성 - - 도메인 - - - 워드넷 시소러스 Thesauri 시소러스 온톨로지언어 Ontologies (Information retrieval) 온톨로지언어 RDF(S) RDF (Document markup lanugage) RDF 스키마 RDF 개념정의 Semantics -- Data processing 개념정의 Semantic networks (Information Semantic network theory) 의미망 검색시스템 정보검색시스템 정보검색시스템 Information storage and retrieval NT 온라인데이터베이스정보검색 system 시스템 JACCARD Jaccard 유사도 유사도자질축소자동분류유사도측정문헌클러스터 인스턴스 클러스터링 완전성 - 유사도측정수식 - 개념분석 - Documnet Clustering Automatic Indexing Automatic classification 유사도측정 RT 유사도유사도측정법자동분류클러스터링 OWL OWL Document markup languages OWL 도메인온톨로지 도메인온톨로지 Domain-specific programming languages - 색인온톨로지 색인온톨로지 Automatic Indexing 색인 RT 색인사전 크롤러 온톨로지크롤러 - - 검색모듈 검색모듈 Information Retrieval Electronic information resource searching 정보검색시스템 NT 온라인데이터베이스정보검색시스템 랭킹모듈 랭킹모듈 순위부여알고리듬 분류모듈 도메인분류모듈 Automatic Indexing 색인 RT 색인사전 접근법에따라선정된주제어를비교심화학습?? 단일주제어뿐아니라, 세목수준의복합주제까지고려해볼것
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 5 1.3.2. 통제용어상세내용 1.3.2.1. 온톨로지 가 ) LCSH Term : Ontologies (Information retrieval) Broader Terms Data structures (Computer science) Notes: Work cat.: Fensel, D. Ontologies, 2001: p. 11 (An ontology is a formal, explicit, specification of a shared conceptualization) Encyclopedia of information science and technology, 2005: vol. 4, p. 2214 (In artificial intelligence, ontology is defined as a design of a conceptualization to be reused across multiple applications) Wikipedia, Aug. 31, 2005 (In information science, an ontology is the product of an attempt to formulate an exhaustive and rigorous conceptual schema about a domain. An ontology is typically a hierarchical data structure containing all the relevant entities and their relationships and rules within that domain) LC Control#: 2005006014 나 ) 국립중앙도서관 Term : 온톨로지 1.3.2.3. 재사용성 가 ) LCSH Term : knowledge sharing > Classification used for: Knowledge, Classification of Knowledge, Classification of Broader Terms Information organization Scope: Here are entered works on the organization of knowledge according to a systematic arrangement into topics or categories. LC Control#: 85026719 나 ) 국립중앙도서관 Term : 지식공유 1.3.2.2. 시소러스 가 ) LCSH Term : Thesauri Broader Terms Encyclopedias and dictionaries LC Control#: 85134827 나 ) 국립중앙도서관 Term : 시소러스 1.3.2.4. semantic network 가 ) LCSH Term : Semantic networks (Information theory)
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 6 used for: Semantic nets (Information theory) Semantic net (Information theory) Broader Terms Artificial intelligence Information theory Notes: Sci. cit. index. Subject index, 1989: v. 20, Col. 76752, under Semantic--nets/networks. Artific. intel. & expert sys. sourcebk. Dict. artific. intel. & robotics (A form of knowledge representation that formalizes objects and values as nodes, and connects the nodes with arcs or links that indicate relationships between the various nodes) Facts file dict. artific. intel. Encyc. artific. intel.: p. 1011+ (Networks or net) Work cat.: 92-202861: Semantic networks in artificial intelligence, c1992. LC Class: Q387.5 LC Control#: 92004914 나 ) LCSH Term : Semantics Scope: Use as a topical subdivision under individual languages and groups of languages. LC Control#: 2001008780 나 ) 국립중앙도서관 Term : RDF 스키마 1.3.2.6. OWL 가 ) LCSH Term : 없음나 ) 국립중앙도서관 Term : OWL 다 ) 국립중앙도서관 Term : 의미망 1.3.2.7. 온톨로지언어 가 ) LCSH Corp. : Ontologies (Information retrieval) 1.3.2.5. RDF(S) 가 ) LCSH Term : RDF (Document markup language) used for: Resources Description Framework (Document markup language) Resources Description Framework (Document markup language) Broader Terms Document markup languages Notes: Resources Description Framework WWW Site, 8 Sept. 2003 (a general framework for how to describe any internet resource and its content) Work cat.: Practical RDF, c2003: p. 4 of cover (Resources Description Framework (RDF) is a structure for describing and interchanging metadata on the Web) LC Control#: 2003010124 Broader Terms Data structures (Computer science) Notes: Work cat.: Fensel, D. Ontologies, 2001: p. 11 (An ontology is a formal, explicit, specification of a shared conceptualization) Encyclopedia of information science and technology, 2005: vol. 4, p. 2214 (In artificial intelligence, ontology is defined as a design of a conceptualization to be reused across multiple applications) Wikipedia, Aug. 31, 2005 (In information science, an ontology is the product of an attempt to formulate an exhaustive and rigorous conceptual schema about a domain. An ontology is typically a hierarchical data structure containing all the relevant entities and their relationships and rules within that domain) LC Control#: 2005006014 나 ) 국립중앙도서관 Term : 온톨로지언어
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 7 organize [a] large collection of retrieval results, grouping together documents that belongs [sic] to the same topic in order to facilitate [a] user's browsing of retrieval results) LC Control#: 2007004888 나 ) 국립중앙도서관 Term : 유사도측정 1.3.2.8. WordNet 가 ) LCSH Term : 없음 나 ) 국립중앙도서관 Term : 없음 1.3.2.9. Jaccard 유사도 가 ) LCSH Term : Document clustering used for: Clustering, Document Broader Terms Cluster analysis Notes: An architecture for efficient document clustering and retrieval on a dynamic collection of newspaper texts, WWW, June 29, 2007 (Document clustering is a technique for identifying clusters or groups of documents which share some common features or have overlapping content; prior work has developed many different document clustering algorithms and techniques which have been shown to make a useful contribution to retrieval) Stottler Henke artificial intelligence glossary, WWW, June 29, 2007 (document clustering: with document clustering techniques, documents can be automatically grouped into meaningful classes so that users of a database of full-text documents can easily search through related documents; the techniques for document clustering generally involve some natural language processing along with a collection of statistical measures) Work cat.: Weiss, S.M. Lightweight document clustering, 2000: p. 1 (The object of document clustering is to group similar documents together, assigning them to the same implicit topic) Leman, K. Document clustering in reduced dimension vector space, WWW, June 29, 2007 (Document clustering is a popular tool for automatically organizing a large collection of texts; clustering is used to partition a set of data so objects in the same cluster are more similar to one another than they are to objects in other clusters; in the field of information retrieval (IR), document clustering is used to automatically 1.3.2.10. 정보검색시스템 가 ) LCSH Term : Information storage and retrieval systems used for: Mechanized information storage and retrieval systems Machine data storage and retrieval Information retrieval systems Information processing systems Data storage and retrieval systems Computer-based information systems Automation in documentation Automatic information retrieval Automatic data storage Data processing Broader Terms Electronic information resources Computer systems LC Control#: 85066163 나 ) 국립중앙도서관 Term : 정보검색시스템 1.3.2.11. 온톨로지크롤러 가 ) LCSH Term : 없음
문헌분류이론 13 주차 ( 김유영 / 09.05.18) p. 8 나 ) 국립중앙도서관 Term : 없음 1.3.2.12. 도메인분류모듈가 ) LCSH Term : Classifiers Scope: Use as a topical subdivision under individual languages and groups of languages. 1.3.2.13. 랭킹모듈가 ) LCSH Term : 없음나 ) 국립중앙도서관 Term : 순위부여알고리듬 1.3.2.14. 검색모듈 가 ) LCSH Term : Cross references (Information retrieval) used for: Syndetic structure (Information retrieval) References (Information retrieval) Cross references (Cataloging) Catalog cross references Broader Terms Information retrieval Notes: LC database, 9/6/95 (indexing and references) ALA gloss., 1983 (reference - in cataloging and indexing, a direction from one leading to another) LC Control#: 85034278 나 ) LCSH Term : Information retrieval - Standards LC Control#: 2004006044 이저작물은크리에이티브커먼즈코리아저작자표시 - 비영리 - 동일조건변경허락 2.0 대한민국라이선스에따라이용하실수있습니다.