<30332DBEC8BACEBFB52E687770>

Similar documents
Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

<5B D DB8E9BFAABAB4B8AEBCBEC5CD2DBDC5B0E6B0E8B9D9C0CCB7AFBDBAB0FA5D20BDC5BAAFC1BE20B9D9C0CCB7AFBDBA20C1B6B1E2C5BDC1F620C0AFC0FCC0DA204

학점배분구조표(표 1-20)

Vol. 8 No. 43 PUBLIC HEALTH WEEKLY REPORT, KCDC 국내인플루엔자유전자데이터베이스 (KISED) 소개 Introduction of the Korea Influenza Sequence and Epitope Database (KISED)

¹ÙÀÌ¿À´Ï¾È½º03

PowerPoint Presentation

DBMS & SQL Server Installation Database Laboratory

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 : ~ ) 과제의최종보고서로제출합니다 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 (

발간등록번호

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (


2ÀåÀÛ¾÷

ICT À¶ÇÕÃÖÁ¾

REP - REPEATMASKER - 014, JULY 01 1 유전자예측프로그램 RepeatMasker 설치와운용 RepeatMasker Installation Manual 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 A

DBPIA-NURIMEDIA

1. 경영대학

1030 ¿©¼º»ý¸í12³â»ç ¼öÁ¤

ë–¼ì‹€ìž’ë£„ì§‚ì‹Ÿì€Ł210x297(77p).pdf


<C1DFB7C2B1B8B5BFBFA120C0C7C7D120B1E2C6F7C0AFB5BF2E687770>

IBS02(임팩트 바이블 스터디) 본문: 누가복음 10:25-37 주제: 나와 이웃의 관계 훈련내용: 주님의 사랑 실천하기 (봉사) 완벽한 이웃을 만나는 법? 완벽한 이웃이 되는 법! 우리는 이웃사랑을 실천할 때 때로는 나도 모르게 판단할 때가 있습니다. 예수님의 사랑

슬라이드 1

08ȸ»ç¼Ò°³-³ª³ë¹Í½º

02-³í´Ü1

Microsoft Word - ijungbo1_13_02

Scopus 한국어이용가이드-3차수정

108 KOREA INSTITUTE OF LOCAL FINANCE

88 KOREA INSTITUTE OF LOCAL FINANCE

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

CR hwp

제출문 한국연구재단이사장귀하 본보고서를정책연구용역과제인 학문분야별연구개발사업추 진체계수립을위한사전기획연구 의최종보고서 ( 초안 ) 로제출 합니다 년 6 월 한국연구재단 연구기관명 : 건국대학교산학협력단 연구책임자 : 박재민 공동연구원 : 엄미정 공동연구원 :

성능 감성 감성요구곡선 평균사용자가만족하는수준 성능요구곡선 성능보다감성가치에대한니즈가증대 시간 - 1 -


Observational Determinism for Concurrent Program Security

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

Cloud Friendly System Architecture

슬라이드 1

과제번호 RR [ 연구결과보고서 ] 대학교양기초교육에대한 종합적분석연구 연구책임자 : 손동현 ( 한국교양기초교육원 )


KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Microsoft Word - 2-9_2_.docx

Microsoft PowerPoint - chap01-C언어개요.pptx

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

NCS : ERP(SAP) ERP(SAP) SW IT,. SW IT 01., 05., 06., 08., 15., , 05. SW IT,,,, SAP HR,,, 4,,, SAP ABAP HR SCHEMA, BSP,

<C0FCB9AEB1E2BCFA20BFDCB1B9C0CEB7C220B3EBB5BFBDC3C0E520BAD0BCAE2E687770>

G hwp

- 2 -

USC HIPAA AUTHORIZATION FOR

<4D F736F F F696E74202D20B1E8BCB120B1B3BCF6B4D420B0ADBFACC0DAB7E1>

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

2006¹é¼Ł¹ß°£»ç1

(주)나우프로필의 이동형 대표 개편의 방향이 시민참여를 많이 하는 방향이라, 홈페이지 시안 이 매우 간편해져서 소통이 쉬워질 것 같다. 다만 웹보다 모바일 이용자가 지속적으로 급증하는 추세이므로 이에 적합한 구조가 되도록 보장해야 한다. 소셜미디어전략연구소 배운철 대표

Introduction to KoreaMed, Synapse, KAMJE Press and XMlink

2013_1_14_GM작물실용화사업단_소식지_내지_인쇄_앙코르130.indd

SW

1 SW

SANsymphony-V

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

Microsoft PowerPoint - 27.pptx

정보기술응용학회 발표

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

Drug Target (Study on computational method of discovering new target in drug discovery) :

ICT EXPERT INTERVIEW ITS/ ICT? 차량과 인프라 간 통신(V2I) Nomadic 단말 통신(V2P) 차량 간 통신(V2V) IVN IVN [ 1] ITS/ ICT TTA Journal Vol.160 l 9

2005. 경영혁신 종합실적 보고서 평 가 지 표 자율혁신 실행계획 (Action Plan) 1. 혁신리더십 (1) 조직의 비전 미션 및 지향가치 (1)-1 구체성(1.0) - 경영의 전반적 프로세스 혁신을 통 한 효율성 향상과 공기업 사명감 완수추구 - 고객제일주의의

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

PowerPoint 프레젠테이션

Windows 10 General Announcement v1.0-KO

DOI: /Xmlarchive ISBN: , XMLARCHIVE Chapter 1 Major International Indexing Database 제 1 장 / 주요국제색인데이터베이스 우리가학술지를

제 10 회 KOBIC 차세대생명정보학교육워크샵 생명정보실무를위한프로그램교육 (Linux, Python, MySQL, R) 일반프로그램교육 v 2012 년 7 월 30 일 ( 월 ) Linux 기초교육 Linux 쉘스크립트언어교육 v 2012 년 7 월 31 일 ( 화

PubMed NLM(National Library of Medical) 산하 NCBI에서제공하는 Database 전세계생의학 (Biomedical) 관련잡지의최신서지정보를검색할수있는생의학분야최고의데이터베이스생의학 : 의학, 간호학, 치의학, 수의학, 보건학등 PubMe

vm-웨어-01장

Microsoft Word - src.doc

CC hwp


이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

3월 온라인 교육

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

**09콘텐츠산업백서_1 2

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

CC hwp

Microsoft PowerPoint - 6.pptx

ITFGc03ÖÁ¾š

Appendix B

PowerPoint 프레젠테이션

A

160322_ADOP 상품 소개서_1.0

Level 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력

제4장

보고서커버양식 이곳에 타이틀이 ㅟ

Install stm32cubemx and st-link utility

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

제 1 절 복습 \usepackage{ g r a p h i c x }... \ i n c l u d e g r a p h i c s [ width =0.9\ textwidth ] { b e a r. j p g } (a) includegraphics 사용의일반적인유형


Print

백업_2월호_전속물건X

Transcription:

22 공업화학전망, 제 9 권제 5 호, 2006 기획특집 - 바이오인포메틱스 IT기반생명정보인프라구축안부영 한국과학기술정보연구원슈퍼컴퓨팅센터바이오인포매틱스팀 Construction of IT Based Bioinformatics Infrastructure Bu Young Ahn Bioinformatics Team, Supercomputing Center, KISTI Abstract: 국내 외적으로생명과학은인간이살아가는데있어직접적인영향을미치는중요한학문중하나이기때문에이에관한연구개발에는엄청난예산과인력이투자되고있다. 우리나라에서도 1994 년부터생명공학연구개발촉진을위하여범국가적인육성계획 [ 생명공학육성법제 4 조 ] 을수립하여현재제 3 단계 (2002~2007) 사업이추진중이다. 한국과학기술정보연구원 (KISTI) 에서도 IT 기반생명정보인프라구축 의중심기관으로서의역할에충실하고자생명정보관련데이터베이스구축및분석도구를개발하여웹사이트를통하여전문적인서비스를실시하고있다. 본고에서는 KISTI 에서구축하여제공하고있는생명정보콘텐트를중심으로 IT 측면에서바라본생명정보에관하여전반적으로살펴보도록하겠다. Keywords: bioinformatics, infrastructure, database, analysis tool 1. 서론 1) 생명과학기술이발전함에따라인류는질병이감소하고수명이연장되는등다양한혜택을누리고있지만아직도많은사람들은질병으로고통받고있으며, 이를극복하기위한노력은지속되고있다. 이러한노력의과정으로생명과학실험방법이발달하게되었고, 그결과산출되는생명정보데이터의양은기하급수적으로증가하고있다. 이런방대한양의생명정보데이터를분석하고분석된데이터에서인간복지에유용한정보를얻어내기위한생명정보학 (Bioinformatics) 이등장하게되었다. 특히 Human Genome Project 의결과로 30 억쌍의방대한인간유전체데이터가나왔고, 인간뿐만아니라동물, 식물, 미생물, 바이러스 주저자 (E-mail: ahnyoung@kisti.re.kr) 에이르기까지생물체가지닌모든유전정보의특성을분석, 규명하려는움직임으로앞으로더욱더많은데이터가산출될것이고이를분석하기위한기술또한계속발전할것으로예상된다. Bioinformatics 는생물학 (Biology) 을뜻하는 Bio 와정보학을뜻하는 Informatics (Information Science) 의합성어이다. 생명정보학 (Bioinformatics) 에관한정의는여러학자가다양하게언급하였지만간단하고쉽게말하면 생물실험실을컴퓨터상에옮겨놓은것 이라고할수있다. 좀더자세히말하면생물학, 화학, 물리학, 수학, 의학, 약학등을연구하는데있어컴퓨터학을접목시킨새로운복합학문분야로써대량의생명정보데이터베이스, 이데이터베이스를시뮬레이션할수있는분석도구 (SW) 와컴퓨터그래픽등과같은정보기술을이용하여대량의생명과학데이터를축적하고분석

Prospectives of Industrial Chemistry, Volume 9, No. 5, 2006 23 Figure 5. 핵산서열데이터베이스구축현황 (http:// www.ncbi.nlm.nih.gov/genbank). 하는계산생물학 (Computational Biology) 이라고말할수있다. 물론이모든것을운용할수있는고성능시스템 (HW) 과초고속네트워크환경은필수적이다. 이에 KISTI 바이오인포매틱스팀에서는생명과학연구개발지원을위하여 IT 기반생명정보인프라구축 이라는큰목적을가지고, 그기반이되는 IT 기술을개발하고이를바탕으로생명정보검색및분석에필요한시스템을개발하고있다. 또한, 연구자들이많이사용하는데이터베이스와분석도구를수집하여웹사이트 (http://www.ccbb.re.kr) 를통하여서비스하고있다. 2. 생명정보연구현황 1980 년부터시작된 DNA 염기서열결정방법 (sequencing method) 의개발로유전체정보에대한활발한연구가진행되었다. 그결과유전체정보는 1977 년바이러스 (bacteriophage) (5.4 Kb) 의전체염기서열을해독한이후, 1983 년에는 lambda (48.5 Kb), 1997 에는인프렌자 (Haemophilus influenzae)(1.8 Mb) 와 Yeast (12 Mb), 1998 에는선충류인 C. elegans (98 Mb) 의유전체정보가해독되었다. 더욱이 2001 년인간유전체사업을통해인간의유전자지도 (~3,000 Mb) 가완성된이후많은유전체정보에대한연구가진행되고있다. 이와같은유전체정보의해독을통해기존에는분석할수없었던많은정보를연구에활용할수있게되었으며, 이를이용한분석연구가활발히진행되고있다. 현재미국 NCBI 의 GenBank, 영국 EBI 의 EMBL (European Molecular Biology Laboratory nucleotide sequence database), 일본의 DDBJ (DNA Data Bank of Japan) 등에서는각국에서수집한유전체정보를데이터베이스로구축하여실시간미러로운영하고있다. 또한이러한유전체정보에대한검색과분석에대한다양한종류의전산학적분석도구가개발되고있다. 유전체, 단백체등생명정보관련데이터는세계적으로기하급수적으로늘어나고있으며, 그실례로 Figure 1 은 GenBank, EMBL, DDBJ 가상호협력하여구축한핵산서열데이터베이스의성장현황을볼수있는그래프이다. 2006 년 8 월현재 GenBank 서열데이터베이스의구축건수는 58,890,395 건 (release 154) 이다. 이렇게방대한유전체데이터베이스를분석할수있는대표적인분석도구로는 EBI EMBL 에서개발한 SRS (Sequence Retrieval System) 가있다. SRS 는생물학관련염기서열데이터베이스에손쉽게접근하기위해 1996 년부터 EMBL 에서개발하기시작하여 1999 년 LION Bioscience AG 로기술을이전하였다. 최근에는기존데이터베이스검색기능과더불어검색된데이터의분석기능을포함하여정보분석기능을강화하였으며 EBI 에서는 500 여개의데이터베이스및 150 여개의분석프로그램을서비스하고있다. SRS 는 Icarus 라는스크립트언어를사용하여자료의확장성에대비하고있으며, XML 문서지원기능이강화되었다 [8]. 또다른분석도구로는생물학관련데이터베이스에대하여통합검색및분석을위해

24 공업화학전망, 제 9 권제 5 호, 2006 Table 1. 해외주요바이오인포매틱스인프라기관과의비교 (2006 년 7 월 ) 임무 구분 KISTI CCBB NCBI EBI DDBJ 컴퓨터를활용한생물학적데이터와분석도구의수집, 관리, 저장, 제공및생명정보연구지원 컴퓨터를활용하여생물학및의학분야의방대한데이터를분석하기위한 DB 구축및분석도구개발 생물정보학분야연구, DB 구축, 관리, 제공, 데이터저장, 개발지원및생명공학관련산업체지원 GenBank 등생명정보 DB 미러및자체적인 DB 구축과연구개발 설립년도 2002년 1988년 1974년 1986년 조직 1개팀 3개 branch 17개 group 6개연구실 제공콘텐트 DB 및분석도구 (18개) DB 및분석도구 (27 개 ) DB 및분석도구 (54 개 ) DB 및분석도구 (13 개 ) 대표시스템 Bio-KRISTAL. IBS ENTREZ SRS SAKURA 기술지원방법 지원분야 교육방법 비고 이메일, 전화, 홈페이지, 출장 DB, 소프트웨어, 하드웨어세미나, 심포지엄, 출장교육한국 KISTI 산하생명정보학부서 이메일, 전화, 홈페이지 이메일, 전화, 홈페이지 이메일, 전화, 홈페이지 DB, 소프트웨어 DB, 소프트웨어 DB, 소프트웨어 세미나, 워크숍, 정기교육, 온라인교육미국 NIH 산하생물정보학기관 세미나, 워크숍, 온라인교육유럽 EMBL 산하생물정보기관 세미나, 워크숍, 온라인교육일본 CIB 산하생물정보학기관 미국 NIH NCBI 에서개발한 Entrez 가있다. Entrez 는검색결과를사용자들에게분류학적방법에의하여제공하고검색결과와관련된염색체및단일유전체에대한시각화기능을제공한다. 웹상에서 BLAST 를이용한질의서열에대한유사도검색하고, 검색된결과를자체적으로여과하고분석하여도식과텍스트를통하여정보를제공하고하나의자료에대한연관된자료를미리준비하여사용자가빠른시간안에관련자료를찾을수있도록지원하고있다 [9]. KISTI 바이오인포매틱스팀에서도우수한 IT 기술력을바탕으로생명정보검색및분석을하나의시스템에서수행할수있는 IBS (Intergrated Bioinforamtics System) 를개발하여보급하고있다. 선진국들은 SRS 나 Entrez 와같은시스템을국가차원에서개발하여적극활용하고있는데반하여, 우리나라에서는이와관련된연구개발이거의없는실정이었다. 이에 KISTI 바이오인포매틱스팀에서생명정보연 구에서필요로하는웹기반의대규모분석서비스인프라로서 IBS 를자체개발한것은매우뜻깊은일이라고할수있다. 2006 년 8 월현재 IBS 는 70 개의데이터베이스와 56 개의분석도구를통합하여서비스중이다. Table 1 은해외주요바이오인포매틱스인프라기관과 KISTI 바이오인포매틱스팀을비교 정리한것이다. 3. KISTI 생명정보콘텐트구축및서비스 바이오인포매틱스팀에서는생명정보관련데이터베이스구축및국내의유전체 / 단백체연구수행을위한검색및분석서비스를시작으로현재 GenBank, PDB, PIR, Swiss-Prot, REBASE 등을비롯한세계주요데이터베이스를국내에서이용할수있도록자체적으로구축함은물론 BLAST, FASTA, ClustalW 등다양한서열분석서비스를제공하여국내연구자들의연구수행에필요한광범위하고도

Prospectives of Industrial Chemistry, Volume 9, No. 5, 2006 25 Table 2. KISTI 생명정보 DB 구축현황 구분 유전체 단백체 DB 명 GenBank REBASE Ensembl PDB PIR Swiss-Prot CATH MHCBN DIP BIND GeneCards SCOP Pfam InterProScan PhiPsi 2Dgel vips dbsnp HLA-Ligand ProSeS ProSLP 년도 2005 년 12 월 2006 년 8 월비고 49,152,445 4,571 79,691,776 34,065 285,376 201,594 48,391 78,000 48,902 80,993 35,401 4,421 7,973 2,592,294 27,188 3,052,919 21,152,415 15,000 1,817,940 89,546 158,890,345 4,665 144,000,000 38,198 285,376 227,503 48,391 78,000 48,902 80,993 47,546 4,421 8,296 2,826,393 27,188 3,052,919 No service No service No service No service release 154 release 607 288 Gb (1 건 =2 Kb) 2006-08-15 release 50.2 release 2.34u1 release 20.0 release 12.1 생물자원담수어류외 20종 27,200 27,200 합계 158,448,410 209,696,336 75% 증가 전문적인콘텐트서비스를실시하고있다. 특히, 미국등여러선진국과비교하여국내의바이오인포매틱스연구를위한인적, 물적자원이부족한가운데고성능 Unix SMP, Linux 클러스터서버및워크스테이션을기반으로 KISTI 고유의색인기반단백질서열데이터검색및분류시스템과지속적인업데이트및유지보수를통해서신속하고정확한콘텐트를사용자들에게제공하고자노력하고있다. 더나아가서관련연구자들이네트워크를통해직접시스템을활용한연구를수행할수있도록지원체제를마련하고수행하고있다. 3.1. 생명정보데이터베이스생명정보데이터베이스는주별, 월별또는분기별등의다양한주기로업데이트작업이수행되거나배포판이발표된다. 생명정보데이 터베이스의최신성을유지하고사용자들에게보다더정확한데이터를제공하기위해서는꾸준한업데이트작업및유지보수작업을수행하여야한다. Table 2 는바이오인포매틱스홈페이지 (http://www.ccbb.re.kr) 를통하여현재구축되어있는생명정보데이터베이스현황이다. 지금부터는 GenBank 등몇개의데이터베이스에관하여소개하도록하겠다. 3.1.1. GenBank GenBank 는미국의 NCBI 에서운영하는대표적인유전자정보데이터베이스로서, 염기와단백질서열정보및주석 (annotation) 정보들이저장되어있다. 바이오인포매틱스팀에서는 KISTI 에서개발한 KRISTAL-2002 검색시스템을도입하여데이터베이스를구축함으로써국내생물학관련연구자들에게좀더효율적이고빠른검

26 공업화학전망, 제 9 권제 5 호, 2006 Figure 2. GenBank 검색화면. Figure 3. REBASE 검색화면. 색서비스를제공하고있다. 현재바이오인포매틱스홈페이지에서는 GenBank 배포판 154 를기준으로 58,890,395 건의유전자정보가구축되어서비스되고있다. 3.1.2. REBASE REBASE (The Restriction Enzyme Database) 는제한효소와그와관련된단백질의정보를모아놓은제한효소데이터베이스이다. 이데이터베이스에는제한효소인식부위와절단부위, 상업적활용도, 메틸화민감도, 결정정보와서열정보등이포함되어있으며, 바이오인포매틱스홈페이지에서는효소정보, 문헌정보, 제한효소를 공급하는회사정보별로주어진검색조건을이용하여제한효소단백질관련검색이가능하며, 2006 년 8 월현재 607 버전으로 4,665 건의데이터가구축되어서비스되고있다. 3.1.3. Ensembl Ensembl 은 EMBL-EBI 와 Sanger Institute 가합작하여유전체정보의자동처리와주석화 (annotation) 를위해만든시스템이다. Ensembl 에서는서열데이터정보를얻을수있고, 유전자예측및알려진유전자구조를예측하고유전체서열상에서의위치를알수있다. 유전체정보를제공하는다른웹자원과도

Prospectives of Industrial Chemistry, Volume 9, No. 5, 2006 27 Figure 4. Ensembl 검색화면. Figure 5. PDB 검색화면. 연동이되어있어통합검색이가능하며 2006 년 8 월현재 288 GB ( 약 144,000,000 건 ) 의방대한양의데이터베이스가구축되어서비스되고있다. 3.1.4. PDB PDB (Protein DataBase) 는 X-Ray 회절법과 NMR 실험으로부터나온실험데이터를기반으로하여단백질의정보와삼차원구조영상등을제공하는국제적인공공데이터베이스이다. CCBB 의 PDB 데이터베이스는기존에구축되어있는 RDBMS 에서벗어나, KISTI 의생물정보자료검색시스템인 Bio-KRISTAL 시스템내에구축되어빠르고효율적인검색을할수있도록서비스를제공하고있다. CCBB PDB 데이터베이스서비스에서는단순검색, ID/ 텍스트검색, 서열검색등의다양한검색방법을제공하며, FASTA 형식파일로서열관련검색도가능하며, 2006 년 8 월현재 38,198 건의데이터가구축되어서비스되고있다. 3.1.5. Swiss-Prot Swiss-Prot 은단백질의기능, 도메인구조나변이등의정보를제공하는데이터베이스이다. 바이오인포매틱스홈페이지를통하여서비스되고있는 Swiss-Prot 데이터베이스는기존에

28 공업화학전망, 제 9 권제 5 호, 2006 Figure 6. Swiss-Prot 검색화면. 구축되어있는 RDBMS 에서벗어나 KISTI 의 KRISTAL-2002 정보검색시스템을기반으로하여생물정보자료처리를위해개발된 Bio- KRISTAL 시스템을이용하여구축되어있다. All, keyword, entry name, access number, description, author 등의정보로검색할수있다. 2006 년 8 월현재 227,203 건의데이터가구축되어서비스되고있다. 3.2. 생명정보분석도구대량의생명정보를분석하기위해서는그데이터를시뮬레이션하고해석해내는분석도구가필요하다. KISTI 바이오인포매틱스홈페이지에서는 Table 3 과같이 BLAST, FASTA, ClustalW 등의다양한서열분석도구를제공하여국내연구자들의연구수행에필요한광범위하고도전문적인서비스를실시하고있다. 지금부터는 BLAST 등몇개의분석도구에관하여소개하도록하겠다. 3.2.1. BLAST BLAST (Basic Local Alignment Search Tool) 서열분석은서열의유사성과차이점을분석하여염기와아미노산수준에서서열간의구조적, 기능적및진화론적관련성을추론하기위한도구이다. 바이오인포매틱스팀에서는 116 노 Table 3. KISTI 생명정보분석도구현황 - BLAST BLASTN BLASTP BLASTX TBLASTN TBLASTX - FASTA - ClustalW - InterProScan 생명정보분석도구 - ProSeS - ProSLP - PhiPsi - Moleye - 2D-gel ViPS - GeneCards - SCOP - Pfam 드로구성된리눅스클러스터시스템환경하에서 SunGrid Engine 을활용한빠른검색속도와분석작업을수행할수있는 BLAST 서비스를제공하고있다. Table 4 는 BLAST 프로그램에관한요약이고, Figure 7 은 BLASTN 을실행시킨화면이다. 3.2.2. FASTA FASTA 프로그램은임의의서열과유사성을가진서열을서열데이터베이스로부터찾는강력한소프트웨어로서, 유사성검색에처음으로널리사용된프로그램이다. FASTA 는단백질서열들간의비교를위하여제작되었지만, 현재는염기서열들간의비교도가능한

Prospectives of Industrial Chemistry, Volume 9, No. 5, 2006 29 Table 4. BLAST 프로그램 프로그램질의서열데이터베이스내용 BLASTP 단백질단백질아미노산서열검색 BLASTN 염기 염기 핵산서열검색 BLASTX 번역된염기단백질 핵산서열을모든 reading frame에대하여번역후, 단백질서열 DB를대상으로검색 입력서열이단백질이고모든 reading frame으로전사되는염 TBLASTN 단백질 번역된염기 기데이터베이스서열중기능해석이없는코딩부위를찾는데유용 TBLASTX 번역된염기번역된염기 모든 6 frame을대상으로입력쿼리인염기서열의모든전사된 6 frame을비교함 Figure 7. BLASTN 실행화면. 데, 특히 TFASTA 의경우에는입력한단백질서열과염기서열데이터베이스간의비교도가능하다. 질의어와비교대상데이터베이스의관계에따라프로그램의종류는 fasta3, fastx3, fasty3, fastf3, fasts3, tfastx3, tfasty3 이있다. Table 5 는 FASTA 프로그램의용도를요약한것이고 Figure 8 은 FASTA 실행화면이다. 3.2.3. ClustalW ClustalW 는 1994 년 Julie D. Thompson 등에의해서개발된다중서열정렬프로그램으로서, 대상서열들간의유사성을모두비교한후에가장밀접한관계가있는서열들의쌍을대상으로정렬하고, 그후에거리상으로조금더떨어져있는관계의서열들을초기의정렬에 Table 5. FASTA 프로그램프로그램 용 도 FASTA 염기서열혹은단백질서열들간의유사성검색 TFASTA 입력한단백질서열과염기데이터베이스의서열을번역한후유사성검색 LFASTA 입력한단백질서열과염기데이터베이스의서열을번역한후유사성검색 PFASTA 두서열의부분유사성검색후부분서열정렬의결과를그림으로보여줌

30 공업화학전망, 제 9 권제 5 호, 2006 Figure 8. FASTA 실행화면. 첨가하는방법으로작업을수행한다. 일반적으로서열정렬은분석하고자하는서열들내에서어느위치가공통의조상서열로부터파생되어지고보존되어져왔는지를나타내며, 이두개의서열들이진화적인상관관계를공유하는것이확실해지면이서열들은서로상동성 (homology) 이있다고말한다. ClustalW 는 DNA 나단백질의전역다중정렬 (global multiple alignment) 에사용하는자동화된프로그램으로서, 선택된서열들사이의동일성과유사성을계산한후, 정리하여보여준다. 또한 ClustalW 프로그램의결과물은이후에계속되는계통발생학적분지도 (phylogenetic tree) 를작성하는기초데이터로활용되어대상서열들간의진화적인상관관계도밝혀낼수있다. 이밖에도다중정렬의결과는단백질의구조와기능을밝혀내고새로운단백질패밀리를구성하는데에있어서도중요한역할을한다. Figure 9 는 ClustalW 를실행시킨화면이다. 3.2.4. GeneCards GeneCards 는이스라엘의 Weizmann 연구소에서개발, 서비스하는것으로, 인간의질병에관련된유전자데이터베이스이다. 이것은웹기반의생물의학적정보검색의효율성을높 Figure 9. ClustalW 실행화면.

Prospectives of Industrial Chemistry, Volume 9, No. 5, 2006 31 Figure 10. GeneCards 설치과정. Figure 12. Pfam 환경설정. 트를설치하는과정이고, Figure 11 은 GeneCards 의메인화면이다. Figure 11. GeneCards 화면. 이기위하여만들어졌으며, 공인된유전자이름의명명법을기준으로인간유전자와관련된정보들이저장되어있는주요한데이터베이스들을통합하여, 찾고자하는유전자정보를간결하게정리하여보여준다. 이때, 유전자이름의명명법은 HUGO (Human Gene Nomenclature Committee) 의기준을따른다. GeneCards 는인터렉티브모드형태로환경설정을마친후자동인스톨할수있게지원하고있다. GeneCards 를통하여정보를추출할수있는주요데이터베이스로는 GDB (Genome Database), MGD (Mouse Genome Database), OMIM (Online Mendelian Inheritance in Man), Swiss-Prot, UniGene, GenBank, PubMed 등이있다. Figure 10 은 GeneCards 미러사이 3.2.5. Pfam Pfam (Protein families database of alignments and HMMs) 은단백질패밀리와도메인에관한데이터베이스이다. Pfam 은각패밀리에대한단백질다중정렬과 profile-hmm (Hidden Markov Model) 을포함한다. Pfam 에서는단백질다중정렬을할수있고, 단백질도메인구조와알려진단백질구조를볼수있으며, 종에따른단백질의분포도알아볼수있다. 또한다른관련데이터베이스와연결되어있어단백질정보를찾아보기에매우용이하다. 바이오인포매틱스팀에서는 Pfam 사이트와협약을맺어미러사이트로서비스하고있으며, 2006 년 8 월현재 20.0 배포판을제공하고있다. Figure 12 는 Pfam 미러사이트환경설정을나타내는것이고 Figure 13 은 Pfam 의메인화면이다. 4. 생명정보사용자지원 위에서살펴본바와같이생명정보관련연구는대용량의유전체, 단백체정보들과같은데이터를유지 관리하고신속한업데이트를통해최신성을유지해야하며, 방대한데이터

32 공업화학전망, 제 9 권제 5 호, 2006 Figure 13. Pfam 메인화면. Figure 14. 사용자지원체제. 로부터의빠르고정확한검색기능을요구한다. 이러한특성상대용량 고성능의소프트웨어, 하드웨어처리능력을수행할수있는슈퍼컴퓨팅시스템환경이필요하다. 많은생명정보관련연구자들이이러한데이터베이스와시스템환경을개별적으로구축하고유지하며연구를수행하기에는시간적, 경제적으로많은제약과어려움이따르고, 이러한시스템환경을구축하고유지하기위해서는이에따른전문적인지식을습득해야하는어려움도존재한다. 따라서바이오인포매틱스팀에서는이러한연구자들의효율적인연구개발활동을지원 (Figure 14 참조 ) 하기위해서 KISTI 에서보유하고있는 SMP, 리눅스클러스터시스템 (Figure 15 참조 ) 을네트워크를이용하여원격으로사용할수있도록지원하고있다. 5. 결론 생명정보학 (Bioinformatics) 은기초생물학, 의 Figure 15. 생명정보시스템구성도.

Prospectives of Industrial Chemistry, Volume 9, No. 5, 2006 33 학, 응용생물학분야에있어서필수적인연구수단이고, 생물학, 전산학, 수학, 물리학등타과학영역간의연계를기반으로하는연구이므로생명정보연구개발의성과는관련학문과산업에직접적으로기여할수있다. 또한미래산업의주축이될생명산업은인간질환의진단과치료, 신약개발의핵심적인기술개발에주력을할것이므로생명정보연구개발은향후학문과산업적으로가장중요한분야중하나가될것이다. 그리고생명정보학은생명정보의체계적해석과정보화를통한신약및먹거리개발등의경제적효율성증대및부가가치창출에기여할수있으므로국내외생명정보연구개발결과를총망라하여공동활용하기위한생명정보인프라를구축함으로써국내생명과학연구개발의시너지효과를얻는것이국가경쟁력제고에큰힘이되리라사료된다. 이에 KISTI 바이오인포매틱스팀에서는 21 세기생명과학학문과산업의발달에기여하고자단기적인분석도구개발에서중장기적측면의연구과제, 사용자지원, 국제협력등에이르기까지다양한과제를수행하고있다. 바이오인포매틱스홈페이지에서제공되고있는 Genbank 등주요생명정보데이터베이스와 BLAST 등생명정보분석도구는세계적으로많이사용되고있는콘텐트들이다. 이런종류의콘텐트를이용하고자하는국내연구자들에게필요한정보와기술을제공하고지원함으로써연구자들의연구효율을높여생명과학선진국과의연구개발격차를줄여나가고, 국가생명과학연구개발에기여를하는것이 KISTI 바이오인포매틱스팀이추구하는목표이다. 참고문헌 1. 박형선, 이상주, 홍순찬, 안부영, 오충식, 이식, 안성수, 유석종, 한영만, 조용성, 송치평, 유승택, 조희형, 박재홍, 생명정보인프라구축, 한국과학기술정보연구원 (2005). 2. 바이오인포매틱스센터 (CCBB), CCBB 서비스이용자지침서, 한국과학기술정보연구원 (2004). 3. 안부영, 조희형, 박형선, 생명정보인프라이용및만족도조사, 제 10 회한국과학기술정보인프라워크숍학술발표논문집 (II), 613~619 (2005). 4. Evgeni M. Zdobnov, Rodrigo Lopez, Rolf Apweiler, and Thure Etzold, Bioinformatics, 18, 368 (2002). 5. T. A. Tatusova, I. Karsch-Mizrachi, and J. A. Ostell, Bioinformatics, 15, 536 (1999). 6. 바이오인포매틱스홈페이지, [Cited 2006. 8.31], <http://www.ccbb.re.kr>. 7. NCBI 홈페이지, [Cited 2006.8.31], <http:// www.ncbi.nlm.nih.gov/genbank>. 8. Bioinformatics, 18, 368~373. 9. Bioinformatics, 15, 536~543. % 저자소개 안부영 1982 시스템공학연구소 (SERI) 연구개발정보센터 (KORCID) 2001~ 현재한국과학기술정보연구원 (KISTI) 바이오인포매틱스센터 (CCBB) 2004~ 현재충남대학교문헌정보학과박사과정