생물정보 전문회사 2001년 2월 한국과학기술연구원 연구원들이 중심이 되어 설립된 나노믹스(Nanormics)는 생물정보 (bioinformatics) 기술에 기반을 두고 있으며, 그 이름은 역동하는 나노 공간(Nano space) 속의 생물정보를 뜻 한다. 생명과학을 위한 첫 걸음(First Step for Life Science) 이라는 구호 아래 신약 및 산업용 효소 개발 과정을 가속화시키기 위한 최적의 데이터베이스와 정보 서비스뿐만 아니라 기술력 향상을 목표로 끊임없이 노력하고 있다. 방대한 양의 유전자 정보를 다루고, 컴퓨터를 이용한 단백질 구조의 모델링 및 엔지니어링에 기초를 둔 연구 들이 분야별 전문연구 그룹과 공동연구를 통해 진행되고 있다. 나노믹스에서 보유하고 있는 컴퓨터 시스템은 1개의 Hewlett-Packard 80 node PC-Cluster 수퍼컴퓨팅 시스템, 3개의 15 node PC-Cluster 고성능 컴퓨팅시 스템, SGI workstation 2대 등으로, 이러한 시스템들을 이용하면 유전자 5000개를 가지는 미생물에 대한 게놈 해석 데이터베이스(genome annotation database)가 2주일이면 완성된다. 대장균류 3종(E. coli K12, E. coli 157:H7, E. coli CFT073), 녹농균류 2종(P. aeruginosa PA1, P. putida KT2440), 방선균류 3종(S. coelicolor A3, S. peucetius, S. avermitilis MA-4680), 결핵균류 3종(M. tuberculosis H37Rv, M. tuberculosis CDC1551, M. tuberculosis K) 등 많은 미생물의 게놈해석을 완료하여 관련 기관에 제공하였고, 일부 기관에 Reference Site을 운영 중이다. C형 간염 치료제 개발을 위하여 HCV 단백질 3차구조 모델링 및 리간드-단백질 상호작용 분석 기술 등을 이용한 표적단백질의 확인이 이루어졌고 표 적단백질과 후보 화합물들은 내성 가능성을 고려한 최적화 실험이 진행 중에 있다. 새로운 반코마이신 계열 유 도체 생산효소인 glycosyltransferase를 설계하여 내성활성을 실험 중이며, 새로운 기능을 갖는 후보단백질들 을 여러 기관에 제공하고 있다. 1. 회사 연혁 2001. 2. 설립 KIST 창업보육센터 입주 52 미생물과 산업
2001. 4 기업 부설연구소 인증(산기협) 2001. 8 나노윈도우 분자뷰어(NanoWindow) 프로그램 출시 2001. 11 벤처기업 인증(중소기업청) 2002. 4 현 주소로 회사 이전 2002. 6 나노윈도우 분자뷰어(NanoWindow ver2.0) 프로그램 출시 2002. 10 생물정보 통합데이터베이스(NDB ver2.0) 구축 2002. 10 KIST와 기술실시 계약 2002. 12 단백질 구조분석용 라이브러리 출시 2002. 12 단백질 구조예측 학술대회(CASP5) 참가 2003. 6 단백질 구조 생성엔진(NanoModel engine) 개발 2003. 7 질병 타겟단백질 구조데이터베이스 시스템 출시 2003. 8 유전자 클러스터 데이터베이스(NanoGCD) 구축 2003. 10 게놈해석시스템(RNGAS) 출시 2003. 11 병역특례업체 지정(병무청) 2003. 12 단백질 side-chain 구조 예측 프로그램 개발 2004. 6 단백질 구조예측 학술대회(CASP6) 참가 2004. 8 물질대사 경로 데이터베이스(NanoPathDB) 시스템 출시 2004. 10 단백질간 상호작용 데이터베이스(NanoPID) 시스템 출시 2004. 12 단백질 구조예측 학술대회(CASP6) side-chain 구조예측 정확도 부문 세계 1,2위 2005. 1 단백질 디자인 시스템(NanoDesign System) 구축 2005. 2 약물 내성 데이터베이스(NanoResistance) 구축 2005. 3 항생제 타겟 데이터베이스(NanoTarget) 구축 2005. 5 단백질 구조모델 데이터베이스(NanoModelDB) 시스템 출시 2. 사업 분야 1) 단백질 구조 모델링 분야 단백질은 아미노산 서열에 따라 일정한 구조를 이루며 그 구조에 따라 특정한 기능을 가지고 있다. 게놈 염 기서열 해독 기술의 발달로 다양한 유전체에 대한 염기서열 및 아미노산 서열에 대한 정보가 대량으로 제공되 고 있으나 이들의 3차 구조에 대한 정보는 상대적으로 미약한 실정이다. 단백질 3차 구조는 단백질의 기능을 원자/분자 수준에서 설명하고, 단백질을 표적으로 하는 유용화합물과 신규 기능을 가지는 변형된 단백질 설계 를 가능하게 한다. 또한 단백질의 3차 구조를 비교함으로써 단백질간의 진화적 상관관계 및 SNP(Single Nucleotide Polymorphism) 분석이 가능하여 유전 질병연구 등에 이용될 수 있다. 나노믹스는 단백질의 골격구조 뿐만 아니라 정확한 side-chain 구조를 모델링 할 수 있는 NanoModel engine 을 개발하였다. Vol. 31, No. 1 (2005) 53
NanoModelDB 시스템 NanoModel engine에 의해서 생성 된 NanoModelDB 시스템은 단백질 구조모델인 3차 구조정보 외에 도메 인정보, 서열-구조 정렬정보, 기능정 보, 모델구조의 정확도 등을 제공한다. 또한 기본적으로 종(species)별로 제 공되며, 당뇨, 간질환, 신경계질환 등 의질병타겟별(disease target proteins), transferase, oxidoreductase, hydrolase, nucleotide binding 등의 기능 분류별 (functional classes), 도킹 모델별등 특별한 목적을 위해 구성된 데이터베 이스 형태로 제공된다. 그림 1. NanoModel engine의 단백질구조 생성과정 그림2. NanoModelDB 시스템 메인화면 그림3. NanoModelDB 시스템 제공정보의 예 NanoStructure 서비스 2004년 나노믹스 연구팀은 단백질의 아미노산 서열만 가지고 단백질 3차구조를 예측하는 국제학술대회인 CASP6(6th Critical Assessment of Techniques for Protein Structure Prediction)에 참가하여 비교 모델링 (comparative modeling) 분야의 side-chain 구조예측 정확도 부문에서 전세계 25개국 208개 참가팀 중 1,2위 성적을 거두었다. 나노믹스에서는 이러한 기술력을 바탕으로 단백질 3차구조 모델링 맞춤서비스를 제공한다. 기본적인 단백질구조(NanoModel) 모델링 외에 단백질 복합체구조(NanoComplex), non-homology 구조 54 미생물과 산업
(NanoFold, Nano_ab)의 모델링도 가능하다. NanoComplex 서비스(단백질 복합체 모델링) 단백질 복합체 구조(proteinprotein complex)는 단백질간 상 호작용으로 인한 생명현상을 이 해하거나 복합체 형성을 막는 저 해물질(inhibitor) 개발에 활용할 수 있다. 독립된 단백질들 사이 의 가능한 복합체 구조들을 예측 해 주는 NanoComplex는 단백질 특성에 최적화된 scoring function 을사용한다. E. coli, P. aeruginosa, S. coelicolor, M. tuberculosis 외 200여종의 게놈에 적용 가능하 고 manual docking과 automatic docking 모두 가능하다. HCV에 대한 항바이러스제 개발이나 HBV나 사람의 신호전달 체계 그림 4. CASP6의 side-chain 구조예측 정확도 결과(나노믹스팀명 NanoModel, NanoFold) 확인 연구 등에 응용된다. 2) 단백질 디자인 분야 NanoDesign 서비스(컴퓨터 기반 단백질 엔지니어링) NanoDesign 시스템은 단백질 3차구조 모델링 기술, scoring 기술 및 리간드 도킹 기술 등이 결합된 컴퓨터 기반 단백질 엔지니어링 시스템이다. 기존 단백질을 변형시켜 원하는 특성을 갖는 새로운 단백질을 컴퓨터상 에서 자유롭게 설계할 수 있다. 컴퓨터상에서 가 능한 모든 경우의 변형단백질을 만들어내고 생 성된 수많은 변형단백질 중에서 scoring 시스템 을 이용하여 원하는 활성을 갖는 단백질을 스크 리닝하게 된다. 많은 수의 변형단백질을 실험적 인 방법으로 다루기는 불가능하므로 선택된 후 보단백질들을 대상으로 하여 실험적인 방법으로 확인한다면 시간과 경비의 절감은 물론 성공률 을 높일 수 있다. 나노믹스에서는 기존 단백질의 기질 특이성 (substrate specificity)을 변화시키거나 열안정성 (thermostability)을 증가시킴으로써 산업적으로 그림 5. NanoDesign 시스템을 이용한 단백질 설계과정 Vol. 31, No. 1 (2005) 55
활용도가 높은 새로운 단백질(효소, 수용체, 센서 단백질, 형광 단백질 등)을 설계하여 제공한다. NanoSNP 서비스(단백질 구조기반 SNP 분석) 그림 6. WASP의 SNP에 의한 단백질 기능변화 분석 (Biochimica et Biophysica Acta 1690, 134-140, 2004) SNP(Single Nucleotide Polymorphism)는 단백질의 안정화, 리간드-단백질 상호작용, 단백질-단백질 상호작 용 등에 관련된 단백질 부위의 구조변화를 일으킴으로써 단백질의 기능에 영향을 미치게 되므로, 단백질 구조 기반 SNP 분석방법은 SNP에 의한 단백질의 기능변화를 분석하기 위한 최적의 접근방법이라고 볼 수 있다. 나 노믹스에서는 단백질 3차 구조 모델링 기술 및 축적된 단백질 구조 분석 기술을 이용하여 SNP에 의한 단백질 의 기능변화를 분석하는 서비스를 제공한다. 3) 미생물 유전자 활용 분야 RNGAS (게놈 해석 시스템) 해마다 막대한 양의 염기서열과 생물정보들이 축적되고 있으며 생명과학 분야의 연구자들이 쉽게 이들 자료 에 접근할 수 있도록 컴퓨터 프로그램과 사용자 인터페이스가 제작되고 있다. 나노믹스에서 제공하는 RNGAS(게놈 해석 시스템)는 사용자 편리함을 최우선 목표로 하여 누구나 쉽게 사 용할 수 있도록 제작된 브라우저를 통해 볼 수 있다. 연구자들이 필요로 하는 많은 자료를 정리 분류하고, 2 차 가공된 추론 데이터를 포함하고 있으므로 지금까지 기능이 알려지지 않은 많은 유전자에 대한 정보를 제 공한다. RNGAS는 genome structure 모듈, gene cluster 모듈, protein interaction 모듈, gene ontology 모 듈로 구성되어 있다. 또한 E. coli, P. aeruginosa, S. coelicolor, M. tuberculosis 등을 포함한 200여종의 미 생물에 적용 가능하며, Reference Site은 선문대(방선균류), 서울대(방선균류), 연세의대(결핵균류) 등에서 운 영 중이다. 56 미생물과 산업
그림 7. Microorganism circle map의 예 (Mycobacterium tuberculosis H37Rv) 그림 8. RNGAS 메인화면 NanoTarget 시스템(항생제 타겟의 선정 시스템) 항생제의 오남용으로 인하여 내성균의 출현 과 증가 속도가 급등하고 있다. 항생제 내성 문제는 전 세계적인 문제이며 새로운 항생제 개발의 근본적인 이유이기도 하다. 나노믹스에서는 새로운 항생제 타겟을 선정 하기 위한 NanoTarget 시스템을 구축하여 효 과적인 항생제를 위 한 타겟 목록을 작성 중이다. NanoTarget 시스템은 필수 유전자 예측(NanoEssence), 내성 메커니즘 예측 (NanoResistance), 독성 및 부작용 예측 (NanoDock), 항생제 스펙트럼 예측을 통하여 최적의 항생제 타겟을 선정하기 위한 기본 데 이터를 제공한다. 그림 9. 내성 메커니즘(NanoResistance) 200여종의 미생물에 적용 가능한 이 시스템을 통해 방선균의 경우 320여개, 결핵균의 경우 160여개의 필수 유전자들이 예측되었고, 250여개의 내성관련 유전자들이 결핵균에서 발굴되었다. 또한 P. aeruginosa에서는 MEP pathway, Shikimate pathway, Lipopolysaccharide biosynthesis 관련 유전자들이, M. tuberculosis에서 는 fabz 등을 포함한 유전자(hydroxymyristol acyl carrier protein dehydratase)들이 타겟후보 목록에 포함되 어 있다. Vol. 31, No. 1 (2005) 57
NanoPathDB (재구성된 물질 대사 경로 데이터베이스) 물질 대사 경로의 구성과 분석은 유 기체내의 복잡한 생물학적 기능 이해 에 있어서 필수적이다. 하지만 40-60% 의 단백질들에 대한 기능이 정확하게 알려져 있지 못하므로 완벽한 물질 대 사 경로의 구성은 어려운 작업이다. KEGG나 BioCyc에서 제공하는 물질 대사 경로 상에 비어 있는 부분들 (pathway holes)은 현재의 생물학적 지 식으로는 정의할 수 없는 부분들이다. NanoPathDB는 sequence similarity, genomic context, functional context 등의 방법을 이용하여 물질 대사 경로 를 재구성한 데이터베이스로 특히, 단 백질 구조 예측 및 비교, 종간의 비교 그림 10. 재구성된 물질 대사 경로 및 통계적인 처리 방법 등을 추가하여 완전한 물질 대사 경로를 구축하였다. 200여종의 미생물에 적용 가능하고 미생물을 이용한 물질 생산 공정의 설계 및 최적화를 위한 데이터를 제공한다. NanoPID (단백질간 상호작용 데이터베이스) 단백질간 상호작용은 생체내의 많은 반응 에서 중요한 역할을 하므로 프로테오믹스 (Proteomics)의 주된 연구 분야이다. 물질대 사나 신호전달 등의 생명현상은 하나의 단백 질에 의해서 이루어지는 것이 아니라 단백질 들의 상호작용에 의하여 이루어지게 된다. 따 라서 특정 단백질과 상호작용 할 수 있는 단 백질들은 생명현상을 이해하기 위한 중요한 데이터가 될 수 있다. NanoPID는 interlog(sequence similarity), phylogenetic profiling, gene neighbor, domain fusion 등의 생물정보학적 방법을 이용하여 예 측한 단백질간 상호작용 데이터를 제공한다. 그림 11. 단백질간 상호작용 네트워크 58 미생물과 산업
표 1. 나노믹스 데이터베이스 및 프로그램 응용 분야* 응용분야 유용 미생물 발굴 (환경, 식품, 농업, 의약 등) 미생물간 비교를 통한 유용 미생물군(EM) 개발 단백질 기능 예측 산업적으로 유용한 신규 효소의 발굴 및 기존 효소의 개량(White Biotechnology) 미생물을 활용한 유용 단백질, 생리활성물질 생산공정 설계 및 개량(Cell Factory) 의약(항생 항암제), 농업(비료 농약), 식품(미네랄 비타민)등의 생산 관련 유전자군의 발굴(Gene Cluster) 항생 항암제 타겟 선정 필수 유전자 예측 기존 항생 항암제의 개량 신규 항생 항암제의 개발 내성 메커니즘 예측 진단용 표지 유전자 탐색 RNGAS 제품명 Nano Nano Nano Nano NanoModel NanoDesign Nano Target PathDB PID Complex DB System System SNP * 회사 홈페이지 : http://www.nanormics.com Vol. 31, No. 1 (2005) 59