특허청구의 범위 청구항 1 단백질 수식화의 포괄적인 동정을 위한 이중 질량 분석기 스펙트럼의 MODa(modification alignment)를 통한 다 중-무제한 변이 탐색 방법에 있어서, 이중 질량 분석기로부터 MS/MS 스펙트럼 정보를 입력받아 복수의 아미노산

Similar documents
<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

04 Çмú_±â¼ú±â»ç

특허청구의 범위 청구항 1 복수개의 프리캐스트 콘크리트 부재(1)를 서로 결합하여 연속화시키는 구조로서, 삽입공이 형성되어 있고 상기 삽입공 내면에는 나사부가 형성되어 있는 너트형 고정부재(10)가, 상기 프리캐스 트 콘크리트 부재(1) 내에 내장되도록 배치되는 내부

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

실용신안 등록청구의 범위 청구항 1 톤백마대가 설치될 수 있도록 일정간격을 두고 설치되는 한 쌍의 지지프레임과, 상기 지지프레임과 지지프레임의 상부를 서로 연결하는 한 쌍의 연결프레임과, 상기 연결프레임의 상부에 일정간격을 두고 다수 설치되어 상기 톤백마대와 그 투입구

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

서 인코딩한 데이터를 무선으로 송신하기 위한 무선 송신 수단; 및 통화중 상기 입력 수단으로부터의 음원 데이터 전송신 호에 따라 상기 저장 수단에 저장되어 있는 해당 음원 데이터를 상기 디코딩 수단에 의해 디코딩하고, 상기 디코딩한 음원 데이터와 상기 입력 수단을 통해

이 발명을 지원한 국가연구개발사업 과제고유번호 부처명 방송통신위원회 연구사업명 방송통신기술개발사업 연구과제명 안전한 전자파환경 조성 주관기관 한국전자통신연구원 연구기간 ~

종사연구자료-이야기방 hwp

목 차 국회 1 월 중 제 개정 법령 대통령령 7 건 ( 제정 -, 개정 7, 폐지 -) 1. 댐건설 및 주변지역지원 등에 관한 법률 시행령 일부개정 1 2. 지방공무원 수당 등에 관한 규정 일부개정 1 3. 경력단절여성등의 경제활동 촉진법 시행령 일부개정 2 4. 대

인천광역시의회 의원 상해 등 보상금 지급에 관한 조례 일부개정조례안 의안 번호 179 제안연월일 : 제 안 자 :조례정비특별위원회위원장 제안이유 공무상재해인정기준 (총무처훈령 제153호)이 공무원연금법 시행규칙 (행정자치부령 제89호)으로 흡수 전면 개

- 2 -

< B5BFBEC6BDC3BEC6BBE E687770>

(72) 발명자 정종수 서울특별시 서대문구 모래내로 319, 101동 405호 (홍은동, 진흥아파트) 김정환 서울특별시 구로구 구로동로21길 7 (구로동) - 2 -


이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

특허청구의 범위 청구항 1 일반전화를 이용한 위험 알림시스템 및 실시간 영상전송 장치에서 CID(콜백넘버) 장치를 포함한 서버 및 그 장 비를 포함하며, 영상서버와 연동한 형태를 상황실에 전송하여 출동하는 시스템을 포함하는 것을 특징으로 하는 일반전화를 이용한 위험 알

특허청구의 범위 청구항 1 맨홀 일부분에 관통되게 결합되는 맨홀결합구와; 상기 맨홀결합구의 전방에 연통되게 형성되어 토양속에 묻히게 설치되고, 외주면에는 지하수가 유입될 수 있는 다수의 통공이 관통 형성된 지하수유입구와; 상기 맨홀결합구의 후방에 연통되고 수직으로 세워

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

Microsoft PowerPoint - chap04-연산자.pptx

특허청구의 범위 청구항 1 알람을 출력하기 위한 출력 인터페이스; 사용자의 안구전도값을 측정하기 위한 안구전도 측정부; 및 상기 안구전도 측정부가 측정한 안구전도값을 이용하여 사용자의 졸음 상태를 감지하고, 그에 따라 상기 출력 인터페이스로 알람을 출력하는 졸음상태 판

<33C6E4C0CCC1F620C1A63139C8A320B8F1C2F72E687770>

= ``...(2011), , (.)''

춤추는시민을기록하다_최종본 웹용


41호-소비자문제연구(최종추가수정0507).hwp

untitled

기사스크랩 (160504).hwp

산림병해충 방제규정 4. 신문 방송의 보도내용 등 제6 조( 조사지역) 제5 조에 따른 발생조사는 다음 각 호의 지역으로 구분하여 조사한다. 1. 특정지역 : 명승지 유적지 관광지 공원 유원지 및 고속국도 일반국도 철로변 등 경관보호구역 2. 주요지역 : 병해충별 선단

김기중 - 방송통신심의위원회 인터넷 내용심의의 위헌 여부.hwp


며 오스본을 중심으로 한 작은 정부, 시장 개혁정책을 밀고 나갔다. 이에 대응 하여 노동당은 보수당과 극명히 반대되는 정강 정책을 내세웠다. 영국의 정치 상황은 새누리당과 더불어 민주당, 국민의당이 서로 경제 민주화 와 무차별적 복지공약을 앞세우며 표를 구걸하기 위한

18강.hwp

<B0ADC8ADC7D0C6C428C3D6C1BE292E687770>

Journal of Life Science 2011, Vol. 21. No μ μ

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Chapter ...

도 1 명세서 도면의 간단한 설명 도 1은 본 발명의 일실시예에 따른 비접촉 USB 리더기의 블럭도를 나타낸다. 도 2는 도 1의 비접촉 USB 리더기를 이용한 인프라 구축 시스템의 개략도를 나타낸다. 도 3은 도 1의 비접촉 USB 리더기를 이용한 이용 방법에 대한

특허청구의 범위 청구항 1 커넥터 인서트(connector insert)와 커넥터 리셉터클(connector receptacle) 사이에 접속을 형성하는 방법으로 서, 복수의 리셉터클 패드 사이의 접속들을 식별하는 단계; 상기 복수의 리셉터클 패드 사이의 접속들의 식별

특허청구의 범위 청구항 1 제1 내지 제6 암이 각각의 관절부를 가지며 형성되며, 상기 제1 내지 제6 암 각각은 제1 내지 제6 링크에 의해 링크되고, 상기 제1 내지 제6 암 내부에는 각각의 암을 구동하는 구동모듈이 각각 내장되며, 상기 구동모듈 각각의 선단에는 1

(Microsoft PowerPoint - src.ppt [\300\320\261\342 \300\374\277\353] [\310\243\310\257 \270\360\265\345])

이 발명을 지원한 국가연구개발사업 과제고유번호 부처명 교육과학기술부 연구사업명 기초사업연구-일반연구자지원사업-기본연구지원사업(유형II) 연구과제명 시공간 부호 협력 통신을 위한 동기 알고리즘 연구 기 여 율 1/1 주관기관 서울시립대학교 산학협력단

래를 북한에서 영화의 주제곡으로 사용했다든지, 남한의 반체제세력이 애창한다 든지 등등 여타의 이유를 들어 그 가요의 기념곡 지정을 반대한다는 것은 더 이상 용인될 수 없는 반민주적인 행동이 될 것이다. 동시에 그 노래가 두 가지 필요조 건을 충족시키지 못함에도 불구하고

<B3EDB9AEC0DBBCBAB9FD2E687770>

> 1. 법 제34조제1항제3호에 따른 노인전문병원 2. 국민건강보험법 제40조제1항의 규정에 의한 요양기관(약국을 제외한다) 3. 삭제< > 4. 의료급여법 제2조제2호의 규정에 의한 의료급여기관 제9조 (건강진단) 영 제20조제1항의 규

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

노인복지법 시행규칙

2005년 6월 고1 전국연합학력평가

특허청구의 범위 청구항 1 삭제 청구항 2 단일 개의 운영체제를 갖는 클라이언트 단말에 있어서, 제1 운영체제와, 상기 제1 운영체제 하에서 사용되는 파일을 저장하는 메모리; 및 상기 메모리에 저장된 파일을 운영체제 제공장치로 전송하고 상기 메모리를 포맷하며, 상기 운

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

VISION2009사업계획(v5.0)-3월5일 토론용 초안.hwp

이 발명을 지원한 국가연구개발사업 과제고유번호 A 부처명 지식경제부 연구관리전문기관 연구사업명 IT핵심기술개발 연구과제명 융합형 포털서비스를 위한 이용자 참여형 방송기술개발 기여율 주관기관 전자부품연구원 연구기간 2008년 03월 01일 ~ 2

Jkafm093.hwp

4) 이 이 6) 위 (가) 나는 소백산맥을 바라보다 문득 신라의 삼국 통 일을 못마땅해하던 당신의 말이 생각났습니다. 하나가 되는 것은 더 커지는 것이라는 당신의 말을 생각하면, 대동강 이북의 땅을 당나라에 내주기로 하고 이룩한 통 일은 더 작아진 것이라는 점에서,

0429bodo.hwp

伐)이라고 하였는데, 라자(羅字)는 나자(那字)로 쓰기도 하고 야자(耶字)로 쓰기도 한다. 또 서벌(徐伐)이라고도 한다. 세속에서 경자(京字)를 새겨 서벌(徐伐)이라고 한다. 이 때문에 또 사라(斯羅)라고 하기도 하고, 또 사로(斯盧)라고 하기도 한다. 재위 기간은 6

時 習 說 ) 5), 원호설( 元 昊 說 ) 6) 등이 있다. 7) 이 가운데 임제설에 동의하는바, 상세한 논의는 황패강의 논의로 미루나 그의 논의에 논거로서 빠져 있는 부분을 보강하여 임제설에 대한 변증( 辨 證 )을 덧붙이고자 한다. 우선, 다음의 인용문을 보도록

cls46-06(심우영).hwp

최우석.hwp

교사용지도서_쓰기.hwp

< BDC3BAB8C1A4B1D4C6C75BC8A3BFDC D2E687770>

E1-정답및풀이(1~24)ok

<C1B6BCB1B4EBBCBCBDC3B1E2342DC3D6C1BE2E687770>


<C0CEBCE2BABB2D33C2F7BCF6C1A420B1B9BFAAC3D1BCAD203130B1C72E687770>

untitled

민주장정-노동운동(분권).indd

과 위 가 오는 경우에는 앞말 받침을 대표음으로 바꾼 [다가페]와 [흐귀 에]가 올바른 발음이 [안자서], [할튼], [업쓰므로], [절믐] 풀이 자음으로 끝나는 말인 앉- 과 핥-, 없-, 젊- 에 각각 모음으로 시작하는 형식형태소인 -아서, -은, -으므로, -음

6±Ç¸ñÂ÷

<C3D6C1BE5FBBF5B1B9BEEEBBFDC8B0B0DCBFEFC8A C3D6C1BEBABB292E687770>

초등국어에서 관용표현 지도 방안 연구

177

제주어 교육자료(중등)-작업.hwp

¸é¸ñ¼Ò½ÄÁö 63È£_³»Áö ÃÖÁ¾

01Report_210-4.hwp

<C3D1BCB15FC0CCC8C45FBFECB8AE5FB1B3C0B0C0C75FB9E6C7E D352D32315FC5E4292E687770>



교육 과 학기 술부 고 시 제 호 초 중등교육법 제23조 제2항에 의거하여 초 중등학교 교육과정을 다음과 같이 고시합니다. 2011년 8월 9일 교육과학기술부장관 1. 초 중등학교 교육과정 총론은 별책 1 과 같습니다. 2. 초등학교 교육과정은 별책

시험지 출제 양식

우리나라의 전통문화에는 무엇이 있는지 알아봅시다. 우리나라의 전통문화를 체험합시다. 우리나라의 전통문화를 소중히 여기는 마음을 가집시다. 5. 우리 옷 한복의 특징 자료 3 참고 남자와 여자가 입는 한복의 종류 가 달랐다는 것을 알려 준다. 85쪽 문제 8, 9 자료

상품 전단지

::: 해당사항이 없을 경우 무 표시하시기 바랍니다. 검토항목 검 토 여 부 ( 표시) 시 민 : 유 ( ) 무 시 민 참 여 고 려 사 항 이 해 당 사 자 : 유 ( ) 무 전 문 가 : 유 ( ) 무 옴 브 즈 만 : 유 ( ) 무 법 령 규 정 : 교통 환경 재

2

DBPIA-NURIMEDIA

화이련(華以戀) hwp

ÆòÈ�´©¸® 94È£ ³»Áö_ÃÖÁ¾

歯1##01.PDF

<5BC1F8C7E0C1DF2D31B1C75D2DBCF6C1A4BABB2E687770>

120229(00)(1~3).indd

연구노트

¹ÙÀÌ¿À´Ï¾È½º03

저작자표시 - 동일조건변경허락 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 이저작물을영리목적으로이용할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원

특허청구의 범위 청구항 1 소스 컴퓨팅 디바이스로부터 복수의 컴퓨팅 디바이스들 중 적어도 하나의 컴퓨팅 디바이스로의 무선 액세스 포 인트를 통한 데이터 송신들에 대한 (i) 현재 데이터 레이트 및 (ii) 최고 데이터 레이트를 구축하는 단계; 상기 복수의 컴퓨팅 디바이

게임 기획서 표준양식 연구보고서

PowerPoint 프레젠테이션

¾ç¼ºÄÀ-2

½Ç°ú¸Ó¸®¸»¸ñÂ÷ÆDZÇ(1-5)¿Ï

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

Transcription:

(19) 대한민국특허청(KR) (12) 공개특허공보(A) (11) 공개번호 10-2012-0125889 (43) 공개일자 2012년11월19일 (51) 국제특허분류(Int. Cl.) G06F 19/10 (2011.01) (21) 출원번호 10-2011-0043616 (22) 출원일자 2011년05월09일 심사청구일자 전체 청구항 수 : 총 13 항 2011년05월09일 (71) 출원인 서울시립대학교 산학협력단 서울특별시 동대문구 서울시립대로 163 (전농동, 서울시립대학교) (72) 발명자 백은옥 서울특별시 서초구 효령로 164, 1동 103호 (방배 동, 신동아아파트) 나승진 서울특별시 광진구 능동로 157 (화양동) 누노 반데이라 미합중국, 캘리포니아 92093-0404, 다졸라 9500 길맨드리아브,샌디에이고 캘리포니아주립대학 컴 퓨터 공학부 (74) 대리인 특허법인명문 (54) 발명의 명칭 이중 질량 분석기를 통한 고속 다중?무제한 변이 탐색 방법 및 장치 (57) 요 약 본 발명은 이중 질량 분석기(tandem mass spectrometry: MS/MS)를 통한 고속 다중-무제한 변이 탐색 방법 및 장 치에 관한 것이다. 본 발명의 일면에 따른, 단백질 수식화의 포괄적인 동정을 위한 이중 질량 분석기 스펙트럼의 MODa(modification alignment)를 통한 다중-무제한 변이 탐색 방법은, 이중 질량 분석기로부터 MS/MS 스펙트럼 정보를 입력받아 복수의 아미노산 서열태그를 유도하고, 데이터베이스에서 해당 서열태그들을 포함하는 후보 펩 티드들에 대해 각각의 서열태그를 정렬하는 단계, 및 상기 스펙트럼 정보와 상기 후보 펩티드들의 서열 간의 정 렬을 위해 상기 각각의 서열태그가 정렬된 행렬에서 태그들의 위치 정보에 따라 이동 경로를 제한하는 동적 프로 그래밍을 통해 각 펩티드 당 변이의 수에 제한 없이 후보 펩티드 내의 변이를 식별하는 단계를 포함한다. 대 표 도 - 도4-1 -

특허청구의 범위 청구항 1 단백질 수식화의 포괄적인 동정을 위한 이중 질량 분석기 스펙트럼의 MODa(modification alignment)를 통한 다 중-무제한 변이 탐색 방법에 있어서, 이중 질량 분석기로부터 MS/MS 스펙트럼 정보를 입력받아 복수의 아미노산 서열 태그를 유도하고, 데이터베이스 에서 해당 서열태그들을 포함하는 후보 펩티드들에 대해 각각의 서열태그를 정렬하는 단계; 및 상기 스펙트럼 정보와 상기 후보 펩티드들의 서열 간의 정렬을 위해 상기 각각의 서열태그가 정렬된 행렬에서 태그들의 위치 정보에 따라 이동 경로를 제한하는 동적 프로그래밍을 통해 각 펩티드 당 변이의 수에 제한 없이 후보 펩티드 내의 변이를 식별하는 단계 를 포함하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 2 제1항에 있어서, 상기 스펙트럼에서 일정 간격마다 복수의 피크를 선택하여 순위에 따라 각 피크에 가중치를 부 여한 후 스펙트럼의 convolution 수행을 통해 상기 스펙트럼의 어미이온의 질량을 보정하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 3 제2항에 있어서, 상기 어미이온의 질량을 보정하는 범위를 어미이온의 질량에 비례하는 범위로 정하고 해당 범위 내에서 상기 어 미이온의 질량을 보정하여 상기 서열 태그를 유도하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 4 제3항에 있어서, 해당 범위 내에서 상기 어미이온의 질량 보정에 실패하면 그 범위를 넓게 확장하여 확장된 범위 내에서 상기 어 미이온의 질량을 다시 보정하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 5 제1항에 있어서, 상기 데이터베이스에서 후보 펩티드의 검색 속도를 빠르게 하기 위하여, 단백질들의 서열을 저 장하되 상기 데이터베이스에 태그들이 위치한 인덱스와 함께 저장한 선처리된 단백질 데이터베이스를 이용하여 상기 후보 펩티드들을 검색하여 선택하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 6 제1항에 있어서, 점수화된(PRM) 스펙트럼을 생성하기 위해, 상기 스펙트럼에서 일정 간격마다 복수의 피크를 선택하여 순위에 따 라 각 피크에 가중치를 부여하고 각 피크를 b이온과 y이온으로 고려하여 각 피크의 질량을 prefix(n-말단) 단편 질량으로 변환하는 단계 를 더 포함하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 7 제1항에 있어서, 상기 변이를 식별하는 단계는, 상기 후보 펩티드들과 정렬된 모든 서열태그에 대해서 서열태그 N-말단 프랭킹 질량과 대응되는 펩티드 부분서 열의 질량간의 차이를 델타로 정의하고, 두 서열태그 사이에서 발생 가능한 변이의 질량을 두 태그의 델타간의 - 2 -

차이로 표시하는 단계 를 포함하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 8 제1항에 있어서, 상기 동적 프로그래밍에서 상기 각각의 서열태그 정렬에 의해 행렬을 정의하고 상기 두 태그로부터 유추된 변이 의 질량만을 이용하여 상기 변이를 식별하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 9 제1항에 있어서, 상기 동적 프로그래밍에서 상기 각각의 서열태그 정렬에 의해 정의된 행렬에서의 이동 경로를 셀과 서열태그 간 의 상대적인 위치와 서열태그 내의 셀 포함여부에 따라 제한하여 최적 경로를 찾는 것을 특징으로 하는 다중-무 제한 변이 탐색 방법. 청구항 10 제9항에 있어서, 상기 최적 경로를 찾기 위해, 상기 prefix(n-말단) 단편 질량이 포함되도록 변환된 점수화된(PRM) 스펙트럼으로 부터 각 경로 단편 질량들에 해당하는 위치의 스코어를 합산하여 각 경로의 스코어를 계산하는 단계 를 더 포함하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 11 제10항에 있어서, 상기 최적 경로의 스코어에 하나의 피크에 대한 스코어가 중복적으로 반영된 경우 그 스코어가 한번만 반영되도 록 보정하는 것을 특징으로 하는 다중-무제한 변이 탐색 방법. 청구항 12 제9항에 있어서, 상기 최적 경로에 따른 펩티드 해석에 다중 변이가 포함되고 하나의 피크에 대한 점수가 중복적으로 반영된 경 우 후보 펩티드에 대해 현재의 해석보다 적은 수의 변이를 가지는 경로를 추가로 탐색하여 비교하는 것을 특징 으로 하는 다중-무제한 변이 탐색 방법. 청구항 13 단백질 수식화의 포괄적인 동정을 위한 이중 질량 분석기 스펙트럼의 MODa(modification alignment)를 통한 다 중-무제한 변이 탐색 장치에 있어서, 이중 질량 분석기로부터 MS/MS 스펙트럼 정보를 입력받아 복수의 아미노산 서열태그를 유도하고, 데이터베이스 에서 해당 서열태그들을 포함하는 후보 펩티드들에 대해 각각의 서열태그를 정렬하는 제1 수단; 및 상기 스펙트럼 정보와 상기 후보 펩티드들의 서열 간의 정렬을 위해 상기 각각의 서열태그가 정렬된 행렬에서 태그들의 위치 정보에 따라 이동 경로를 제한하는 동적 프로그래밍을 통해 각 펩티드 당 변이의 수에 제한 없이 후보 펩티드 내의 변이를 식별하는 제2 수단 을 포함하는 것을 특징으로 하는 다중-무제한 변이 탐색 장치. 명 세 서 [0001] 기 술 분 야 본 발명은 단백질의 변이 탐색 방법 및 장치에 관한 것으로서, 특히, 이중 질량 분석기(tandem mass spectrometry: MS/MS)를 통한 고속 다중-무제한 변이 탐색 방법 및 장치에 관한 것이다. - 3 -

[0002] [0003] [0004] [0005] 배 경 기 술 단백질 수식화(Post-translational modifications: 번역 후 변형)는 단백질의 기능, 국소화(localization), 세 포내의 상호작용 조절에 관여한다. 지금까지 수백 종류의 수식화가 알려져 있지만, 아직도 많은 종류의 수식화 가 발견될 것으로 기대된다. 수식화의 동정(identification)은 생물학적 기능을 알아내는 데 중요하지만 많은 어려움이 존재한다. 최근 이중 질량 분석기(tandem mass spectrometry: MS/MS)는 수식화의 빠른 식별을 위한 강 력한 도구로 부상했으며, 수식화는 이중 질량 스펙트럼에서 단편 이온들(fragment ions)의 수식화 관련 고유 질 량 변화에 의해 검출될 수 있다. 그러나, 변형된 펩티드들(peptides)에 대한 계산적 식별은 그 해석의 높은 복 잡도 때문에 제한적으로 적용되어 왔다. 제한적 방법에서는 시료 내 예상되는 수식화에 대한 'guessed'(선추정) 리스트가 주어졌을 경우에만 식별이 가능하기 때문에 만약 'guessed'(선추정) 리스트가 미리 추정되지 않으면 잠재적으로 중요한 수식화들을 간과할 수 있게 된다. 최근의 수식화 동정 알고리즘들에서, 펩티드 서열태그 (sequence tag) 접근법들이 더 많은 수식화 타입들을 탐색하고 탐색 속도를 높일 수 있도록 제안되고 있다. 서 열태그 접근법에서는 짧은 길이의 서열 태그들이 MS/MS 스펙트럼으로부터 유추되고 단백질 데이터베이스에서 그 들을 포함하는 후보 펩티드들을 검색한 후 MS/MS 스펙트럼의 어미이온(precursor ion)의 질량과 후보 펩티드의 질량의 차이로부터 수식화를 추정하는 것이 가능하다. 이와 같은 제한적 접근법과 대조적으로, 무제한 또는 블라인드(blind) 접근법들은 모든 알려진 수식화 타입과 함께 알려지지 않은 수식화 타입에 대해 MS/MS 스펙트럼을 탐색하여, MS/MS 스펙트럼으로부터 직접 수식화 리스 트를 추정한다. 예를 들어, 단백질 데이터베이스의 펩티드 서열과 de novo 서열 결과를 비교한 OpenSea 와 SPIDER는 de novo 서열의 단편 이온들과 데이터베이스 펩티드 서열의 단편 이온들 사이의 차이로부터 수식화를 식별한다. TagRecon 와 MODmap는 서열태그를 사용하였고, MS-Alignment는 동적 프로그래밍을 사용해 스펙트럼과 데이터베이스 서열 간의 정렬(alignment)을 최초로 제안했다. ModifiComb는 유사한 체류(retention) 시간을 갖 는 비할당 스펙트럼과 미변이 펩티드 간의 ΔM histogram을 소개했다. Spectral networks는 스펙트럼/스펙트럼 정렬로부터 가능한 변이들을 추정했다. 그러나, 무제한 탐색법은 변이 펩티드들의 추가적인 동정에 의해 민감도를 개선할 수 있지만, 일반적으로 계산 시간을 증가시키는 심각한 문제를 야기하며, 실질적으로 미변이 펩티드들의 식별을 감소시키는 문제점이 있다. 임의의 아미노산에 임의의 변이 질량을 허용하는 것은, MS/MS 스펙트럼에 대하여 매칭 가능한 후보 변이 펩티드 들의 개수를 기하급수적으로 증가시킨다. 이것은 무제한 탐색법의 대용량 프로테오믹스(proteomics: 단백질체학) 데이터의 적용에 심각한 병목(bottleneck)을 야기한다. 그 첫째 문제는 양성 오류(false positives: 부정확한 펩티드 동정)의 증가와 음성 오류(false negatives: 잃어버린 펩티드 동정)의 증가이다. 많은 변이를 허용하는 것은 매칭을 가능하게 하는 조합 수의 증가로 인해 양성 오류를 증가시킨다. 왜냐하면 나 쁜 매칭들(bad matches)이 임의의 변이의 도입에 의해 매칭 스코어가 증가될 수 있기 때문이다. 결국 고정된 1% FDR(False Discovery Rate)을 에서 펩티드 동정을 위한 훨씬 높은 임계 스코어가 요구되며, 이는 반대로 많은 수의 음성 오류를 초래하게 된다. 이러한 효과는 단백질 서열 데이터베이스가 더 커짐에 따라 더욱 악화된다. 그 두번째 문제는, 소프트웨어 성능에 큰 영향을 미치는 펩티드 당 허용되는 변이의 수이다. 예를 들어, 단 하 나의 변이 Δ를 펩티드 P 상의 한 위치로 국소화하는 경우에(여기서, Δ는 MS/MS 스펙트럼의 어미이온 질량에서 미변이 펩티드의 질량을 뺀 값), 변이된 사이트는 P의 길이에 비례하는 시간(P의 모든 가능한 위치에 대해 그 변이를 할당함에 따라)에 결정될 수 있다. 그러나, 다중 변이들(multiple modifications)에 대하여 시간 복잡도 는 지수함수적으로 증가한다. 예를 들어, 두 가지 변이의 경우에 있어서, 변이 Δ를 Δ=Δ 1 +Δ 2 되는 Δ 1 과 Δ 2 로 분리하는 많은 방법이 있고, 이때 각각의 가능한 Δ 1 과 Δ 2 에 대하여 P내의 위치 쌍들을 조합적으로 탐색할 필요 가 있다. 펩티드 당 허용되는 변이의 수 증가에 따른 매칭 가능한 후보 펩티드들에 대한 가상 데이터베이스의 이러한 폭발적 증가는 탐색 효율을 악화시키는 기본 이유이며, 결과적으로 이것은 더욱 많은 양성 오류를 만들 어내고 실제 양성(positives)을 적어지게 한다. 그 동안 많은 무제한 접근법들이 개발되었지만, 어떠한 것도 이 러한 이슈들을 모두 해결하지 못했고, 많은 접근법들이 펩티드 당 단 하나의 가변 변이만 허용하고, 탐색 데이 터베이스를 작은 수의 단백질로 한정하거나 미리 확인된 미변이 펩티드들로 한정한다. 발명의 내용 [0006] 해결하려는 과제 따라서, 본 발명은 상술한 문제점을 해결하기 위한 것으로서, 본 발명의 목적은, 독창적인 스펙트럼 정렬 방법 - 4 -

인 MODa(modification alignment)를 제안하고자 하며, 이는 펩티드 당 허용되는 변이의 수에 제한이 없으며, 존 재하는 접근법들에 비해 한 단계 더 빠른 속도로 고속 다중-블라인드(multi-blind) 무제한 변이 탐색이 가능하 도록 하며, 이와 같은 획기적인 접근법 MODa에 따라, 각각의 MS/MS 스펙트럼으로부터 다중 서열태그를 기반으로 한 동적 프로그래밍 알고리즘을 이용해 데이터베이스 펩티드에 대한 변이들을 동정할 수 있는, 이중 질량 분석 기를 통한 고속 다중-무제한 변이 탐색 방법 및 장치를 제공하는 데 있다. [0007] [0008] [0009] [0010] [0011] [0012] [0013] [0014] [0015] [0016] [0017] [0018] [0019] 과제의 해결 수단 먼저, 본 발명의 특징을 요약하면, 상기와 같은 본 발명의 목적을 달성하기 위한 본 발명의 일면에 따른, 단백 질 수식화의 포괄적인 동정을 위한 이중 질량 분석기 스펙트럼의 MODa(modification alignment)를 통한 다중-무 제한 변이 탐색 방법은, 이중 질량 분석기로부터 MS/MS 스펙트럼 정보를 입력받아 복수의 아미노산 서열 태그를 유도하고, 데이터베이스에서 해당 서열태그들을 포함하는 후보 펩티드들에 대해 각각의 서열태그를 정렬하는 단 계; 및 상기 스펙트럼 정보와 상기 후보 펩티드들의 서열 간의 정렬을 위해 상기 각각의 서열태그가 정렬된 행 렬에서 태그들의 위치 정보에 따라 이동 경로를 제한하는 동적 프로그래밍을 통해 각 펩티드 당 변이의 수에 제 한 없이 후보 펩티드 내의 변이를 식별하는 단계를 포함한다. 상기 스펙트럼에서 일정 간격마다 복수의 피크를 선택하여 순위에 따라 각 피크에 가중치를 부여한 후 스펙트럼 의 convolution 수행을 통해 상기 스펙트럼의 어미이온의 질량을 보정한다. 상기 어미이온의 질량을 보정하는 범위를 어미이온의 질량에 비례하는 범위로 정하고 해당 범위 내에서 상기 어 미이온의 질량을 보정하여 상기 서열 태그를 유도한다. 해당 범위 내에서 상기 어미이온의 질량 보정에 실패하면 그 범위를 넓게 확장하여 확장된 범위 내에서 상기 어 미이온의 질량을 다시 보정한다. 상기 데이터베이스에서 후보 펩티드의 검색 속도를 빠르게 하기 위하여, 단백질들의 서열을 저장하되 상기 데이 터베이스에 태그들이 위치한 인덱스와 함께 저장한 선처리된 단백질 데이터베이스를 이용하여 상기 후보 펩티드 들을 검색하여 선택한다. 상기 다중-무제한 변이 탐색 방법은, 점수화된(PRM) 스펙트럼을 생성하기 위해, 상기 스펙트럼에서 일정 간격마 다 복수의 피크를 선택하여 순위에 따라 각 피크에 가중치를 부여하고 각 피크를 b이온과 y이온으로 고려하여 각 피크의 질량을 prefix(n-말단) 단편 질량으로 변환하는 단계를 더 포함한다. 상기 변이를 식별하는 단계는, 상기 후보 펩티드들과 정렬된 모든 서열태그에 대해서 서열태그 N-말단 프랭킹 질량과 대응되는 펩티드 부분서열의 질량간의 차이를 델타로 정의하고, 두 서열태그 사이에서 발생 가능한 변이 의 질량을 두 태그의 델타간의 차이로 표시하는 단계를 포함한다. 상기 동적 프로그래밍에서 상기 각각의 서열태그 정렬에 의해 행렬을 정의하고 상기 두 태그로부터 유추된 변이 의 질량만을 이용하여 상기 변이를 식별한다. 상기 동적 프로그래밍에서 상기 각각의 서열태그 정렬에 의해 정의된 행렬에서의 이동 경로를 셀과 서열태그 간 의 상대적인 위치와 서열태그 내의 셀 포함여부에 따라 제한하여 최적 경로를 찾는다. 상기 다중-무제한 변이 탐색 방법은, 상기 최적 경로를 찾기 위해, 상기 prefix(n-말단) 단편 질량이 포함되도 록 변환된 점수화된(PRM) 스펙트럼으로부터 각 경로 단편 질량들에 해당하는 위치의 스코어를 합산하여 각 경로 의 스코어를 계산하는 단계 상기 최적 경로의 스코어에 하나의 피크에 대한 스코어가 중복적으로 반영된 경우 그 스코어가 한번만 반영되도 록 보정한다. 상기 최적 경로에 따른 펩티드 해석에 다중 변이가 포함되고 하나의 피크에 대한 점수가 중복적으로 반영된 경 우 후보 펩티드에 대해 현재의 해석보다 적은 수의 변이를 가지는 경로를 추가로 탐색하여 비교한다. 그리고, 본 발명의 다른 일면에 따른, 단백질 수식화의 포괄적인 동정을 위한 이중 질량 분석기 스펙트럼의 MODa(modification alignment)를 통한 다중-무제한 변이 탐색 장치는, 이중 질량 분석기로부터 MS/MS 스펙트럼 정보를 입력받아 복수의 아미노산 서열태그를 유도하고, 데이터베이스에서 해당 서열태그들을 포함하는 후보 펩 티드들에 대해 각각의 서열태그를 정렬하는 제1 수단; 및 상기 스펙트럼 정보와 상기 후보 펩티드들의 서열 간 의 정렬을 위해 상기 각각의 서열태그가 정렬된 행렬에서 태그들의 위치 정보에 따라 이동 경로를 제한하는 동 적 프로그래밍을 통해 각 펩티드 당 변이의 수에 제한 없이 후보 펩티드 내의 변이를 식별하는 제2 수단을 포함 - 5 -

한다. [0020] [0021] 발명의 효과 본 발명에 따른 이중 질량 분석기를 통한 고속 다중-무제한 변이 탐색 방법 및 장치에 따르면, 독창적인 스펙트 럼 정렬 접근법인 MODa (modification alignment)를 통해 펩티드 당 허용되는 변이의 수에 제한이 없으며, 존재 하는 접근법들에 비해 한 단계 더 빠른 속도로 고속 다중-블라인드(multi-blind) 변이 탐색이 가능하도록 하였 고, 이와 같은 획기적인 접근법 MODa에 따라, 각각의 MS/MS 스펙트럼으로부터 다중 서열태그를 기반으로 한 동 적 프로그래밍 알고리즘을 이용해 데이터베이스 펩티드에 대한 변이들을 판단할 수 있다. 또한, 이와 같은 MODa 에 따른 다중 서열 태그 접근법은 변이들을 판별하는데 다양한 장점들을 제공한다. 첫째, 서열 태그들은 각 스펙트럼에 매칭되는 데이터베이스 펩티드들의 수를 상당히 줄일 수 있으며, 이에 따라 무제 한 탐색에서의 데이터베이스 사이즈의 폭발적인 증가를 경감시킬 수 있다. 둘째로, 서열 태그들은 스펙트럼 내 의 변이된 영역을 효과적으로 국소화한다. 즉, 태그의 프랭킹 질량(flanking mass)(태그에서 피크의 최저 질 량)과 그것에 대응되는 펩티드 부분서열의 질량 간의 차이(Δmass)는 가능한 변이를 제시한다. 이러한 개념을 확장시켜서, 만일 수개의 다른 질량 차이들이 다중 매칭된 태그들 사이에서 발견되면 이는 변이 사이트들을 해 당 태그들 사이의 영역으로 한정할 수 있다는 것을 의미한다(도 4 참조). 이에 따라, 본 발명의 무제한 탐색법 은 펩티드 당 변이들의 수에 제한 받지 않을 수 있게 된다. 결국, MODa는 펩티드 당 허용되는 변이 수와 변이들 의 질량 범위 같은 기존의 스펙트럼 정렬 알고리즘의 복잡성에 영향을 미치는 주요 제한 요인들을 제거하여 무 제한 탐색의 속도를 상당히 개선한다. 가장 중요한 것은, MODa는 많은 불필요한 부정확한 펩티드 매칭들을 다중 -태그에 의해 필터링하므로 양성 오류와 음성 오류의 증가를 거의 제거할 수 있다. 이런 MODa의 효과적인 성능 은 기존에 존재하는 제한 및 무제한 변이 탐색 도구들과 비교를 통해 증명되었다. 그리고, 이온 포획(ion trap) 질량 분석기에서 획득된 3가지 사람 프로테오믹스(proteomics) 데이터들의 MODa 분석을 통해, 아미노산 변이 및 글리코실화(glycosylation)를 포함한 다양한 수식화와 함께 알려지지 않은 새로운 변이들을 검출할 수 있었다. [0022] 도면의 간단한 설명 도 1은 본 발명에 따른 혈장과 HEK293 데이터의 MODa 분석에서 검출된 아미노산 변이들을 나타낸다. 도 2는 두 변이와 함께 식별된 펩티드들을 나타낸다. 도 3은 트립토판(tryptophan)의 글리코실화(glycosylation)를 설명하기 위한 도면이다. 도 4는 본 발명의 일실시예에 따른 동적 프로그래밍 기법을 설명하기 위한 도면이다. 도 5는 혈장, HEK293, 수정체 데이터의 MODa 분석으로부터 빈번한 변이 타입들의 요약이다. 도 6은 혈장 데이터에서 식별된, 알킬화된 후 산화된 시스테인(cysteine)을 갖는 펩티드에 대한 MS/MS 스펙트럼 이다. [0023] [0024] [0025] [0026] 발명을 실시하기 위한 구체적인 내용 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하지 만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 먼저, MODa 수행을 위해 요구되는 구체적인 알고리즘에 대하여 설명하면 다음과 같다. 이와 같은 알고리즘은 컴 퓨터에서 각 과정을 처리하기 위한 프로세서를 갖는 하드웨어 또는 소프트웨어와의 결합으로 수행될 수 있다. 1. 어미이온(precursor ion) 질량의 보정 널리 사용되는 저해상도 질량분석기는 MS/MS 스펙트럼의 어미이온 질량을 측정하는데, 1~3 Da 의 오류를 흔히 범하게 된다. 따라서 일반적인 데이터베이스 탐색 알고리즘들은 보통 ±3 Da 의 오차를 허용하면서 펩티드를 검 색하게 된다. 하지만 무제한 변이 탐색 법에서는 이런 작은 질량오차들이 작은 질량을 가지는 변이로 해석될 수 있기 때문에 알고리즘을 적용하기 전에 MS/MS 스펙트럼의 어미이온 질량에 대한 보정이 필요하다. 이것은 MS/MS 스펙트럼의 b이온과 y이온의 페어링 최대화를 통해 수행되는데, 이를 위해 MS/MS 스펙트럼에서 100 m/z 마다 그 크기에 따라 10개의 피크들이 선택되고, 선택된 피크는 그 순위에 따라 가중치가 정해진다. 이렇게 처리된 가중 치 이후의 스펙트럼의 auto-convolution을 통해 그 convolution값을 최대화 시키는 delta값(δ)을 찾아 어미이 온의 질량을 보정한다. 질량을 보정하기 위한 범위는 기존방법에서는 고정된 범위를 사용하였지만 본 방법에서 - 6 -

는 어미이온의 질량이 커질수록 질량오차가 커질 가능성이 높기 때문에 어미이온의 질량에 비례하게 그 범위를 정하고 그 범위 내에서 새로운 어미이온의 질량이 결정되도록 어미이온의 질량을 보정한다. 만약 범위 내에서 새로운 질량 값을 확실하게 결정하지 못한 경우에는 그 범위를 2배 등으로 확장하여 다시 한번 시도한다. [0027] [0028] [0029] [0030] [0031] [0032] [0033] 2. 서열태그 생성 노이즈 피크들을 제거하기 위해 MS/MS 스펙트럼에서 높은 크기의 피크들이 선택된다. 먼저 스펙트럼 전체에서 어미이온의 질량 크기에 비례해서 상위 N 개의 피크들이 선택된다(global selection). 일반적으로 IONTRAP 질량 분석기는 스펙트럼의 중간에서 큰 크기의 피크들을 발생시키기 때문에 양 측면의 피크들이 선택에서 배제될 수 있다. 따라서 스펙트럼의 모든 영역에서 피크들이 선택될 수 있도록 일정범위(70 Da)씩 이동하면서 그 안에서 적어도 L 개의 피크가 선택되도록 추가적인 작업이 이루어진다 (local selection). 일반적으로 3가 이상의 전하 량을 띄는 어미이온들은 2가 이상의 단편이온들을 추가로 만들어 내므로 3가 이상의 스펙트럼에 대해서는 더 큰 L을 사용한다. 선택된 피크들은 스펙트럼 그래프를 형성하는데, 피크들은 그래프에서 노드가 되고, 만약 두 노드사이의 질량차 이가 아미노산의 질량차이와 같다면 에지를 생성한다. 이 그래프에서 서브경로는 서열태그가 될 수 있는데, 본 방법에서는 100개의 길이 3의 서브경로가 그 스코어에 따라 선택된다. 3. 후보 펩티드 검색 단백질 데이터베이스에서 생성된 서열태그를 포함하는 후보 펩티드들을 검색하는데, 그 속도를 빠르게 하기 위 해서 선 처리된 단백질 데이터베이스를 사용한다. 데이터베이스에는 모든 단백질의 서열을 하나의 긴 문자열로 만들어 저장하되(다른 단백질 서열 사이에는 '$' 삽입), 이때 길이 3의 가능한 모든 태그에 대해서 그들이 어느 위치에 위치하는지 그 인덱스를 함께 저장해 놓는다. 이것은 상수시간에 펩티드를 검색하는 것을 가능하게 한다. 이후 서열태그가 매치된 곳에서 그 태그의 양방향으로 서열을 확장하여 나가다가 확장된 서열의 질량이 태그의 프랭킹 질량에 변이를 고려하기 위한 질량을 더한 것보다 커지면 확장을 멈추고 그것을 후보 펩티드로 선택한다. 4. Prefix 단편 질량(prefix residue mass: PRM) 스펙트럼 생성 동적 프로그래밍을 이용하여 후보 펩티드들의 스코어링 하는 것을 빠르게 하기 위해 입력 MS/MS 스펙트럼은 PRM 스펙트럼(점수화된 스펙트럼)으로 변형된다. PRM 스펙트럼을 생성하기 위해 먼저 입력 스펙트럼에서 100 m/z 마 다 그 크기에 따라 10개의 피크들이 선택되고, 선택된 피크는 그 순위에 따라 가중치가 정해진다. 이후 선택된 피크의 질량 m 에 대해서 PRM 스펙트럼으로 (m-1)위치와 (어미이온질량-m+1)위치에 해당하는 피크의 가중치가 합산된다. 그들은 선택된 피크를 각각b이온과 y이온으로 가정했을 경우의 prefix (또는 N-말단) 단편의 질량에 해당한다. MS/MS 스펙트럼에는 b이온과 y 이온(단편 이온에서 분리된 1차 단편이온들) 이외에도 다양한 이온들 이 존재하는데, 가령 b, y이온들이 H 2 O나 NH 3 를 잃어버린 2차 단편이온들이 발생한다. 따라서 해당 피크의 -H 2 O, -NH 3, 동위원소의 위치에 해당하는 곳에 다른 피크들이 존재한다면 그 피크들의 가중치가 함께 추가된다. y이온 의 경우에는 크기가 더 작을 경우에만 2차 단편이온으로 고려되었다. 또한 피크의 -1 Da 위치에 다른 피크가 존 재한다면 이것은 동위원소일 확률이 높으므로 그 경우에는 추가적인 가중치를 더해주지 않았다. 마지막으로 3가 이상의 MS/MS 스펙트럼의 경우에는 2가 단편이온들이 함께 고려되었다. 이렇게 만들어진 PRM 스펙트럼이 이용하 면 특정 질량이 주어졌을 때 관련된 단편이온들의 영향을 모두 고려한 스코어를 바로 알 수 있는데, 펩티드가 주어졌을 때 그 스코어(PRM 스코어)는 PRM 스펙트럼에서 펩티드의 prefix 단편들의 질량에 해당하는 위치의 스 코어를 모두 합산하여 간단히 구해질 수 있다. [0034] [0035] 5. 서열태그에 기반한 동적 프로그래밍 입력 MS/MS 스펙트럼을 S, 데이터베이스의 후보 펩티드를 P=a 1..a n, P의 아미노산 서열 a 1..a n 와 매치되는 서열 태그의 집합을 T라 하자. 길이 n의 서열태그t는 n+1개의 질량에 의해 정의되고 start(t)/end(t)는 P에서 그 태 그가 매치된 시작 위치와 끝 위치를 나타낸다. 예를 들어 start(t)=0, end(t)=1은 단지 a 1 만이 매치되었다는 것 을 의미한다. [0036] M[p][t][s]를 서열태그 t에 의해 정의된 행에서 최대 스코어를 가지는 경로라고 하자. s는 현재의 위치가 태그 의 앞(0)인지 뒤인지(1)를 나타내는 것인데, s는 한 경로에 태그가 서브태그로 분리되어 사용되는 것을 막아준 다. 어떤 셀에서든 태그 내부의 셀로는 이동이 가능하고, 태그 내부에서는 적어도 아미노산 한 개를 포함하는 - 7 -

이동을 한 후에야 다른 행으로의 이동이 가능하다. [0037] [0038] [0039] [0040] [0041] [0042] [0043] [0044] M[p][t][s]의 셀의 값은 모두 0으로 초기화되고, 그 값들은 score(p,t)에 다음 값들 중에서 최고값을 더해 반복 적으로 채워진다. (1) 아미노산 이동 (태그와의 상대적인 위치에 따라) - 태그 이전위치: M[p-1][t][0], iff p start(t) - 태그 내부위치: max(m[p-1][t][0], M[p-1][t][1]), iff s=1, start(t) < p end(t) - 태그 이후 위치: M[p-1][t][1], iff p > end(t) (2) 변이를 위한 이동 - M[p-1][q][1] + pf(δ, a p ), iff s=0, p < end(t), start(q)< start(t)를 만족하는 모든 태그 q에 대해서 계 산. pf(δ, aa)는 0보다 작은 값인데 아미노산 aa에서 변이 Δ에 대한 페널티이다. 이 값은 각각의 변이에 대한 정보가 주어지면 조정될 수 있는데, 본 방법에서는 모든 변이들에 대해서 상수값을 사용하였다. [0045] 특별한 경우를 피하기 위해서 길이 0의 태그 t 0 와 t v 는 태그집합 T에 항상 포함된다. t 0 는 P의 0번째 위치에서 시작하고 t v 는 P의 마지막 위치에서 시작한다. 마지막으로 후보 펩티드에 대한 해석에 대한 가장 좋은 점수는 M[n][t v ][0]에서 얻어진다. 위 과정이 도 4에서 도식적으로 보여진다. [0046] [0047] [0048] [0049] [0050] 위 알고리즘의 시간과 공간 복잡도는 O(max S, T 2 P )이다. 모든 score(p,t)를 계산하기 위해 시작할 때 한번은 스펙트럼을 조사해야 한다 (즉, PRM 스펙트럼의 생성). 6. 펩티드 해석의 정제 동적 프로그래밍을 통해서 후보 펩티드들에 대해 단 하나의 가장 좋은 해석과 그 점수가 정해진다. 모든 후보 펩티드들에 대해 반복적으로 적용해 상위 10개의 해석들이 유지된다. 하지만 동적 프로그래밍으로부터의 점수는 정제되어야 하는데, 한 개의 피크가 다수의 이온 매치를 발생시키는 경우가 있기 때문이다(symmetric path problem). 이런 경우 한 피크로부터의 점수가 하나의 펩티드 해석에 여러 번 고려되기 때문에 그 해석의 점수는 더 높아질 것이고 이것은 양성 오류를 만들어내기 쉽다. 이런 효과를 없애기 위해서 동적 프로그래밍이 끝난 직 후에 만약 그 해석이 symmetric path 를 포함한다면, 한 피크에 대해서 점수가 한 번만 반영되도록 점수를 조정 한다. 다중 무제한 변이 탐색에서 또 다른 문제는 다수의 변이를 허용함에 의한 양성 오류의 증가인데, 흥미롭 게도 다수의 변이들을 가지는 양성 오류들은 symmetric path를 포함하려는 경향이 발견되었다. 이것은 동적 프 로그래밍이 스코어의 최대값을 얻는 방향으로 진행되는데, symmetric path 를 포함할수록 스코어가 높아지는 경 향이 있기 때문인 것으로 간주된다. 이런 문제를 해결하기 위해서 동적 프로그래밍 중에 변이들에 대한 페널티 는 바람직하다. 이것에 추가하여 본 방법에서는 동적 프로그래밍이 끝난 직후에 만약 해석이 다중 변이를 가지 고 있고 또한 symmetric path 를 포함한다면, 후보 펩티드에 대해 현재의 해석보다 적은 수의 변이를 가지는 다 른 해석들을 추가로 얻어 symmetric path에 의한 점수들을 제거하고 결과를 비교해 가장 점수가 좋은 것을 선택 한다. 7. 펩티드 해석의 확률계산 동적 프로그래밍에서 해석의 점수는 PRM 스펙트럼에 기반해서 얻어진다. 하지만 그 PRM 스코어는 하나의 스펙트 럼에 대한 후보 해석들의 순위를 정하기 위해 사용하기에 적합하고, 그 해석이 얼마나 의미 있는지를 설명하기 에는 부족하다. 따라서 하나의 스펙트럼에 대한 top 해석이 얼마나 정확한가를 나타내기 위한 확률을 계산한다. 확률은 그 해석과 스펙트럼 사이의 정합의 질을 나타내는 여러 가지 지표를 조합해서 계산된다. 본 방법에서는 PRM 스코어, 매치된 단편이온들의 질량 에러, 매치된 b이온과 y이온의 비중, 특정 이온 타입으로 매칭경향이 이 용되었다. 4개의 특성 값들은 로지스틱 회귀법을 이용해 결합되어 확률로 변형된다. 그 4개 특성의 결합 가중치 는 Institute for System Biology의 표준 단백질 시료 데이터를 이용해서 훈련되고 검증되었다. [0051] 이하 도 1내지 도 6을 참조해 본 발명의 MODa 방법에 대해 좀 더 자세히 설명한다. - 8 -

[0052] [0053] [0054] [0055] [0056] [0057] [0058] [0059] 도 1은 본 발명에 따른 혈장(plasma)과 HEK293 데이터의 MODa 분석으로 검출된 아미노산 변이들을 나타낸다. 도 1의 a)는 혈장 데이터에서 식별된 변이들이고, 도 1의 b)는 HEK293 데이터에서 식별된 변이들을 나타낸다. 도 1에서, M+16, A+42, 및 H+14는 각각이 산화된 메티오닌(methionine), 아세틸화된 알라닌(acetylated alanine), 및 메틸화된 히스티딘(methylated histidine)을 나타낸다. HEK293 데이터 결과에 대해서 해당 변이 가 기존의 결과와 일치하면 밑줄로 표시하였다. 도 1에서, 약 반정도의 변이들이 유전자 단일염기변이(Single Nucleotide Polymorphism, SNP) 정보가 데이터베 이스화된 dbsnp에 존재하는 것들이었다. MODa를 통해 이전에 발표되지 않은 13가지 변이들이 추가적으로 발견되 었는데, 이중 12가지가 단일염기변이에 의해 설명될 수 있다. 특히, Arg(R) Gln(Q) 변이(8가지), 및 Met(M) Thr(T) 변이(5가지)가 각각 혈장 및 HEK293 데이터에서 특징적으로 검출되었다. 이러한 분석에 있어서, MS/MS스펙트럼에서 확실한 단편 이온들을 가지지 않는 애매한 변이들은 무시하였고 여기에 나타내지 않았다. 비록 검출된 대부분의 변이들이 펩티드에서 싱글 변이로 나타났지만, MODa는 다중 변이된 펩티드 식별에 대한 잠재력을 보여준다. 첫째로, HEK293 데이터의 분석에서, Gln(Q) His(H) 치환 변이와 동시에 N-말단(Nterminus: 아미노 말단)에서 아세틸화된 펩티드 'A+42AGAAEAAVAAVEEVGSAGQ+9FEELLR'가 Glutaredoxin-3에서 검 출되었다. 이러한 펩티드는 다중 변이된 형태로만 발견되었는데, 이 변이들 각각은 UniProt(Universal Protein Resource) 주석과 일치한다. 이러한 식별력은 MODa에서만 유일하며, 동정된 미변이 펩티드와 대조하여 변이를 탐색하거나 단지 펩티드 당 하나의 변이만을 허용하는 다른 무제한 기법의 도구에 의해 획득될 수 없다. 마찬가 지로, 혈장 데이터 분석에서는 Alpha1-acid glycoprotein에서 펩티드 'TLM+16FGSYLDDEKNWG+99'가 산화된 Met와 Gly(G) Arg(R) 치환 변이(dbSNP:rs12685968)의 형태를 갖는 다중 변이로서 식별되었다. 이 펩티드의 C-말단 에서 비-트립신(Non-tryptic) 절단은 Gly(G) Arg(R) 치환에 의해 설명된다. 도 2는 두 변이와 함께 동정된 펩티드들을 나타낸다. 도 2는 백내장 수정체(cataract lens) 시료에서 동정된 다 중 변이 펩티드의 MS/MS 스펙트럼을 나타내며, a)에서는 Gamma-D-crystallin에서 펩티드 'HYECSSDHP- 10NLQPYLS-30R'의 스펙트럼, b)에서는 Beta-B2-crystallin에서 펩티드 'GDYKDSS-30DFGAPH-9PQVQSVR'의 스펙트 럼을 보여준다. 양쪽 펩티드들은 백내장(cataract) 환자들에게서 유일하게 발견되었다. 도 2의 a)에서 Gamma-Dcrystallin에서 동정된 펩티드 'HYECSSDHP-10NLQPYLS-30R'는 와일드 타입(unmodified: 미변이) 형태로도 검출 된다. Pro Ser 치환 변이는 dbsnp:rs28931605에 해당하며, 다형 선천성 백내장(polymorphic congenital cataract)과 관련된 변이로서 알려져 있다. 반면, Ser Gly 치환 변이는 알려지지 않았다. 이와 같은 변이의 존재가 도 2의 MS/MS 스펙트럼에 의해 확실히 입증된다. 이러한 펩티드의 Pro Ser 치환 변이는 단독으로 관 측되지는 않았으며 다만 Ser Gly 치환 변이와 결합되어 나타났다. 이러한 두 변이들의 공존은 단상형 (haplotype)으로 해석되고, 한 사이트에서 SNP 대립 유전자(allele)와 다른 인접 사이트들의 특정 대립 유전자 (allele)의 특수 조합으로 발생된다. 변화된 표현형들(phenotypes)이 종종 다양한 요인들의 조합으로 발생하므 로, 단상형(haplotype)의 결정은 질병 관련 중요 관점이다. 또한, Beta-B2-crystallin에서 두 개의 알려지지 않 은 치환 변이 (Ser Gly and His Gln)가 펩티드 'GDYKDSS-30DFGAPH-9PQVQSVR'를 통해 식별되었다. 흥미롭 게도, 위의 두 변이된 펩티드는 70세와 93세의 백내장 환자의 수정체 시료에서만 발견되었다. 요컨대 이러한 결 과들은 백내장 질병 관련하여 더 많은 유전적 변이체들에 대한 연구가 필요함을 나타낸다. 도 3은 혈장 데이터의 MODa분석에서 트립토판(tryptophan) 아미노산의 글리코실화(glycosylation)를 설명하기 위한 도면이다. 글리코실화는 효소에 의해 글리칸(glycans)이 단백질과 결합하는 과정이며, Swiss-Prot 주석 정 보에 따르면 최소한 사람 단백질의 20%가 글리코실화되는 것으로 알려졌다. N- 및 O-linked 글리코실화 형태가 잘 알려져 있지만, MODa는 글리코실화의 드문 형태인, C-linked 글리코실화(또는 C-mannosylation)를 검출해냈 다. 이 글리코실화는 세포밖 단백질의 트립토판과 만노제(mannose)의 공유 접합(covalent attachment)에 의해 나타난다. 도 3의 a)는 혈장 데이터에서 식별된 C-mannosylation을 나타낸다. 도 3의 a)에서, 사람의 혈장 데이터에서 검 출된 3개의 mannosylated 펩티드들을 보여주는데, C-mannosylation의 인식 단초(recognition motif)로 알려진 'WXXW'를 포함하고 있다. 여기서 트립토판의 mannosylation은 162 Da의 질량 증가로 나타난다. 도 3의 b)는 C-mannosylation의 MS/MS 스펙트럼으로서, 어미이온(precursor ion)과 단편 이온(fragment ion)으 로부터 120 Da의 C-mannosylation에 특징적인 무성(neutral) 손실이 확인되었다. 흥미롭게도, MODa는 C- mannosylation과 유사한 형태를 갖는 변이를 식별했다. 그 변이는 트립토판 에서 166Da의 질량 변화를 나타내며 15 개의 고유한 펩티드들에서 관찰되었다. 변이 펩티드들과 해당 미변이 펩티드들의 MS/MS 스펙트럼 비교는 트 립토판에서 166Da의 질량 변화를 확실히 보여주었다. 이 변이는 kynurenine (+4 Da)에 C-mannosylation (+162-9 -

Da)으로 설명이 가능한데, kynurenine의 아민(amine)과 환원당이 반응하여 글리코실 아민을 생성하는 것이 이미 알려져 있다. [0060] [0061] [0062] [0063] 도 3의 c)는 트립토판에서 166Da변이와 함께 식별된 펩티드들을 나타내며, Extra type column은 펩타이드의 해 당 트립토판 상에서 추가로 발견된 알려지지 않은 변이들의 다른 형태를 나타낸다. 도 3의 d)는 Trp+166 Da의 MS/MS 스펙트럼을 나타내며, 어미이온으로부터 변이를 잃은 이온이 발견되었는데, 그 것은 미변이 펩티드 이온에 대응된다. 도 3의 d)에서 보여주는 변이의 MS/MS 스펙트럼과 같이, 어미이온으로부 터 변이의 무성 손실(neutral loss)이 명확히 관찰되며, 하지만, 이는 인산화(phosphorylated) 또는 산화 (oxidized) 펩티드들로부터 무성 손실과 같이 우성 단편화 경로(dominant fragmentation pathway)를 형성하지 는 않았다. 도 4는 본 발명의 일실시예에 따른 동적 프로그래밍 기법을 설명하기 위한 도면이다. 도 4에서 삼중 변이 펩티드 'A+42ALFC+48LESAW+16K'에 대한 예를 MS/MS 스펙트럼과 함께 설명한다. 먼저, MS/MS 스펙트럼으로부터 두개의 서열 태그 ALF(t 1 )와 LESA (t 2 )가 유추된다. 도 4와 같이 태그 t 0 와 t 4 는 동적 프로그래밍의 시작과 끝 노드를 정의하기 위한 길이가 0인 특정 태그를 나타낸다. 각 태그의 좌우 수치 들은 해당 태그의 프랭킹 질량(flanking mass)과 그에 대응되는 펩티드 부분서열(subsequence)의 질량 간의 차 이(Δ mass)를 나타내고, 왼쪽에 표시한 질량은 N-말단(N-terminus)에 대한 것이고, 오른쪽에 표시한 질량은 C- 말단(C-terminus)에 대한 것이다. 즉, 이들은 해당 영역의 총 변이 질량을 나타낸다. 노드 간의 점프를 제한하 기 위하여, 노드들은 매칭된 태그의 위치에 따라 해당 태그 앞에서는 0, 해당 태그 내에서는 1, 해당 태그 뒤에 서는 2로 라벨된다. [0064] [0065] [0066] [0067] [0068] 미변이를 나타내는 아미노산 점프는 같은 행(row)에서만 허용된다. 변이 점프는 노드와 서열 태그 간의 상대적 인 위치에 따라 제한되며 다음 방법에 따른다. 0으로 라벨된 노드(셀)로부터는 점프가 허용되지 않으며, 라벨1 과 2인 노드로부터는 인접한 라벨0과 1인 노드로만 점프가 허용되고, 최소 하나의 태그도 거치지 않는 연속 변 이 점프는 허용되지 않는다(즉, 태그 내에서 최소 하나의 아미노산 점프가 요구된다). 이와 같은 규칙은 한 경 로가 매칭된 태그들 중 최소 하나의 태그를 사용해야 함을 나타내지만, 모든 매칭된 태그들의 사용을 요구하는 것은 아니다. 이와 같이 동적 프로그래밍을 통해 각각의 서열태그 정렬에 의해 정의된 행렬에서의 이동 경로를 셀(노드)과 서열태그 간의 상대적인 위치와 서열태그 내의 셀(노드) 포함여부에 따라 제한하여 최적 경로를 찾 는다. 일반적으로 충동유도분열에 의해 기대되지 않는 단편 이온들이 생성될 수 있고 연속적인 내부 이온들이나 무성 손실 이온들(neutral loss ions)에 의해 결과적으로 다형 서열 태그(동일 부분 서열을 가지지만 질량에 의해 변 화된)들이 유도될 수 있으므로 서열태그들이 항상 정확한 것이라고는 할 수 없다. 도 4에서 점선 화살표는 위와 같은 조건을 만족하는 모든 가능한 점프들을 나타내고, 굵은 선으로 된 경로는 최적 정렬을 나타낸다. 변이 점 프에 대해 표시된 해당 변이의 질량(두 서열태그 사이에서 발생 가능한 변이의 질량)은 두 태그의 N-말단(Nterminal) 질량 차이들(Δ masses) 간의 차이를 계산하여 표시한 것이다. 예를 들어, 도 4에서 C+48의 48은 태 그 t2의 90에서 태그 t1의 42를 뺀 값이다. 이와 같은 두 태그의 델타(Δ) 간의 차이에 기초한 변이의 질량만을 이용하여 변이를 식별할 수 있도록 하였다. 이와 같이, 본 발명에 따른 MODa (modification alignment) 기법을 수행하는 과정은, 1) 각 MS/MS 스펙트럼으 로부터 유도된 서열 태그들을 이용해 데이터베이스에서 그 서열태그를 포함하는 후보 펩티드들을 선택하는 과정, 및 2) 다수의 서열태그에 기반한 동적 프로그래밍 알고리즘(dynamic programming algorithm)에 따라 펩티 드 내의 변이를 식별하여 최적 스펙트럼/펩티드 정렬을 찾는 과정을 포함한다. 위와 같은 1), 2)의 과정은 컴퓨터와 같은 계산 프로세서를 갖는 장치를 통하여 이루어질 수 있고, 장치의 각 유니트를 통해, 먼저 MS/MS 스펙트럼 정보를 입력받아 해당 스펙트럼에 대한 아미노산 서열을 유도하고, 위 1), 2)의 과정을 수행함으로써 후보 펩티드 내의 변이를 식별할 수 있다. 먼저, 해당 MS/MS 스펙트럼에 대한 아미노산 서열 태그들을 유도한 후, 1)의 과정에서 데이터베이스에서 그 서 열태그를 포함하는 후보 펩티드를 선택하여 매칭되는 서열 태그(위의 예에서, 태그 t1, t2)를 정렬하게 된다. 도 4와 같이, 서열 태그의 N-말단(N-terminal) 프랭킹 질량(flanking mass)을 매칭시키는 동안 미스매치가 발생 하면, 그 질량 차이(Δ)(델타)(각 서열태그 N-말단 프랭킹 질량과 대응되는 펩티드 부분서열의 질량간의 차이) 가 데이터베이스의 해당 서열을 참조해 계산된다. 도 4에서 각 행은 각 서열 태그의 N-말단(N-terminal) 질량 차이(Δ)에 의해 변화된(또는 펩티드의 N-말단에서 질량 차이에 의해 변이된) 이론적인 스펙트럼을 나타낸다. 각 노드는 스펙트럼의 해당 피크의 강도에 따라 점수를 부여받고 화살표는 서열 태그들에 대한 조건에 따라 노 - 10 -

드들 간의 가능한 점프들을 표시한다. 여기서, 스펙트럼 정렬 문제는 변이 부분에서 가장 높은 점수를 갖는 경 로를 찾는 것이며, 각 경로의 점수는 해당 경로 상의 각 노드에 부여된 점수들의 합이다. 즉, 변이 부분의 점프 시 가장 높은 점수를 갖는 다른 후보 태그가 선택되도록 경로를 선택하여 각 노드에 부여된 점수들의 합이 가장 높은 점수가 되도록 한다. 이와 같은 개선된 스펙트럼 정렬에서, 시간 복잡도는 O(T 2 N)와 같이 나타낼 수 있고, 여기서, T 는 해당 펩티드에 매칭된 태그들의 수(일반적으로 5 이하의 자연수)이고, N 은 펩티드 길이이다. [0069] [0070] [0071] [0072] [0073] 다시 말하여, 위의 "4. Prefix 단편 질량(prefix residue mass: PRM) 스펙트럼 생성"에서도 기술한 바와 같이, prefix(n-말단) 단편 질량이 포함되도록 변환된 점수화된(PRM) 스펙트럼으로부터 각 경로 단편 질량들에 해당하 는 위치의 스코어를 합산하여 각 경로의 스코어를 계산함으로써, 가장 높은 점수가 되는 최적 경로를 찾음으로 써, 후보 펩티드 내의 변이를 식별할 수 있게 된다. 또한, 위의 "6. 펩티드 해석의 정제"에서도 기술한 바와 같 이, 위의 최적 경로의 스코어에 하나의 피크에 대한 스코어가 중복적으로 반영된 경우 그 스코어가 한번만 반영 되도록 보정을 하게 되며, 예를 들어, 최적 경로에 따른 펩티드 해석에 다중 변이가 포함되고 하나의 피크에 대 한 점수가 중복적으로 반영된 경우 후보 펩티드에 대해 현재의 해석보다 적은 수의 변이를 가지는 경로를 추가 로 탐색하여 symmetric path에 의한 점수들을 제거하고 결과를 비교해 그 스코어가 한번만 반영되도록 하되 가 장 점수가 좋은 것을 선택한다. 한편, 기존 스펙트럼 정렬은 MS/MS 스펙트럼의 질량을 나타내는 행과 데이터베이스의 펩티드로부터 질량을 나타 내는 열을 갖는 2차원 행렬을 이용해 계산되었다. 이때의 시간 복잡도는 스펙트럼 사이즈(M), 펩티드 길이(N), 펩티드 당 변이의 수(k), 및 변이의 질량 범위(d)의 함수로서, O(MNkd)로 나타낼 수 있다. 대표적인 스펙트럼 정렬 알고리즘인 MS-Alignment와 비교할 때 본 발명의 방법은 같은 조건에서 40배 더 빠르게 계산된다. 본 발명 의 MODa 방법과 다른 기존의 방법들 간의 가장 두드러진 차이는 파라미터 k의 사용에 있다. 다른 기존의 방법들 에서는 미리 알려진 고정 k가 필요한 반면, 본 발명의 MODa 방법에서는 그 경로에 기여하는 태그들의 수에 따라 동적 프로그래밍에 의해 자동적으로 k를 결정한다. 즉, 각 펩티드 당 변이의 수에 제한 없이 무제한으로 변이를 탐색할 수 있다. 본 발명의 MODa 방법의 성능 테스트에서, 기존의 표준 데이터베이스 탐색 알고리즘인 SEQUEST와 InsPecT의 식별 성능과 비교되었다. SEQUEST와 InsPecT는 파라미터로 어떠한 가변적 변이도 고려하지 않고 수행되었는데, 이는 MODa가 양성 오류의 증가를 제어하면서 그 표준 식별 성능을 얼마나 잘 유지하는 지 여부를 평가하기 위해서였 다. 모든 탐색으로부터의 결과는 Target-Decoy Approach 기법을 사용해 1%의 FDR로 획득되었다. MODa는 SEQUEST와 InsPecT의 탐색 결과에 대해 각각에서 93%와 92%를 유지했다. InsPecT가 SEQUEST 식별의 94%를 유지 하고 SEQUEST가 InsPecT 식별의 88%를 유지한다는 것에 주목해야 한다. 이는 MODa가 다중 변이 펩티드들의 훨씬 더 큰 탐색 범위에 대하여 수행되더라도, 아주 강인하며 미변이 펩티드 식별을 놓치지 않고 식별해 낸다는 것을 나타낸다. 이와는 반대로, MS-Alignment 기법은 모든 미변이 펩티드 식별 중 46% 만을 유지했다. 둘째로, 개선된 데이터베이스를 사용하여, 변이 펩티드의 검출에서 MODa의 민감도(sensitivity)를 평가하기 위 한 시뮬레이션 테스트가 수행되었다. 이러한 테스트에서, 모든 변이 펩티드의 90% 이상을 파악했고, 미변이 펩 티드들 식별하는 것과 마찬가지로 변이 펩티드를 식별하는 데 강인하다는 것을 보여주었다. 도 5는 빈번한 변이 타입들의 요약이다. 도 5 a)는 사람 혈장 데이터에서 동정된 것, 도 5 b)는 사람HEK293 데 이터에서 동정된 것, 도 5 c)는 사람 수정체 데이터에서 동정된 것이다. 본 발명의 MODa 탐색법이 이온 포획 (ion trap) 질량 분석기에서 획득된 3가지 데이터에 적용되었다. 도 5 a)에서는 사람 혈장 데이터로서 67,648 스펙트럼이 이용되었고, 도 5 b)에서는 사람HEK293 데이터로서 363,807 스펨트럼이 이용되었고, 도 5 c)에서는 연령별 사람 수정체 데이터로서 381,224 스펙트럼이 이용되었다. 식별은 FDR 1%로 획득되었고, 혈장, HEK293, 수정체 각각에 대하여 18,419, 83,554, 및 53,724 PSMs(Peptide Spectrum Matches)이 식별되었다. 이 중 혈장, HEK293, 수정체 각각에 대한 3,698, 10,400, 및 13,042은 변이 PSMs이었다. 발견된 변이의 대부분은 인위적 변 이(artefacts)와 화학적 유도체(chemical derivatives)들인데, 이는 실험 조건에 따라 달라짐을 보였다. 예를 들어, carbamidomethyldtt 은 혈장 데이터에서는 주로 발견되었지만 다른 두 시료들에서는 발견되지 않았다. 반 대로, 모든 시료에서 자주 관찰되는 변이들이 존재하는데, 산화물(oxidations)과 N-말단 pyroglutamate은 모든 시료에서 자주 관찰되며, 이들은 대부분의 데이터베이스 탐색 도구에서 가변 변이로서 자주 사용되었다. 이 이 외에도, N-말단 S-carbamoylmethylcysteine도 역시 모든 시료에서 자주 관찰된다. 이는 S-alkylated cysteine 에서 NH 3 의 손실에 의해 발생하며 이에 따라 +40 Da의 질량 변화(57 Da for carbamidomethyl minus 17 Da for NH 3 )가 N-말단 cysteine에서 나타난다. 이러한 변이의 발생은 N-말단 pyroglutamate가 N-말단 glutamine에서 발 생하는 비율과 유사하다는 것이 알려져 있으며, 여기서의 분석은 그 빈도가 무시해서는 안되며 이 변이는 데이 - 11 -

터베이스 탐색시 파라미터로 고려할만한 가치가 있다. 이러한 일반적으로 발생하는 인위적인 변이(artefacts)들 을 발견하는 것은 프로테오믹(proteomic) 실험들로부터 단백질 동정률을 높이기 위해 필요하다. 수정체 단백질 은 나이가 들어감에 따라 더 많이 변이되기 때문에, 수정체 시료의 분석에서는 다른 시료에서보다 더 많은 변이 가 발견되었다. [0074] [0075] [0076] [0077] [0078] S-carbamoylmethylcysteine 이외에도, MODa는 알킬화된(alkylated) cysteine에서 변이를 발견했다. 일반적으로 메티오닌(methionine residue)의 산화가 주로 관찰되지만, MODa는 또한 알킬화된(alkylated) cysteine 의 산화 된 형태를 발견했다. 산화된 메티오닌을 포함하고 있는 펩티드들과 단편 이온들은 거의 항상 methane sulfenic acid를 잃는 것에 의해 부수(satellite) 이온들을 동반한다. 마찬가지로, 알킬화되고 산화된 cysteine을 갖는 펩티드들과 단편 이온들은 ROSH (R = alkylation derivative)의 손실에 의해 뚜렷한 부수(satellite) 이온들을 동반한다. 도 6은 혈장 데이터에서 식별된, 알킬화되고 산화된 Cys를 갖는 펩티드에 대한 MS/MS 스펙트럼이다. C * 는 carbamidomethylated cysteine을 나타낸다. 스펙트럼의 m/z(질량/전하량) 703과 1078에서 펩티드 결합 부위의 단편화에 의해 생성되지 않은 이온들이 관찰된다. 이러한 이온들은 ROSH (R = alkylation derivative)의 손실로 생성되며, R = carbamidomethyl의 경우에 107 Da 에 해당된다. 도 6과 같이 이러한 이온은 알킬화되고 산화된 Cys의 존재의 증거이지만, 이것이 주요 단편화 이온들보다 더 많은 빈도를 보임에 따라 MS/MS 스펙트럼의 낮은 품질을 초래한다. 따라서 탐색 알고리즘이 이러한 펩티드들을 식별하는 것이 어려운데, 이러한 변이들의 검출은 MODa가 단편화의 결핍에 강건하고 변이들에 예민하다는 것을 말해준다. 이와 같이 MODa는 다중 변이 펩티드들의 식별을 위한 가장 실용적인 다중-블라인드 무제한 접근법이다. MODa는 무제한 PTM 탐색에 대한 스펙트럼 정렬 알고리즘 계산적 제한을 효율적으로 수행하며, 식별의 정확성을 상당히 개선했을 뿐만 아니라 한 오더 이상 처리 속도를 향상시켰다. MODa의 유용성은 기존의 방법들보다 더 많은 펩티 드를 동정해내고, 동시에 대용량의 복잡한 데이터로부터 변이되고 희귀한 변이 펩티드들을 동정함으로써 증명된 다. 혈장 데이터 분석에서, MODa는 MS-Alignment 보다 78% 이상의(18,419 vs. 10,367) 식별력과, 26% 이상의 (3,698 vs. 2,920) 변이체들을 검출했다. 일반적인 변이들에서의 증가량은 더욱 상당한데, 예를 들어, methionine oxidation 또는 N-terminal pyroglutamate에 의해 변이 식별은 400% 이상(1,079 vs. 213) 증가했다. 본 발명에서, 큰 데이터 다중 변이 펩티드들에 대한 무제한 변이 탐색이 최초로 수행되었고, 모든 식 별된 펩티드들의 약 10 ~ 25%가 변이되었다(12%, 20%, and 24% for HEK293, plasma, and lens, respectively). 시료들이 복잡해질수록, 변이 펩티드들의 비중이 적어지고, 이는 변이 단백질들에 대한 낮은 화학량론 (stoichiometry) 때문이다. 하지만, 다중 변이 펩티드들의 비율이 모든 데이터 세트들에서 약 5%였고, 삼중 변 이 이상의 변이 펩티드들은 거의 드물게 검출되었다. PTMs(Post-translational modifications: 번역후 변형)은 생물학적 사건의 특징이며, 단백질 기능에서 그 역할 은 아직도 많은 경우에 잘 알려져 있지 않다. MODa는 사람 시료에서 변이들의 범위와 다양성이 기존의 데이터베 이스 탐색으로부터 발견할 수 있는 것 보다 훨씬 더 넓다는 것을 나타냈다. 이외에도 MODa는 변이의 구조, 메커 니즘, 중요성이 차후 실험을 통해 더욱 검사가 필요한 새로운 변이들에 대하여 실질적으로 지원이 가능함을 나 타냈다. 이와 같이 본 발명에 따른 이중 질량 분석기를 통한 고속 다중-무제한 변이 탐색 방법에서는, 독창적인 스펙트 럼 정렬 접근법인 MODa (modification alignment)를 통해 펩티드 당 허용되는 변이의 수에 제한이 없으며, 존재 하는 접근법들에 비해 한 단계 더 빠른 속도로 고속 다중-블라인드(multi-blind) 무제한 변이 탐색이 가능하도 록 하였고, 이와 같은 획기적인 접근법 MODa에 따라, 각각의 MS/MS 스펙트럼으로부터 다중 서열태그를 기반으로 한 동적 프로그래밍 알고리즘을 이용해 데이터베이스 펩티드에 대한 변이들을 판단할 수 있도록 하였다. 또한, 이와 같은 MODa 에 따른 다중 서열 태그 접근법은 변이들을 판별하는데 다양한 장점들을 제공한다. 첫째, 서열 태그들은 각 스펙트럼에 매칭되는 데이터베이스 펩티드들의 수를 상당히 줄일 수 있으며, 이에 따라 무제한 탐 색에서의 데이터베이스 사이즈의 폭발적인 증가를 경감시킬 수 있다. 둘째로, 서열태그들은 스펙트럼 내의 변이 된 영역을 효과적으로 국소화한다. 즉, 태그의 프랭킹 질량(flanking mass)(태그에서 피크의 최저 질량)과 그것 에 대응되는 펩티드 부분서열의 질량 간의 차이(Δ mass)가 가능한 변이를 제시한다. 이러한 개념을 확장시켜서, 만일 수개의 다른 질량 차이들이 다중 매칭된 태그들 사이에서 발견되면 이는 변이 사이트들을 해 당 태그들 사이의 영역으로 한정할 수 있다는 것을 의미한다(도 4 참조). 이에 따라, 본 발명의 무제한 탐색법 은 펩티드 당 변이들의 수에 제한 받지 않을 수 있게 된다. 결국, MODa는 펩티드 당 허용되는 변이 수와 변이들 의 질량 범위와 같은 기존의 스펙트럼 정렬 알고리즘의 복잡성에 영향을 미치는 주요 제한 요인들을 제거하여 - 12 -

무제한 탐색의 속도를 상당히 개선한다. 가장 중요한 것은, MODa는 많은 불필요한 부정확한 펩티드 매칭들을 다 중-태그에 의해 필터링하므로 양성 오류와 음성 오류의 증가를 거의 제거할 수 있다. 이런 MODa의 효과적인 성 능은 기존에 존재하는 제한 및 무제한 변이 탐색 도구들과 비교를 통해 증명되었다. 그리고, 이온 포획(ion trap) 질량 분석기에서 획득된 3가지 사람 프로테오믹스(proteomics) 데이터들의 MODa 분석을 통해, 아미노산 변이 및 글리코실화(glycosylation)를 포함한 다양한 수식화와 함께 알려지지 않은 새로운 변이들을 검출할 수 있었다. [0079] 이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변이가 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범 위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다. [0080] 부호의 설명 PTMs(Post-translational modifications) 이중 질량 분석기(tandem mass spectrometry: MS/MS) MODa(modification alignment) 도면 도면1-13 -

도면2-14 -

도면3-15 -

도면4 도면5-16 -

도면6-17 -