단백질 내에서 흐느적거리는 부분을 찾는 방법들 – 2

이제 실제 단백질을 하나 가지고 기존에 개발된 툴들을 가지고 단백질 내에 있는 흐느적거리는 부분들의 위치를 어떻게 찾아내는지를 알아보기로 하자.

오늘 설명에 쓸 단백질은 바로 이거.

>;;sp|O00401|1-505
MSSVQQQPPPPRRVTNVGSLLLTPQENESLFTFLGKKCVTMSSAVVQLYAADRNCMWSKK
CSGVACLVKDNPQRSYFLRIFDIKDGKLLWEQELYNNFVYNSPRGYFHTFAGDTCQVALN
FANEEEAKKFRKAVTDLLGRRQRKSEKRRDPPNGPNLPMATVDIKNPEITTNRFYGPQVN
NISHTKEKKKGKAKKKRLTKADIGTPSNFQHIGHVGWDPNTGFDLNNLDPELKNLFDMCG
ISEAQLKDRETSKVIYDFIEKTGGVEAVKNELRRQAPPPPPPSRGGPPPPPPPPHNSGPP
PPPARGRGAPPPPPSRAPTAAPPPPPPSRPSVAVPPPPPNRMYPPPPPALPSSAPSGPPP
PPPSVLGVGPVAPPPPPPPPPPPGPPPPPGLPSDGDHQVPTTAGNKAALLDQIREGAQLK
KVEQNSRPVSCSGRDALLDQIRQGIQLKSVADGQESTPPTPAPTSGIVGALMEVMQKRSK
AIHSSDEDEDEDDEEDFEDDDEWED

대략적으로 이런 순서로 디벼보도록 하자.

1. ‘안 흐느적거리는 부분’ 파악

단백질 전체는 아닐지라도 단백질에서 폴딩되어 있는 부분들의 상당수는 이미 구조가 나와 있거나, 상당한 상동성을 가진 다른 단백질의 구조가 나와 있다.
가장 좋은 것은 실험적으로 구조가 규명된 부분들이 어디인지를 파악하는 것이다. 물론 구조가 나와 있지 않은 부분이 다 흐느적거리는 부분이라고는 할 수 없고, 아직 미지의 3차구조를 지니고 있기도 하겠지만, 일단 이것이 첫걸음.

2. 단백질 2차 구조 예측

요즘의 단백질 2차 구조 예측의 정확도는 특정 아미노산 위치 기준으로 약 70-80% 을 상회한다. 즉. 대충 찍어도 거의 맞는다는 이야기.

3. Multiple Sequence Alignment

2차 구조 예측이건, 흐느적 예측이건 간에 일단 닥치고 homolog를 모아서 비교해 보는 것이 최우선이다.

4. Low complexity Region 파악

‘ㅍㅍㅍㅍㅍㅍ’ ‘ㅋㅋㅋㅋㅋㅋㅋ’ 하는 초성체 단순반복부분을 파악해서 형광펜을 친다.

5. HCA (Hydrophobic Cluster Analysis)

앞의 글에서도 잠깐 언급했지만 단백질이 제대로 폴딩되기 위해서는 친수성 잔기와 소수성 잔기가 골고루 분포되어 있기 마련이다. 따라서 3차 구조를 제대로 형성하는 부분에서는 소위 ‘Hydrophobic Cluster’가 존재하는데, 이런 것의 존재여부를 통해서 흐느적거리는 부분을 꽤 정확히 파악할 수 있다.

6. 복수의 ‘흐느적 예측’ 패키지 조사.

여러가지 원리를 이용한 ‘흐느적 예측’ 웹서버들이 시중에 많이 존재한다 그럼 처음부터 그거 하나 링크 던져주면 간단한 거 아니었냐 하겠지만 그러면 재미도 읍고 일단 배우는게 읍습니다. 고갱님. 이런 것들의 내부원리를 약간 들여다보고, 몇개를 동시에 돌려본다. 이바닥의 모든 ‘예측’ 이 다 그렇듯이 서버 하나 슥 돌려서 나온거 이게 맞는거임 ㅋㅋㅋ 하다가 나중에 개피보는 경우 많다. 점이나 궁합은 항상 세 군데는 보러가야져

그래서 오늘은 한가지 방법에 대해서만 알아보기로 하자. 원래는 좀 더 마니 쓰려고 했는데 쓰다가 시간다간다. 논문도 아니고. -.-;; 따라서 일단 퍼블리시부터.

1. 구조 정보를 이용하여 ‘안 흐느적거리는 부분’ 파악

어떻게 하면 자신의 관심 단백질에 있는 영역 중 어떤 부분이 구조가 규명되었는지, 아니면 아미노산 서열 상동성을 가지는 비슷한 단백질의 구조가 결정되었는지를 알 수 있을까? 가장 간단한 방법은 역시 BLAST 등과 같은 서열 유사성 검색 프로그램을 사용하여, pdb 에 디포짓된 이미 실험적으로 결정된 단백질을 db로 하여 검색해 보는 것이다.

그러나 단백질 구조의 경우 일반 BLAST(PSI-BLAST가 아닌)와 같은 서열 – 서열 데이터베이스 검색에 의해 감지되기 힘들 정도로 상동성이 낮은 경우에도 거의 동일한 구조를 가지는 경우가 허다하게 있으며, 따라서 BLAST보다는 Profile 을 이용한 방법으로 검색하는 것이 좀 더 낮은 서열 상동성을 가진 구조를 검색해보는데 유리하다.

이러한 Profile Based 검색으로 최근 가장 각광받고 있는 것이 HHpred 라는 것인데, 이를 이용하여 미지의 단백질 내부에서 구조가 규명된 homolog가 있는지를 검색하는 방법을 알아보자.

걍 시퀀스 붙여넣구 고고. 검색대상은 가장 최신의 PDB DB

조낸 열심히 HMM 프로파일 뒤지고 이씀 카는데 일단 기다려봄.

좀 기다려면..

올ㅋ 결과느님 출현 결과느님 링크는 여기

각각의 PDB ID (1mke…뭐 이런식으로 되어 있는 부분. 뒷부분은 해당 PDB 구조에서 단백질 체인 번호) 가 시퀀스에서 해당 구조와 상동성이 있는 부분에 따라서 별도로 마크되어 있음. 적색으로 갈수록 신빙성이 높은 것, 청색으로 갈수록 신뢰성이 떨어지는 것.


BLAST를 돌렸을때처럼 E-value 가 적은 순서에 따라서 alignment의 신빙성이 높다고 보면 됨.

뭐 이건 해당 시퀀스에 대한 구조이므로 100% alignment가 일치하는 것은 당연한 것이고, 해당 부분의 2차구조 (H:Helix, E:Sheet, C:Random Coil) 의 예측과 실제 구조에서 뽑은 2차구조 (dssp라고 나와 있는 부분) 도 비교해 볼 수 있다.

“그렇다면 이렇게 구조가 검색되는 부분은 안 흐느적거리는 부분이겠네요?”라고 물어보실 분도 있겠지만, 꼭 그런 것은 아니라는. PDB에는 결정구조뿐만 아니라 NMR 구조도 올라와 있으며 흐느적 부분에 대한 정보는 대개 나오지 않는 결정구조에 비해서 NMR의 경우에는 특정 부분이 열라 흐느적하다라는 정보까지 들어 있는 관계로, NMR 구조가 매핑되어 있는 경우에 정확한 ‘안 흐느적’ 경계를 살펴보기 위해서는 해당 구조를 한번 들여다 보는 게 좋다.

PyMOL을 이용하여 제일 첫빠따로 나오는 구조인 1MKE를 열어보면

PDB가 로딩될때 메시지창을 잘 보면
총 21개의 모델로 이루어진 앙상블임을 알수 있고

밑의 버튼에서 플레이를 지긋이 눌러주시면..

흐느적 돋네. -.-;;; NMR은 궁극적인 흐느적 찾기 실험수단임을 잘알수 있다.

즉, 오늘은 사실 예측도 아니고, 기존에 실험적인 방법으로 흐느적거리는지, 안 흐느적거리는지 파악된 부분에 대한 정보를 이용하여 ‘안 흐느적 거리는 부분’ 부터 파악하는 것이라고 볼 수 있다. 그렇다면 ‘진짜로 흐느적거리는’ 부분은 어떻게 ‘실험 없이’ 찾을 수 있겠나? 그건 다음에…레알. ㅋ

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s