단백질 중에서 흐느적거리는 부분을 찾는 방법들 – 전편

이전에 ‘흐느적거리는 단백질’에 대한 글을 쓴 적이 있다. 그렇다면 단백질 중에서 흐느적 intrinsically disordered 그냥 흐느적이라고 쓰자 갑자기 영어로 쓴다고 유식해 보이지 않는다 거리는 영역을 어떻게 예측해 낼 수 있을까?

아, 그 이전에 ‘흐느적거리는 부분을 찾아서 뭐하게’ 라는 답에 먼저 답하는 게 우선일까? ㅎㅎ

단백질 내에서 흐느적 영역을 찾는 것은 다음과 같은 면에서 중요하다.

1. Disordered된 영역에는 단백질간 상호작용의 핫스폿이 많이 숨겨져 있다

이전의 글에서도 잠시 이야기한 것이지만, 두개의 고정된 fold 의 단백질이 서로 깔맞춤이 되어 인식할 수도 있겠지만 (antigen-antibody pair 등) 그것보다는 고정된 폴드를 가진 단백질에 구렁이 담넘어가듯 스르륵 흐느적거리는 단백질이 맞추어 주는 게 ‘상식적으로도’ 좀 더 쉬울 것 같다. 비과학적 설명 돋네

물론 ‘단백질 상호작용의 핫스폿이 흐느적영역에 많이 숨겨져 있다’ 라는 말을 ‘흐느적 영역은 단백질 상호작용을 하는 영역이다’ 라고 오해하지 말 것!

2. 단백질 결정은 흐느적거리는 영역은 시르다.

단백질 구조결정의 대표적인 방법인 단백질 결정학에서 제일 난점은 단백질 결정을 만드는 것인데, 여러개의 도메인을 가지는 복잡한 단백질의 경우 가능한 흐느적 영역을 제거해 버리고 폴딩이 잘 되어 있는 영역만을 가지고 시도하는 것이 최선의 방법이다. 결정화하려는 단백질에 흐느적 영역이 포함되어 있을 경우, 결정 생성을 방해하는 것은 물론이고, 어차피 결정화가 되어도 이러한 영역은 결정 내에서 요리갔다 저리갔다 균일한 형태를 이루지 않을 가능성이 많기 때문에 구조를 결정해도 전자밀도가 관찰되지 않는 경우가 많다. 어차피 안보이는 거 짤라부려 물론 파트너와 결합하지 않았을때는 마냥 흐느적거리다가 파트너를 만났을때는 깔맞춤으로 고정된 폴드를 이루는 경우에는 결정화가 되곤 하지만 이것은 일단은 다른 이야기. (이를 위해서라도 흐느적거리는 영역을 파악하는 것은 중요하다)

3. 흐느적 거리는 영역은 단백질 정제시에 잘 분해되어버린다.

단백질 분해효소가 단백질을 와구와구 자르려면 당연히 일단은 타겟인 단백질에 결합되어야 하고, 고정된 폴드를 지닌 부분보다는 흐느적 영역이 단백질 분해효소의 주된 타겟인 경우가 많다. 가령 대장균에서 이런 ‘흐느적영역’ 을 가지는 단백질을 발현 정제할 경우 ‘단백질이 두조각이 났어요 엉엉엉’ 하며서 괜히 엄한 Protease inhibitor 회사만 탓하는 경우 많지만 그러지 마라. 흐느적 거리는 부분은 어차피 단백질 분해효소의 밥이다. ㅋ

물론 실험을 하다 보면 전체길이의 단백질이 필요한 경우도 있겠지만, 그러지 않은 경우에는 이런 흐느적 거리는 부분은 배제하고, 일단 잘 폴딩되어 있는 부분만을 따로 떼서 정제하는 것이 속편하다. 많은 단백질의 경우 N 말단, C말단에 아주 긴 흐느적경역이 있는 경우가 있는데, 이런 흐느적 영역을 대상으로 연구를 하는 것이라면 모르겠지만, 그렇지 않은 경우 왜 골치덩이를 떠 않고 계세여. 고갱님. 걍 잘라버리셈 ㅋㅋ

자,이런 연유로 단백질 중에서 흐느적거리는 부분을 찾아야 하겠는데, 그럼 어찌해야 하나?


1줄 요약 : 아래 리뷰를 읽고 시키는 대로 하시오.

Ferron et al., A Practical overview of protein disorder prediction methods, Protens : Structure, function, Bioinformatics, 2006

자 설명 끝입니다. 잘 읽고 따라해보세요. 그럼 안녕…

이라면 너무 허전하니까 이 리뷰에 나온 방법및 원리에 대해서 잠깐(?) 설명해 보기로 한다.

일단 단백질 내에서 흐느적거리는 영역은 어떤 특성을 가지고 있을까? 흐느적거리는 영역이 단백질 서열을 기준으로 어떤 특성을 가지고 있는지를 알아야 예측을 하든지 말든지 할 것이다. 걱정마여 웹 서버 느님이 다 알아서 해줄거예요 하신 당신…복도에 나가서 물통들고 서있으쇼.

1. 흐느적거리는 영역은 아미노산 편식을 한다

알파힐릭스라든지 베타 스트렌드 등으로 폴딩되어 있는 단백질의 경우 소수성 (Hydrophobic)한 아미노산들인 I,V,L,F 등과 극성이 있는 아미노산들이 골고루 분포되어 있는 반면 (그래야 단백질 내부에서는 소수성 잔기들이 잘 패킹되어 있겠고, 외부에서는 극성이 있는 아미노산이 위치할 것이므로) 흐느적거리는 단백질들의 경우에는 지극히 편중된 아미노산 분포, 특히 G, S, P등의 아미노산이 대박 존재하는 경우가 많다.

가령, 이런 단백질이 있다고 하자.

MDAPRALAAKPPTGRKMKARAPPPPGKPAAQNVHSEQKLPHDATLGSQQSLVYMKEALQN
STLDITVVLPSGLEKQSVVSGSHAMMDLLVELCLQNHLNPSHHVLEIWSSETQQPLSFKP
NTLIGSLNVHTVLLKEKVPEERVKPGLTKAPEKSVRLVVNYLRTQKAVVRVSPEVPLQNI
LPVICAKCEVNPEHVILLRDNVAGEELELSKSLNELGIKELYAWDNRREMFRKSSLGNDE
TDKEKKKFLGFFKANKRSNSKAEHLGLSGADSDEDPAKSASGGDLNGCVTTPNSPSLHSR
SLTLGPSLSLGNISGVSMKSDMKKRRAPPPPSPKLLGQDKVSEKASLSSQADLQKKKRRA
PAPPPPQQPPPSPVVPNRKEDKEENRKSTVGVGRQVPQKPPRGTARGPPQLVLPPPPPYP
PPDTDVTEPVTFPGEGAGSETSELRPKLSLPLGPGSHCSMGGVSQVPAESEETASEDTTE
DSGVMSSPSDAISLDSQQDSMRSKDKWSTDQEDGSDQDLAGTPELGPQKSPSWGKSGSGS
SILRTEKATMPTNDDEDLFITGHLHQTLAELDEDLEGMEENYETDTSSLTNSVNGVSNHS
LQEAIIPDSGVDDIPVTFIGEVSDEPFDSGLFSSRCNNATTFNTGSIASQRSHLSPSQTE
HSQPFVRTSRKEPDPSPPSQDNRKRNQPTLANTSENENPVETDPTVTSLVSKLLIDDPKA
KDKGKVHGSSHSEKTQAGHGINSLRVNPRDGKDESSNSAPPPWSHHGQALGGSYGLKYGL
TTYKIVPPKSEMRCYDRDVSLSTGAIKIDELGNLVSPHMNGSRTISPPSAVVETDTPPIG
KVKEFWRRNSMEKYLNGPAECTIKRAPSTTITATPEKPQQDNGMKAAFTVTTPQQQPASQ
EYGAHLEEERSRPQSAVSCSVKVPASNPTDITFLKPQRRTSSQYVASAIAKKMGPPKVHA
DVVRPHKATTEQCHEEAKLARSPPTRKDDAAPNLHSEARQHEHGTNQSSVCLPSNPGVQL
PAGGHPKVEVNSTYGKSSTQDYPAAVHRNSYFLPGRSSHRDRVSVGQSCGFNEKQTTSNQ
KANSTSNFSQALDKAHPPPLLLAEARDSGRILMNGSARTPGNCEPPHSPKESTLTSYIIL
QTEEKPSSLSTDGQDADDTLPSSIFGPKKKFKPVIQRPLPKDVSLHSALMEAIHSSGGRE
KLRKTAEQTSEGRPKKPSYVEAESERSALLAAIRGHSGTLSLRKVSSLASEELQSFRNAA
LGAPGLDKPQQEDLGLPPPPALPPPPAPAPQAPSASVTVSRFSTGTPSNSVNARQALMDA
IRSGTGAARLRKVPLLV

중간에 보면

SLTLGPSLSLGNISGVSMKSDMKKRRAPPPPSPKLLGQDKVSEKASLSSQADLQKKKRRA
PAPPPPQQPPPSPVVPNRKEDKEENRKSTVGVGRQVPQKPPRGTARGPPQLVLPPPPPYP
PP

뭐 이렇게 ㅍㅍㅍㅍㅍㅍㅍㅋㅋㅋㅋㅋㅋㅋㅋ 뭐 이런부분 좀 있는데 이런 부분은 영락없이 흐느적 영역이다. 인터넷에서도 초성체 많이 쓰면 실없고 흐느적거리는 사람으로 오인받을 수 있다 생화학을 좀 공부하신 분이라면 proline, 특히 polyproline의 경우에는 정상적으로 alpha-helix 나 beta-sheet 를 형성하지 못하고, polyproline의 경우에는 고정된 conformation을 가진다는 것을 기억하실 것이다. 모르면 닥치고 위키피댜 그리고 Glycine의 경우에는 대표적인 helix breaker 이다. 그러므로 G,P,S 등이 디리 이는 부분은 대개 a-helix나 b-sheet 가 아니라는 것은 대충 감잡을 수 있을듯.

2. Secondary Structure Prediction에서 대개 예측되지 않는다.

당연한가. -.-;;;
참고로 요즘의 이차구조 예측의 정확도는 대략적으로 70-80% 정도라고 보면 된다. 이것은 특정한 아미노산 하나를 기준으로 하는 것이며, 만약 단백질 영역 전체가 힐릭스와 쉬트로 빽빽히 들어찬 영역이 전혀 헬렐레한 흐느적거리는 영역일 확률은 거의 없는 셈이다.

3. 흐느적거리는 부분은 대체로 진화적으로 잘 보존되지 않는다

여러개의 도메인으로 구성되어 있는 단백질을 여러종의 생물종 유래의 시퀀스를 뽑아서 Multiple Sequence Alignment (MSA) 등을 만들어 본다 하면 확실하게 알 수 있는데, 대개 폴딩되어 있는 도메인에 비해서 흐느적 영역은 훨씬 conservation이 떨어지는 경우가 많이 있다. 즉, 뮤테이션에 의해서 기능적인 영향을 확실히 받는 폴딩된 도메인에 비해서 흐느적 영역은 이러한 뮤테이션이 더 발생할 빈도가 많다는 것. 즉 어차피 잉여영역이니까 바뀌어도 별 상관읍다. 아 슬퍼 ㅠ.ㅠ 물론 흐느적거리는 영역이라고 해서 모두 진화적으로 잘 보존되지 않는 것은 아닌데 (이전에 쓴 글 자체가 ‘흐느적거리는 영역 중에서 진화적으로 보존된 영역은 단백질 상호작용 핫스팟일 가능성이 높다’ 이다) 이것을 주의할것.

4. Low sequence Complexity

Low sequence Complexity는 뭐가 High Complexity는 뭐야 이런 분들이 있겠지만 뭐 간단하게 생각하면

 PPPPPPPKKKKKKKKEEEEEEEEEEEEEKEKEKKKKKKKKKKKKKKKKKKKKKKKKKKKKE

안복잡. Low sequence complexity

 PLPSASTSKSPDSRNALLSEIAGFSKDRLRKTGSLETLNSSQSKDKES 

복잡. High Sequence Complexity

야매스러운 설명이라고 비웃는 분은 Shannon’s Entropy 드셈 두번드셈. 즉 정보이론의 개념을 차용한 개념이다. 설명 어설프다고? 논문 더드셈

즉 간단하게 야매스럽게 설명하면 단백질이 헬릭헬릭 쉬트쉬트 줄줄이 잘 꼬이려면 중간에 소수성도 섞여있고, 까칠한 플러스, 마이너스 다 섞여있어야 잘 차곡차곡 폴딩된다는 것이고 KKKKKKKKKEEEEEEEEEEEEE 이러면 헬릭헬릭 쉬트쉬트 못하고 헬렐레 하는 경향이 많다 이정도로 알아두면 되겠다.

4. 뭐 기존에 폴딩되서 구조나온거와 안비슷하면 흐느적이지 뭐

당연한가…-.-;;;

물론 아직도 제대로 3차 구조를 이루는 단백질이지만 구조가 규명되지 않은 단백질도 꽤나 있지만, 상당수의 단백질의 3차 구조가 실험적으로 규명되었고, 자신이 관심있는 단백질과 100% 상동성이 없더라 하더라도 최소한 30-40% 정도의 상동성을 가진 단백질과 상동성을 가진 영역이라면 대충 이것도 비슷하겠거니 생각할 수 있겠다. 컨닝 돋네 넘 뻔한 이야기이므로 설명할 것도 읍다. 반면에 상동성 있는 단백질의 3차 구조가 전혀 나오지 않은 부분이거나, 구조가 규명되었는데도 실제 구조 내에서 잘 보이지 않는 부분이라면 확실히 흐느적거리는 부분이라고 볼 수 있을 것이다.

그렇다면 이러한 ‘흐느적거리는 부분’의 특성을 이용하여 어떻게 미지의 단백질에서 흐느적거리는 영역과 안 흐느적거리는 영역을 예측해 낼 수 있을까?

위 논문 저자 이넘 사실 친구 ㅋ 넘이 친절하게 만들어 놓은 다이어그램대로 하면 됩니다.


즉 1줄로 요약하면 ‘기존에 나와있는 여러가지 방법을 써서 잘 예측한다’ (…..)

고갱님. 참 쉽져? 이제 끝입니다…

.
.
.
.

물론 이렇게 도망가면 뭐라뭐라 할테니까, 다음에는 실제 단백질 서열을 가지고 여기서 흐느적 영역을 찍어보는 방법에 대해서 실제 웹툴 등을 돌려보며 알아보기로 하겠다. 진짜. 레알. 오늘은 여기까지. 나 블로그에 글쓴다고 월급 안오른다. ㅠ.ㅠ

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s