에릭 렌더가 동물원에 간 이유는? 부제 : 수억 년이 흘러도 소중한 것은 항상 거기 그대로 남지요

오늘도 나카지마 미유키 눈화 가사를 연상케 하는 부제 ㅋ

오늘 디벼 볼 논문은 이 논문.
A high-resolution map of human evolutionary constraint using 29 mammals, Nature 2011

2001년 우리의 빌횽 (게이츠 말고 클린턴)이 좌 벤터,우 콜린스 대동하고 하얀집에서 ‘휴먼 지놈? 우리 손 안에 있소이다’ 드립을 친지도 어언 10년이 넘어간다.

콜린스 “빌횽, 저기 벤터가 혼자 지놈도시락 까먹으려다 걸린애거든요?”

게다가 이제 ‘대략적인’ 개인의 지놈 시퀀스는 약 5백만원 정도의 비용이면 얻어낼 수 있는 시대가 되었고, 무려 1천명의 개인 지놈 시퀀스가 공식적으로 공개되게 되었다. 이제 우리는 휴먼 지놈에 대해서 빠삭하게 알고 있는 것이겠죠? 그런거죠? 그러면 이제 여러가지 유전병의 원인은 물론이고 자신의 건강에 대한 정보를 지놈 시퀀싱만 슥 하면 손바닥 바라보듯 잘 알 수 있는 것이겠죠? 그렇죠?

….긍정적 사고방식 돋네염 고갱님.


NHIGR의 에릭 그린 아저씨도 인정한 아직 멀고 험한 길이다.

즉, 아직까지도 우리의 지놈에 대한 이해수준은 매우 부족한 것이 현실. 이것을 좀 알기 쉽게 비전공자도 알아먹도록 설명하기 위해 어떤 예를 들까 생각해 보았는데…가령 휴먼 지놈의 해석문제를 자신이 개발하지 않은 소프트웨어를 분석하여 프로그램의 구조가 어떻게 되었는지 역공학 (Reverse Engineering)하는 것으로 비유해 봅시다.

무엇을 예로 들까 고민했으나 그냥 대세에 맞추어 디아블로 3 이라고 합시다. 해커 너님이 블리자드 서버에 몰래 들어가는 방법을 강구해서 바이너리 파일과 리소스파일을 몽땅 긁어오는데는 성공했음. 그러나 소스파일이나 도큐먼트는 전혀 없는 상태. 그래서 바이너리 파일의 경우 이것을 디스어셈블리를 해서 어셈블리 레벨에서 어떤 일을 하는 부분인지를 일일히 파악해야 하고 싶다. 그래서 고생끝에 디스어셈블리를 다 해 봤음.

…그런데 실제로 프로그램에 해당하는 코드 부분은 전체 데이터의 1.5% 밖에 안돼! 나머지는 텍스트 에디터로 ‘ㅋㅋㅋㅋㅋㅋㅎㅎㅎㅎㅎㅎㅎㅎ’ 하는 초성체 글자식으로 깨져나오는 정체불명의 파일밖..그렇다고 이들을 삭제해버리면 게임이 실행되지 않음. -.-;; 이거 버릴 수도 없는 중요한 데이터이긴 한 것 같은데, 도데체 뭐에 쓰는 물건이여?

지놈 시퀀싱을 다 해놨다는 상황이 결국 이런 꼬라지였던 것이다. 그래놓고 만병통치 드립을 쳤으니 쯔쯔

생명 현상이라는 영화에서 주연은 누가 뭐래도 단백질. 그런데 지놈상에서 단백질을 암호화하는 부분에 해당하는 엑손 (Exon) 영역은 약 1.5% 밖에 되지 않는다. 블록버스터 영화를 찍는 수천명의 배우, 스탭 중에서 내가 아는 넘은 탐크루즈..글고 몰겠다. -.-;;; 하는 격.

From Regulatory and Epigenetic Landscapes of Mammalian Genomes, Laura Elnitski, NHGRI

그러나 그렇다고 이들 이외의 시퀀스는 중요하지 않은 것이라고 말할 수가 없는 것이, 유전자의 발현을 조절하는 Regulatory Sequence의 경우에는 당연히 Exon 밖에 위치하게 되어 있고 (Promoter, Enhancer 등), 게다가 기존에는 쓸모없는 잉여 DNA 부분이라고 생각했던 인트론이나 유전자 사이의 Intergenic Region에서도 질병이나 형질과 관련되어 있다고 생각되는 변이 (SNP, CNV)가 나타난다.

가령 영화에 대한 비유를 들어 생각해 본다면, 기존의 단백질 중심주의에서는 ‘주연배우’ 인 단백질이 뭐하는지만 제대로 파악하면 영화 그까이꺼 나도 감독해요 수준의 이해였다. 그런데 이거 배우만 떡 데려다 놓으니 이거 얘 완죤 잉여야. -.-;; 혼자서 자기 의상하나 못 챙겨 입어. 즉 배우의 스케줄을 관리하는 매니저, 의상담당 따위를 떠나서 조명, 촬영, 편집, 특수효과 등등등을 담당하는 수많은 스탭의 역할을 배제하고 주연배우! 주연배우만 잡으면 영화는 끝이예요 외쳐왔던 수준이 지놈 프로젝트 이전의 사고방식이라면 좀 과장된 비유일까? 여튼 지금은 주연배우도 주연배우지만 그 외의 ‘스탭’ 에 대한 이해가 있어야 한다는 것으로 생각이 바뀌고 있다는게 현재 지놈 업계의 상황이라고 보면 된다.

그럼 1.5% 밖에 안되는 코딩 리전 이외의 다른 부분은 뭐가 중요하고 뭐가 안 중요한 부분인 거여. 모르게써 그냥 맨붕?

휴먼 지놈 프로젝트가 일차로 완결되면서 새롭게 대두된 이러한 난제를 해결하는데에는 여러가지 방법이 있겠지만, 이 중의 한가지의 방법은사람 이외로 시선을 돌리는 것일 것이다. 그래서 동물원에 갑니다.

즉, 만물의 영장 드립을 쳐도 결국 냉정하게 바라보면 사람도 결국 동물 1종의 하나일뿐. 즉 사람도 엄연히 동물 중의 하나이며, 휴먼 지놈과 마찬가지로 다른 동물들의 지놈에도 그들이 살아가는데 필요한 요소를 가지고 있으며, 이는 사람과의 유전적인 연관성이 얼마나 되느냐에 따라서 지놈 정보가 유사할 것이라는 것은 당연한 이야기. 이러한 것을 감안하여 좀 생각을 해보면,

– 사람과 쥐, 오리너구리에 이르기까지 다양한 생물종에 걸쳐서 보존된 지놈 상의 부분이라면 척추동물의 생명현상에 중요한 역할을 하는 부분일 것이다. 가령 디아블로, 스타, 와우에 걸쳐서 공통적으로 존재하는 루틴이라면 게임에서 가장 핵심적이고 공통적인 역할을 수행하는 엔진에 해당하는 부분일 가능성이 높다.

– 포유류, 혹은 영장류, 아니면 사람에서 특이적인 부분이라면 각각의 서로 다른 생물종의 고유한 특성을 나타내는 부분일 가능성이 많다. 가령 사람과 매우 유전적으로 흡사한 침팬지와 사람간에서 크게 틀린 영역이라면 이것은 ‘사람이 사람다움’ 을 나타내는 형질과 관여된 것일 가능성이 많을 것이다. 가령 오리지널 스타크래프트와 브루드워를 비교해서 두개가 틀린 부분이라면 아마도 추가 유닛과 신규 켐페인에 대한 내용이 아닐까?

주변을 열심히 돌아보고 주변사람과 자신을 비교해 볼 수록 자신에 대해서 더 잘 알 수 있게 되는 원리라고나 할까. 여튼 이런 배경하에 에릭 렌더 (Eric Lander)를 대빵으로 하는 Broad Institute 의 사람들은 기존에 시퀀싱된 7가지의 포유류 지놈 정보에 덧붙여 약 20종의 새로운 척추동물 지놈 시퀀싱을 수행하고, 이들을 총합 분석하여 ‘척추동물에서 공통적으로 보존된 부분은 어디인가’ 를 분석하게 되었다. 이것이 오늘 디벼보고자 하는 논문. 사설 넘 길다

그래서 이제 논문에 제시된 내용을 좀 들여다 보기로 하자. 이 논문에서 발견된 제일 중요한 내용을 1줄로 요약하면,

사람 지놈의 약 4-5% 정도는 척추동물 전체에서 변하지 않고 유지되고 있는 부분으로써 이 부분이 인간의 생명현상을 이해하는데 제일 중요한 부분이다.

라는 것이다. (바쁜 분들은 여기서 그냥 나가셔도 됨. ㅋ)

위 논문에서 사용된 척추동물 지놈 29종 중에서 사람과 마우스는 이미 시퀀싱되고 피니싱까지 완료된 최고퀄리티의 지놈. (파란색 글씨). 사람과 쥐는 지놈계의 투탑 ㅋ 이것보다 좀 격이 떨어지는 지놈은 생거 기준으로 약 5-6X 리던던시로 드래프트 시퀀싱 된 넘들 (초록색 글씨) 개, 소, 말 주로 그런 넘들이다. 개나소나말이나 시퀀싱 다하네 검은 글씨로 표시된 것은 그냥 2X 정도 찔끔 시퀀싱된 지놈계에서는 듣보잡(?)동물들. ‘저기여 2X로 시퀀싱해서 뭐 어쩌자구요. 요즘은 최소 30X-50X까지 시퀀싱하는 NGS 시대 아닌가염?’ 하시는 분도 있겠지만 이 프로젝트는 NGS가 개시되기 전에 훨씬 일찍 시작되었으며, 800-1000bp 이상의 Read Length의 생거 데이터는 요즘 나오는 NGS 의 숏다리 리드 보다는 리던던시가 훨씬 적어도 더 나은 데이터를 뽑을 수 있다는 것을 잊지 말것. 그래도 2X는 쩜 그렇다 하는 생각도 들지만 뭐 ㅋ 자연 논문 이미 내써 어쩌라구 ㅋ


Figure.1 어쨌든 이런 지놈 시퀀스를 가지고 이 논문에 참여한 동물들의 족보를 따져보았다. Figure 1 a패널은 은 이번 연구에 차출된 잡짐승들의 계통도. (보통 이런 계통도 그린다 하면 유전자 하나 가지고 깨작거린 것이지만 이번에는 통크게 지놈 전체를 사용해서 사용) 사람은 당연히 침팬지, 원숭이류들과 같이 묶여있고, 마우스, 랫, 소, 말, 개 등의 네임드 동물뿐만 아니라 다람쥐, 고슴도치 (소닉돋네), 아르마딜로 등과 같은 넘들까지 모두 포함되었다.

b 패널에서는 이들 잡스러운 짐승을 통틀어 보존된 염기서열들은 주로 어디에 많이 나타나는가에 대한 그래프인데, 전체적으로 인간 지놈의 약 5% 정도는 잡짐승에서까지 모두 공통적으로 보존되어 온 영역이라는 것을 알 수 있었다. 즉 최소 5% 정도 부분은 수억 년동의 진화과정 속에서도 변치 않고 간직되어 있는 부분. 이 중 약 17% 정도는 단백질을 암호화하는 코딩 영역에 존재. 코딩 영역이 대체로 지놈 전체의 1.5%에 지나지 않는다는 것을 생각해 볼때 당연히 코딩 영역은 이들 짐승들을 통해서도 보존되어 있을 가능성이 높은 중요한 영역이라는 것은 예상한 그대로. 그러나 이렇게 진화적으로 보존된 영역 중 절반 이상이 인트론 영역, 유전자간의 인터제닉 영역이라는 것은 이 부분은 단백질을 코딩하는 영역만큼이나 중요한 ‘뭔가’ 가 있다는 것을 암시해 준다. 그럼 그 ‘뭔가’란 뭘까?

인트론 영역이나 기존에 ‘유전자 사이의 잉여영역’ 이라고 생각되던 부분 중에서 보존된 영역은 ‘뭔가 중요한 일을 하지 않을까?’라는 생각을 하고 이 부분을 집중적으로 뒤벼보니까 이런 예처럼 전사인자가 붙는 영역들을 발견할 수 있게 되었다.


후후 너의 공격 패턴은 이미 파악되었다 TGTGTTGTTGGTGG

대개 인간 사이에서 발견되는 변이(SNP)의 경우에는 포유동물 전체에서 하나도 변이가 없이 보존된 영역에서는 거의 발견되지 않는다는 점도 중요한 점이다. 더우기 변이가 있는 부분에서의 치환 패턴의 경우에는 다른 생물에서 발견되는 것과 유사한 패턴을 취한다는 것. 즉 인간 SNP에서 T 아니면 G 의 heterozygote가 존재하는 영역이라면 대개 다른 생물에서도 T 혹은 G 로 분포할 가능성이 높다는 점. 즉, ‘바뀌어도 크게 문제가 없을만한 영역’ 이기 때문에 인간 사이에서도 변화가 관찰된다고 생각하면 되려나.

인트론 안에 보존된 영역이 있어서 뒤벼보았더니 90bp 정도의 ORF가 나오드라.

단백질을 암호화하는 코딩 리전에서 사용되는 코돈은 아미노산별로 복수개가 있을 수 있다. 따라서 일반적인 경우에 SNP 등으로 변이가 생겨도 아미노산에 변화가 생기지 않으면 뭐 그거 상관 있겠음? 생각하기 쉬우나 (Synonymous substitution) 사실 많은 질병 및 형질과 연관된 SNP중에서 synonymous substitution인데도 표현형에 영향이 생기는 경우가 있다. ‘왜 그런거임?’ 잘 모른다. -.-;; 그러나 이번 연구로 여러가지 생물종에 걸쳐서 Synonymous substitution이 잘 일어나지 않는 영역 (Synonymous Constraint Element)가 약 10,000개 이상 인간 지놈에 존재한다는 것이 확인되었다. 위는 그 예. 즉 코딩 리전인데도 코딩하는 아미노산이 문제가 아니라 RNA Sequence 자체가 무엇이냐에 따라서 변화가 될수 있다는 것은 ‘단백질이 똑같으면 뭐 상관없는거야’ 식의 단백질 중심주의적 사고방식에 ㄸ침을 날리는 한 예라고 볼 수 있겠다. ㅋ

그리고 noncoding region 중에서 보존된 영역을 디비 파본 결과 약 1천개가 넘는 noncoding RNA 가 발견되었다. 이 데이터와 기존에 ENCODE에서 한 RNA-Seq 데이터 등을 종합분석해 본 결과

이런 식으로 structure를 가진 noncoding RNA가 이런 보존된 영역에서 실제한다는 것이 확인됨.

그리고 이 보존도를 뒤벼보는 것은 SNP 중에서 linkage equilibrium 에 위치하고 있는 여러가지 SNP 중에서 어떤 넘이 실제로 문제를 일으키는 넘인가를 찍는데 보탬이 될 수 있다 카더라 하는 이야기도 하고 있다.

요기서 SNP 한 넘 (rs8073963)이 다른 생물종에서 보존된 인핸서를 바꾸는 역할을 하므로, 다른 넘들보다는 요넘이 좀 더 ‘범인’ 일 가능성이 높지 않을까 하는 드립도 칠 수 있다.

끝으로 이러한 연구를 통해서 ‘사람이 다른 동물과 진짜로 다른 부분’, 즉 침팬지와 사람에서 급격히 다른 부분이 어디인가를 찾아낼 수 있게 되었는데, 물론 이런 변화가 어떻게 사람과 침팬지의 차이를 낳게 되었는지에 대해서는 앞으로도 많은 연구가 필요하다. -.-;;; 라고 쓰고 그냥 아직 몰라요라고 읽는다.


믿거나 말거나 지놈 수준에서 사람과 침팬지의 차이를 찾는 것은 조낸 힘들다. ㅠ.ㅠ

어찌되었건 이러한 29종의 동물간에서의 보존성 연구는 지놈을 해석하는데 있어서 꽤 유용한 자료로 사용될 것이 틀림없다고 생각한다. 이러한 자료는 이 업계에서 가장 널리 사용되는 UCSC 지놈 브라우저와 Broad의 Integrated Genome Viewer 를 통해 뒤벼볼 수 있게 되었는데.

UCSC Genome Browser

Integerated Genome Viewer

여기서 한번 Integerated Genome Viewer로 이 데이터를 직접 살펴보자. Integerated Genome Viewer 링크를 클릭해서 29mammals.jnlp 를 실행하면,

자바 웹스타트 뜨고, 자동적으로 IGV가 로딩되면서 29 mammals 데이터가 같이 로딩된다.

자기 관심 유전자를 한번 뒤벼보자.
나는 걍 요새 다루는 유전자인 ACTN4 를 찍어봐따. 그러면 그 위치로 이동하는디..

각각의 패널에 대한 설명은 요기 를 참조한다.

여기서 SiPhy pi, SiPhy omega가 바로 conservation 스코어로 (자세한 정의는 위의 설명 참조) 위의 숫자가 높을수록 29종의 동물종에서 보존되어 있는 부분이라는 것을 알수 있다. exon 영역 이외에도 보존되어 있는 영역이 꽤나 많져?


여기에 추가하여 dbSNP 데이터를 한번 로딩해서 뒤벼보고자 한다면

아 더이상 뒤벼보는 것은 여러분들이 알아서 하삼. ㅋ

여튼 이런 논문이었슴다. 즉, 사람에 대한 것을 이해하려면 동물원에 가보는 것도 때로는 하나의 방법일 수 있다는 말씀.

4 thoughts on “에릭 렌더가 동물원에 간 이유는? 부제 : 수억 년이 흘러도 소중한 것은 항상 거기 그대로 남지요

  1. 이딴거 리플로 남기긴 좀 뭣하지만 그래도… ㅋㅋㅋ

    행님 “가령 휴먼 지놈의 해석문제를 자신이 개발하지 않은 소프트웨어를 분석하여 로그램의 구조가 ” 부분에서 로그램–>프로그램…ㅋㅋㅋ

  2. 디아3로 설명한 부분 압권이네요
    Characterizing the human genome 그래프 어디서 많이 봤다 싶었는데, 물질, 암흑물질, 암흑에너지 그래프랑 똑같네요ㅋㅋㅋ
    모르는게 많은게 좋은건지 나쁜건지 ㅎㅎㅎ

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s