오늘의 논읽남 : 엔코드를 디코딩하기 (2) GWAS 데이터의 의미를 찾아라

지난번에 예고한대로 이제 DNase I Hypersensitive Region 이 질병과 어떠한 관련을 가질 수 있는지에 대한 논문을 소개하고자 한다. 단, 이 논문은 정식으로 ENCODE 논문 번들로 묶이는 논문은 아니다. (그렇지만 ENCODE에서 DNase Hypersensitive 데이터를 낸 그룹에서 한 일이므로 ENCODE 데이터의 응용사례 제 일호라고 할만한 일일듯.

Maurano et al., Systematic Localization of Common Disease-Associated Variation in Regulatory DNA, Science 2012

휴먼지놈 프로젝트가 일단 종료된 이후 당면한 과제는..’님들, 휴먼지놈 프로젝트가 다 되면 만병의 원인이 다 알려지고 불로장생이 가능해진대매? 어쩔꺼여?’ 하는 일반인들의 과도한 기대 (…) 를 어느정도라도 부응하는 척이라도 하는 것이었다. 그렇게 해서 가장 일반적으로 많이 수행된 연구가 바로 GWAS (Genome WIde Association Study : 그와~스라고 읽는다드라) 연구들.

GWAS의 기본적인 전제는 ‘Common disease-Common Variant’ 라는 것. 이게 무슨 이야기냐믄고혈압, 자폐증, 고지혈증, 당뇨….등과 같이 흔히 나타나는 질병들 역시 어느정도 유전에 영향을 받는 것은 확실함. 알다시피 가족력에 따른 영향이 분명히 있으므로. 그러나 이런 질환은 특정 유전자의 결손에 의해서 멘델의 유전법칙에 딱딱 떨어지게 유전되는 유전질환처럼 알기쉽게 유전되지 않는다.

이런 흔한 질병의 경우에는 사람들에게서 많이 나타나는 유전변이들의 총합에 의해서 나타나는 것은 아닐까? 그렇다면 사람들에게서 많이 나타나는 유전변이를 수백만개를 모아놓은 SNP Microarray 를 이용하여 대조군에 비해서 환자에게 통계적으로 유의하게 더 많이 나타나는 Genotype 을 가지는 SNP을 골라보면 이것들에 따라서 해당 질병에 관련된 유전자를 찾을 수 있지 않을까….와 같은 기본적인 아이디어를 바탕으로 하는 것이 GWAS의 기본 개념이다.

그래서 각종 질병, 혹은 체질량지수, 혈압…등등과 같은 각종 형질과 연관된 SNP을 찾기 위해 수만-수십만의 사람을 대상으로 SNP Microarray 로 지노타이핑을 수행하여 현재까지 수십종류의 질병에 대해서 통계적으로 유의하게 연관된 수천종류의 SNP 이 발굴되었다.

그러나 문제는 이렇게 발굴된 SNP의 대다수 (약 93%) 가 단백질을 코딩하는 엑손 영역이 아닌 논코딩 영역이 아니라는 것이 문제. 지금까지 대개의 분자생물학 연구들이 마찬가지로 무슨 단백질이 어떻게 해서 무슨 일을 수행하고, 이 단백질의 무슨 영역에 뮤테이션이 생기면 활성에 영향을 받아서~ 로 각종 생명현상및 질병에 대한 썰을 풀어 왔는데 인트론 영역, 인트론 영역도 아닌 인터제닉 영역의 변이가 형질에 영향을 준다고 한다면 뭐 이거 어쩌라는 거여….맞기는 맞는거여? 그냥 동전 여러번 굴리면 맞는식으로 찍힌 거 아녀? 하는 의구심도 많았다.

물론 프로모터 영역이라든가 인핸서라든지 각종 전사조절인자가 붙는 영역에 매핑된 SNP, 아님 뭐 스플라이싱 정션에 매핑된 SNP이라면 또 그건 그런데로 설명이 가능하겠지만 대부분은 그것도 아니고.

물론 GWAS가 생물학적인 가설을 배제하고 순전히 통계학적인 유의성에 의거하여 변이를 발굴하는 연구라는 한계상 이런 문제들이 나오는 것은 어쩔 수 없는 일. 그렇지만 이런 것을 접어두더라도 막대한 돈을 들여서 수행된 GWAS 연구가 실질적으로 질병의 치료….를 할 수 있는 뭔가를 보여주기는 고사하고, 질병 메커니즘에 관련되서 새로운 정보도 제대로 보여주지 못한다는 비판을 받게 된다.

그렇지만 이렇게 GWAS 를 통하여 발굴된 SNP 중 상당수가 그 기능을 제대로 파악하지 못하는 것이 사실이지만, 통계적으로 유의하게 특정한 질환을 가진 코호트에 좀 더 나타난다는 사실 자체를 그저 무시할 수는 없는 일. 그렇다면 이런 변이정보를 좀 더 다른 방법으로 해석할 수 있지 않을까?

그리해서 앞에서 소개한 ENCODE의 DNase I Hypersensitive Region, 즉 ‘크로마틴이 흐물흐물’ 한 영역과 그동안의 GWAS 연구에서 발굴된 질병연관 SNP과의 관계를 알아보았다. 과연 Regulatory Region 으로 유력하게 대두되고 있는 이 ‘흐물흐물’ 영역과 질병연관 SNP와의 관계는?

결론적으로 말해서 GWAS 연구에서 발굴된 SNP 중 절반 이상 (57%)이 이 DHS 영역 (크로마틴 흐물흐물) 에 존재하드라. 그리고 약 19.5% 의 경우에는 SNP의 Linkage Disequilliblirum 영역 안에 DHS가 존재하더라. DHS 영역과 전혀 상관없는 SNP의 경우에는 고작 23% 정도.

GWAS 연구에서 발굴된 SNP 중 독립적인 연구를 통해서 재차 검증된 SNP의 경우에는 DHS영역에 존재하는 비율이 69% 로 좀 더 높았고, 동일 연구내에서 두가지 population에서 검증된 SNP의 경우에는 약 59%로 독립적으로 검증이 되지 않은 SNP의 53% 에 비해서 더 높았다. 즉 특정 질병과 연관이 좀 더 확실하게 있을 것으로 생각되는 SNP일수록 DHS 영역에 놓일 확률이 높았다는 것으로 볼때, 질병연관 SNP의 경우 DHS에 놓일 확률이 높은 편이었다.

특히 패널 C를 보면 매우 재미있는 현상이 나타나는데, Autoimmune 을 유발하는 다발성 경화증 (Multiple Sclerosis) 과 연관있는 것으로 알려졌던 SNP의 경우에는 면역관련 세포에서만 특이적으로 나타나는 DHS 와 패턴이 일치하고 있고, 심장질환의 경우에는 심장세포 특이적, 정신질환 관련 SNP의 경우에는 Brain specific 한 DHS에 일치하는 패턴을 보이고 있다.

A : 분석에 사용된 GWAS SNP의 구분 B : 이들이 각각 어디에 위치하나? C: DHS와의 거리 분포

이제 GWAS 에서 찾아진 SNP이 DHS 영역에 좀 더 많이 존재하드라, 어떤 경우에는 질병과 관련있을법한 세포에 특이적으로 나타나는 DHS에 SNP이 존재할 수 있드라 정도까지의 이야기는 되었다. 그러나 정작 중요한 것은 ‘뜬금없는 위치에 존재하는 GWAS SNP’, 즉 주변 유전자는 그닥 해당 질병과 연관이 있을 것 같지도 않은데 통계학적으로 유의하게 질병과 연관되어 있을 것으로 나오는 SNP들을 어떻게 해석할 수 있는것인가 하는 것인데,

바로 이전에 소개한 논문에서 프로모터 영역의 DHS와 비슷한 상황 (세포) 에서 같이 나타나는 원거리에 있는 DHS 들에 대한 이야기를 했었다. 즉 1차원적인 지놈의 거리에서는 꽤나 멀리 떨어져 있지만 크로마틴의 3차 구조로 따지면 근처에 있고, 게다가 유사한 전사인자들이 결합할 수 있는 가능성을 가진 영역이 있다고 이야기했다. 즉 ‘뜬금없는 영역에 존재하는 SNP’ 들의 경우에도 이러한 ‘원거리 상호작용’ 을 통해서 질병과 연관되어 있는 유전자와 관련을 지을 수 있다는 이야기이다. 

혈소판 숫자와 관련된 SNP 중 하나인 rs385893은 근처에 연관지을 유전자가 없었는데, 이 SNP이 위치하고 있는 DHS의 경우 222kb 떨어져 있는 JAK2 의 프로모터 영역에 있는 DHS와 비슷한 상황 (세포) 에서 나타난다. 게다가 크로마틴간의 상호작용을 보는 ChlA-PET Seq 의 경우에도 이러한 상호작용이 실제로 존재한다는 것이 확인되었다. 약 400개 정도의 SNP이 10kb에서 250kb 까지 달하는 멀리 떨어진 프로모터와 연관되어 있다는 것을 확인할 수 있었다. 이런 식으로 기존에 서로 상관관계가 밝혀지지 않았던 유전자와의 상관관계가 요런 식으로 다시 그려지게 되었다. ㅋ

전에는 뜬금없는 위치에 존재하던 SNP들이 이제 말…말이 된다. ㅋㅋㅋ

게다가 일부의 경우는 서로 다른 SNP allele 에 따라서 DHS 의 정도가 틀려지기도 하고 (Panel C), SNP의 위치는 대개 DHS내에 존재하는 Transcription Factor Binding Motif와 관련되어 있기도 하고..

그래서 기존에 해석이 힘들었던 SNP를 해당 DHS와 연관되어 있는 Transcription Factor 들과 관련을 지을 수 있게 되었고, 당뇨관련 GWAS 에서 발굴된 SNP 을 근거로 위와 같은 ‘썰’ 을 풀 수 있게 되었으며,

요런식의 전시안지와 질병과의 상관관계를 유추해 본다든지,

여러가지 질병과 전사인자와의 네트워크, 혹은 기관별 전사인자와의 관계라든지…드립은 끝이없다. 

그리고 약 200여가지의 세포에 대한 DHS 데이터가 있다는 것을 감안하여 해당 질병에서 특이적으로  DHS와 SNP과의 상관관계가 나타나는 세포가 뭔지를 파악해서, 해당 질병이 영향을 미치는 세포나 조직을 알아볼수도 있다.

결론적으로 말해서 DHS 데이터와 SNP와의 association, 그리고 DHS 리전과 기존에 알려진 프로모터와의 연동을 통해서 기존에 도저히 다른 유전자와 연관을 지을 수 없었던 SNP 들에 대한 해석이 가능해졌다는 이야기다.

즉, ENCODE 에서 산출된 여러가지 데이터들이 기존의 GWAS 연구에서 발굴된 SNP들을 해석하는데 어떻게 유용하게 사용되는지를 잘 보여준다고 할 수 있으며, 또한 개인지놈 시퀀싱에서 쏟아져 나오고 있는 많은 rare variant 들을 해석하는데에도 ENCODE에서 산출된 데이터들이 도움을 줄 수 있으리라 생각한다. 물론 자기가 원하는 스토리를 Cherry Picking해서 드립을 치기에 더욱 좋아진 면도 없지 않으나….뭐 그건 이바닥이 다 그런것이고. 쿨럭

여튼 이제 사람 대상으로 지노믹스 하시는 분들은 할일이 많아서 좋으시겠어염. 논문 하나 내려고 해도 이리저리 연관해서 분석해야 할 것도 많아지고..뭐 일이 많은게 좋은겁니다. 응? ENCODE 데이터와 연관해서 분석을 안하더라도 리뷰어님들이 왜 이거와의 연관성은 안보냐고 물어뜯어주시겠지 캬캬 

One thought on “오늘의 논읽남 : 엔코드를 디코딩하기 (2) GWAS 데이터의 의미를 찾아라

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s