The End of “Small Science”?

Bruce Albert는 Science 편집장이자 교과서 Molecular Biology of the Cell 의 주저자. 위의 제목과 같은 사설을 싸이언스 최신호에 씀.

번역 아닌 대략적인 요약

이번달에 ENCODE 프로젝트로 30개의 논문이 쏟아져 나옴. 10년동안 442명의 과학자들로 구성된 전세계 팀이 인간지놈의 기능요소에 대한 총합적 리스트를 뽑아냄. 물론 이런 연구결과는 앞으로 향후의 연구에 엄청난 영향을 미칠 것임. 이 ENCODE는 소위 “거대과학” 이라는 현재의 트렌드에 딱 부합되는 프로젝트라고 할 수 있음. 그렇다면 이제 이런 거대과학에 밀려서 소규모의 생명과학 연구는 이제 볼짱 다 본거일까? 이제 정부과제는 이런 거대과학 프로젝트에 올인해야 할까? 난 그건 아니라고 봄 ㅋ

2004년 휴먼지놈프로젝트 완료 이후에 생물학에서는 각종 ‘오믹’ 류의 연구가 성행하게 됨, 프로테오믹스, 트랜스크립토믹스, 에피지노믹스, 메타볼로믹스..물론 이런 프로젝트로 여러가지 새로운 방법론들과 결과가 쏟아지게 되었음. 그렇지만 문제는 이렇게 한번 시작된 프로젝트는 비록 추후에 나오는 결과들이 투자에 못미치더라도 여간해서는 끝내기 힘든 대마불사가 되가고 있음. 지금과 같이 경제위기로 연구비 별로 없는 시대에 어떤 프로젝트들이 생명현상을 단순히 기술하는 것이 아니라 이를 깊게 이해하는데 보탬이 될지 보다 객관적으로 보고 선택해야 할 필요성이 있다고 생각함.

이제 생명현상을 이해하는데 아직 모르는 것은 무엇일까? 5년 간격으로 업데이트되는 세포생물학 교과서를 집필하는 입장에서 우리는 아주 간단한 세포에 대해서도 우리의 지식에서 깊은 간극이 있다는 것을 뼈저리게 느낌. 가장 간단한 세포라고 할수있는 대장균 한번 들어보자고. 우리가 분자생물학 초창기부터 디립다 연구해온 대장균, 우리가 50년 동안 연구했는데도 사실 대장균 지놈에 있는 단백질 4000개 중에서 1/4 정도의 기능은 뭐하는 넘들인지 사실 잘 모름. 혹시 이런 것들중에서 다른 세포와 공통적인 새로운 뭔가가 있진 않을까?

다른 예를 들어보겠삼. 보통 사람 세포에는 대충 10000개의 다른 단백질이 있는데 이들은 수백개의 단백질 복합체를 형성해서 서로 다른 기능을 수행하는 ‘단백질기계’ 로 작동함. 이런 단백질 기계는 필요한 시간과 위치에서 정확히 활성화되서 DNA 리페어라든지 시그널 트랜스덕션이라든지 뭐 이런 특정한 기능을 수행함. 생물학을 이해하고 이것을 통해서 무슨 의학의 발전을 이룩한다든지 이런걸 하려면 이런 각각의 단백질 컴플렉스 가지고 생화학적으로 세부적으로 디립다 연구되어야 하며, 사실 이런 것은 거대과학보다는 소규모 연구실에서 수행되는 게 더 적합함.

여튼 각종 오믹 프로젝트에서 쏟아져 나오는 데이터의 양은 장난아니게 축적되고 있음. 그렇지만 생명현상을 이해하는데 가장 걸림돌이 되는 것은 단순히 뭐뭐 있네 하는 카탈록 만드는 수준에서 떠나서 그런 것들이 어떻게 작동하는지 자세히 이해하는 것임. 즉 생명과학 연구의 성공적인 발전을 위해서는 과학이 거대과학, 오믹스 위주로만 성장하는 것은 억제하고, 생명현상의 개별 세부사항을 깊게 연구할 소규모 랩에 좀 더 지원을 할 수 있어야 함.

1. 물론 이것은 Bruce Albert 의 개인의견 ㅋ 블로그 주인장 본인의 의견과 반드시 일치하진 않음

2. 그리고 이 사람이 ENCODE 논문으로 한참 룰루랄라한 네이처의 경쟁자 싸이언스 편집장이라는 사실도 기억해야 함. ㅋ

3. 그러나 너무 거대과학 위주로 돌아가서 소규모 연구팀에 대한 재정지원이 줄어드는 상황은 피해야 한다는 것은 동의.

4. 그리고 지금과 같이 경제위기로 연구비가 대폭 축소되는 상황에서, 막대한 돈이 드는 거대과학 프로젝트는 이들이 돈 들어간 거에 비해 어느정도의 반대급부를 창출할 것이며, 전반적인 과학의 발전에서 어떠한 역할을 하게 될 것인지 좀더 빡세게 검증받아야 할 필요가 있다고 생각함. 즉 거대과학 대세론으로 무한정인 양적 팽창만 하는 것은 바람직스럽지 않다고 생각함.

5. 이제 미국 예산 강제삭감으로 연구비가 하루아침에 거의 10% 이상 줄어드는 상황이 임박한 상황에서 아마 전반적으로 돈 많이 쓰는 거대과학 프로젝트에 대해서는 아마 조만간 무한디스가 들어가는 분위기가 조성될 수도 있다는 것에 유의해야 함. Francis Collins가 NIH Director 를 언제까지 유지하느냐에 따라서 분위기가 반전될 수도 있을것임.

Advertisements

오늘의 논읽남 : 엔코드를 디코딩하기 (2) GWAS 데이터의 의미를 찾아라

지난번에 예고한대로 이제 DNase I Hypersensitive Region 이 질병과 어떠한 관련을 가질 수 있는지에 대한 논문을 소개하고자 한다. 단, 이 논문은 정식으로 ENCODE 논문 번들로 묶이는 논문은 아니다. (그렇지만 ENCODE에서 DNase Hypersensitive 데이터를 낸 그룹에서 한 일이므로 ENCODE 데이터의 응용사례 제 일호라고 할만한 일일듯.

Maurano et al., Systematic Localization of Common Disease-Associated Variation in Regulatory DNA, Science 2012

휴먼지놈 프로젝트가 일단 종료된 이후 당면한 과제는..’님들, 휴먼지놈 프로젝트가 다 되면 만병의 원인이 다 알려지고 불로장생이 가능해진대매? 어쩔꺼여?’ 하는 일반인들의 과도한 기대 (…) 를 어느정도라도 부응하는 척이라도 하는 것이었다. 그렇게 해서 가장 일반적으로 많이 수행된 연구가 바로 GWAS (Genome WIde Association Study : 그와~스라고 읽는다드라) 연구들.

GWAS의 기본적인 전제는 ‘Common disease-Common Variant’ 라는 것. 이게 무슨 이야기냐믄고혈압, 자폐증, 고지혈증, 당뇨….등과 같이 흔히 나타나는 질병들 역시 어느정도 유전에 영향을 받는 것은 확실함. 알다시피 가족력에 따른 영향이 분명히 있으므로. 그러나 이런 질환은 특정 유전자의 결손에 의해서 멘델의 유전법칙에 딱딱 떨어지게 유전되는 유전질환처럼 알기쉽게 유전되지 않는다.

이런 흔한 질병의 경우에는 사람들에게서 많이 나타나는 유전변이들의 총합에 의해서 나타나는 것은 아닐까? 그렇다면 사람들에게서 많이 나타나는 유전변이를 수백만개를 모아놓은 SNP Microarray 를 이용하여 대조군에 비해서 환자에게 통계적으로 유의하게 더 많이 나타나는 Genotype 을 가지는 SNP을 골라보면 이것들에 따라서 해당 질병에 관련된 유전자를 찾을 수 있지 않을까….와 같은 기본적인 아이디어를 바탕으로 하는 것이 GWAS의 기본 개념이다.

그래서 각종 질병, 혹은 체질량지수, 혈압…등등과 같은 각종 형질과 연관된 SNP을 찾기 위해 수만-수십만의 사람을 대상으로 SNP Microarray 로 지노타이핑을 수행하여 현재까지 수십종류의 질병에 대해서 통계적으로 유의하게 연관된 수천종류의 SNP 이 발굴되었다.

그러나 문제는 이렇게 발굴된 SNP의 대다수 (약 93%) 가 단백질을 코딩하는 엑손 영역이 아닌 논코딩 영역이 아니라는 것이 문제. 지금까지 대개의 분자생물학 연구들이 마찬가지로 무슨 단백질이 어떻게 해서 무슨 일을 수행하고, 이 단백질의 무슨 영역에 뮤테이션이 생기면 활성에 영향을 받아서~ 로 각종 생명현상및 질병에 대한 썰을 풀어 왔는데 인트론 영역, 인트론 영역도 아닌 인터제닉 영역의 변이가 형질에 영향을 준다고 한다면 뭐 이거 어쩌라는 거여….맞기는 맞는거여? 그냥 동전 여러번 굴리면 맞는식으로 찍힌 거 아녀? 하는 의구심도 많았다.

물론 프로모터 영역이라든가 인핸서라든지 각종 전사조절인자가 붙는 영역에 매핑된 SNP, 아님 뭐 스플라이싱 정션에 매핑된 SNP이라면 또 그건 그런데로 설명이 가능하겠지만 대부분은 그것도 아니고.

물론 GWAS가 생물학적인 가설을 배제하고 순전히 통계학적인 유의성에 의거하여 변이를 발굴하는 연구라는 한계상 이런 문제들이 나오는 것은 어쩔 수 없는 일. 그렇지만 이런 것을 접어두더라도 막대한 돈을 들여서 수행된 GWAS 연구가 실질적으로 질병의 치료….를 할 수 있는 뭔가를 보여주기는 고사하고, 질병 메커니즘에 관련되서 새로운 정보도 제대로 보여주지 못한다는 비판을 받게 된다.

그렇지만 이렇게 GWAS 를 통하여 발굴된 SNP 중 상당수가 그 기능을 제대로 파악하지 못하는 것이 사실이지만, 통계적으로 유의하게 특정한 질환을 가진 코호트에 좀 더 나타난다는 사실 자체를 그저 무시할 수는 없는 일. 그렇다면 이런 변이정보를 좀 더 다른 방법으로 해석할 수 있지 않을까?

그리해서 앞에서 소개한 ENCODE의 DNase I Hypersensitive Region, 즉 ‘크로마틴이 흐물흐물’ 한 영역과 그동안의 GWAS 연구에서 발굴된 질병연관 SNP과의 관계를 알아보았다. 과연 Regulatory Region 으로 유력하게 대두되고 있는 이 ‘흐물흐물’ 영역과 질병연관 SNP와의 관계는?

결론적으로 말해서 GWAS 연구에서 발굴된 SNP 중 절반 이상 (57%)이 이 DHS 영역 (크로마틴 흐물흐물) 에 존재하드라. 그리고 약 19.5% 의 경우에는 SNP의 Linkage Disequilliblirum 영역 안에 DHS가 존재하더라. DHS 영역과 전혀 상관없는 SNP의 경우에는 고작 23% 정도.

GWAS 연구에서 발굴된 SNP 중 독립적인 연구를 통해서 재차 검증된 SNP의 경우에는 DHS영역에 존재하는 비율이 69% 로 좀 더 높았고, 동일 연구내에서 두가지 population에서 검증된 SNP의 경우에는 약 59%로 독립적으로 검증이 되지 않은 SNP의 53% 에 비해서 더 높았다. 즉 특정 질병과 연관이 좀 더 확실하게 있을 것으로 생각되는 SNP일수록 DHS 영역에 놓일 확률이 높았다는 것으로 볼때, 질병연관 SNP의 경우 DHS에 놓일 확률이 높은 편이었다.

특히 패널 C를 보면 매우 재미있는 현상이 나타나는데, Autoimmune 을 유발하는 다발성 경화증 (Multiple Sclerosis) 과 연관있는 것으로 알려졌던 SNP의 경우에는 면역관련 세포에서만 특이적으로 나타나는 DHS 와 패턴이 일치하고 있고, 심장질환의 경우에는 심장세포 특이적, 정신질환 관련 SNP의 경우에는 Brain specific 한 DHS에 일치하는 패턴을 보이고 있다.

A : 분석에 사용된 GWAS SNP의 구분 B : 이들이 각각 어디에 위치하나? C: DHS와의 거리 분포

이제 GWAS 에서 찾아진 SNP이 DHS 영역에 좀 더 많이 존재하드라, 어떤 경우에는 질병과 관련있을법한 세포에 특이적으로 나타나는 DHS에 SNP이 존재할 수 있드라 정도까지의 이야기는 되었다. 그러나 정작 중요한 것은 ‘뜬금없는 위치에 존재하는 GWAS SNP’, 즉 주변 유전자는 그닥 해당 질병과 연관이 있을 것 같지도 않은데 통계학적으로 유의하게 질병과 연관되어 있을 것으로 나오는 SNP들을 어떻게 해석할 수 있는것인가 하는 것인데,

바로 이전에 소개한 논문에서 프로모터 영역의 DHS와 비슷한 상황 (세포) 에서 같이 나타나는 원거리에 있는 DHS 들에 대한 이야기를 했었다. 즉 1차원적인 지놈의 거리에서는 꽤나 멀리 떨어져 있지만 크로마틴의 3차 구조로 따지면 근처에 있고, 게다가 유사한 전사인자들이 결합할 수 있는 가능성을 가진 영역이 있다고 이야기했다. 즉 ‘뜬금없는 영역에 존재하는 SNP’ 들의 경우에도 이러한 ‘원거리 상호작용’ 을 통해서 질병과 연관되어 있는 유전자와 관련을 지을 수 있다는 이야기이다. 

혈소판 숫자와 관련된 SNP 중 하나인 rs385893은 근처에 연관지을 유전자가 없었는데, 이 SNP이 위치하고 있는 DHS의 경우 222kb 떨어져 있는 JAK2 의 프로모터 영역에 있는 DHS와 비슷한 상황 (세포) 에서 나타난다. 게다가 크로마틴간의 상호작용을 보는 ChlA-PET Seq 의 경우에도 이러한 상호작용이 실제로 존재한다는 것이 확인되었다. 약 400개 정도의 SNP이 10kb에서 250kb 까지 달하는 멀리 떨어진 프로모터와 연관되어 있다는 것을 확인할 수 있었다. 이런 식으로 기존에 서로 상관관계가 밝혀지지 않았던 유전자와의 상관관계가 요런 식으로 다시 그려지게 되었다. ㅋ

전에는 뜬금없는 위치에 존재하던 SNP들이 이제 말…말이 된다. ㅋㅋㅋ

게다가 일부의 경우는 서로 다른 SNP allele 에 따라서 DHS 의 정도가 틀려지기도 하고 (Panel C), SNP의 위치는 대개 DHS내에 존재하는 Transcription Factor Binding Motif와 관련되어 있기도 하고..

그래서 기존에 해석이 힘들었던 SNP를 해당 DHS와 연관되어 있는 Transcription Factor 들과 관련을 지을 수 있게 되었고, 당뇨관련 GWAS 에서 발굴된 SNP 을 근거로 위와 같은 ‘썰’ 을 풀 수 있게 되었으며,

요런식의 전시안지와 질병과의 상관관계를 유추해 본다든지,

여러가지 질병과 전사인자와의 네트워크, 혹은 기관별 전사인자와의 관계라든지…드립은 끝이없다. 

그리고 약 200여가지의 세포에 대한 DHS 데이터가 있다는 것을 감안하여 해당 질병에서 특이적으로  DHS와 SNP과의 상관관계가 나타나는 세포가 뭔지를 파악해서, 해당 질병이 영향을 미치는 세포나 조직을 알아볼수도 있다.

결론적으로 말해서 DHS 데이터와 SNP와의 association, 그리고 DHS 리전과 기존에 알려진 프로모터와의 연동을 통해서 기존에 도저히 다른 유전자와 연관을 지을 수 없었던 SNP 들에 대한 해석이 가능해졌다는 이야기다.

즉, ENCODE 에서 산출된 여러가지 데이터들이 기존의 GWAS 연구에서 발굴된 SNP들을 해석하는데 어떻게 유용하게 사용되는지를 잘 보여준다고 할 수 있으며, 또한 개인지놈 시퀀싱에서 쏟아져 나오고 있는 많은 rare variant 들을 해석하는데에도 ENCODE에서 산출된 데이터들이 도움을 줄 수 있으리라 생각한다. 물론 자기가 원하는 스토리를 Cherry Picking해서 드립을 치기에 더욱 좋아진 면도 없지 않으나….뭐 그건 이바닥이 다 그런것이고. 쿨럭

여튼 이제 사람 대상으로 지노믹스 하시는 분들은 할일이 많아서 좋으시겠어염. 논문 하나 내려고 해도 이리저리 연관해서 분석해야 할 것도 많아지고..뭐 일이 많은게 좋은겁니다. 응? ENCODE 데이터와 연관해서 분석을 안하더라도 리뷰어님들이 왜 이거와의 연관성은 안보냐고 물어뜯어주시겠지 캬캬 

오늘의 논읽남 : 엔코드를 디코드하기 (1)

ENCODE가 사실 지나친 언플(정크 DNA가 사실은 정크 아니드라 드립 ㅋ 정크면 어떻고 재활용 쓰레기면 어떠하리) 때문에 비판을 받고 있고, 나아가서 이런 연구를 꼭 돈 쳐들여 가면서 해야함? 하는 비판으로까지 이어지고 있지만, 여튼 해버린 건 어쩔 수 없고, 중요한 것은 다른 연구자들이 연구를 수행할때 레퍼런스로 쓸 수 있는 많은 데이터들이 산출되었다는 것이다.

즉, ENCODE 돈먹는 하마 ㅋ 하고 비판하기 이전에 일단 ENCODE에서 어떤 데이터들이 나왔고, 이런 것을 어떻게 후속 연구에 이용하느냐에 따라서 ENCODE의 유용성은 판가름나리라고 생각한다.

그런 의미에서 앞으로 몇가지 엔코드 관련 논문들을 소개해 보도록 하겠다. 오늘 소개할 논문은 ENCODE 논문러쉬 중의 하나인 이 논문이 되겠음.

The accessible chromatin landscape of the human genome

일단 배경지식 잠깐만.

Image

다 아는 이야기지만 사람을 포함한 진핵생물의 DNA는 걍 덜렁 나 DNA 이중나선 하고 나와있는 게 아니라 일단 히스톤에 둘둘말려 있고, 이렇게 히스톤에 말린 뉴클레오솜은 꽈배기처럼 꼬여있고 고차구조의 크로마틴 형태로 염색체로 꼬여있는..마치 빡빡하게 접힌 실타래처럼 꼬여있는 상태랄까..

그러나 실제로 유전자가 발현이 되려면 모든 부분이 다 빡빡하게 꼬여있는 상태로는 안되고, 어느정도 헐렁한 상태 (Open Chromatin) 가 있는 영역이 있어야 하고, 이런 영역에 여러가지 전사인자(Transcription Factor)들이 붙어서 RNA transcription을 개시한다든지 하는 것. 즉 이러한 Open Chromatin 영역이 어디인지를 파악하는 것은 매우 중요하다는 이야기다.

그렇다면 이런 영역은 어떻게 찾나? 약 삼십년 전에 핵을 분리한 다음 여기에 DNA 분해효소인 DNase I 을 슬그머니 쳐주면, 이런 Open chromatin 영역이 특이적으로 잘라진다는 것이 발견되었다. 이러한 것을 응용하여 DNA 내의 Regulatory 영역이 어디인지를 찾는 것은 매우 고전적인 분자생물학적인 기법으로 정립되었는데..NGS 기술의 대두에 따라서 지놈 와이드 레벨에서 DNase I 에 의해서 잘 잘리는 영역 (DNase I Hypersensitive region)을 찾는 방법들이 개발되었다.

Image

즉 DNase I 처리하고 – Blunt End 만들어서 – 링커달고 – 링커에 달린 인식서열에서 20bp 앞의 DNA 잘라버리는 MmeI 처리하고, 다시 링커달아서 – PCR후 – 일루미나 시퀀싱 – 지놈 시퀀스에 매핑 – 참쉽죠?

여튼 이러한 방법으로 크로마틴 영역에서 DNase I 에 의해서 잘 잘리는 영역 (=따라서 크로마틴이 열려있는 영역 = Regulatory Factor가 붙을 가능성이 많은 영역) 들을 지놈 전체적으로 조사할 수 있으며, 엔코드에서 한 일은 이런 실험을 약 200종류의 셀라인과 조직유래 세포에 반복하여 세포별로 어떤 변화가 있는지를 조사하였으며, 이렇게 파악된 영역과 Chip-Seq 으로 파악된 실제 Transcription Factor 가 붙는 영역과 어떻게 관련이 있는지를 조사한 것이 바로 이 논문이다.
그래서 피겨 1번의 a 패널 되시겠다.
 크로모좀 11번의 p15.3 영역을 예로 들어서 실험에서 사용된 온갖 잡스러운 셀라인에 따라서 DNase I 가 자르는 ‘크로마틴 흐물흐물’ 영역이 어떻게 달라지는지 보았다. 세포가 다 각각 틀리고 여기에 따라서 ‘크로마틴 흐물흐물’ 영역은 조금씩 달라지지만 그냥 무작위적으로 달라지는 것은 아니고 뭔가 세포의 종류에 따라서 달라지는 것 같드라.
이러한 ‘크로마틴 흐물흐물’ 영역은 프로모터 근처에도 존재하지만, 인트론 영역이나 전사개시지점에서 멀리 떨어진 인터제닉 영역에 압도적으로 많이 존재하드라 하는 이야기. 물론 이런 것들의 상당수는 트랜스포존의 흔적으로 생각되는 Long term repeat (LTR) 에 집중적으로 분포되어 있다. (정크 인증 ㅋ)
이렇게 ‘크로마틴 흐물흐물’ 한 영역은 당연히 여러가지 전사인자들의 타겟이 될 것이고, ENCODE에서 수행된 여러가지 Chip-Seq 결과와 DNase Seq 결과를 비교해 보니 대략적으로 여러가지 Chip-Seq 결과의 총합 = DNase Seq 결과 와 같은 결과가 나왔다. 즉 전사인자들은 대개 크로마틴 흐물흐물 영역에 붙더라. -.-;; 약 94% 정도의 전사인자가 붙는 위치는 대개 크로마틴 흐물흐물 영역이드라는 결론. 즉 흐물흐물한데 잘 붙습니다. ㅋ
대개 이렇게 크로마틴이 흐물흐물한 영역은 전사가 개시되는 프로모터 영역과 관계가 있게 되는데, 이것과 기존에 잘 알려진 ‘전사가 잘되요’ 로 유명한 히스톤 마크인 H3K4me3 과의 관계는 재미있는 관계가 있드라는 이야기. Transcription이 시작되기 직전까지는 DNase I hypersensitive 영역이 대세이지만, Transcription이 시작된 이후부터는 H3K4me3 mark가 급격히 증가하더라는 이야기. 이러한 DNase I hypersensitive 영역과 H3K4me3이 서로 교차하는 영역을 잘 뒤벼보면 기존에 알려져 있지 않았던 전사개시지점을 찾을수 있드라 하는 이야기.
 
다음으로 본 것은 ‘뜬금없이 프로모터에서 멀리 떨어져 있지만 흐물흐물한’ 영역들이 과연 실제 유전자 발현과 어떤 관계가 있을지에 대한 분석. 물론 이러한 대부분의 영역들은 LTR 관련된 영역이므로 정크 인증일 가능성이 많지만, 그래도 쓰레기 중에서도 재활용품이 있지 않겠느냐는  여기서 세운 가설은 ‘뜬금없이 프로모터에서 멀리 떨어져 있지만’ 여러종류의 세포에서 프로모터의 흐물흐물 영역과 동시에 출현하는 넘, 즉 프로모터가 흐물흐물해질때 자기도 흐물흐물해지고, 그렇지 않을때 자기도 안 흐물해지는 영역들은 프로모터와 연관성이 있는 넘 후보가 되지 않을까? 라는 생각하에 그런 영역들을 뒤벼보았다. 결론. 그런 넘들 많드라. 결론 2. 이런 영역들간에 서로 공통적인 Transcription Factor 들이 결합하는 모티프를 공유하는 경우가 많드라. 결론 3. 줄기세포에서 pluripotency에 관여하는 전사인자인 NANOG, OCT4, KLF4, SOX2 같은 것들은 항상 같이노는 경우가 많은데, 이런 경우에 NANOG 모티프가 있는 프로모터와 서로 상호작용하는 ‘멀리떨어진 흐물흐물한 영역’ 에는 다른 모티프가 있는 경우가 많드라. 즉 전사개시부분에 있는 프로모터 이외에도 멀리떨어져 있는 여타 Regulatory region이 많이 존재하드라.이제 Transcription Network 그리는 사람들은 헬게이트 열린듯 ㅋㅋㅋㅋ 안그래도 복잡한데 더욱 더 복잡해졌어 ㅋㅋㅋㅋㅋㅋㅋㅋ
 
 
 
 
 
 
 
여러가지 세포에 걸쳐서 ‘흐물흐물’ 해지는 패턴이 유사한 영역은 동일한 기능을 수행할까? 가령 잘 알려진 Transcription Enhancer인 b-globin 의 HS2 영역과 비슷한 패턴을 보이는 영역을 몇개 찝어서 실제로 Transcription Enhancing activity가 있는지 실험을 해보니 어느정도는 그렇드라라는 이야기.
여튼 이 논문에서는 DNase I Hypersensitive Region을 지놈 와이드로 발굴했고, 크로마틴이 흐물흐물해지는 영역 중에  주된 Regulatory DNA 영역이 많이 분포될 수 있으며 (단, 그 역은 성립되지 않음) 프로모터와 ‘뜬금없는 위치에 있는 크로마틴 흐물흐물 영역’ 과의 상관관계를 분석했다.
사실 요 논문만 가지고는 이 데이터의 중요성을 이해하기는 쉽지 않은데, 다음에는 이 논문과 연관해서 아래 논문을 읽어보기로 하자. 즉 이러한 ‘흐물흐물 영역’ 을 이용하여 GWAS에서 발견된 논코딩 리전에 존재하는 SNP들에 대해서 의미부여를 하는 논문이니 미리 예습을 해보시면 좋겠다. ㅋ

Systematic localization of common disease-associated variation in regulatory DNA

사실 이 논문은 다음의 논문을 이해하기 위한 예고편적인 소개였다는 ㅋ

 
 

Junk is not the same with gabage

지놈/인포매틱스계의 ‘진중권’급 말빨을 자랑하는 Sean Eddy 횽의 Encode에 대한 커멘트

한마디로 ENCODE 넘 언플 쩌네염. 휴먼 지놈의 80%가 functional하다규? 정크는 정크여…라는게 요지.

근데 넘 주옥같은 드립들이 많아서 소개를 안할 수가 없다.

As Sydney Brenner once said, there’s a difference between junk and garbage; garbage is stuff you throw out, junk is stuff you keep because it just might be useful someday.

시드니브레너옹이 말씀하셨듯이 잡동사니(junk)와 쓰레기(gabage)에는 차이가 있삼. 쓰레기는 그냥 갖다버려야 되는거고, 잡동사니는 언젠가 쓸모가 있을지도 몰라서 그냥 킵하는 거라능.

즉 junk DNA 할때의 junk는 쓰레기가 아니라 잡동사니다! 지금은 쓸모가 없을지도 몰라도 그냥 킵하는 거. ㅋ

또 재미있는 부분..

ENCODE calls a piece of DNA “functional” if it reproducibly binds to a DNA-binding protein, is reproducibly marked by a specific chromatin modification, or if it is transcribed. OK. That’s a fine, measurable operational definition. (One might wonder, why not just call “DNA replication” a function too, and define 100% of the genome as biochemically functional, but of course, as Ewan Birney (the ENCODE czar) would tell you, I would never be that petty. No sir.) I am quite impressed by the care that the ENCODE team has taken to define “reproducibility”, and to process their datasets systematically.

엔코드 갸들은 뭐 디엔에이 결합단백질에 붙거나 뭐 크로마틴 모디피케이션에 관여하거나, 아님 알엔이이로 전사 (transcription) 되는 영역은 아 이거 다 펑셔널한 영역임 해서 80% 수치를 냈는데 그거 좀 우낌. 아예 모든 영역은 DNA Replication 에 의해서 100% 복제되니 모든 지놈 영역이 100% 펑셔널하다고 하지 왜 째째하게 80%야? ㅋㅋㅋㅋㅋㅋㅋ

Thought experiment: if you made a piece of junk for yourself — a completely random DNA sequence! — and dropped it into the middle of a human gene, what would happen to it? It would be transcribed, because the transcription apparatus for that gene would rip right through your junk DNA. ENCODE would call the RNA transcript of your random DNA junk “functional”, by their technical definition. And if even it weren’t transcribed, that would be because it acted as a different kind of functional element (your random DNA could accidentally create a transcriptional terminator).

한번 생각해 보삼.  걍 내가 대충 막 DNA 단편 만들어서 사람유전자 가운데에 푹 끼워넣었다고 쳐. 그럼 아마 내가 맘대로 만들어놓은 그 잡동사니 DNA 도 다 알엔에이로 전사되겠지? 그럼 그거 펑셔널한 디엔에이인거야? 그런거야? ㅋㅋ

어떻게 보면 ENCODE에 대해서 부정적인 이야기를 하는 사람들은 주로 미국과학자들이고, ENCODE의 경우 분석이 주로 영국에서 이루어졌다는 것을 생각해보면 이러한 ENCODE 디스의 경우에는 전통적인 대서양을 건넌 미쿡과 영쿡넘들의 신경전과 관련이 있을지도 모른다는 생각이 든다능. ㅋ

Virtual Machine이 대세

분석용 소프트웨어 툴을 하나 깔려면 얼마나 dependency가 많은지. 한번에 이런 dependency를 다 알아서 깔아주는 패키지 관리자의 활용이 잘되어 있는 일반적인 리눅스용 패키지와는 달리 과학기술용 소프트웨어는 설치는 너님이 알아서 하세여인 경우가 허다함. 게다가 특정 버전의 dependency에 의존하여 문제가 일어나는 경우는 또 얼마나 많은지. 이런 것 불편하게 까느니 차라리 내가 만들고 말겠다 쳇 하는 느낌을 가진 분들 참 많을 거다.

경이라면 수고스럽더라도 한번 깔아두면 그만이겠지만, 필요할 때마다 인스턴스를 생성하여 다수의 리소스를 이용하는 클라우드 환경에서는 사실 수동 설치는 현실적이지 않다.

게다가 논문의 서플먼트로써 논문 그림을 만드는 스크립트나 번들을 배포한다고 할때 사용되는 소프트의 버전에 따라서 미묘한 차이가 생길 수 있고, 결과적으로 논문의 데이터 분석을 완전하게 재현하기 힘든 경우가 허다함. 즉 ‘재현성 있는 연구’ (Reproducible Research) 를 수행하기 위해서는 자신이 분석에 사용한 스크립트나 데이터를 공개하는 정도로는 곤란하고, 실제로 논문 그림을 만든 환경을 그 논문을 읽는 독자에게 재현해서 해당하는 분석을 독자의 손으로 해볼 수 있게 하는 게 중요함.

게다가 ‘저 굳이 리눅스 깔아야함? ㄷㄷ 여유 컴터 없삼.’ 하는 분들은 어쩔;;;

이런 여러가지 문제를 해결하는 방법은? 가상 머신을 이용합니다.

가령 ENCODE의 경우 그 복잡다난한 데이터를 분석하여 일목요연한 피겨를 만들어 내기 위해서 여러가지 컴퓨테이션 툴과 스크립트를 사용하였는데, 기본적으로 이것들은 여기에 공개되어 있지만 이것을 그대로 분석할 수 있는 가상 머신이 존재한다.

ENCODE Virtual Machine and Cloud Resource

VirtualBox 를 이용하여 약 18기가에 달하는 Virtual Machine의 이미지 파일 이 제공되고 이를 이용하여 바로 ENCODE데이터를 분석하여 논문 피겨만드는 작업을 재현해 볼수도 있다.

또 다른 예로는 16s rRNA amplicon의 시퀀싱 결과를 이용하여 미생물 집단내에서의 계통별 분류및 분포를 분석하는 패키지인 QIIME 에서도 VirtualBox의 이미지 파일 혹은 Amazon EC2용 이미지 파일 을 제공한다. 이를 이용하여 간단하게 Amazon EC2 클러스터에서 구찮은 설치, configuration 거치지 않고 설치 완료.

또 다른 예로는 CloVR 이라는 프로젝트를 들 수 있는데, 이건 미생물 지놈 분석에 중점을 둔 프로젝트이긴 하지만, 여튼 여기서는 다음의 4종류의 파이프라인을 개인용 컴터, 혹은 클러스터에서 손쉽게 유저 인터페이스를 통해 억세스할 수 있는 가상 머신을 제공한다.

Image

한가지 예로써 Large Scale BLAST 서치를 Amazon EC2 를 이용하여 약 1280 cpu core 를 이용하여 수행했다고들 카더라.

그리고 Amazon EC2 를 이용하여 가상머신 이미지를 다운로드하지도 않은채 막바로 EC2 Cluster에 가상머신 인스턴스를 생성하여 분석하는 예

여기에 친절하게시리 스크린캐스팅까지 해주는 센스 ㅋ

지금은 주로 서열분석에 중점을 두고 소개를 했지만 이러한 가상머신을 이용한 분석환경 배포의 경우 다른 분야에서도 얼마든지 적용가능하다고 생각함. 단백질 구조계산이라든지…여튼 하고 싶은 말은 NGS 등과 같이 다량의 데이터를 처리해야 하는 분석툴의 경우 지금까지의 어프로치 (클라이언트에서의 분석을 위한 분석시스템 개발, 혹은 웹기반의 서버구축) 와는 다른 접근방식이 필요하다는 것을 이해해야 할 필요가 있을듯.

 

 

ENCODE 단상

ENCODE 떡밥을 좀..

“휴먼 지놈의 80% 정도는 function이 있다”라는 이야기가 확대해석되서 많은 키배를 유발하고 있는데 여기에 대한 단상.

일단 ENCODE에서 말하는 ‘function이 확인된 지놈영역 80%’ 이라는 이야기는 해당 부분에 대한 biological function 이 확인되었다는 당연히 아니고, 단지 현재 엔코드에서 ‘노..노논코딩 DNA에도 펑션이 있…있있다능!’ 의 취지로 수행된 온갖 개잡다한 실험의 총합, 즉 엑손+인트론(트랜스크립션은 되고있으면 펑션이 있는거야 있어야 행), 논코딩 RNA, CHIP-Seq peak, DNase Footprinting 등등 수십가지의 셀라인에서 하나라도 피크가 나온 영역을 몽땅 합치면 휴먼 지놈의 80% 정도가 된다는 이야기임. 즉 이를 이야기하기 위해서 ‘biochemical function’이라는 용어를 사용. ㅋ

당연히 이렇게 ‘biochemical function’ 이 확인된 영역 중이 과연 어떤 functional significance를 가질지는 앞으로의 연구대상일 뿐이고, 그리고 이런 식의 하이스루풋 실험의 속성상 당연히 많은 false positive/true negative 가 있을 것이고, 그리고 여기서 사용된 셀라인들은 대개 established cell line 이므로 과연 실제의 physiological 한 조직과 세포를 얼마나 반영하는지에 대한 의문이 있지만. 어쨌든 여기서의 bottom line은 noncoding region에도 중요한 영역이 꽤 많이 있을 수 있겠고, 최대한 낙관적으로 보면 80% 정도까지 ‘완전히 잉여’ 는 아닌 것 같다라는 이야기 정도로 해석할 수 있겠음. (나머지 20% 는 정크 확ㅋ정 인가….ㅋㅋ)

따라서 가령 분자생물학, 유전학을 하는 사람들이 흔히 비판하듯이, 뭔가를 실제로 낙아웃이든 낙다운이든 시켜봐서 이것이 무슨 형질에, 아니면 셀레벨에서라도 변화가 있어야 뭔가 펑션이 있다고 주장하지 하는 어그로를 끌기 좋은 플젝이기도 한데 (게다가 얘내들 돈 많이 씀 ㅋ 아놔 얘내들이 돈 다가져가서 우리 연구비 없거던여? 하는 식의 분노를 사기도)

그러나 여기에도 이런 식의 반론은 펼 수 있을 것 같다는..ㅋㅋㅋ

‘님 하나 사회에서 빠진다고 사회에 특별히 문제가 생길 거 같냐? 당신이 다니는 직장에 문제가 생겨? 그러면 당신은 그저 잉여이고 junk human인거야? 엉?”

#무리수_돋는_비유_돋네

….뭐 여튼 단순히 단백질을 코딩하는 엑손의 총합은 생물종의 복잡성과 그닥 비례하지 않지만 전체적인 지놈의 크기는 어느정도 생물종의 복잡성과 비례를 한다는 것을 봤을때 단백질은 안 만들면 걍 정크 ㅋ 라는 고전적인 ”junk DNA’ 드립은 좀 아닌 것 같다는 암시는 주고 있지만, 뭐 그거 어느정도까지일지는 글쎄..10%? 20%? ….80% 까지는 좀 오바 쩌는 것 같다는 느낌이지만. ㅋ