오늘의 논읽남 : 엔코드를 디코드하기 (1)

ENCODE가 사실 지나친 언플(정크 DNA가 사실은 정크 아니드라 드립 ㅋ 정크면 어떻고 재활용 쓰레기면 어떠하리) 때문에 비판을 받고 있고, 나아가서 이런 연구를 꼭 돈 쳐들여 가면서 해야함? 하는 비판으로까지 이어지고 있지만, 여튼 해버린 건 어쩔 수 없고, 중요한 것은 다른 연구자들이 연구를 수행할때 레퍼런스로 쓸 수 있는 많은 데이터들이 산출되었다는 것이다.

즉, ENCODE 돈먹는 하마 ㅋ 하고 비판하기 이전에 일단 ENCODE에서 어떤 데이터들이 나왔고, 이런 것을 어떻게 후속 연구에 이용하느냐에 따라서 ENCODE의 유용성은 판가름나리라고 생각한다.

그런 의미에서 앞으로 몇가지 엔코드 관련 논문들을 소개해 보도록 하겠다. 오늘 소개할 논문은 ENCODE 논문러쉬 중의 하나인 이 논문이 되겠음.

The accessible chromatin landscape of the human genome

일단 배경지식 잠깐만.

Image

다 아는 이야기지만 사람을 포함한 진핵생물의 DNA는 걍 덜렁 나 DNA 이중나선 하고 나와있는 게 아니라 일단 히스톤에 둘둘말려 있고, 이렇게 히스톤에 말린 뉴클레오솜은 꽈배기처럼 꼬여있고 고차구조의 크로마틴 형태로 염색체로 꼬여있는..마치 빡빡하게 접힌 실타래처럼 꼬여있는 상태랄까..

그러나 실제로 유전자가 발현이 되려면 모든 부분이 다 빡빡하게 꼬여있는 상태로는 안되고, 어느정도 헐렁한 상태 (Open Chromatin) 가 있는 영역이 있어야 하고, 이런 영역에 여러가지 전사인자(Transcription Factor)들이 붙어서 RNA transcription을 개시한다든지 하는 것. 즉 이러한 Open Chromatin 영역이 어디인지를 파악하는 것은 매우 중요하다는 이야기다.

그렇다면 이런 영역은 어떻게 찾나? 약 삼십년 전에 핵을 분리한 다음 여기에 DNA 분해효소인 DNase I 을 슬그머니 쳐주면, 이런 Open chromatin 영역이 특이적으로 잘라진다는 것이 발견되었다. 이러한 것을 응용하여 DNA 내의 Regulatory 영역이 어디인지를 찾는 것은 매우 고전적인 분자생물학적인 기법으로 정립되었는데..NGS 기술의 대두에 따라서 지놈 와이드 레벨에서 DNase I 에 의해서 잘 잘리는 영역 (DNase I Hypersensitive region)을 찾는 방법들이 개발되었다.

Image

즉 DNase I 처리하고 – Blunt End 만들어서 – 링커달고 – 링커에 달린 인식서열에서 20bp 앞의 DNA 잘라버리는 MmeI 처리하고, 다시 링커달아서 – PCR후 – 일루미나 시퀀싱 – 지놈 시퀀스에 매핑 – 참쉽죠?

여튼 이러한 방법으로 크로마틴 영역에서 DNase I 에 의해서 잘 잘리는 영역 (=따라서 크로마틴이 열려있는 영역 = Regulatory Factor가 붙을 가능성이 많은 영역) 들을 지놈 전체적으로 조사할 수 있으며, 엔코드에서 한 일은 이런 실험을 약 200종류의 셀라인과 조직유래 세포에 반복하여 세포별로 어떤 변화가 있는지를 조사하였으며, 이렇게 파악된 영역과 Chip-Seq 으로 파악된 실제 Transcription Factor 가 붙는 영역과 어떻게 관련이 있는지를 조사한 것이 바로 이 논문이다.
그래서 피겨 1번의 a 패널 되시겠다.
 크로모좀 11번의 p15.3 영역을 예로 들어서 실험에서 사용된 온갖 잡스러운 셀라인에 따라서 DNase I 가 자르는 ‘크로마틴 흐물흐물’ 영역이 어떻게 달라지는지 보았다. 세포가 다 각각 틀리고 여기에 따라서 ‘크로마틴 흐물흐물’ 영역은 조금씩 달라지지만 그냥 무작위적으로 달라지는 것은 아니고 뭔가 세포의 종류에 따라서 달라지는 것 같드라.
이러한 ‘크로마틴 흐물흐물’ 영역은 프로모터 근처에도 존재하지만, 인트론 영역이나 전사개시지점에서 멀리 떨어진 인터제닉 영역에 압도적으로 많이 존재하드라 하는 이야기. 물론 이런 것들의 상당수는 트랜스포존의 흔적으로 생각되는 Long term repeat (LTR) 에 집중적으로 분포되어 있다. (정크 인증 ㅋ)
이렇게 ‘크로마틴 흐물흐물’ 한 영역은 당연히 여러가지 전사인자들의 타겟이 될 것이고, ENCODE에서 수행된 여러가지 Chip-Seq 결과와 DNase Seq 결과를 비교해 보니 대략적으로 여러가지 Chip-Seq 결과의 총합 = DNase Seq 결과 와 같은 결과가 나왔다. 즉 전사인자들은 대개 크로마틴 흐물흐물 영역에 붙더라. -.-;; 약 94% 정도의 전사인자가 붙는 위치는 대개 크로마틴 흐물흐물 영역이드라는 결론. 즉 흐물흐물한데 잘 붙습니다. ㅋ
대개 이렇게 크로마틴이 흐물흐물한 영역은 전사가 개시되는 프로모터 영역과 관계가 있게 되는데, 이것과 기존에 잘 알려진 ‘전사가 잘되요’ 로 유명한 히스톤 마크인 H3K4me3 과의 관계는 재미있는 관계가 있드라는 이야기. Transcription이 시작되기 직전까지는 DNase I hypersensitive 영역이 대세이지만, Transcription이 시작된 이후부터는 H3K4me3 mark가 급격히 증가하더라는 이야기. 이러한 DNase I hypersensitive 영역과 H3K4me3이 서로 교차하는 영역을 잘 뒤벼보면 기존에 알려져 있지 않았던 전사개시지점을 찾을수 있드라 하는 이야기.
 
다음으로 본 것은 ‘뜬금없이 프로모터에서 멀리 떨어져 있지만 흐물흐물한’ 영역들이 과연 실제 유전자 발현과 어떤 관계가 있을지에 대한 분석. 물론 이러한 대부분의 영역들은 LTR 관련된 영역이므로 정크 인증일 가능성이 많지만, 그래도 쓰레기 중에서도 재활용품이 있지 않겠느냐는  여기서 세운 가설은 ‘뜬금없이 프로모터에서 멀리 떨어져 있지만’ 여러종류의 세포에서 프로모터의 흐물흐물 영역과 동시에 출현하는 넘, 즉 프로모터가 흐물흐물해질때 자기도 흐물흐물해지고, 그렇지 않을때 자기도 안 흐물해지는 영역들은 프로모터와 연관성이 있는 넘 후보가 되지 않을까? 라는 생각하에 그런 영역들을 뒤벼보았다. 결론. 그런 넘들 많드라. 결론 2. 이런 영역들간에 서로 공통적인 Transcription Factor 들이 결합하는 모티프를 공유하는 경우가 많드라. 결론 3. 줄기세포에서 pluripotency에 관여하는 전사인자인 NANOG, OCT4, KLF4, SOX2 같은 것들은 항상 같이노는 경우가 많은데, 이런 경우에 NANOG 모티프가 있는 프로모터와 서로 상호작용하는 ‘멀리떨어진 흐물흐물한 영역’ 에는 다른 모티프가 있는 경우가 많드라. 즉 전사개시부분에 있는 프로모터 이외에도 멀리떨어져 있는 여타 Regulatory region이 많이 존재하드라.이제 Transcription Network 그리는 사람들은 헬게이트 열린듯 ㅋㅋㅋㅋ 안그래도 복잡한데 더욱 더 복잡해졌어 ㅋㅋㅋㅋㅋㅋㅋㅋ
 
 
 
 
 
 
 
여러가지 세포에 걸쳐서 ‘흐물흐물’ 해지는 패턴이 유사한 영역은 동일한 기능을 수행할까? 가령 잘 알려진 Transcription Enhancer인 b-globin 의 HS2 영역과 비슷한 패턴을 보이는 영역을 몇개 찝어서 실제로 Transcription Enhancing activity가 있는지 실험을 해보니 어느정도는 그렇드라라는 이야기.
여튼 이 논문에서는 DNase I Hypersensitive Region을 지놈 와이드로 발굴했고, 크로마틴이 흐물흐물해지는 영역 중에  주된 Regulatory DNA 영역이 많이 분포될 수 있으며 (단, 그 역은 성립되지 않음) 프로모터와 ‘뜬금없는 위치에 있는 크로마틴 흐물흐물 영역’ 과의 상관관계를 분석했다.
사실 요 논문만 가지고는 이 데이터의 중요성을 이해하기는 쉽지 않은데, 다음에는 이 논문과 연관해서 아래 논문을 읽어보기로 하자. 즉 이러한 ‘흐물흐물 영역’ 을 이용하여 GWAS에서 발견된 논코딩 리전에 존재하는 SNP들에 대해서 의미부여를 하는 논문이니 미리 예습을 해보시면 좋겠다. ㅋ

Systematic localization of common disease-associated variation in regulatory DNA

사실 이 논문은 다음의 논문을 이해하기 위한 예고편적인 소개였다는 ㅋ

 
 

One thought on “오늘의 논읽남 : 엔코드를 디코드하기 (1)

Leave a comment