[오늘의 논읽남] 물곰의 지놈 안에는 박테리아 DNA가 디글거린다!….가 아닌가?

오늘은 오랫만에 논문을 읽도록 한다. 오늘  읽을 논문은 두편이다.

 Boothby et al., (2015) Evidence for extensive horizontal gene transfer from the draft genome of a tardigrade, Proc. Natl. Acad. Sci 

 Koutsovoulos., (2015)  The genome of the tardigrade Hypsibius dujardini, BioRxiv

물곰, 혹은 곰벌레라고 불리는 생물이 있다. 완보동물문(Tardigrada)에 속하고 길이는 1mm 정도로 매우 작은 생물이다. 대충 이렇게 생긴 넘들이다.

스크린샷 2015-12-03 11.37.15

전자현미경으로 이렇게 찍어놓으니 크게 보이지만 1mm도 안되는 넘들이다.

스크린샷 2015-12-03 11.38.04

물에사는 곰 이게 아니니 착각하지마라.

근데 왜 이런 듣보잡 생물에 관심이 있는가? 이 동물 (저렇게 작아도 일단 동물이다) 은 생존력 끝판왕이라는데 관심이 있다. 위키피댜 느님에 따르면

  • 생존가능 기온이 −272.222 °C부터 149 °C
  • 인간을 죽일 수 있는 것보다 100배 더 강한 방사능에서 생존가능
  • 음식과 물이 없이도 10년동안 생존가능
  • 3% 이하로 탈수가 되도 살수있음
  • 대기압의 1200배에서도 생존

등과 같은 ㅎㄷㄷ 한 특성을 가진다. 그렇다면 이런 특성이 어디에서 오는지를 파악하기 위해서 지놈 안에 어떤 내용이 들어있는지 아는 것이 중요하다. 따라서

Hypsibius dujardini 라는 학명을 가진 곰벌레에 대해서 지놈 시퀀싱이 수행되었고, 그것도 두 곳, 즉 미쿡의 노스캐롤라이나 대학과 영쿡의 에딘버러 대학에서 각각 진행이 되었고 그게 저 위의 두개 논문이다.

여기서만 보면 뭐 흔히 나오는 ‘요기 희한한 생물  지놈 시퀀싱했쪄염~ 뿌우’ 하는 논문으로 보인다. 그러나…

‘아아…물곰의 지놈 안에는 박테리아 DNA 가 가득해!’ 

그래서 노스캐롤라이나 그룹에서 물곰/곰벌레에서 DNA를 뽑고, 이것을 가지고 시퀀싱해서 지놈을 분석해보아서 아래와 같은 논문이 똭 등장.

스크린샷 2015-12-03 11.51.54.png

그런데 이 내용이 상당히 신박한 내용이다. 물곰은 일단 동물인데, 이의 지놈시퀀스에서 유전자를 분석해 보니까 계통분류적으로 진핵생물 유래로 판단되는게 51% 정도이고, 박테리아와 높은 상동성을 가지는 유전자가 무려 16% 로 나왔다.

스크린샷 2015-12-03 13.40.13

즉 정상적인 성적 번식과는 다른 비정상적인 외래유전자가 도입되는 소위 수평적 유전자 전이 (Horizontal Gene Transfer:HGT) 로 세균 유전자가 동물 유전체의 전체 유전자의 16% 에 달한다는 신박한 이야기이다. 서점에서 소설을 구입하여 책 페이지를 펼쳤는데 전체 페이지의 16%가 내용상 전혀 연결되지 않은 만화 페이지로 구성되어 있는 상황이랄까..

물론 기존에도 종간, 심지어 Kingdom 간 유전자의 교환이 이루어지고 있다는 증거는 존재한다. 가령 E.coli 는 대부분의 세균과는 다르게 tRNA(Gln)에 glutamine을 붙이는 GlnRS라는 효소를 가지고 있는데, 이 효소는 진핵생물에서 박테리아로  HGT를 통해서 전달되고 획득되었다라는 것이 정설로 되어있다. 수천페이지 소설책에 가끔 만화 한컷 들어있는격

그러나  지금의 경우처럼 동물의 유전체에서 발견되는 유전자의 16% 가 세균 유래라는 상황은 이례적이다 못해 쉽게 믿기 힘든 수준 새로 나온 역사교과서를 펼쳤더니 페이지의 16% 가 드래곤볼의 일부더라 임이 아닐 수 없다. 아무튼 ‘뉴스’ 임은 분명하기 때문에 대중매체에서도 기사화되었고, 국내의 언론에서도 소개되었다.

우주 최강 생명체 ‘물곰’의 DNA 밝혀졌다 : 美 연구진, “외부 DNA 많이 지닌 것이 질긴 생명력의 원동력” 

여기에 그치지 않고 저자들은 박테리아유전자를 통해서 chaperone, DNA damage repair 효소 등과 같은 스트레스에 저항성을 주는 유전자를 ‘흡수’ 하는 것이 물곰의 강인한 생명력의 원천이라고  Discussion 부분에서 근거없는 구라주장을 하였다. 뭐 좋다 이거다.

악마는 항상 디테일에 존재

그런데 논문을 읽어본 학자들 중에서 지놈 시퀀싱에 어느정도 경험이 있는 분이라면 통계수치가 좀 묘하다는 것을 눈치채기 시작했다. 이사람들이 추정한 지놈의 사이즈는 212.3Mb 이므로 고등생물로 따지면 그리 큰 규모는 아니다. (예쁜꼬마선충이 100Mb, 초파리가 130Mb, 사람은 3.2Gb) 그리고 추정되는 지놈 길이의 약 126배에 달하는 시퀀싱 데이터, 그리고 긴 지놈을 어셈블리할때 유용한 Illumina Molecule Read, 그리고 PacBio의 Long Read 까지 확보를 하였다. 그런데 어셈블리하여 얻은 지놈의 contig N50 값은 15.2kb 에 불과하며 (시퀀싱 데이터를 어셈블리하여 나온 Contig 를 사이즈별로 긴것부터 작은 순으로 정렬한 다음, 그 합이 전체 지놈 길이의 딱 절반에 해당하는 위치의 contig가 15.2kb 라는 이야기. 이 수치가 크면 클수록 지놈 어셈블리가 조가리가 덜 났다는 이야기이다) 시퀀스 상에서 연속되지는 않았지만 물리적으로 연결되어 있다는 증거가 있는 scaffold 의 경우 contig N50 과 별 차이없는 15.9kb 밖에 되지 않았다.  이것은 비슷한 사이즈의 지놈을 가진 다른 생물을 비슷한 수준의 데이터를 가지고 어셈블리할때 기대되는 수치보다 훨씬 낮은 수치다.

 

물론 생물의 지놈에는 반복서열이 존재하고 이렇게 반복서열이 특별히 많이 존재하는 생물일수록 어셈블리 퀄리티가 낮아지기 때문에 저자들은 ‘음 왜 그런지 모르겠지만 반복서열이 많은가부지’ 하고 넘어갔다.

그러나…

 붕어빵에 붕어 없고 물곰 지놈에 박테리아 DNA 별로 없다.

이 논문이 나온지 일주일도 안된 시점에서 또 다른 논문이 논문 프리프린트 서버인 bioRixv에 출현했다. 그것이 영쿡쪽의 저 위의 두번째 논문인데..초록을 보시라.

 

Tardigrades are meiofaunal ecdysozoans and are key to understanding the origins of Arthropoda. We present the genome of the tardigrade Hypsibius dujardini, assembled from Illumina paired and mate-pair data. While the raw data indicated extensive contamination with bacteria, presumably from the gut or surface of the animals, careful cleaning generated a clean tardigrade dataset for assembly. We also generated an expressed sequence tag dataset, a Sanger genome survey dataset and used these and Illumina RNA-Seq data for assembly validation and gene prediction. The genome assembly is ~130 Mb in span, has an N50 length of over 50 kb, and an N90 length of 6 kb. We predict 23,031 protein-coding genes in the genome, which is available in a dedicated genome browser at http://www.tardigrades.org. We compare our assembly to a recently published one for the same species and do not find support for massive horizontal gene transfer. Additional analyses of the genome are ongoing.

우리도 물곰 Hypsibius dujardini 지놈을 일루미나 시퀀싱을 통하여 만들었다. 원 시퀀싱 데이터를 분석해 보니까 박테리아 DNA가 아주 많이 오염되어 있었고, 아마도 동물의 장내 혹은 표면에서 온 것 같다. 이러한 박테리아 DNA에서 온 것으로 판단되는 시퀀싱 데이터를 잘 제거하고 어셈블리를 해보니, 지놈의 사이즈는 130Mb 정도이고, N50 Contig 길이는 50kb가 넘었으며, 약 23000개의 유전자를 예측하였다. 이것을 이미 발표된 지놈 시퀀싱 결과와 비교를 해보니, 우리의 결과로는 이전에 주장되는 것처럼 대규모적인 수평적 유전자 전이는 발견되지 않았다. 

즉 물곰 지놈에 박테리아로부터 유래된 대규모로 유전자가 있다고? 노!

가 그들의 결론이다. Headshot!

잘 이해가 안되는 분들을 위해서 상황을 설명하도록 하자. 물곰은 위에서 설명한 것처럼 크기가 1mm도 안되는 작은 생물이다. 따라서 DNA를 뽑기 위해서는 통째로 시퀀싱을 해야 한다. 따라서 장내에 살고 있을수도 있는 미생물들의 DNA들 역시 물곰의 지노믹 DNA에 끼어들어간다.

스크린샷 2015-12-03 14.23.53

시퀀싱을 할때는 한번에 긴 길이의 DNA 정보를 얻을 수 없으므로 DNA를 잘게 잘라서 라이브러리를 만들고 시퀀스 데이터를 확보한다. 이러면..

스크린샷 2015-12-03 14.27.50

물곰에서 나온 시퀀싱 데이터와 다른 잡소스 유래의 시퀀싱 데이터가 섞여있게 되고, 이것을 어셈블리 과정을 통해서 조립된 서열 (Contig)으로 바꾸면

스크린샷 2015-12-03 14.31.15

즉 나온 어셈블리 결과물인 Contig 서열에는 물곰 유래의 DNA에서 조립된 Contig도 있겠지만, 미생물 데이터로부터 어셈블리된 Contig도 있을 것이다. 그렇다면 이것을 어떻게 구분할 수 있나?

스크린샷 2015-12-03 14.35.45

즉 DNA 샘플 중에는 잡다한 여러가지 미생물이 섞인 데이터보다는 물곰에서 나온 데이터가 많기 때문에 물곰에서 나온 시퀀스로 나온 contig 는 상대적으로 contig를 이루는 시퀀스 데이터 (read라고 부름) 가 많다. 반면에 잡 박테리아 유래의 contig는 상대적으로 빈도가 낮은 DNA로부터 조립되었을 것이기 때문에 contig를 형성하는데 필요한 리드가 적을것이다.

또 다른 차이라면 생물종마다 C:G 의 비율이 얼마나 되어있느냐는 틀린데, 만약 이렇게 외래의 DNA가 들어있다면 contig 별로 C:G의 비율이 틀려질 것이다.

이러한 원리를 이용하여 시퀀싱 데이터에 다른 생물의 DNA가 섞여있는지를 검증하는 툴이 2013년에 나왔는데 해당 논문은 이것이 되겠다.

fgene-04-00237-g002

 

이 플롯은 어셈블리 후 나온 각각의 Contig의 Coverage (평균적으로 염기서열당 몇 번 정도 중복하여 읽었나) 를 Y축, CG Content (전체 염기서열에서 G,C가 차지하는 비중) 을 X축으로 하여 점을 찍은  것이다. A 패널의 경우에 보라색은 C.elegans인데 전반적으로 특정한 Coveraged와 CG Ratio에 중심이 되서 분포되는 것을 볼 수 있다. 반면, 혼입된 DNA는 전반적으로 Coverage가 낮거나 CG Ratio가 틀린 것을 볼 수 있다. (오른쪽의 여러색으로 나와있는 부분) 이렇게 하여 문제를 유발하는 read를 제거하고 다시 어셈블을 한 결과는 B와 같이 균일한 분포를 보인다.

이들은 자신들이 자체적으로 시퀀싱한 데이터를 이 툴을 이용하여 분석을 하였다. 그랬더니..

스크린샷 2015-12-03 17.37.30

주황색으로 CG Content가 다른 contig가 다수 보이며, 이들은 대개 박테리아 지놈과 상동성을 보인다. 그리고 이들은 전반적으로 coverage가 낮은 편이다.

스크린샷 2015-12-03 17.40.43

이들을 제거하고 다시 어셈블한 경우 coverage 및 CG content의 분포가 ‘쌍봉’ 을 이루고 있지 않다.

스크린샷 2015-12-03 17.43.35

이전에 발표된 (유전자의 16% 가 박테리아 유래라고 했던) 어셈블리로 이 분석을 해보니 coverage가 낮고 CG content가 낮은 contig가 다량 존재하며, 이들의 거의 대부분은 박테리아 유래의 유전자이다.

스크린샷 2015-12-03 17.46.19

Poly-A 로 Selection된 mRNA RNA-Seq 데이터를 같이 분석해보니, RNA로 많이 발현되는 유전자는 coverage가 높고 CG content가 일정한 contig에서 대개 매핑된다. 그러나 bacteria 유전자와 흡사한 적은 coverage를 가진 contig에서는 거의 RNA가 매핑되지 않는다. 즉 그 자투리 contig는 mRNA로 안 만들어짐.

 

스크린샷 2015-12-03 17.49.57

두 버전의 어셈블리를 비교해 보니 에딘버러 (박테리아 contamination을 제거한) 의 어셈블리에서 유추된 지놈의 길이는 132Mb로 UNC의 224Mb 보다 거의 90Mb가 짧았다. 더우기 전체 어셈블리가 얼마나 단편화되어 있는지를 보는 기준인 N50 scaffold 길이 역시 에딘버러 쪽이 3배 이상 길었다.

이렇게 해서 완성된 어셈블리에는 과연 박테리아 유래로 추정되는 유전자가 없을까? 약 30개 정도 있다고 한다. 그러나 전체 유전자 갯수의 16% (전체 유전자는 약 30000개가 넘는다) 로 추정되던 수치는 터무니없는 수치로 보인다.

앞으로 상황이 어떻게 진행될지는 조금 두고봐야 하겠지만, 적어도 곰벌레/물곰이 박테리아 유전자를 지놈의 16% 이상 가지고 있고 이것 때문에 그런 강인한 생명력을 가진다라는 논문의 팬시한 가설은 매우 위태로와진것으로 보인다.

 

몇가지 드는 생각

차세대 시퀀싱이 보편화되고 이를 통해 온갖 잡스러운 생물의 지놈, 특정한 조직, 세포의  RNA-Seq 등등의 수많은 데이터들이 쏟아진다. 가끔은 이러한 데이터를 통해서 기존에 생각지 못한 ‘획기적’ 인 발견을 주장하면서 이런 논문들이 출현한다.

그러나 “유별난 주장은 유별난 증거를 요구한다” extraordinary claims demand extraordinary evidence 라는 이야기가 있다. 즉 종래의 상식을 뒤엎는 결과가 나왔다고 좋아하기 이전에 이것이 artifact일 가능성에 대해서 비판적으로 생각해 볼 필요가 있다는 것이다. 그리고 이런 것을 입증하기 위해서는 어떠한 비판자도 굴복을 시킬 수 있는 강력한 증거를 제시해야 한다는 의미이다.

이번 사건의 경우에는 저널의 ‘출판 후 리뷰’ 및 ‘Preprint’ 가 가지는 중요성을 다시 한번 보여주는 일인것 같다. IF가 높은 저널에 실린 결과를 그 저널의 ‘권위’ 에 눌려서 객관적으로 평가하지 못한다면 여러가지 문제가 생긴다 (듣고있나 오모양?). 그리고 현대와 같이 커뮤니케이션이 빠른 시대에 전통적인 저널의 출판과정을 거쳐서 정보를 공유하는 것이 얼마나 느린 일인지에 대해서 다시 한번 생각해 볼 기회를 가져야 할 것 같다. 논문 나온지 일주일 만에 저격논문이 온라인에 똵! 

그리고 저 정도의 극심한 문제점은 아닐지라도 많은 지놈 시퀀싱 어셈블리, 혹은 high throughput data에는 적든 많든 오류가 있고, 이들을 단지 ‘논문이 N모잡지에 나왔다’ 만으로 그 내용을 맹신해서는 안된다는 교훈을 주는 한가지 예가 되겠다. 특히 많은 생물학자들이 이러한 데이터를 제대로(비판적으로) 직접 해석할 수 없다는 것은 문제라고 생각한다. 많은 사람들이 해석을 손쉽게 할 수 있는 데이터 (가령 웨스턴 블로팅 결과나 현미경 사진) 은 해당 데이터에 문제가 있다고 하더라도 이러한 것들이 쉽게 지적되고 발견될 수 있다. 그러나 이러한 하이스루풋 데이터는 요즘의 저널에는 웨스턴이나 현미경 사진만큼 자주 등장하지만, 대량의 데이터를 들추어 보는 능력이 없는 생물학자들에게는 그 결과를 비판적으로 볼 방법이 없다. 이는 마치 웨스턴이나 현미경 사진의 의미를 전혀 모르면서 남에게 받은 데이터를 자기 논문에 싣는 것 만큼이나 위험한 일이 아닐까.  대량의 데이터를 뽑아내고 이를 분석하는 것이 주업이 아니고 여기에 익숙하지 않더라도, 적어도 이런 상황에 봉착했을때 이런 데이터가 똥인지 된장인지 정도는 판별할 수 있는 최소한의 지식을 갖추어야 할 때라고 본다.

 

P.S.  한가지 흠좀무한 것은 두번째 논문을 쓴 에딘버러팀은 첫번째 논문의 데이터에 문제가 있다는 것을 미리 알고 있었고, 첫번째 논문이 공개되자마자 바로 반박논문을 프리프린트 서버에 올렸다. 결국 조용히 저격을 준비하고 있었다는 이야기인데..ㄷㄷㄷ

P.S.2 : 아마도 예상컨대 이 논문은 처음 P모저널에 가기보다는 다른 저널에 갔다가 몇번 굴러떨어졌을 것으로 보인다. 그동안 리뷰어들의 지적을 받았을텐데, 이런 문제점에 대해서 아무도 지적을 안했나?

P.S.3 : P모 저널은 NAS멤버일 경우 극히 형식적인 리뷰를 통해 (리뷰를 하긴 하는데 에디터인 본인이 지명하는 사람에게 리뷰를 보낸다..학계의 거물급인 NAS 멤버가 리뷰를 부탁하는데 ‘리젝버거 드셈’ 을 외칠 사람은 얼마나 있을까? ㅋ) 논문이 나가서 가끔 어이없는 논문이 등장하는 경우가 있는데, 이 논문은 저자에 NAS멤버가 존재하지는 않는다. 그런데 해당 논문을 담당한 NAS Member는 W.Ford Doolittle로써 HGT 를 연구하는 것으로 유명한 분이다. 흠 HGT가 지놈의 두자리수를 차지할 수 있다는 팬시한 스토리에 그냥 정신줄을 놓으셨는지 어쨌는지는 잘 모르겠다.

 

 

3 thoughts on “[오늘의 논읽남] 물곰의 지놈 안에는 박테리아 DNA가 디글거린다!….가 아닌가?

  1. 이번 년도 봄에 물곰을 잡아본 적이 있는데 생각보다 쉽게 죽더라구요 이끼에서 채집해서 동면(?)에서 깨어나서 움직이는 것까지 확인하고 샤레에 담아뒀는데 물이 마르면서 같이 죽어버렸습니다 동면에서 깨어난 직후 건조에 상당히 약해지는 듯싶어요
    이번 논문도 잘 읽었습니다 감사합니다 ㅎㅎ

  2. 칼세이건 코스모스에 나오는 완보동물이네요. 물곰이래서 처음에는 진짜 물에 사는 곰인 줄…ㅋㅋㅋ
    옆지기한테 물어물어가며 잘 읽었습니다.^^

  3. 그렇다면 물곰의 주된 DNA 구조는 아직 안밝혀진건가요?
    DNA의 화학적 구조를 혹시 알고계시다면 알려주실수 있나요?
    검색을 해봐도 잘 찾지를 못하겠네요^^

Leave a comment