Pipeline

생명정보에서의 자동화, 파이프라인의 문제

I don’t want pipelines. I want well documented software/APIs/modules that do specific tasks well, that I can pipeline easily for my work.

— Nick Loman (@pathogenomenick) March 26, 2013

1. 남이 만든 파이프라인을 제대로 작동하게 만드는 데 시간과 노력이 걸린다. 설치과정부터 한번에 되는 게 없다.
2. 제대로 작동하게 만든 다음에는 자신이 원하는 기능이 결여되어 있거나 확장성이 떨어진다는 것을 깨닫는다.
3. 어떻게 고쳐보려고 낑낑대다가 결국 새로 다시 만들고 논문을 내야 하니까 이것을 발표한다.
4. 다른 사람이 내가 만든 파이프라인을 받고 1부터 다시 반복한 후 새로운 ‘파이프라인’ 이 나온다.

즉 가장 좋은 것은 위의 트윗 아저씨가 언급한 것처럼 특정한 테스크를 잘 수행할 수 있는 소프트웨어/API/모듈이 존재하고 이것을 간단한 스크립팅 (쉘 스크립트 등) 에 의해서 원하는 부분만을 골라서 연결시켜 원하는 일을 자동화하는 것일듯.

Advertisements

그의 ‘실패’

미국학술원 (NAS)회장을 역임하고 지금은 Science의 편집장이자 유명한 교과서 Molecular Biology of the Cell의 주저자로 유명한 브루스 앨버트 아저씨는 “내가 박사과정때 실패한 이야기” 를 하기를 좋아하는 편. 그래서 기회가 있을때마다 아래 동영상에 나오는 것 같은 이야기를 하곤 함.
Learning from Failure


Plos Genetics 인터뷰
‘Wake-up’ call

사실 어떻게 보면 흔히 대학원생이라면 겪을 수 있는 과정으로 보이고 그닥 대단한 ‘실패’ 로 생각되지는 않는다면, 어쨌든 그가 말하는 실패는 대충 이런거인듯.

– 50년대 말, 분자생물학의 태동기에 하버드 학부를 다니다가 우연히 연구에 참여. 운이 좋아서 Nature 및 PNAS 논문으로 결과가 나옴. 그래서 “훗 과학이라는거 되게 쉽네? 아님 나님 좀 짱인듯 ㅋㅋㅋ” 과 같은 착각(?)을 하게 됨.

– 박사과정에 들어가서는 매우 원대한 목표를 세움. 당시 규명되지 않았던 Genetic Code의 규명 + DNA Replication mechanism의 규명. ㅋ 이를 위해서 매우 복잡한 가설과 모델을 만들고 (마치 Watson + Crick이 거의 통빡만으로 Double Helix 모델을 만들었듯이) 이를 검증하기 위한 실험에 들어감. 그런데 가설 틀렸음. ㅋ 거의 5년 정도를 큰 결과없이 낭비하다가 사이드 프로젝트로 박사논문을 썼으나..

– Thesis committee에서 ‘너님  6개월 더 하삼’ 빠꾸놓음. 그당시에 유럽에 포닥가려고 계획 다 세우고 살던 집까지 뺀 상태여서 멘붕.

– 그래서 내가 ‘실패’ 한 원인이 무엇인가를 분석. (이게 포인트)

* 박사과정에 하려고 했던 것은 미리 세운 가설이 맞지 않으면 아무리 일을 많이해도 도루묵이 되버리는 프로젝트였음. 다시는 이런 일을 하지 않겠슴. 결과가 예상한 대로 나오던 그렇지 않게 나오든 무엇인가 얻을 수 있는 프로젝트를 해야 할 것 같아. 그런데 우리는 안하잖아. 아마 안될거야.

* 어차피 가설이 틀렸으므로 소용없는 일이었지만 Genetic Code의 규명이건 DNA Replication 메커니즘의 규명이건 다른 경쟁자도 하고 있던 일이었음. 경쟁을 피하려면 나만이 할 수 있는 테크닉이나 메소드가 있어야 함.

– 그래서 박사학위과정중 우연히 발견한 사실 (DNA와 Cellulose resin을 섞고, 말렸더니 DNA가 Cellulose Resin에 잘 붙더라. 이것을 가지고 DNA affinity resin을 만들 수 있지 않을까?) 을 가지고 DNA 에 결합하는 단백질을 정제하는 것을 포닥프로젝트로 수행. 그런데 포닥 1년 하니 프린스턴에서 겨수로 오라고 하던데 ㅋㅋ

….저기여 영감님, 그냥 자랑하시는거져? ;;;;

아무리 봐도 늙어서까지 두고두고 말할 만한 ‘실패’ 는 아니라는 생각이 들지만, 여튼 “뭔가 잘 되지 않은 경우에 그 원인이 무엇인가를 분석하고, 다시는 그런 실패를 하지 않도록 하는 것이 중요하다” 라는 게 그의 결론. 동일한 이유로 계속 실패를 반복하면서도 그것을 고치지 않으면 그건 님 문제.

결국 실패 별로 안한 어떤 영감님 1인의 자랑질 췟

Shitty Lab Index

어떤 랩이 좋은랩인지 아닌지를 볼 수 있는 객관적인 기준 따위가 있을까? 무리수가 돋는 이야기긴 하지만..

흔히들 논문편수라든지 논문의 인용빈도,혹은 저널의 IF 등을 가지고 생각하지만, 사실 아카데믹 랩의 최종적인 ‘산물’ 은 논문이라기보다는 배출된 인력일 듯. 논문은 잘 내는 랩이지만 정작 그 랩을 거친 사람들 중 좋은 논문을 내는 사람은 열명 중 한명이고 나머지는 과학계를 떠나서 엉뚱한 일을 한다든지 하면 그 랩을 좋은 랩이라고 부르기는 힘들듯.

그래서 이런 것을 만들어 봤다. Shitty Lab Index (SLI ㅋ)

SLI = (2*과학과 전혀 관계없는 일을 하는 사람 + (그 랩에서 포닥을 끝낸 이후에 다시 포닥 or 연구교수등의 비정규직 일을 하는 사람의 수))/(전체 랩 출신인원)

즉 간단하게 그 랩을 나왔더니 먹고 살게 없어서 과학계를 아예 뜬다든지, 그 랩에서 포닥을 하고 나서도 정규직 자리를 잡지 못하고 비정규직을 전전하게 되는 비율이 높을수록 그 랩은 별로 비전이 없는 랩이라고나 할까..

PacBio

해마다 시퀀싱 신기술이 발표되는 AGBT 2013 이지만 사실 금년에는 그닥 새로운 기술이 발표되지 않았다는 게 함정. 그나마 기존의 플랫폼에서 개선이 된 결과들이 좀 보고되었는데, PacBio의 개선이 꽤 눈에 띄는듯.

알다시피 최초의 Single Molecule Sequencing 플랫폼으로 데뷔할때는 좋았으나 Read accuracy가 85% 내외로 무척 낮고 throughput이 running당 100Mbp 정도로 매우 부족하다는 것 떄문에 거의 잉여 취급 받았던 게 사실. 그러나 illumina read 로 에러를 교정할 수 있다는 논문이 나왔고, read length가 길다는 것 때문에 나름의 쓸모는 인정받기 시작했는데..

Image

이제 평균 길이가 약 3.2kb에 달한다고 한다. 5Kb 이상을 넘는 read의 양도 상당.

Image

Read Length도 기하급수적으로 올라가고 있음.

이렇게 Read Length가 길어짐으로써 유리한 점은 뭐니뭐니해도 De novo assembly. De novo assembly에서 contig 사이의 gap 을 만드는 가장 큰 요인은 지놈 내에 존재하는 repeat sequence인데, repeat sequence를 극복하기 위한 근본적인 방법은 repeat sequence의 길이보다 더 긴 seqeunce read 밖에는 없다. 기존의 sanger sequencing의 경우에도 약 800-1000bp 정도까지의 read가 있었지만 문제는 이것보다 더 긴 repeat sequence가 존재했기 때문에 시퀀싱 양을 아무리 늘린다고 해더 gap 이 메워지지는 않는다는 것. 그러나 PacBio의 경우에는 이제 적어도 sanger sequencing의 read 길이보다 서너배에 달하는 read가 나오기 때문에 sanger에서 메워지지 못했던 gap도 극복할 가능성이 있다.

Image

 

벼 지놈의 경우 일루미나 데이터만 가지고는 약 6kb 정도의 NG50 값을 보여주었으나 3.5kb PacBio 데이터를 MiSeq 으로 교정하고 일루미나 어셈블리 contig를 pseudo read 처럼 만들어서 같이 어셈블한 경우에는 약 36kb 이상으로 증가.

그리고 bacterial genome에서는 long read 의 이점을 살려서 5kb 이상의 read 에 짧은 read 를 얼라인하여 에러를 교정하고, 이를 어셈블하여 pacbio 데이터만으로 single contig, 특히 repeat 가 많은 경우에도 가능하다는 것을 보여줌.

동영상 링크

이것을 보면 초기의 부정적인 반응에도 불구하고 이 플랫폼 자체는 꾸준히 개선되어 가고 있으며 이제 de novo assembly와 같은 어플리케이션에서는 꽤 쓸만한 솔루션이 되어가고 있다는 것을 알 수 있다.

그러나 몇가지 문제가 있다면,

1. 이제 NGS 시장의 대세는 de novo assembly가 아니라 human reseqeuncing이며, Pacbio가 제 역할을 할 수 있는 시장의 규모는 잘해봐야  전체 NGS 시장의 10% 정도밖에 되지 않는다는것.

2. 그동안 약 7억불의 투자를 받고 상장된 회사로써 아직까지 워낙 대차대조표에서 보여준 게 없기 때문에 과연 이 회사가 얼마만큼 버틸까가 좀 의문시되는 상황.이 대차대조표를 보면 많이 안습해 지는데

Screen Shot 2013-03-02 at 5.05.00 AM

 

작년 약 2천만불의 매출액을 냈는데 적자가 무려 9천만불..;;;  매출액의 추세가 증가는 커녕 줄어들고 있는 상황. 제품이 출시가 안된 상황이라면 모르겠지만 제품은 나와 있는 상태. 이거 안되겠어 어떻게 하지 않으면