과학자는 언제까지 과학저널의 호구가 되어야 하나?

과학자, 그대의 이름은…….호 to the 구.

과학자가 보통 생산해내는 프로덕트라는 것은 결국 논문. 기껏 힘들여서 연구를 진행해서 논문을 쓰고, (대개 자기 연구비로) 영어교정도 보내기도 하고, 과학자 때려치면 무슨 일러스트레이터로 취직할만큼 멋지게 그림도 만들어서 논문을 저널에 부침. 그러면 그걸 받은 저널은..

여러분하고 비슷한 동료 과학자들한테 ‘난 뭔 말인지 모르겠는데 전문가인 님이 한번 좀 읽고서 평가해 주삼’ 하고 토스함. 그걸 받은 동료과학자들은 논문이 뭐가 좋네, 안좋네 자기네들끼리 아웅다웅 하기도 하고, 시간내서 이걸 고쳐라 저걸 고쳐라 이런 실험 더해보지? 하면서 커맨트를 해줌. 돈도 한푼 못받고 ㅋㅋ

그런 개선작업을 거쳐서 과학자 동료들이 ‘이거 논문 될거 같음?’ 이라고 판단된 원고를 저널에서는 그냥 건성으로 슥슥 포맷만 맞추고, 가끔 그림 레이아웃 정도나 바꾼 다음, ‘너 게재하려면 얼마내는지는 알아보고 오셨지? 참, 너 칼라그림 많드라? 너님 요금 추가인건 알지?’ 하고 청구서 보냄 ㅋ

그러면 과학자라는 족속들은 존나좋군! 하고 그 돈을 덜컥 냅니다. (뭐 그 돈만 냅니까? ‘오오 어셉트! 오늘은 내가 쏜다’ 하면서 뭔가 저녁이라든지 술이라든지 쏘기도 하지) 게제료라는 것은 저널에 따라 틀리겠지만 뭐 대충 퉁쳐서 우리돈 돈백 이하로는 힘들다고 봐야함. 뭐 요즘은 오픈억세스 저널들은 더 비싸고 등등. 돈을 내는 것은 기본이고, 대개의 저널에 논문을 내기 전에는 “저작권 이전 서류” 에 싸인해서 “불초소생 출판사로 저작권 넘기겠슴! 네 다 드…드리겠습니다!” 라고 서약을 해 줘야 함. (여기서 돈을 받고 저작권을 넘기는 것”이 아니라 “돈을 내면서 저작권’도’ 넘긴다는 것”에 주목 ㅋㅋㅋ) 뭐 안 그러면 여기서 한치도 앞으로 못 나갑니다.

돈내놔

나는야 배드애쓰 N모잡지 편집장~

그렇게 해서 나온 논문은 법적으로 뭘까?

광고.

광고의 정의가 뭡네까. 뭔가를 알리기 위해서 자기 돈 내고 매체에 싣는 거 아님? 님은 님 돈 내고 매체에 자신의 연구결과를 알리기 위해 ‘뭔가’ 를 게제하셨죠? 뭐 그게 광고지 뭐…

증거를 보여드릴께염.

Screenshot 2014-11-27 17.27.09

첨부한 그림 보셨죠? JBC 논문에 1990년대까지 나오던 이야기인데, 이렇게 써있슴. “이것은 개제료를 내고 개제된글이며 따라서 법적으로 광고임”

우리가 무슨 내용을 넣을지 다 기획취재(?)하고, 글 쓰고 사진붙이고, 시시콜콜한 편집도 다 해서 게제료까지 내고, 저작권까지 이전시켜주시는 광고를 낸다는데 우리의 위대한 저널들께서는 번번히 “유의 평타치는쏘우-쏘우한 매뉴스크립은 우리의 럭셔리하고 트렌디한 저널에 어피어하기에는 임팩트가 리를빗 위크하다고나 할까염? 모어 스페시픽한 필드의 스페시픽 저널로 고우~” 라고 하면서 뻰찌를 놓지요. 광고를 돈 들고 와서 내주겠다는데 왜 이리 콧대는 높은지..그래도 꾸역꾸역 내보겠다고 이것저것 해서  “제발 제 광고쫌 위대한 귀 저널에 내주게 해주세요~” 하면서 또 내고 또 떨어지고…

뭐 여튼 그렇게 해서 게제가 승인된 광고 논문들은 아무나 읽을 수 있나? 물론 아니지. 본 광고를 보려면 프라이빗 억세스가 필요합니다  근데 왜 기사는 공짜로 보여주는데 아니면 사이트 라이센스를 걸고 있는 기관에 있든지. 만약 특정한 논문 하나가 딱 필요할 뿐이라서 그걸 잠시만 읽고 싶다면? 오, 히어 호구 컴ㅋㅋㅋ

Screenshot 2014-11-27 18.01.06

고갱님 32불 되겠습니다.   내가 이 논문 저자인데 좀 안돼? 저 고갱님 여기서 이러시면 곤란하시고, 일단 결재를 하시지 말입니다.

뭐 온라인 저널이 보편화된 지금은 그닥 의미를 잃었지만 이전에는 리프린트라는 게 있었다. 그래서 논문이 우째저째해서 출판되면 ‘덕분에 논문 하나 나갔습니다 ㅎㅎ’ 하면서 돌리곤 했었음. 물론 그건 공짠가? ㄴㄴ 돈이지…ㅈ널에 실린 내 기사만 딸랑 나와있는 것을 주려면 이걸 또 돈 주고 사야해!

잡지에 기사를 쓰거나 단행본을 내면 저자 증정본으로 몇 권 주던 기억인데 이 바닥의 저널엔 그런 거 없어요.내참. 하긴 어쩌다 N모 출판사의 새끼저널에 논문을 낸 적이 있었는데 해당 저널은 논문이 실린 호를 하나 보내줬음. 과학계의 스크루지최고존엄 N모의 은혜에 감읍해서 눈물이 더 질질 나더라고요…

여기까지 읽은 타 업계 분들이 보면 “그럼 연구에 소요하는 경비를 저널이 댔나?” 라고 생각하실수도 있겠음. 뭐 잡지사에서 다 돈 댄 기획취재를 프리랜서가 했다 하면 그 기사에 대한 저작권을 잡지사에서 가지는 것처럼..근데 그것도 아냐. 당연한 것이지만 대개 저널에 실리는 내용을 만드는데 든 비용(때로는 수십, 수백만, 수천만불이 될수도 있는)은 정부에서 연구비를 지원받거나  기타 연구지원 기관에서 경비를 댔죠. 그런데도 왜 우리 과학자들은 이 내용을 저널에게 “드…드리겠습니다” 하고 바치는데?

옛날엔 그랬었지. 

물론 옛날 인터넷이 없던 시절, 즉, 연구정보가 잡지형태로 유통되고, 이들이 도서관에서 구독되던 시절은 이런 것이 당연했을지도 모름. 가령 옛날 연구를 하던 아래 사진의 올드비 분들이 활동하실때는 연구 결과를 서로 공유하는 공간이 (1) 학회 (2) 학술저널 딱 두 개 정도였음. 물론 개인적으로 아는 사람들끼리는 편지를 하든 직접 만나서 대화를 하든 했겠으나 여튼…

Screenshot 2014-11-28 12.07.58

“진작 태어나서 연구를 하든지”

여튼  이떄는 손 (혹은 타이핑) 으로 쓴 육필원고를 정리해서 책 형태로 출판하여 배포해야 헀으므로 당연히 비용이 필요했고, 아무래도 대중적이지 않고, 발행부수도 적은 학술 저널을 유지하기 위해서는 연구자가 자가출판을 하는 형식으로 게제료를 내는 것은 어떻게 보면 당연했다. 연구자의 숫자도 적고, 따라서 논문을 내 봐야 그 사람이 그 사람. 자가출판. 동인지라는 단어가 떠오르지만

결국 19세기 말부터 20세기 초에 이르러서는 과학의 결과가 유통되는 주 매체는 학술저널이 되었다.

당연한 이야기지만 우리가 무슨 사업을 한다고 할때 제품을 개발하고 생산하는 것도 중요하지만 제품을 유통하여 소비자의 손에 들려주는 과정 역시 극히 중요하다는 것 쯤은 잘 알고 있을 것이다. 결국 인류가 몰랐던 자연에 대한 정보와 지식을 ‘생산’ 하는 과학이라는 산업에서 제일 중요한 산물인 ‘논문이라는 제품’ 을 어떤 유통경로로 전달하여 소비자 (대개의 경우 과학의 일차 소비자는 동료 과학자가 되겠지만) 에게 전달하느냐는 어마어마하게 중요하다. 가령 농산물의 유통 과정이 영 뷁스러워서 소비자에게 신선한 농산물이 전달되지 못하는 상황을 생각해 보자.

그러나 오늘날 과학의 연구 결과가 ‘상품’ 으로 유통되는 주 경로인 학술저널에 대해서 앞에서 쓴 것처럼 과학자는 유통채널에게 농락당하는 생산자와 같은 느낌을 받게 된다. 그 이유는 뭘까?
사실상 현대의 과학과학저널의 체계는 사실 저 아래 정모사진 (?) 찍은 올드비 분들이 활동하실 때와 별반 큰 차이는 없다고 봐도 된다. 물론 책이라는 물리적인 매체를 통하던 게 이제 온라인화되었고, 도서관에서 저널을 복사해 오는 것이 아니라 pdf 로 다운받는다는 차이는 있지만 저널로 ‘제품화’ 되는 과정 자체는 크게 틀리지 않다. 
그러나 문제는 바로 여기서 있다고 생각한다. “옛날과 지금과 저널은 그닥 틀리지 않다” 라는 사실에.

21세기의 비디오 가게


즉, 저 올드비 냥반들이 활동하시던 때야 뭐 대개 1인, 많아야 2인 정도의 저자가 논문을 손 (타이핑도 했겠지만)으로 쓰고, 이 원고가 책으로 출판되던 시기였음.  지금과 같이 전세계적인 저널이 있다기보다는 독일 사람은 걍 독일 저널에 논문내고, 미쿡인은 미쿡 저널에 논문내고 하던 시기라고나 할까. (실제로 그 당시의 저널에는 해외저널 번역 기사가 많이 나옴) 
그리고 연구를 하는 사람도 그닥 많지 않고, 저렇게 학회때 모이면 사진 한장에 웬만한 분야의 인물은 다 등장할 수 있던 시기. 논문 내던 사람이면 다 그 사람이 그 사람이라는 거 알던 시기.

그러나 지금은 어떤가?일단 자연과학 연구의 경우 1-2인의 저자로 논문내는 사례 자체가 리뷰를 제외하고는 거의 없는 편.
Screenshot 2014-11-28 16.24.37
흔한 과학논문의 저자 목록의 극히 일부 (A-B만)

그리고 연구자의 수도 어마어마하게 늘어났으므로  그러다 보니까 제한된 리소스(연구비, 일자리)를 확보하기 위한 경쟁도 상상을 초월함. 그리고 IT 기술의 발전으로 인해서 누구나 자기 PC에서 저널에 실리는 것과 별반 다를 수 없는 거의 완전한 논문 배포본을 만들 수 있음.그런 변화에도 불구하고 우리는 아직도 이전 아박사님이 논문쓰던 시기와 별반 차이없는 스타일로 우리의 상품을 유통시고 있는데 그러다 보니 다음과 같은 문제가 추가적으로 발생하곤 한다.

경쟁은 치열하고, 지식의 유통속도는 빨라지는데, 정작 논문에 실린 것은 최소 몇 달, 혹은 몇 년 전의 이야기가 됨. 논문의 원고가 작성된 이후에 최종적으로 ‘출시’ 가 되기까지의 갭은 최소 몇 달부터 심한 경우에는 몇년이 걸릴수도 있습니다. (특히 자연 – 자연 동생 – 쁘나스 – 저널오브어쩌구 저쩌구 – 쁠로스원 – 국내학회학술지 -.-등등의 계층을 거쳐가면서 너님 리젝~ 원투스트레이트를 쳐맞는 경우에는 더더욱 길어짐)

정보의 비대칭 현상이 심각해짐.

논문 리뷰 등을 많이 하는 소위 대가양반들은 가만히 있어도 세계의 경쟁자들이 나 뭐하고 있네~ 를 다 알아서 보고해줘요! (직접 리뷰를 안해도 여기저기 심어놓은 아랫것들이 다 보고해주지 ㅋㅋ) 그러면 대가양반은 ‘실험실 포닥 다 모여봐봐’ 해서 반도국의 누군가가 한 결과와 비슷한 결과를 한달 안에 슥 내놓습니다. 그리고 반도국의 누군가에게는 빡신 요구를 몇 개 던져서 발을 묶은 다음에 결과를 짠~ 내고 백투백! 가령 왜 몇십년 동안 안 풀리던 단백질 구조들이 한번 풀릴때는 서너개의 랩에서 한꺼번에 나올까염?


연구 결과를 발표하는 것이 해당 저널의 독점권이 되버림 (한 10년 전의 엠바고 사건을 기억하는가?) 당연히 아직 출판되지 않은 결과는 저자, 몇몇 저널 에디터, 리뷰어들만이 알고 있는 비밀이 되버림. 이것과 연구자의 수가 어마어마하게 늘어났다는 것이 융합되어 남이 이미 다 해놓고 논문 출판 과정에 들어가 있는 일을 룰루랄라 지금 시작하는 사람도 있고…가령 어제 세팅한 크리스탈 드랍에 멋진 크리스탈이 나와서 X레이 쏴 보니까 1.5옹스트롬으로 회절! 오오 나도 자연 찍는거임? 
하고 신나서 저녁에 실험실원들한테 거하게 쏘았는데 다음날 실험실 출근해서 숙취를 참으면서 펍메드 찾아보니 그 단백질 구조가 자연에 아티클로 나왔어~ 하는 안습한 경우도 종종 벌어지고..

– 저널이 많아지고 논문이 많아지다보니까 독자들도이걸 다 찾아 읽을수는 없고, 소위 럭셔리한 저널들에 실리는 것들만 찾아읽기도 버거운 상황이 되는데 럭셔리도 그냥 유지되나?  그게 유지될려면 어디 블로그에서 논읽남 하는 반도국의 어떤 잉여종자 -.- 도 알아들을만큼 참신하고 브레이크쓰루~ 한 토픽을 발굴해야져. 가령 비소가 많은 동네에 사는 미생물은 DNA에 인 대신 비소가 들어있다거나…아니면 pH를 촉촉하게 약산성으로 만들어주면 줄기세포가 마구 돋는다거나...그렇게도 도도하던 저널들이 어째 이런 주장을 하는 논문들에 대해서는 한없이 리뷰가 널럴해져여! 리뷰어들이 극딜을 하는데도 막 실어줘 ㅋㅋㅋㅋ
비디오 가게대신 유튜브 혹은 넷플릭스. 그렇다면?이제 과학정보를 유통하는 방법이 좀 바뀌어야 하는 게 아닐까 싶음. SNS 뒀다 뭐하나? SNS는 허니버터칩 먹었음 우리애기가 잘커요 하는 사진만 올리는데 써야 하나? Figure 1 번 데이터 나오면 바로 사진 올리고…”님 웨스턴 잡뺀드 쩌네염” “쥐가 왜 이리 빌빌해” “님 파리는 걍 조루얔ㅋㅋㅋ” 이런 악플도 실시간으로 달아가면서 과학을 하면 안될까여?이런 것이 아니더라도  일단 원고가 어느정도 쓰이면 올리고 SNS식으로 좋아요 싫어요, 리플단 횟수, 리트윗한 횟수, 리뷰 (라고 쓰고 악플이라고 읽는) 가 올라간 횟수 등으로 대중에게 노출되도록 하는 시스템 같은거 없을까?사회의 상황이 변함에 따라서 제품의 유통경로도 바뀌어야 한다고 생각한다. 이전에는 동네마다 비디오가게가 있어서 VHS 테이프를 빌려다가 영화를 봤죠? 그 비디오가게는 다 어디 갔나요? 상업적인 출판사에서 나온 저널들은 마치 지금 이 시점의 비디오가게와 비슷한 상황 아닐까? 굳이 비유하자면 비디오가게에서 돈내면 영화파일 유에스비에 카피해 주는 그런 뻘쭘한 상황?2줄로 요약“지금 저널 시스템은 과학정보 유통 시스템으로 넘 낡았으니 여기에 대한 개혁이 필요함. 그래서 과학자들이 호구잡히지 않고 과학정보를 보다 신속 정확, 민주적으로 유통할 수 있는 새로운 시스템이 필요함.” 근데 우린 아무일 안하잖아. 우린 아마 안될거야 -.-….가 아니고 한번 생각을 해보자구요.

100년전의 연구가 어떻게 HIV치료에 보탬을 주는가?

막스 퍼루츠 (Max Perutz)는 구조생물학의 시조와 같은 사람이기도 하지만, 일반인을 위한 과학관련 글을 쓰는데도 매우 열심이었던 사람이다. 이 사람을 기리기 위해서 영국의 MRC에서는 Max Perutz Science Writting Award 라는 경연대회를 해마다 연다.

이 경연대회는 젊은 과학자 (대개 박사과정) 들에게 다음의 주제로 짦은 글을 쓰라고 하는 것이다.
“네가 하는 연구가 왜 중요한가?” 단, 읽는 대상은 일반인.
다음에 2014년에 최우수상을 수상한 글을 소개한다. 원문은 여기

Christoffer van Tulleken

의학사에서 가장 유명한 닭에 대해서 앍고 있는가? 뉴욕산의 플리마우스 록 종의 닭인데, 이 닭은 1911년 젊은 병리학자 페이튼 라우스 (Peyton Rous)가 닭 목에 있는 종양을 발견하고 입수한 닭이다.

라우스는 그 닭을 가지고 매우 정교한 실험을 하였다. 아마도 그가 무엇을 찾고 있는지도 모르는 상태에서 한 실험이라는 것을 생각하면 믿을 수 없을 만큼 정교한 실험이었다.  그는 종양이 난 닭 유래의 종양 조직에서 얻은 추출물을 여과하여 암세포를 제거한 후, 이 추출물을 다른 닭에 주사하자 종양이 발생하는 것을 발견하였다. 즉 그는 레트로바이러스(Retrovirus)라는 종양을 유발할 수 있는 바이러스를 발견한 것이다.

아마도 비슷한 시점에, 콩고의 밀림 속에서 또 다른 레트로바이러스 하나가 침팬지로부터 인간으로 전파되는데 성공하였고, 이 바이러스는 앞으로 6천만명에게 감염될 여정을 떠나게 된다. 이 바이러스는 과학계에 아무런 팡파레없이 슬며시 등장한다. 1981년에 로스엔젤리스의 5명의 게이 남성이 면역시스템이 붕괴되는 특이한 현상을 보였다는 짤막한 보고가 등장한다.

이 논문 자체는 전형적인 의학사례 보고논문으로 매우 건조하게 읽힌다. – 두 사람이 목숨을 잃은 것에 대한 조의는 그닥 없이 – 그러나 이 보고 자체는 아마도 금세기에서 가장 중요한 의학적인 보고였을 것이고 우리의 의식속에 인간면역결핍바이러스 (HIV) 라는 존재가 등장한 게 바로 이 시점이다.

그러나 바이러스가 여러 종의 생물과 대륙을 넘어서 인간에게 퍼지기 위한 여행을 떠나고 있는 동안,  이 바이러스와는 상관없어 보이는 과학 역시 진보하고 있었다. 인간면역결핍바이러스가 이제 특정한 지역이나 계층을 떠나서 광범위하게 퍼지기 시작할 때에 이미 우리는 페이튼 라우스 덕택에 훨씬 앞서서 레트로바이러스에 대한 정보를 가지고 있었다. 즉, 우리가 다른 바이러스에 대해서 충분한 생물학적인 지식을 가지고 있었기 때문에 HIV에 대한 매우 효과적인 치료법은 HIV가 발견된지 20년도 안되서 개발될 수 있었다.

나의 연구 목표는 궁극적으로 치료제를 개발하는데 현재까지 필수적이었던 HIV의 생물학을 이해하는데 기여하는 것이다. 그러나 내 연구는 실험실 수준의 시험관 속에서 진행되는 것으로써 아마도 이것이 환자에게 적용될 치료법이 되기까지는 앞으로도 갈 길이 멀다.

내 연구주제는 HIV가 어떻게 면역시스템을 파괴하는지에 대한 의문과 관련되어 있다. 아마도 HIV가 지금까지 가장 많이 연구된 감염질환이라는 것을 생각하면 우리의 HIV에 대한 이해에는 큰 갭이 존재한다.

대개의 모든 바이러스와 마찬가지로 HIV는 생물체와 화학물질간의 중간적인 존재이다.  즉 HIV는 약간의 유전정보를 감싸고 있는 일종의 단백질 덩어리이다. 바이러스는 자기복제를 하지 못하므로, 살아있는 세포에 감염하여 세포의 기작을 이용하여 자신을 복제해야 한다. HIV는 우리 몸의 면역계를 구성하는 중요한 세포에 특이적으로 감염되고, 수년에 걸쳐서 이 세포는 죽어나가게 되고, 면역시스템이 악화되어 환자는 암이라든가 폐렴과 같이 LA에 최초로 보고된 에이즈 환자와 같은 질병을 앓게 된다.  문제는 어떻게 HIV에 의해서 면역세포가 죽는지는 모른다는 것이다. 그러나 몇가지 예비데이터에 따르면 이것은 손상된 DNA를 복구하는 인간세포의 시스템과 관련이 있다.

DNA를 복구하는 단백질은 HIV에 있어서 매우 중요한데, 다른 레트로바이러스와 마찬가지로 HIV 역시 유전자를 인간세포의 DNA 로 삽입시키기 때문이다. 즉 바이러스의 유전자가 우리 DNA의 일부가 되는 것이다. 이를 위해 HIV는 세포의 DNA를 자르고 자신의 유전자를 삽입해야만 한다. 이렇게 잘린 DNA는 세포가 가진 DNA 복구단백질에 의해서 다시 복구된다. 아마도 이 단백질은 면역세포가 점차적으로 사라질때 자살을 유도하는 동일한 복구단백질일수도 있다.

나는 HIV가 이러한 DNA 복구 단백질과 어떻게 상호작용하는지를 이해하려고 한다. 이를 알아보기 위해서 세포내에 있는 DNA 복구단백질을 하나씩 없앤 다음 그 영향을 살펴보고 있다. 만약 우리가 HIV와 상호작용하는 단백질을 제거한다면, 면역세포가 죽는 것을 억제할수도 있을 것이다. 만약 그렇다면 이런 역할을 하는 약물을 디자인할 수도 있지 않을까?

그냥 얼핏 보기에는 나의 연구의 가치는 HIV를 치료하는 보다 나은 치료제 개발에 기여하는 것에 국한될지도 모른다.  그러나 연구의 가치를 예상되는 결과만 가지고 정당화하는 것은 비논리적이고, 솔직히 무식한 일이다. 만약 연구에서 얻는 결과가 완전히 예측대로라면 어찌 그것을 제대로 된 과학연구라고 하기도 부르겠는가. 어쩌면 지금 하는 HIV에 대한 연구를 통하여 인간 세포내에서 DNA 복구가 어떻게 진행되는지 좀 더 이해할 수 있게 될지도 모르고, 어쩌면 내 연구 결과가 나중에 암 치료에 도움이 될지도 모른다. 물론 내 연구 결과가 HIV나 암 치료에는 큰 보탬이 되지 않을 수도 있다.  그러나 이런 결과가 미래에 발생할 수도 있는 아직까지 알려지지 않은 치명적인 질병의 치료에 보탬이 될지 지금 누가 알겠나.  즉 라우스가 100년 전에 연구한 닭 목에 난 종양에 관련된 실험이 나중에 HIV 가 창궐했을때 그 치료법을 개발하는데 결정적인 역할을 한 것처럼 말이다.

NGS 분석이 필요하세요? 분석은 쎌프

아래 글은 Hmmer의 제작자로 유명한 계산생물학자 Sean Eddy가 “High throughput sequencing for neuroscience”라는 미팅에서 한 이야기를 “대충” 번역한 것임.  보다 자세하고 정확한 내용은 링크를 참조하세염

(참고로 Sean Eddy는 원래는 분자생물학자로 출발한 사람으로써 Ph.D때는 이런 논문으로 학위를 한 사람임)

(서론은 좀 생략. 역시 직접 읽으세염)

낮은 인풋, 하이 쓰루풋, 아웃풋

이전에 시드니 브레너 영감님은 지노믹 연구가 수행되는 방식을 이런 식으로 디스하곤 했습니다. 즉 지노믹 연구는 “낮은 인풋, 하이 쓰루풋, 노 아웃풋” 과학이라구요.

어떤 사람들은 지노믹스를 단순히 지노믹을 한다는 그 자체만으로 사용한다는 것을 생각하면 시드니 브레너 옹의 이야기는 아주 맞는 이야기입니다. 이번주에 제가 Reddit의 바이오인포매틱 질답 게시판에 가니까 어떤 박사과정 학생이 써 놨데요.

우리 보스님은 그냥 우리가 샘플 (여기서는 조직샘플) RNA-Seq 보내면 바로 자기 이름이 붙은 네이처 논문이 나올것이라고 생각하더군요. 아직 가설이 무엇인지, 무슨 콘트롤을 쓸지, 무슨 분석을 할지도 결정하지 않았는데도 말이죠. 그냥 샘플을 보내서 얻는 데이터를 가지고 뭔가의 익스프레션이 올라갔는지 내려갔는지만 알면 된다고 생각하는것 같아요

아마 그 “낮은 인풋, 하이 쓰루풋, 노 아웃풋” 의 좋은 예가 아마 위와 같은 케이스일 것입니다.

시퀀싱은 그저 도구일 뿐

네, 그렇지만 한번 봅시다. 시퀀싱 테크놀로지는 그저 도구일 뿐입니다. 옛날 옛적에 우리는 ‘젤’ 이라는 걸 썼어요. 아가로스 혹은 아크릴아마이드 젤은 고분자 물질을 사이즈에 따라서 분리할 수 있는 성질을 가졌죠. 우리가 이렇게 사이즈에 따라서 DNA  혹은 단백질을 분리할 수 있다는 것을 깨닫은 다음에 이걸 가지고 수많은 종류의 아주 강력한 어세이를 개발해 냈습니다. 즉 전기영동 젤을 내려서 사이즈에 따라서 분리를 하는 성질을 이용해서 아주 창의적인 실험들을 했었죠. 즉 써던, 노던, 웨스턴이 다 이걸 이용한 거죠. 혹은 DNA-단백질의 특이적인 결합을 위해서 젤 쉬프트 어세이를 하기도 했었습니다. 마이크로어레이는 하이브리다이제션 슬랏 블랏의 응용인데, 이것은 바로 노던의 응용이죠. DNA 시퀀싱 자체도, 생거나 막삼 길버트 메소드 모두 동일하게 젤을 이용하여 고분자를 크기별로 분류하는 것을 기본 원리로 합니다.

이렇게 젤을 이용해서 사이즈별로 분류하는 기술이 엄청나게 유용했고 벼라별 변형이 나왔지만 제 기억에는 “Gels for neuroscience” 따위의 미팅은 없었던 것 같아요.  “우리가 젤이 필요한가?” 같은 제목의 강연도 들은 적 없었구요. 그냥 젤은 그냥 툴이라는 것은 명확했던 것 같아요. 만약 어떤 사람이 “우리가 젤을 내리는게 필요한가” 라는 강연을 했다면 아마 벙쪘을 것 같고 이렇게 답했을 겁니다. “뭐 너가 꼭 젤 안내려도 되는데, 있는거 안 쓸 이유가 뭐 있냐? ㅋ”

그런데 지금 여기의 미팅 이름은  “High throughput sequencing for neuroscience” 이고, 지금 이걸 비웃자는 것은 아닙니다. 여기에 훌륭한 과학자들이 많이 오셨고, 좋은 강연과 훌륭한 포스터들이 발표되고 있습니다. 만약 그렇지 않았다면 여기 오지 않았겠죠. 제가 말하고 싶은 요점은 우리가 젤에 대해서 생각할때와는 달리 하이쓰루풋 시퀀싱에 대해서는 뭔가 특별한 것이 있다라는 이야기입니다.

왜 하이쓰루풋 시퀀싱은 다른 테크닉과 틀릴까요? 왜 젤이나 PCR, 현미경과 같은 다른 것을 대하듯 하이쓰루풋 시퀀싱에 대해서는 이야기하지 않을까요?

여기에는 세 가지 이유가 있다고 생각합니다. 하나는 우리가 하이스루풋 시퀀싱을 “빅 사이언스” 와 동일시했다는 것이고, 두번째는 하이스루풋 시퀀싱을 “가설 기반 과학” (Hypothesis-driven science)과는 상반된 “발견 기반 과학” (discovery-based science) 라고 생각했기 때문이고, 세번째는 시퀀싱이 “빅 데이터” 를 생산하고, 이것을 분석하는데는 특별한 기술을 가진 바이오인포매티션에게 아웃소싱을 해야한다고 생각했기 때문입니다. 제 생각은 이 세가지 생각은 다 잘못되었다고 생각하구요, 그냥 생물학계에서 가지고 있는 미신이라고 생각합니다.

시퀀싱은 사이언스가 아니다.

먼저 “빅 사이언스” 에 대한 이야기부터 해 봅시다.

분명히 휴먼 지놈 프로젝트는 현대과학과 DNA 시퀸싱 테크놀로지에서 하나의 이정표였습니다. 휴먼 지놈 프로젝트는 우리가 하이쓰루풋 시퀀싱에 대해서 생각하는 것에 대한 일종의 고정 관념을 형성한 셈이죠. 그렇지만 휴먼 지놈 프로젝트는 그 자체로 독특한 것에는 여러가지 이유가 있습니다.

휴먼 지놈 프로젝트는 하나의 과학적 실험이 아닙니다. 휴먼 지놈 프로젝트의 목표는 간단하게 말해서 하나의 “지도” 를 만드는 것이었어요. 즉 연구 커뮤니티를 구성하는 많은 사람들이 계속해서 오랜 시간에 걸치 이용할 수 있는 안정된 인프라스트럭쳐를 만드는 게 바로 휴먼 지놈 프로젝트였습니다.

휴먼 지놈 프로젝트가 지도 구축이라는 사실은 이 프로젝트는 과학적인 의문이나 가설에 의해서 이리저리 우왕좌왕하지 않았다는 말입니다. 보통 과학적인 의문을 가지게 된다면 이 과학적인 의문이라는 것은 의도하지 않은 방향으로 우리를 인도하여 새로운 발견을 하게 하곤 하죠. 그렇지만 휴먼 지놈 프로젝트는 그 시작부터 아주 잘 정의되고 확실한 목표가 있던 프로젝트라는겁니다. 즉 휴먼 지놈 안에 있는 32억 베이스페어의 염기서열을 결정하는 것과 같이 말이죠.  우리는 지놈시퀀싱을 완성하기 위해서 합리적인 계획을 세우고, 그 계획을 실천하면 되었습니다. 이것을 이룩하는 것은 어떻게시퀀싱을 많이 효율적으로 할 수 있느냐의 문제였을 뿐입니다. 반면에 우리가 과학적인 의문을 추구할 때는 ‘이것을 언제까지 완성할 것인가’ 와 같은 계획을 세울 수가 없죠.

우리가 휴먼 지놈 프로젝트를 수행한 것은 이렇게 과학계의 공동 노력에 의해서 휴먼지놈 시퀀싱을 할 수 있을 가장 이른 시기였습니다. 즉, 각각의 개별 랩이 조금씩 시퀀싱을 하는 것보다 한꺼번에 공동 노력에 의해서 시퀀싱을 하는 것이 시간과 노력에서 우월할 때였죠. 즉, 그 이야기는 휴먼 지놈 프로젝트가 수행될때는 간신히 기술적으로 이게 가능할 때, 아주 많은 돈을 들여서, 많은 사람들의 노력에 의해서만 이것이 완수될 수 있었다는 이야기죠. 즉, 아시다시피 휴먼 지놈 프로젝트는 NIH와 Wellcome Trust, Department of Energy, 그리고 민간기업인 Celera Genomics에 의한 합동 노력이었습니다.

우리가 휴먼 지놈 프로젝트를 수행할 때는 포지티브 컨트롤이나 네가티브 콘트롤 따위는 생각할 필요는 없었어요. 그냥 얼마나 정확하게 시퀀싱을 하느냐의 문제였죠. 즉 휴먼 지놈 프로젝트는 일종의 공학적인 성취이고 과학적인 성취라고 보기는 힘들어요.

생물학에서 가치가 있을 유일한 “빅 사이언스” 프로젝트에는 휴먼 지놈 프로젝트만 있는 것은 아닙니다. 우리가 소위 말하는 “지도” 와 같은 리소스를 구축해서 잘 쓰고 싶은 것들이 있겠죠. 가령 브레인 아틀라스 프로젝트라든가, 커넥톰이라든가 등등..

그렇지만 저는 생물학에서 지도 혹은 인프라스트럭쳐에 해당하는 리소스를 만드는 게 아닌 특별한 가설을 검증하는 목적의 “빅 사이언스”  실험은 잘 생각이 나지 않네요. 아마 가장 유사한 것이라면 약물의 임상시험 정도?

지금 이 미팅에서 이야기되는 하이스루풋 시퀀싱은 지놈 프로젝트와는 성격이 많이 틀린 것입니다. 그럼에도 불구하고, 우리는 일하는 것을 마치 옛날에 지놈프로젝트를 하는 것처럼 일하는 경향이 있다고 생각해요. 우리가 분석하기도 전에 원시데이터를 공개해야 하는가? 우리가 데이터를 배포할 웹사이트를 만들어야 하나? 우리가 지놈브라우저같은 비주얼라이제이션 툴을 갖추어야 하는가? 우리가 여러가지 데이터를 시스템적으로 모아서, 그 다음에 바이오인포매티션들을 불러서 뭔가 특이한 게 있나 보여주어야 하나 등등? 사실 이런 건 중요한 것이 아닙니다.

시퀀싱은 어세이이다

우리가 지금 하고 있는 많은 과학에서 우리는 하이스루풋 시퀀싱을 그냥 일종의 어세이 (assay)로 생각해야 된다고 생각해요. 이제 시퀀싱 비용이  떨어지면 질수록, 우리는 시퀀싱을 마치 젤 내리듯 사용하게 됩니다.

아마 이 방에 계신 분이라면 이걸 다 알고 계시죠. 우리가 이 미팅에서 이야기하는 것들은 시퀀싱 테크놀로지를 이용하여 뉴로사이언스에서 여러가지 가설에 기반한 의문들을 풀 수 있는 수많은 방법들에 대한 이야기입니다. 이 점에 대해서 조금 더 이야기해보도록 하죠.

물론 분명히 아직도 지노믹적인 관점에서 “가설 없는, 발견 기반” (Hypothesis-free, Discovery-based)으로 연구할 부분이 남아 있죠. 가령 세포 특이적인 트랜스크립톰을 확립한다든지, 특정한 생물의 지놈시퀀싱을 완료한다든지, 메타지놈과 관련된 것을 한다든지 등등..

그렇지만 우리가 시퀀싱을 실험에서 어세이로 사용되는 경우는 점점 증가하고 있어요. 가령 유전자 발현의 차이를 보기 위해 하는 RNA-Seq 이라는 건 결국 고해상도, 병렬화된 노던 블랏과 마찬가지죠. ChIP-Seq 이라는 것은 역시 고해상도, 병렬화된 젤 쉬프트 어세이인 셈이죠. 새로운 뮤턴트를 찾기 위한 지놈 시퀀싱은 그냥 이전에 하던 뮤턴트의 유전자 매핑 작업인 셈입니다.

우리가 소규모로 하고 있던 거의 모든 분자생물학 어세이가 시퀀싱 기반으로 바뀌고 있는 것, 그리고 이것이 지놈 레벨에서 고해상도로 진행되는 것을 보는 것은 매우 놀랍습니다. 우리는 이제 어떤 DNA 나 RNA 샘플이건 시퀀싱해서 이들의 지놈 혹은 트랜스크립톰을 볼 수 있죠. 혹은 조직이나 배양된 세포를 이용해서 세포특이적인 트랜스크립톰을 보거나, 혹은 세포 내의 다른 위치에서 서로 다른 RNA의 분포를 보거나 할수도 있구요, 혹은 여러가지 ChIP-Seq 혹은 CLIP, RIP-Seq과 같은 방법으로 우리가 풀다운을 하는 단백질에 붙어나오는 RNA 혹은 DNA가 어떤 것인지도 살펴볼 수도 있어요. 우리가 모든 젤을 가지고 하는 분자생물학 실험을 어떻게 시퀀싱으로 바꿀지 아이디어만 있다면 거의 모든 분자생물학 실험은 시퀀싱 기반의 실험으로 바꿀 수 있습니다. 아마 시퀀싱으로 할 수 있는 실험은 이미 거의 100가지가 넘을 겁니다.

자연적으로 존재하는 핵산만 대상으로 실험할 수 있는 것도 아닙니다. 합성생물학을 이용하여 DNA 혹은 RNA 바코드를 합성하여 실험한다든지 할 수도 있고……등등등 (중간 생략 -.- 직접 읽으삼)

여튼 이런 기술을 이용하여 테스트할 수 있는 생물학적인 의문은 무궁무진합니다. 시퀀싱은 이제 지놈 센터에서 생물의 지놈 시퀀스를 만드는 시대에서 완전히 탈피했습니다. 시퀀싱은 이제 그냥 일반적인 어세이입니다. 아니 이제 어세이 자체도 아닌 젤과 같이 생물학 실험의 기본이 되는 뭔가가 “거의” 된 셈입니다.

생물학자는 자신의 데이터 분석을 알아야 한다.

여기서 시퀀싱이 생물학 실험의 기본이 “거의” 됐다고 했어요. 왜 “거의” 라고 했냐면 우리 생물학자가 여기서 극복할 장애물이 하나 있거든요. 그것은 우리가 왜 하이스루풋 시퀀싱을 젤이나 현미경처럼 친숙하게 못 여기느냐에 관련된 것입니다. 그 이유는 우리가 우리 자신의 데이터를 분석하는 능력에 확신이 없거든요. 생물학자들은 시퀀싱에서 나오는 데이터의 양과 복잡합을 다루는데 어려움을 겪고 있어요. 그래서 지금까지는 이러한 분석을 바이오인포매티션에게 아웃소싱하곤 했죠.

만약 우리가 지금 해야하는 일이 어떤 생물의 지놈 시퀀스를 결정하는 것처럼 해야할 일이 확실하게 정해진 리소스를 구축하는 것이라면 이 문제 자체는 과학적인 문제라기보다는 공학적인 문제입니다. 이 경우에는 이런 문제를 그냥 해당 문제를 해결하는데 익숙한 바이오인포매티션에게 아웃소싱 해 버리면 간단합니다. 그러나 만약 당신이 생물학자이고 가설에 기반한 생물학 문제를 연구하고 있고, 시퀀싱에 기반한 어세이를 이용하여 문제를 풀려고 하면서 이 분석을 시퀀싱 코어에 있는 바이오인포매티션에게 그 문제를 풀어달라고 하는 것은 마치 우리가 젤을 가지고 실험을 하면서 무슨 지하실에서 자와 라이트박스를 가지고 젤을 자로 잘 재는 테크니션에게 그 분석을 맡기는 것과 마찬가지라고 생각해요.

데이터 분석이라는 것은 일반적일 수가 없어요. 우리가 생물학적인 어세이에서 나온 데이터를 분석할 때는 일단 우리가 무슨 문제를 묻고 있는지를 이해해야 하고, 우리가 하는 어세이 자체를 이해해야 하고, 문제를 기대하는 충분한 직관이 있어야 하고, 특이한 비정상적인 현상이 있을때 그것을 인지할 수 있어야 하고, 적절한 콘트롤을 디자인할 수 있어야 해요. 만약 젤을 가지고 실험할 때라면 이것은 확실하죠. 우리가 노던블랏을 할때 이것을 웨스턴과 같이 분석하지는 않죠. 우리가 웨스턴이나 노던을 분석할때 타인에게 젤 분석해달라고 하지는 않죠. 그렇지만 우리가 시퀀싱 데이터는 지금 이런 식으로 다루고 있다는 거 아시나요?

물론 시퀀싱 자체가 무지무지 많은 데이터를 만들어 내는 것은 맞고, 이런 데이터를 다루는 스킬은 어느정도 전문적이고 (생물학자 중에서) 잘 하는 사람이 그닥 없는 것은 사실이예요.그렇지만 제가 지금 하고 싶은 말은, 이런 데이터 분석기술은 생물학자 쉽게 습득할 수 있고, 그래야만 하고, 앞으로 그럴 것입니다. 우리는 지금 현재 생물정보학을 하는 것에 대해서 다시한번 생각할 때가 되었습니다.

스크립팅은 파이펫질과 마찬가지로 필수기술이다.

지금 제가 말하는 것에서 명심해야 할 가장 중요한 것은 펄 혹은 파이썬으로 스크립트를 작성하는 것은 필수적이며, 솔직히 그닥 어렵지 않은 것이라는 것입니다. 그냥 파이펫질 하는 것과 같아요. 스크립트를 작성하는 것은 소프트웨어를 작성하라는 게 아닙니다. 스크립트를 작성하는데는 무슨 전산학 과목이나 컴퓨터엔지니어링 코스를 들을 필요는 없어요. 생물학자라면 펄 혹은 파이썬 스크립트를 작성할 수 있어요. 펄 혹은 파이썬 스크립트를 작성하는 것을 어렵게 생각하는데, 이것은 그냥 여러분들이 실험 프로토콜을 실험노트에 작성하는 것과 크게 다름이 없어요. 아마 여러분들이 입문하는 방법이라면 아마 다른 사람들로부터 이미 작동하는 스크립트를 받은 다음에 필요한 만큼 고치면서 배우는 것일것입니다. 그러다 보면 자신이 필요한 스크립트를 처음부터 짤 수 있을 것입니다. 만약 여러분들이 시퀀스 데이터를 다루면서 스크립트를 짤 수 없다면 몇 시간 정도 시간을 투자할 생각을 하세요.

그러나 중요한 것은 대규모의 생물학적인 데이터는 생물 그 자체만큼이나 복잡하다는 것입니다. 우리가 크고 복잡한 데이터를 가지고 뭔가 알아보려고 하는 것은 그 자체가 실험과 같습니다. 우리는 실험 데이터를 한번에 볼 수가 없어요. 우리는 무엇을 볼 지를 먼저 정하고, 약간만 원하는 내용만을 살펴볼 수 있어요. 우리가 데이터를 가지고 제대로 된 물음, 즉 ‘무엇을 볼 지’를 결정하는 데는 시간이 필요해요. 마치 우리가 살아있는 생물을 가지고 실험을 하는데 익숙해지려면 시간이 걸리는 것처럼 말이이죠. 일단 ‘무엇을 묻고자 하는지’ 를 생각하고 우리가 포지티브 및 네가티브 콘트롤을 어떻게 해야 하는지를 데이터를 대상으로 ‘실험’ 을 할 때도 신중히 생각해야 됩니다. 당신이 작성하는 스크립트는 일종의 실험 프로토콜입니다. 이렇게 여러가지 실험과 콘트롤에 대해서 생각하는 시간은 아마 당신이 펄이나 파이썬을 배우는 시간보다 훨씬 더 오래 걸릴 것입니다.

예를 하나 드릴께요. 시작하는데 아주 좋은 예이고 배워둘 가치가 있는 예입니다. 만약 펄로 이걸 여러분이 구현해서 – 아마 한나절이면 펄 몇줄 짜서 만들 수 있을 것입니다 – 돌아가게 하면 아마 여러분은 슈퍼맨 망토를 걸친 슈퍼맨처럼 아주 큰 데이터셋을 어마어마한 효율로 살펴볼 수 있어요.

아주 간단한 건데, 랜덤 샘플링입니다. 만약 누군가 여러분한테 수억만줄이 있는 데이터를 준다고 해요, 그게 일루미나 시퀀싱 데이터일수도 있고, 테이블 형태의 데이터일 수도 있습니다. 그게 여러분 자신의 데이터이건, 혹은 누군가의 논문 데이터인데 여러분이 지금 리뷰하고 있는 것일수도 있어요. 여튼 제일 먼저 해야 할 것은 이 수억만줄의 데이터 중에서 아주 약간을 취해서 살펴보는 것일 것입니다. 만약 이렇게 10개를 골라서 봤는데 9개가 아티팩트더라~ 그러면 수억만줄 일일히 볼것도 없이 전체 데이터의 90% 는 아티팩트라는 것을 알 수 있겠죠. 이런 것이 전산학자나 혹은 바이오인포매티션에 비해서 생물학자인 여러분에게 중요한 이유라면, 여러분 생물학자들은 몇 개의 예를 주고 이것을 관찰하면 이것이 말이 되는지 안 되는지를 직관적으로 알아볼 수 있기 때문이예요.

그렇다고 아주 큰 데이터 파일의 처음 몇 줄을 보는 것은 좋지 않아요. 그 이유는 파일이 가끔 특정한 순서대로 되어 있거나 해서 매우 치우친 결과를 얻을 수도 있기 때문이죠. 가령 첫번째 염색체에 있는 텔로머라든가 말이죠. 그래서 우리는 이런 큰 데이터 파일 중에서 어떻게 랜덤으로 일부를 샘플링해서 보는지를 알아야 합니다. 물론 이렇게 하는데는 여러가지 잡스러운 방법이 있지만, 만약 여러분이 뭔가를 좀 제대로 배워보고 싶으면 어떻게 간단한 알고리즘이 저 일을 제대로 할 수 있는지를 알아야 해요. 이 알고리즘은 N개의 데이터가 있는 빅 데이터셋에서 k개의 랜덤 샘플을 균일하게 취하는데, 그걸 데이터셋을 한번만 오가면서 메모리에서 k 개 이상을 차지하지 않고서요. 이 알고리즘은 “Reservior Sampling” 이라고 하는데 위키피댜에서 한번 찾아보세요. 보면 알겠지만 이거 짜는데 한시간이면 될겁니다. 만약 이런 것을 할 줄 안다면 여러분이 다루는 모든 데이터셋에서 일부만 취해서 살펴볼 수 있어요. 만약 여러분이 이걸 할 줄 알게 되면 데이터를 가지고 여러분의 직관으로 다른 사람들을 놀라게 할 수 있다는 것을 알게 될겁니다. 아마 대부분의 사람들은 여러분이 저렇게 큰 데이터셋을 들여다볼줄 모른다고 생각할 거잖아요? 아마 대단한 통계처리나 비주얼라이제션을 해야지만 데이터셋을 들여다볼 수 있다고 생각하지..흔히 일어나는 일인데 생물학자들이 개개의 데이터를 살펴봄으로써 쉽게 직관적으로 파악할 수 있는 아티팩트들을 생물학적인 훈련이 되어 있지 않은 사람은 눈치채지 못하는 경우가 참 많아요.

이제 여러분이 스크립트를 써서 여러분의 데이터를 여러가지 방식으로 들여다보게 되면 여러분은 바로 여러분의 데이터를 가지고 ‘실험’ 을 하게 될 것이고 자연스럽게 콘트롤 실험에 대해서 생각하게 되고 아주 강력한 것을 깨닫게 됩니다.  즉 여러분들이 그동안 하던 교과서적인 통계테스트가 제대로 된 것인지를 체크할 수 있는 콘트롤 실험을 디자인할 수 있습니다. 요즘은 컴퓨터라는 게 대부분의 통계테스트가 개발되었을때보다 훨씬 빨라져서 수행속도가 문제가 되지는 않아요. 즉 스크립트를 짜서, 여러분들이 생각하는 포지티브 및 네가티브 콘트롤 데이터를 만들고, 그것을  검정할 수 있어요. 이렇게 만든 콘트롤을 이용하면 여러분이 테스트하려고 하는 가설을 보다 확실하게 할 수 있죠. 만약 우리가 얼마나 많은 거짓 포지티브 데이터가 나올지를 알고 싶다면 그렇게 콘트롤 데이터를 만들어서 테스트하면 되죠.

여튼 , 여러분이 데이터를 가지고 해볼 수 있는 ‘실험’ 은 무한정이므로 여러분이 무슨 단추 하나만 누르면 원하는 분석이 쫙 되는 웹툴 같은 게 나오기를 기대하는 것은 어리석은 이야기입니다. 할 수 있는 모든 웻 랩 실험을 한번에 할 수 있는 만능 키트 같은 것이 나오길 기대하기는 힘든 것처럼요. 누군가가 여러분이 분석할 수 있는 모든 것을 알아서 해주는 ‘유저 프랜들리’ 한 소프트웨어를 만들어줘서 우리가 직접 스크립트나 커맨드 라인에서 데이터를 분석해 주기를 바라는 것은 마치 모든 웻 랩 실험을 다 해주는 로봇을 만들어서 여러분이 파이펫을 전혀 안 잡고 실험을 하기를 바라는 것과 마찬가지입니다.

근데 한가지 말해두자면, 뭐 키트를 쓰는게 나쁘다는 것이 아닙니다. 만약 어떤 특정한 일을 여러 사람들이 반복적으로 하게 된다면, 이것을 키트형태로 패키징해두면 뭐 좋은 거죠. 생물정보를 전문으로 하는 바이오인포매티션들은 아마도 이렇게 웻 랩에서 흔히 사용하는 키트와 비슷하게 이용될 “생물정보키트”를 만드는데 좀 더 관심을 기울여야 합니다. 즉 아주 잘 작동하고 테스트가 잘된 파이프라인이나 스크립트를 만들어서 생물학자들이 이것을 이리저리 조합해서 그들의 ‘실험’ 에 사용하도록 하게 해야 한다는거죠 그러나 이때 생물학자가 어떤 키트를 실험 및 그들의 콘트롤에서 사용할지는 그들 자신이 알아서 결정할 수 있게 해야 한다는 거죠. 웻 랩 실험이나 컴퓨터를 가지고 하는 실험에서나 공히 말이죠.

피펫과 키트에 관한 비유를 조금 더 해보도록 합시다. 만약 생물학자가 스크립트를 마치 피펫처럼 이용하여 컴퓨터를 이용한 ‘실험’ 을 한다고 하고, 바이오인포매티션은 생물학자들이 이용할 파이프라인 및 구성요소들을 마치 키트처럼 구성하는 일을 한다면, 바로 저처럼 계산생물학을 연구하는 사람은 아마 효소공학을 하는 사람과 비슷할 것입니다. 즉, 저나 제가 이끄는 계산생물학자가 하는 일들은 알고리즘을 디자인하고, 통계계산을 어떻게 할지, 그리고 어떻게 하이퍼포먼스 컴퓨팅을 할지, 그리고 소프트웨어를 최적화할지 등을 고민합니다. 즉 우리는 아주 잘 정의된 입력과 아주 잘 정의된 아웃풋이 있는 일반적인 분석 문제들을 확인하고, 이들을 제대로 수행할 코드를 작성합니다. 마치 효소공학자가 기질과 산물을 최적화하여 보다 성능이 좋은 효소를 만들어내는 것처럼요. 이렇게 만든 우리의 소프트웨어는 바이오인포매티션이 자신들의 파이프라인과 ‘생물정보키트’ 에 사용되게 되고, 결국 생물학자들은 우리가 만든 소프트웨어를 간접적으로 사용하게 되겠죠. 물론 이런 계산생물학 부분은 또 다른 이야기거리가 있지만, 여기에 대해서는 나중에 이야기하도록 하겠습니다.

여기서 제가 말하고 싶은 요점을 정리해 보죠. 만약 여러분이 지금 여러분 랩에서 시퀀싱 데이터를 분석하려고 “바이오인포매틱하는 포닥” 을 고용하려고 생각한다면 다시 한번 생각해 보세요. 여러분은 여러분이 내릴 젤 밴드를 측정해줄 포닥을 고용할 수 없습니다. 만약 여러분이 방대한 지놈 시퀀싱 레벨의 리소스를 구축하고 있거나, 많은 생물학자들이 사용할 생물정보학 툴을 개발한다든지 한다면 아마도 생물정보학만을 하는 사람을 고용할 필요가 있겠지요. 그렇지만 제 생각엔 만약 여러분들이 뉴로사이언티스트로써 뉴로사이언스의 의문을 찾고자 한다면, 여러분은 여러분이 가지고 있는 생물학적 의문에 관심이 있는 사람을 찾아서, 그 사람 스스로 데이터를 분석하고, 그사람이 가지고 있는 생물학적인 직관을 통해서 문제를 해결하도록 만들어야 돼요. 아님 니가 하던가 스크립트를 짜거나, 커맨드 라인을 쓰는 것은 일반적으로 그동안 생물학에서 해오지 않은 것이기 때문에 처음에는 겁날 수 있습니다. 그렇지만 아마도 여러분이 생각하는 것보다는 쉬워요. 그리고 로는 이게 여러분이 하는 파이펫질만큼 일반적인 것이 될 것이기 때문에 지금부터 시작해야 합니다.