R-factor tracking during PHENIX refinement

During typical refinement process using PHENIX, you will end up with bunch of pdb files with different R-factors. How we can track R-factors of each version of pdb more easily?

$ ls *.pdb 
2A41.pdb              MR.1_refine_009.pdb   MR.1_refine_019.pdb   MR.1_refine_029.pdb
MR.1.pdb              MR.1_refine_010.pdb   MR.1_refine_020.pdb   MR.1_refine_030.pdb
MR.1_refine_001.pdb   MR.1_refine_011.pdb   MR.1_refine_021.pdb   MR.1_refine_031.pdb
MR.1_refine_002.pdb   MR.1_refine_012.pdb   MR.1_refine_022.pdb   MR.1_refine_032.pdb
MR.1_refine_003.pdb   MR.1_refine_013.pdb   MR.1_refine_023.pdb   MR.1_refine_033.pdb
MR.1_refine_004.pdb   MR.1_refine_014.pdb   MR.1_refine_024.pdb   NAG.pdb
MR.1_refine_005.pdb   MR.1_refine_015.pdb   MR.1_refine_025.pdb   Peptide.pdb
MR.1_refine_006.pdb   MR.1_refine_016.pdb   MR.1_refine_026.pdb   new_refine_020_ed.pdb
MR.1_refine_007.pdb   MR.1_refine_017.pdb   MR.1_refine_027.pdb
MR.1_refine_008.pdb   MR.1_refine_018.pdb   MR.1_refine_028.pdb

Each of pdb files contain informations about R factors.

REMARK ******************** REFINEMENT SUMMARY: QUICK FACTS *******************
REMARK Start: r_work = 0.2790 r_free = 0.2820 bonds = 0.008 angles = 1.116
REMARK Final: r_work = 0.2606 r_free = 0.2913 bonds = 0.008 angles = 1.186
REMARK ************************************************************************

The following script extracts r-work and r-free values from pdb files and plot using gnuplot

grep "REMARK Final: r_work" *.pdb | awk 'BEGIN { OFS="\t" }{print $1, $5, $8}' | sed -e 's/:REMARK//' -e 's/^MR.1_refine_0//' -e 's/.pdb//' ; data.txt
gnuplot -p -e "plot 'data.txt' using 1:2 with lines title 'R-work', 'data.txt' using 1:3 with lines title 'R-free'"

* If your pdb files have different naming conventions, you should modify ‘MR.1_refine_0’ part to match your pdb files. Of course.

These script generate data.txt files.

01      0.2606  0.2913
02      0.2602  0.2923
03      0.2599  0.2914

Then you will have a plot like this.

Advertisements

오늘의 논읽남 : Transforming Fusions of FGFR and TACC Genes in Human Glioblastoma 외

Transforming Fusions of FGFR and TACC Genes in Human Glioblastoma, Science 2012

1. RNA-Seq 으로 Gene Fusion Event 를 뒤벼봄. TX-Fuse라고 명명한 새로운 파이프라인 (서플 메소드 참조) 으로 Fusion 이벤트 뒤벼본 결과 Fibroblast Growth Factor Receptor와 TACC 라는 유전자의 coiled-coil region 이 짬뽕된 것을 발견. 그닥 높은 빈도로 일어나는 것은 아니고 3/97 (흠 100개 정도는 샘플을 뒤벼봐야 이런데 명함을 내밀수 있다는게 요즘 현시세이군 ㅋ)

Image

이정도는 되어야 fusion의 evidence가 충분하다고 할 수 있습죠 ㅋ 

2. 그리고 해당 Fusion 유전자를 Lentiviral vector 에 넣어서 transduce 한 결과 Astrocyte 레벨, 혹은 동물레벨에서 레알 해당 퓨전유전자가 암유발 한다는 것을 보임. (Fig.2) 뭐 사실 이런 이야기 가지고 중추신경 가려면 당연히 이 데이터가 있어야겠져. 단순히 암조직에서 퓨전 유전자 뭐뭐 있슴다 가지고는 요즘은 무리 ㅋ 

3. 보통 Receptor Tryrosine Kinase는  리간드가 붙으면 Dimerization 되서 Kinase Activation하고 Signaling Cascade가 전달되므로 Coiled-Coil 이 짬뽕되었으니 그냥 내내 Turn on 되는거겠네..라고 생각했는데 그건 아니라고 함. 대신 엉뚱하게 Spindle Pole에 들러붙는다는 것을 확인. 왜 그 단백질이 거기가고, 가서 뭐하냐는 몰겠지만, 암튼 엉뚱한데 가서 카이네이션 하고 개판치나부지. 

4. FGFR Tyrosine Kinase 쳐보니 해당 Fusion에 의해서 유도된 tumor growth 를 저해함. 즉 Tyrosine Kinase 활성 때문에 이런 문제가 생기는 것은 맞음 (Fig.4)

뭐 여튼 극히 일부의 Giloblastoma 에서는 요런 메커니즘으로 Gene Fusion Event가 일어난다는 이야기. 물론 이거 말고도 대박 많겠지만…하나 제대로 건져서 과학 득템. ㅋ 뭐 시퀀싱은 거들뿐이져. 

오늘의 논읽남 : Type III Effector proteins as synbio tool and etc.

Lim et al. Bacterial virulence proteins as tools to rewire kinase pathways in yeast and immune cells, Nature 2012

박테리아 유래의 Type III Effector Protein. 그중에서 Protein Kinase 를 Inactivation (Acetyltransferase 등) 하는 단백질을 이용하여 Kinase Signaling을 조절하는 Feedback Loop를 만듬.

Type III Effector Protein을 잘 이용하면 여러가지 Eucaryotic Cell 의 특성을 조절하는 modifier 로 이용하여 Synthetic Biology 놀이에 쓸수있는 장난감이 될 수 이씀. 뭐 이런 드립.

“아니 뭐 자연계에 실재하지 않는거 만드는게 무슨 바이올로지여 걍 공학나부랭이지” 라고 생각하는분도 있겠지만,  여기에 대해서는 위 논문 Corresponding Author 아저씨가 썰 풀어 놓은 거 가 있으니 한번 보는 것도 좋을듯. 파인만 아저씨가 죽기 전에 썼다는 “What I cannot create, What I do not  understand” 와도 일맥상통하는 이야기일지도.

Signaling 조절하고 피드백 루프 만드는 일은 그냥 웬델 횽아가 하시도록 하구요..나중에 시간과 여건이 주어진다면 나는 ‘내 단백질’ 을 가지고 어떻게 Cell motility 를 컨트롤해볼 수 있지 않을까 하는 구체적인 아이디어가 있음. 그러나 여백이 부족하여 적을 수가 없…(쿨럭)

Rocca et al., Discovery of Western European R1b1a2 Y Chromosome Variants in 1000 Genomes Project Data: An Online Community Approach, Plos One 2012

저자들의 소속이 다 Independent Researcher. 즉 취미로 1000 Genome 데이터 받아다 분석해서 논문까지 쓰는 더쿠들이라 이말입니다. 이 사람들은. ㄷㄷㄷ

Apparent Non-Canonical Trans-Splicing Is Generated by Reverse Transcriptase In Vitro Plos One 2010

사실 RNA 시퀀싱을 할때 Reverse Transcriptase (RT) 를 통해서 cDNA 로 바꾸고 할 수 밖에 없는데, 여기서 오는 한계 중의 하나라면 RT의 fidelity가 ㅈㄴ게 낮기 때문에 수많은 Error 가 유발된다는 것 하나 (대충 1kb에 하나는 있을껄.ㅋ) 그리고 Template Switching 이라고 해서 죽죽 Reverse Transcription 을 하다가 homolog 한 region이 있으면 휙 건너뛰는 현상이 있다는 것.

이것때문에 ‘splicing isoform’의 artifact가 나올 수 있다는 논문.

따라서 mRNA Sequencing을 통해서 Alternative Splicing 등을 볼때는 이렇게 Template Switching 에 의한  artifact가 있을 수 있다는 것에 주의를 기울여야 한다는 것.  특히 noncanonical splicing juction 인 경우에는 이게 실제로 스플라이싱된 것인지 RT 과정에서 Template Switching에 의해서 일어난 아티팩트인지 잘 구별하는게 좋을껄..하는 이야기.

가령 이런 논문을 보면

High-resolution human cytomegalovirus transcriptome PNAS 2010

RT의 Template Switching에 의한 artifact를 배제하기 위한 필터링에 대해서 좀 언급을 해놔슴.

오늘도 본업과는 관계없는 논문이나 읽으면서 놀고 있는 논일남 되게씀니다. 내일도 또 만나염. ㅋ

오픈 억세스의 3가지 모델

영국 정부의 연구비를 받는 연구의 경우 내년부터 오픈 억세스가 의무라는

오픈 억세스가 이슈가 되는 이유는 대충 이러함. 이전에는 과학연구 결과가 전달되기 위해서는 저널 – 퍼블리셔의 존재가 필수불가결화였음. 매뉴스크립트를 받아서 이를 피어리뷰 의뢰하고, 그 결과에 따라서 저널에 실어서 인쇄하고 배포하는 누군가가 필요했기음.

그러나 1. 인터넷의 발전에 더불어 인쇄된 저널이 유명무실화.  저널 출판사 너님 잉여되심. ㅊㅋ 2. 솔까말 논문 출판에서 가장 시간과 노력이 들어가는 피어 리뷰 과정은 학자들이 돈안받고 자원봉사하는거. 근데 출판사와 에디터 너님들은 뭐하세염?  재주부리는 곰과 중국놈 이야기도 아니고..3. 과학자들은 연구비에서 논문개제료까지 내주시는데, 저널은 딱히 하는 것도 없으면서 논문에 지적소유권을 주장하시고. 법적으로 저널에 노는 논문은 ‘광고’인데 광고에 지적소유권을 주장하시는 저널 출판사의 패기 ㅋ  4. 리뷰과정 중에서 저널의 권한이 너무나 막강해졌기에 여기에 따른 폐혜가 커졌고 (과학계의 ㅈㅈㄷ CNS 돋네)  5. 비공개 피어리뷰가 장점도 있지만 여기에 따라서 무진장 길어지는 리뷰시간, 경쟁자 논문 딴지로 딜레이후 우리도 합승하세 크리, 엿가락 같은 리뷰기준..  6.정부와 납세자 입장에서는 아니 내가 돈대서 연구한 것을 가지고 출판사 너님들이 왜  유료컨텐트 놀이하세여? 하는 이야기 나오고..

여튼 1줄로 요약하면 오픈 억세스는 이제 어쩔수 없는 대세.

저 위의 이코노미스트 기사에서  흥미있는 부분은 오픈 억세스의 모델을 3가지로 구분했다는 점.

  • Plos 방식 : 한번에 종래의 저널 개제료의 2-3배에 달하는 개제료를 내고 오픈억세스로 논문이 공개됨
  • Pubmed Central 방식 : 논문 개제저널은 오픈 억세스이건 아니건 상관없음. 그러나 1년 이내에 Pubmed Central 에 전문을 공개해야 함.
  • Arxiv 방식 : 최종 결과 논문이 어디에 나오거는 상관없음. 그렇지만 연구 결과의 최초 공개는 공개 db인 Arxiv 등에 최초로 드래프트를 올리느냐에 따라서 학계에서 우선권이 인정됨.

PLOS에서 취하고 있는 방식이나 Pubmed Central 식의 방법이나 결국은 기존의 비공개 피어 리뷰에서의 문제점 (빅가이 혹은 핫토픽 혹은 찌라시스러운 내용은 스리슬쩍 구렁이 담넘어가듯 빅저널에 나가고 그렇지 않은 대다수의 논문에만 엄한 빅저널의 이중잣대라는가..ㅋ) 을 피할 수는 없다고 봄. 결국 Arxiv 에서와 같이 일단 과학자 대중을 향해 인터넷 상에 논문을 공개해서 ‘Open Peer Review’를 거친 다음 저널화되는 것이 결국 21세기의 과학 커뮤니케이션의 정답이 되지 않을까 싶음. 이미 물리하는 사람들은 잘 하고 있는데..

비소미생물 반박 논문이 결국은 사이언스에 나왔지만 이미 인터넷 상에서는 arxiv에 공개된 논문으로 그 결과가 공개된 것과 같이 결국은 이렇게 되는 것이 순리라고 생각함.

유전자/단백질 이름 붙이기에 대한 잡설.

유전자 (단백질)의 이름을 붙이는 방법은 여러가지가 있는데 뭐 룰이 있는 것은 아니고 업계에서 흔히 사용되는 방법이라면.

– 해당 유전자가 처음 발견된 Mutant의 이름 따라가는 방법 (예 : Shaker, Spire…)
– 단백질이 처음 발견될 경우 단백질의 size 따라 (예 : p53, p300)
– 지놈 시퀀싱이나 스크리닝에 의해서 발견된 경우 그냥 순서별로 (cdc42, vpa1370…)
– 해당하는 유전자,단백질의 기능에 대한 약자.
– 기존에 알려진 단백질/유전자와의 상동성에 다른 구분.

개인적으로 제일 나쁜 방법은 4번째, 즉 유전자/단백질이 처음 발견되었을때의 단편적인 기능에 대한 정보를 이용하여 단백질 이름을 붙이고 그걸 계속 따라가는 경우라고 생각함. 가령 Y2H 로 무슨무슨 단백질과 인터렉션하는걸로 찾아진 단백질을 무슨무슨 interaction protein 뭐뭐…라고 불러왔는데 실제 세포내에서 그 단백질과 그 ‘interaction partner’는 같은위치, 같은 시기에 발현되지도 않드라, 뭐 원래 그런 기능인줄 알았는데 사실은 그게 아니고 이런 기능을 하더라…등등으로 인해 후세사람들에게 혼란을 야기한다는 것임.

특히 유전자/단백질 몇개를 가지고 일하는 사람이 아니고, high throughput 연구를 하는 경우에는 그렇게 초창기의 정보를 가지고 어설프게 명명된 이름때문에 간과하고 넘어가는 경우가 얼마나 많을지를 생각하면 눙물이…;;;

5번의 경우에도 가령 박테리아 유래의 효소라든지 명백하게 한가지 일 하는게 확실히 알려진 넘이 아닌 진핵생물의 멀티도메인 단백질이라면 그닥 좋은 방법이 아니라고 생각함. 가령 전체 단백질의 열개 남짓한 도메인 중에서 단백질이 발견될때 알려진 흔한 도메인 하나와의 상동성에 근거하여 ‘뭐뭐뭐 like protein’ 으로 명명된 후 그 흔해빠진 이름때문에 무시되는 경우가 얼마나 많을지. 게다가 remote homolog 인 경우에도 그냥 원래의 어노테이션을 따라서 명명되서 무시되다가 나중에 뒤벼보니 그게 아니어써 하는 경우 참으로 많다.

어쨌든 하고 싶은 이야기 1줄 요약은 : 모르는 단백질이 나오면 이름에 현혹되지 말고 그 내용물을 봅시다.