유전자/단백질 이름 붙이기에 대한 잡설.

유전자 (단백질)의 이름을 붙이는 방법은 여러가지가 있는데 뭐 룰이 있는 것은 아니고 업계에서 흔히 사용되는 방법이라면.

– 해당 유전자가 처음 발견된 Mutant의 이름 따라가는 방법 (예 : Shaker, Spire…)
– 단백질이 처음 발견될 경우 단백질의 size 따라 (예 : p53, p300)
– 지놈 시퀀싱이나 스크리닝에 의해서 발견된 경우 그냥 순서별로 (cdc42, vpa1370…)
– 해당하는 유전자,단백질의 기능에 대한 약자.
– 기존에 알려진 단백질/유전자와의 상동성에 다른 구분.

개인적으로 제일 나쁜 방법은 4번째, 즉 유전자/단백질이 처음 발견되었을때의 단편적인 기능에 대한 정보를 이용하여 단백질 이름을 붙이고 그걸 계속 따라가는 경우라고 생각함. 가령 Y2H 로 무슨무슨 단백질과 인터렉션하는걸로 찾아진 단백질을 무슨무슨 interaction protein 뭐뭐…라고 불러왔는데 실제 세포내에서 그 단백질과 그 ‘interaction partner’는 같은위치, 같은 시기에 발현되지도 않드라, 뭐 원래 그런 기능인줄 알았는데 사실은 그게 아니고 이런 기능을 하더라…등등으로 인해 후세사람들에게 혼란을 야기한다는 것임.

특히 유전자/단백질 몇개를 가지고 일하는 사람이 아니고, high throughput 연구를 하는 경우에는 그렇게 초창기의 정보를 가지고 어설프게 명명된 이름때문에 간과하고 넘어가는 경우가 얼마나 많을지를 생각하면 눙물이…;;;

5번의 경우에도 가령 박테리아 유래의 효소라든지 명백하게 한가지 일 하는게 확실히 알려진 넘이 아닌 진핵생물의 멀티도메인 단백질이라면 그닥 좋은 방법이 아니라고 생각함. 가령 전체 단백질의 열개 남짓한 도메인 중에서 단백질이 발견될때 알려진 흔한 도메인 하나와의 상동성에 근거하여 ‘뭐뭐뭐 like protein’ 으로 명명된 후 그 흔해빠진 이름때문에 무시되는 경우가 얼마나 많을지. 게다가 remote homolog 인 경우에도 그냥 원래의 어노테이션을 따라서 명명되서 무시되다가 나중에 뒤벼보니 그게 아니어써 하는 경우 참으로 많다.

어쨌든 하고 싶은 이야기 1줄 요약은 : 모르는 단백질이 나오면 이름에 현혹되지 말고 그 내용물을 봅시다. 

Leave a comment