作者huggie (huggie)
看板BioMedInfo
标题[工具] PseudoPipe - 找寻 Pseudogenes
时间Sun Jun 1 14:47:48 2008
介绍一下找寻 Pseudogene 的软体:PseudoPipe,最近正接触这套软体
,顺便来做个介绍。︿︿
[前言]
PseudoPipe 是 2006 年发表在 Bioinformatics 的软体。它是一个寻
找 pseudogene 的套件。要使用这个套件之前,先得对 pseudogene 有
一个基本的了解,这样对我们使用这个工具来说会比较确切。
[Pseudogene 介绍]
何谓 pseudogene? Pseudogene,中文也许称作伪基因,是在基因体里
面跟其他某些基因序列非常类似,但是却没有基因表现的伪基因。它
们是怎麽出现的呢?它们的由来是由既有的基因所而来的,分三种方式
。
第一种是称作 processed 或称 retrotransposed (反转录的)。一些
mRNA 在的序列透过了 retrotransposon(注1)(反转录跳跃子),被
插入了基因体。因为是反转录得来的序列,插入基因体之後的序列是
processed mRNA 序列,因此缺乏 intron 以及 poly-Atail。另外也没
有 promoter 序列,因这个伪基因从出现的开始就没有功能。在演化过
程中也没有受到 selection 的压力,因此突变可以持续堆积也不会对
生物体造成影响。这些突变就会造成它跟来源基因的差异,年代久远就
序列相似度就可能越低。
第二种是 non-processed 或称 duplicated pseudogenes。在基因中透
过 homologous recombination 所造成的 duplication event 直接将
基因序列「复制」到基因体的另一处。在复制後,新的基因常常保有跟
旧的基因一样的结构,包含 promoter、intron、exon 等,因此它仍然
是有功能的:仍持续有基因表现。但因为生物体内有两套一模一样的基
因,失去一套也不会有什麽影响,因此有突变亦不会致命,因此久而久
之其中一套基因就可能会失去功能。
第三种是由既有基因直接退化而来,而不先经过基因的复制。也许在演
化的历史中,一个基因不重要了,突变亦不会对生物体造成影响,因此
就累积突变。
不论其来源为何,伪基因基本概念很简单,在演化的历史中,某些基因
没有受到 selection pressure,因此基因即便是突变了,生
物体仍然可以存活。因此这些基因,即使结构仍看起来仍很像真的,或
许仍有 promoter,有 splice site 等,但却没有真正的功能。因为无
基因表现,因此就被称作 pseudogene(伪基因)。(Pseudo:假冒的)
[PseudoPipe]
耶鲁大学的 Gerstein 实验室致力於寻找许多基因体里面的伪基因,包
括 2004 年在 Genome Research 所发表的 Ribosomal protein 的伪基
因,以及 2004 年在 Trends in Genetics,发表的老鼠与人类的 pro-
cessed-pseudogene。 整个寻找的流程在 2002 年这篇似乎已初具雏型
(本人未细看 XD),另在 2003 年 Genome Research 中的 Millions
of Years of Evolution Preserved: A Comprehensive Catalog of
the Processed Pseudogenes in the Human Genome 这篇个人初看之下
个人认为最为详细。
PseudoPipe 软体主要是针对这个流程组织化,并剔除需要人工校正的
步骤,经统整後的 Python 程式。基本运作的流程是,拿已经注解好的
的基因的胺基酸序列当作 query ,透过 tblastn 对基因体做序列比对
(注2)。序列比对完之後会得到一堆相似的序列,包含了 query 自己
。 程式会把片片段段的 tblastn 的结果,整理出一个个相似都高的区
域。这相似度高的区域当然可能是 query 自己本身, 因此透过已经注
解的所有基因位置,来剔除已经注解的区域。得到的片段还不能称作是
伪基因的预测,须再滤掉所谓的 false positive 以及可能的有功能基
因区域。最後才得到预测的伪基因结果。
所谓的 false positives 的依据,伪基因序列必须跟来源基因 (最相
似的)相似度高答 40% 以上,E-value须低於 1E-10,涵盖的长度须是
原基因的 70%。如果没有,就是 false positives。
而有功能的基因区域则是如果序列没有明显的 frame-disruption ,例
如 stop codon 或者是 frameshift 等,且与来源基因(query) 共享有
超过 95% 的序列相似度,且 translate 之後至少涵盖与来源蛋白质长
度的 95%,则被归类於可能有功能的真正基因。这些也不包含在最後的
结果里面。
tblastn 所找到的区域如果不是落在以注解区域的基因内,且不是
false positive 或者是可能的具功能基因,就是所谓的伪基因了。
PseudoPipe 会把结果做几项分类,第一种是 retrotransposed 的伪基
因,这些可以透过缺乏 intron 、poly A tail、并且有 small
flanking repeats 得知。第二种是 duplicated 伪基因。第三种是
pseudogene fragments,这些是相似度非常高,但是序列跟来源基因比
较来说太短,可能是其它部份已经突变得太厉害(too decayed), 因
此无法判断是 retro-transposed 或者是 duplicated。
[先天限制]
这个软体有一些先天限制。第一个是,最先前介绍三种伪基因,第三种
就无法用此软体找到。因为这是由於本来的那个基因就直接因为不重要
而突变掉了。因此在这个物种内就没有相似的来源基因可以作为寻找的
依据。第二,如果某些物种的基因注解就没有做得很详细,因为缺少一
些来源基因,那找出一些伪基因就变得更不可能,更何况你无法剔除
tblastn 结果是座落在别的基因内的可能性。第三是,如果你认为某物
种缺乏你有兴趣的基因序列,想透过跨物种的基因预测所得来的基因,
再进行伪基因搜寻。那个人认为这个流程似乎也有问题,因为你所想
query 的基因本身就是一种预测,既然是预测,其结构也可能是有问题
的。除非是第一类伪基因,仍可能由缺乏 intron 所判断,若是第二类
,有可能所谓的 pseudogene 就早已涵盖在你的预测当中,且既然已经
是预测,所谓 frame-shift 跟 premature stop codon 就没有意义。
也许你所预测到的基因就是 premature stop codon 的一个伪基因呢!
因此在做这件事情之前,须考量到你的基因预测是否会把一些可能的伪
基因包含进去。如此,你得到的结果,才是你真正想要得到的结果。
===
(注1):retro- 的 e 请注意发音,包括 retrovirus 等都发 kk 里反
3 的那个符号,跟 IPA 的符号相同:
http://en.wikipedia.org/wiki/Open-mid_front_unrounded_vowel
(注2):PseudoPipe 软体内的解说容易让人误以为是使用 blastx。但
其实需要的是 tblastn。据本人透过 email 与作者联络後,得知他们
下的参数范例为: blastall -p tblastn -m 8 -z 3.1e9 -e .1 -d
../dna/dna_rm.fa -i split/0008.fa -o out/0008.out
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.129.160.62
※ 编辑: huggie 来自: 140.129.160.62 (06/01 15:12)
1F:推 realism:大推这篇 怕很多人搞错这个软体的使用 06/01 15:49
2F:推 afra33:推 版主好用心押 拍拍手 06/01 16:11
3F:推 Bigfatty73:感谢提供 06/01 19:12
4F:→ huggie:howdy big phat ^^ 06/01 19:23
5F:推 hajimels:推! 06/01 21:09
※ 编辑: huggie 来自: 140.129.160.62 (06/02 11:53)