HHblits是一项新的蛋白质研究软体,快如闪电且高度敏感,有望显着提高蛋白质的功能性分析.这项研究发表在2011年12月25日的Nature Methods杂誌上。
基本介绍
- 中文名:同源检测叠代的HMM-HMM的比较
- 英文名:HHblits
- 别称:Homology detection by iterative HMM-HMM comparison
- 定义:一项新的蛋白质研究软体
HHblits:( Homology detection by iterative HMM-HMM comparison) 同源检测叠代的HMM-HMM的比较
该研究由慕尼黑大学基因中心的计算机生物学家Johannes Söding带领,已经开发出一种新的序列搜寻方法来鉴别资料库中相似序列的蛋白,该方法可以更加快速,能够比以前的方法快出两倍发现许多与进化相关的蛋白.来自已鉴定蛋白的功能和结构性能的结论,可以为要分析的蛋白性能做好铺垫.“我们的方法将会扩发序列分析的範围和能力,这将会促进许多蛋白质结构和功能的实验说明”, Söding说.
蛋白质涉及生命的几乎所有生物化学过程.蛋白质执行的功能大部分决定于20种胺基酸的构成组块和三维空间结构.从蛋白序列的相似性,生物信息学的方法可以预测它们的进化关係,意味着相似的结构和功能.因此,要研究的蛋白质受到标準的序列搜寻,它们的序列与公共资料库中上百万个带有注释的结构和功能序列进行比对.蛋白质的性质可以从有类似序列蛋白的性质进行推断,包括它的结构和功能.

公开的资料库储存了已知的蛋白质序列,与它们其他的生物学功能信息一起,为这种对比提供了便利.“这种序列分析是生物信息学领域的一种基本工具,”Söding解释说.
序列搜寻程式评估序列相似性通过计算机双列队:两个胺基酸序列被安排在一个同列成对的最相同或相似的胺基酸之上.“也许比搜寻成对序列相似性更重要的的是所谓多种序列列队的装配;在这种情况下,在许多相关蛋白排列的矩阵中寻找相似序列,每个序列填满一行,相似的胺基酸最终在同一栏”Söding说.
在过去的15年中,PSI-BLAST程式是最流行的蛋白质序列比对工具,它结合了速度和高的敏感性和精度.现在,Söding的小组已经设计好了一个方法——HHblits,在各方面表现明显的超过了PSI-BLAST.这个改进在很大程度上是由于两大因素.一个是研究人员转换兴趣序列和资料库序列在隐藏马尔科夫模型(HMMs)中搜寻.HMMs是包含序列构造决定的突变可能性的统计模型,因此这个步骤增加了随后相似搜寻的敏感性和精确性.此外,研究组开发了一个过滤程式,允许他们减少大量需要被搜寻的数据而丝毫没有降低敏感度.
每一列标记了219个“字母”中一个,这样类似胺基酸组成的序列由相同的字母代表.“通过翻译多重序列成由这219个字母组成的序列,我们可以替代耗时的HMMs比较单一序列的两两比较,”Söding说.这样就减少了2500倍的搜寻时间.Söding强调,“HHblits允许预测蛋白质的功能和结构比先前更加频繁和精确.”
他的团队正在进行进一步的方法改良,例如通过合併蛋白质结构的三维信息.