- 66.50 KB
- 30页
- 1、本文档共5页,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 文档侵权举报电话:19940600175。
一、预测蛋白质相互作用的生物信息学方法%3b二、在预测转录单位基础上的原核生物启动子预测上海交通大学硕士学位论文一、预测蛋白质相互作用的生物信息学方法;二、在预测转录单位基础上的原核生物启动子预测姓名:林建成申请学位级别:硕士专业:生物化学与分子生物学指导教师:徐晋麟2003.1.1第一部分预测蛋白质相互作用的生物信息学方法摘要继多种生物基因组大规模测序完以后蛋白质组又成为我们面临的另一个挑战识别蛋白质相互作用既是蛋白质组的一个重要部分也是现代生物学的一个重要目标但识别的效率及准确性一直不理想本文主要基于相互作用的保守性即相互作用直系同源Interologs的假设以及蛋白质结构域的一些特点发展了一套以已知的相互作用推出未知相互作用并整合网上资源的预测蛋白质相互作用方法该方法不仅以序列为基础而且更注重结构的相似性结果表明该方法是有效并具较高的准确率关键词蛋白质相互作用预测数据库
2第一部分预测蛋白质相互作用的生物信息学方法摘要继多种生物基因组大规模测序完以后蛋白质组又成为我们面临的另一个挑战识别蛋白质相互作用既是蛋白质组的一个重要部分也是现代生物学的一个重要目标但识别的效率及准确性一直不理想本文主要基于相互作用的保守性即相互作用直系同源Interologs的假设以及蛋白质结构域的一些特点发展了一套以已知的相互作用推出未知相互作用并整合网上资源的预测蛋白质相互作用方法该方法不仅以序列为基础而且更注重结构的相似性结果表明该方法是有效并具较高的准确率关键词蛋白质相互作用预测数据库2ABIOINFOMATICMETHODONPREDICTIONOFPROTIEN-PROTEININTERACTIONSAbstractTheidentificationofproteininteractionsisalong-standinggoalofmodernbiology,duetoitsimportancebutrelativelylackofefficiencyandaccuracy.Hereinourwork,wepresentaknowledge-basedmethodbyintegratingwebresourcestopredictproteininteractionsbothinthesameorganismandindifferentorganisms.Wepaymoreattentiononstructureratherthanonsequencesimilarity.Andourassumptionisthatconservationacrossspeciescanextendsfromsingleproteinstotheir
molecularenvironment.Assessmentprovesthatourmethodisefficientandaccurate.Keywords:Protein-proteinInteraction,Prediction,Database3蛋白质相互作用及其鉴别方法的研究进展蛋白相互作用一直以来都是分子生物学研究的热点及难点特别是现在继基因组学以后蛋白质组学的出现并逐渐成为分子生物学研究的重点更多的人把眼光投向蛋白质这个与人类疾病最直接相关的基因产物正是它行使了生物体最基本的功能新技术的产生为蛋白质的研究提供了强有力的手段继电泳层析等技术以后一些新的技术如X光衍射质谱核磁共振等在蛋白研究中的重要作用日益显现接着为了在更短的时间里鉴定出更多的蛋白质及其相互作用关系一些高通量的技术也相继出现如双杂交系统Two-hybridsystem蛋白芯片Proteinchip以质谱为基础的蛋白质复合物纯化技术相关mRNA表达谱等等技术另外作为信息时代的现在蛋白质研究甚至包括整个生命科学的研究都由于计算机技术的引进而正经历着一场前所未有的变革利用电脑处理数据的强大功能生物学家们可以把实验数据与一些理论结合起来去探索一些实验及人的分析能力所不能解决的问题同时电脑分析后产生的一些新理论或新的模型又可以通过实验得以验证而且当基因组学发展成为蛋白质组学而蛋白质组学进一步发展到更复杂的生物系统时真实的体外实验有时
变得不切合实际这时要取得新进展就只有靠计算机模型来进行了这就是为什么一门新兴的学科生物信息学越来越受重视的缘故本文将首先对蛋白质相互作用的一些基本原理及相关理论作简要的介绍接着将介绍现有的研究蛋白质相互作用的一些实验技术进而重点介绍现有的研究蛋白质相互作用的一些计算机方法最后总结并展望未来该领域可能出现的一些趋势一蛋白质相互作用及其研究的意义蛋白与蛋白相互作用是生物体中许多生命活动过程的重要组成部分是生物体生化反应的基础它们在生物体中几乎无所不在从DNA转录到DNA复制,从病毒的感染到机体对病毒的防护从能量的产生到能量的消耗无[1]不存在着蛋白质的相互作用理解一个蛋白如何与另一些蛋白相互作用及它们如何一起行使功能是理解生命运动的基础在现代的药物筛选中通过研究蛋白之间的相互作用而进行有效的药物筛选已经成为现实而且也必将发挥越来越重要的作用仅在十几年前人们还一直以为那些在信号传导中起调节作用的酶只是一些可溶蛋白而且也是独立发生作用的直到最近人们才清楚地认识到事实并非如此实际上那些蛋白是以整个大分子复合物出现的这个大分子里面包含有许多物理上相
互作用的小亚单位而且这些相互作用也在一系列的其它生物过程中发挥着至关重要的作用与这些发现相符人们发现许多人类的疾病包括癌症都是由于一些特殊的蛋白相互作用脱节而引起的这里有一个很好的例子pRB[2]途径调节细胞进入S期且任何人类的癌症几乎都会对它产生影响在pRB里面的蛋白以及转录因子E2F/DP被认为是抑制了那些从G1到S期转移必需的基因的表达而且现在也已发现大多数目前已知的由该途径引发的一些肿瘤都与该Pathway蛋白与蛋白相互作用的阻断有关这个例子说明,研究4蛋白与蛋白相互作用可以被用来进行药物靶点的选择因为只要知道某个途径中起关键作用的蛋白与蛋白相互作用便可设计药物去阻断或防止阻断蛋白与蛋白相互作用关于该途径的一个图如下所示图1-1pRB途径在pRB途径里每个功能步骤都由一个蛋白与蛋白相互作用所介导那些阴影部分的蛋白相互作用在酵母双杂交系统中可以鉴定出来这里面每一对[3]蛋白的相互作用如果被阻断那么可能就会导致严重的疾病现在越来越多的基因组测序被完成后药物筛选原来局限于用分子生物学方法鉴别出来的有限的几个药物作用靶点
现也逐渐发展成为基因组学及蛋白质组学结合的系统方法该方法被Vidal称为化学基因组学方法这种方法的发展历程如图1-2所示图1-2化学基因组学三个椭圆形代表药物筛选的三个发展历程每个历程前面的曲线代表由新的技术所促成的进展在分子生物学阶段蛋白靶点很少被明确定义那时的检验系统通常只是按照一些表观的现象来筛选因而筛选潜在药物的化合物数量很少进入分子生物学时期一些基因及蛋白质的操作技术使得在对大量的化合物进行筛选前能够先确定少数几个药的靶点而近来出现的的化学基因组学方法使我们能够一下子确定大量的靶点并用高能量的药物筛选方法去选择化合物同时这5些筛选出来为潜在药物的化合物又可以用生物检验方法放到相应的靶点中进行验证用反向杂交方法二蛋白相互作用的原理蛋白质相互作用从相互作用双方组成上可分为以下四类蛋白质与蛋白质相互作用蛋白质-DNA相互作用受体与配体相互作用以及大的蛋白复合物之间的相互作用但如果作用双方都是蛋白质的话又可以分成以下四种同聚体蛋白异聚体蛋白酶与阻遏物复合物以及抗体与蛋白复合物Jones等人曾以上述后四种蛋白相互作用出发对蛋白相互作用的原理作
了较为深入的研究在此之前也有很多人已经对蛋白对接docking,蛋白相互作用的结构属性如疏水性可及的作用表面面积形状及残基的偏向性作了研究结合他们的工作我们把蛋白质相互作用的一些属性特征分成以下[4]几个方面1.作用层面Interfaces的大小及形状蛋白作用层面的尺寸及形状可由绝对尺寸简单地衡量或者更精确一点由聚合成复合物时的?ASAAccessibleSurfaceArea来表示这里用计算?ASA来衡量的原因是蛋白质在从极性到疏水环境的转变过程中其疏水自由能与溶剂可及的ASA之间存在着一定的相关性这样?ASA的计算便能作为结合能的一个参数2.作用表面的互补性已经有很多人观察到在互相结合的分子之间的静电及形状的互补性作用表面的互补性已被用在蛋白对接docking方法中作为筛选的一个附加条件而且也有很多新的方法来估测形状的互补性经过对比现在通常认为抗体与抗原复合物的互补性最差而另三种则相对较好3.复合物结合的作用层面残基的倾向性在复合物亚单位的作用位点上也即作用层面上的氨基酸残基相对于其它地方的残基要重要这一点使我们很容易想到作用层面上的残基可能较为保守而且可能存在着疏水性事实确实如此通过作用层面及整个复合物其它残基的统计对比还可以发现除了甲硫氨酸以外这些疏水残基更偏向于在同聚体作用层面而非异聚体
4.疏水性及氢键以前人们认为蛋白是通过表面的疏水互补而结合起来的然而在亚基间的极性相互作用也是很普遍的而且在驱动它们形成复合物过程中这些作用有其相应的贡献同时大的复合物中亚基间很多相互作用也可能形成氢键对每个复合物相互作用层面的所有残基计算了标准疏水值meanhydrophobicityvalue后发现在各种复合物中相互作用层面的标准疏水值介于复合物内部及表面亲水之间而且同聚体比异聚体的疏水性更强5.区段及二级结构参与作用层面的多肽链的不连续片段数量是很重要的因为用多肽及小分子来部分模拟相互作用关系就是以此为依据的通常认为不同片段的区分标准是作用层面的残基如果被5个以上的残基分开就可独立成为一个区段不同的蛋白复合物可以分成不同的独立片段在Jones分析的59个复合物中片段数从1到11不等大部分的相互作用层面都是几种二级结构的混合体而且几种二级结构的6残基数量差不多如螺旋折叠及卷曲的数量差不多6.复合物在形成时的构象变化现在还不清楚是什么使复合物形成时产生构象变化的而且现在还很少有蛋白在形成复合物前后其结构都被鉴定了如通过结晶的X-衍射或核磁共
振但是要分辨不同水平的构象变化却是完全可行的即把它们分成没有变化仅有边链的运动主链区段的运动或者功能域的运动功能域运动的机制与酶复合物特异相关因为这些复合物在与底物结合时常有功能域的移位对于抗体蛋白的识别在结合过程中有很多的变化总之在不同环境下我们都能发现一些严紧及松弛的对接过程但灵活性的减少却总是以能量为代价的上述几点是蛋白质在相互作用过程中的几点功能属性及其变化的特征同时研究蛋白质相互作用还可以对它进行Patch分析每个Patch残基又可对它的六个参数进行分析溶解能Solvationpotential,表面残基的倾向性Residueinterfacepropensity,疏水性Hydrophobicity极性Planarity突出性及可及的表面面积Protrusionandaccessiblesurfacearea由于Patch的这些特性在蛋白相互作用位点有些特异的变化可以据此来预测蛋白相互作用[5][6]位点二鉴别蛋白质相互作用的实验方法系统分析蛋白相互作用的实验方法现有的主要有以下几种它们有个共同的特点就是投资大周期长1.以酵母双杂交为基础的方法
图1-3.酵母双杂交系统右边灰色的及白色的椭圆块分别代表生长及不生长的酵母细胞在正常生长为对照control的条件下酵母细胞不管双杂交有没有发生都会生长在正向双杂交筛选中可能的相互作用是由转录激活生长必须的一个报告基因而鉴定出来的这个基因的表达便提供了选择的标记a而在反向的双杂交的筛选过程中相互作用会激活毒性基因的表达这样阻断一个相互作用便会提供一个选择的标记[8]该方法已被广泛地应用到系统地鉴别蛋白与蛋白相互作用上2.通过质谱分析来分离鉴定蛋白复合物该方法第一个用高通量实验方法来鉴定多蛋白复合物上述的酵母双杂交系统方法主要是鉴别两两蛋白之间的相互作用现在这种方法则可以鉴别多[9]蛋白复合物该方法先用串联吸附的方法紧接着用质谱分析TAP/MS7图1-4.该方法的整个过程的简图.a.是基因打靶的图示TAP盒被插入一个给定的酵母ORF的C端并通过同源重组而整合到该基因中产生了TAP标记的融合蛋白b.从不同的亚细胞中纯化的TAP复合物的样品这些样品用变性蛋白胶分离并用考马丝亮蓝进行染色
标记的蛋白标于下方ER为内质网c.左边是纯化及鉴定TAP复合物的各个步骤示意图右边是这些步骤成功的实验数及成功的比率3.蛋白质芯片方法蛋白质组芯片方法是第一个应用于真核生物的完整蛋白质组的芯片方[10]法它可用来搜索蛋白与蛋白及蛋白与效应物的相互作用4.实验与预测相结合的方法该方法流程如下1用噬菌体展示实验来筛选与多肽识别模体连接的最佳配体的一致性序列2通过得出的一致性序列用计算机方法推测出一些带有一致性序列的蛋白它们与这些识别模体连接形成不同的蛋白质相互作用最终并形成网络3通过酵母双杂交实验来验证上述的推断并依此推断蛋白质作用及网络4由以上两步的结果看实验得出及预测的网络有哪些地方是交叉相同的并通过体内实验来揭示一些主要的相互作用这样他们也得出了一些不错的结果特别是对SH3功能域的分析得[11]出了一些很有意义的结果
上面简单地介绍了鉴定蛋白与蛋白相互作用的一些简单的实验方法这些方法有它们的优点比如说有较大的可靠性处理的量也不少但实验方法总是有投资大周期长的缺点这些方法总要被计算机方法所辅助甚至取代三鉴别蛋白质相互作用的计算机方法8随着基因组的产生大量的数据不仅给我们提供了很多很有价值的素材也给我们的实验带来很大的挑战事实上计算机的出现不仅仅给我们的生活带来了极大方便也使生物学经历着一场前所未有的革命上述的实验方法虽然已经能够解决一些问题但是面临着基因组及随之而来的蛋白质组大量的数据使得这些实验方法变得如此的有限因此一些计算机方法便出现了这些方法从由基因组信息中直接去推测蛋白质相互作用的方法发展为精细地预测参与相互作用的残基方法以下对各种方法进行进一步的介绍1.依据基因在不同的相关物种中的出现及缺失来推断相互作用蛋白质一个基因在一个物种中可能存在在另一个物种中可能不存在但它在一系列物种中存在与否的情况可能与另一个基因相同或相似依此该方法假设这两个基因的这种相同或相似性意味着它们在功能上可能需要同时出现以协[12][13]同执行某特定的功能进而推测它们可能存在相互作用实际上它是依基因的系统发生图谱Phylogeneticprofiles来预测的如下图所示Phylogeneticprofiles图1-5系统发生图谱对每个蛋白Prota-Protd都记录了它在几个不同的物种Org1-Org4中
出现或缺失的情况如果两个蛋白有相同的种系发生图那么它就可以被预测为是相互作用的如图中的Prota与Protc2.利用基因相邻关系的保守性来判断在原核生物中那些编码功能上相关的蛋白的基因往往簇集在一起比如操纵子便是一例而这种簇集相邻性如果在几种不同生物中都保守的话那么功能相关性就更加可信了这样以基因在不同的生物基因组中的相邻[14][15]的保守性便可以预测蛋白的相互作用在真核生物中虽然没有操纵子的结构但在同源异形基因家族中也存在这种基因相邻关系Conservationofgeneneighorhood图1-6.基因相邻关系的保守性Prota,Protb三个蛋白的基因在几种不同的生物体中都是相邻的这种保守性可以使我们预测Prota,Protb是相互作用的93.利用基因融合事件该方法认为如果在某个生物体中的某两个独立的基因它们在另一个生物体中融合成一个蛋白的基因的不同功能域那么可以预测这两个独立的基因在原来的生物体中是有相互作用的这样通过序列搜索及多序列[16][17]比对便可以预测一些蛋白相互作用而且人们发现在代谢途径中的蛋白基因融合事件特别的普遍这种现象如下图1-7所示GeneFusion
图1-7基因融合方法如上图在Org1中,Prota及Protb如果在Org2中融合成一个基因Protab,那么可以预测在Org1中Prota及Protb是相互作用的3.系统发育树的相似性来预测镜像树经过认真的研究发现一些相互作用的一对蛋白可能是同步进化的比如胰岛素及其受体,dockerins及cohexins在这些例子中这些相互作用的蛋白比那些没相互作用的蛋白表现出更加高的系统发育树的相似性对磷酸甘油酸盐激酶phosphoglyceratekinase的两个功能域Goth等人用构建这些树的距离矩阵通过矩阵之间的直线相关性量化了这些系统发育树的相似性这种方法被扩展到大量的相互作用的蛋白及蛋白功能域对于它们来说一对蛋白距离矩阵之间的相关值是它们相互作用可能性的一个重要衡量标准[18]这种方法的主要局限性在于它必须获得两蛋白高质量完全的MSAs多序列比对,multiplesequencealignment而且这两个蛋白的这些比对必须在一系列基因组中同时都进行该方法如下图1-8所示Similarityofphylogenetictrees10图1-8.系统发育树的相似性为了得到两蛋白之间相互作用的一个量化表征这两个蛋白的MSAs
被缩小到共有这两个蛋白的生物体中并以此来构建相关的距离矩阵进而构建系统发育树最后计算这些矩阵之间的直线相关性如果相关性很高那么这可以预测为是有相互作用的4.利用相关突变方法对一些特定的蛋白来说相关的突变可使它们相互作用表面附近的结构信号不断的积累并最终选择出最适的匹配结构这样一对相互作用蛋白中一个蛋白的某一个突变可能会促使另一个蛋白也产生相关的互补突变该方法[19]的具体过程如下图1-9所示Correlatedmutations11图1-9.相关突变方法第一步与前面的镜像树方法相同然后对每一对的残基再对它进行相关系数的计算这些残基对分为三组两对是蛋白质内的Caa及Cbb;分别在Prota及Protb中一对是在两相互作用蛋白之内的Cab;一个从Prota中来另一个从Protb中来依次记录下这三组的相关值分布而这里的相互作用指数是通过比较后一对Cab与前两对Caa,Cab的相关值得出的这种方法同样有前面关于系统发育树的相似性方法的缺点但由于这种方法直接依据相互作用位点残基的互补突变来预测物理上相互作用的蛋白
它在预测物理上相互作用蛋白上应该比以上四种更有效因为以上四种似乎把直接的物理相互作用与间接的功能相关性混为一谈功能相关性不一定代表着物理上一定有相互作用要充分地评价这些方法的准确性及应用范围目前还是很有困难的因为已知的相互作用蛋白本身就很有限而且现有的搜集蛋白相互作用的数据库也很有限[20]Huguen等人比较了1-3种基于基因组信息的三种方法利用基因相邻关系的保守性来判断的方法方法2可用于37的Mycoplasmagenitalium的基因而依基因的系统发生图谱的第一种方法方法1及第三种利用基因融合的方法则分别可用于11及6的Mycoplasmagenitalium基因它们之间预测的重叠比率很低三种方法结合起来可用于50的Mycoplasmagenitalium的基因另外对于这三种方法的准确率如果它们预测的基因对中只要满足下列条件的一个第一物理上有相互作用且同属于一个大分子复合物的第二它们的途径pathway相同或在同一个功能进程中那么依基因的系统发生图谱方法方法1利用基因相邻关系的保守性来判断的方法方法2基因融合方法方法3分别有6380及78的准确率但如果只有物
理相互作用则预测的准确率为2330及5612四蛋白质相互作用位点的计算机预测方法的简要介绍对于三维结构已知的蛋白来说用计算机方法来预测其相互作用位点现在已经比较成熟了而且现在也有些现成的程序可用来预测蛋白相互作用位点各个程序的名称及网址已由Smith等人提供而具体的预测步骤如下图1-10所[21]示图1-10Docking方法的预测步骤同时在没有结构基础上现在也发展了很多种计算机方法以对相互作用位点进行预测一种是通过统计作用表面的残基属性来进行的准确率现在也[22]比较高有70左右另一种是通过计算相关突变的方法来实现的这与前面提到的预测蛋白相互作用的方法5相似还有许多别的方法这些方法较多在这里不一一说明五计算机预测蛋白质相互作用方法的最新进展及前景展望最近由于一些新的数学理论的不断引进蛋白质相互作用的预测也取得了不少的成就而且由于大量高通量技术的出现蛋白质相互作用的预测也由原来的一对一的预测发展为现在的整个作用网络的预测整个细胞甚至整个生物体的蛋白质作用网络关系是现在生物学研究的难点与热点计算机将在这一领域发挥出越来越重要的作用
现在在蛋白作用网络方面已经有了很好的开始首先是用实验方法[23]特别是酵母双杂交系统构建出的一幅酵母蛋白相互作用网络随后幽门[24]杆菌的作用网络也被初步勾勒出来了幽门杆菌的这个作用网络被WojcikJ用于作为推测大肠杆菌作用网络的基础它们推测的依据主要还是以功能为基础的另外就象直系同源基因Ortholog有些基因的序列在不同的物种中是保守的它们在不同的物种中执行相同或相似的功能一样有人假设参与相互作用的两个基因也像直系同源基因一样协同进化这样这两个相互作用的13基因在另一个基因组中的直系同源基因也同样相互作用依此他们认为蛋白质相互作用也存在保守性并称这种不同基因组中相同或相似的相互作用为直系相互作用同源Interolog这样他们便可根据某一物种的相互作用去推[25]测另一物种的相互作用当然还有人直接用蛋白质的一级结构去推测蛋白的相互作用关系该方[26]法主要是用SupportVectorMachineLearning实现的DengM等人则先从蛋白与蛋白相互作用关系去推出一些功能域与功能域之间的相互作用关系
然后从这些功能域与功能域相互作用再去预测一些蛋白与蛋白的相互作用关系这是一个很好的作法因为真正相互作用的可能不是整个蛋白而只是蛋白中的某一个或几个功能域在起作用而这些功能域的作用可能是保守的它们在[27]不同的蛋白中执行相同的功能前面列举了很多计算机鉴别蛋白质相互作用的方法它们各有其优点及缺点从中我们可以看出以后的计算机方法可能将会越来越注重直接的物理相互作用预测而不是从功能相关或者进化上间接地预测而直接预测蛋白相互作用首要的是要知道它的结构而构成结构的单位是一个一个的功能域因此在以后的蛋白相互作用预测中结构预测及功能域的预测与区分也越来越重要14参考文献1.DysonN.TheregulationofE2FbypRB-familyproteins.GenesDev.199812:2245-2262.2.ElcockAH,SeptD,McCammonJA.Computersimulationofprotein-proteininteractions.J.Phys.Chem.2001,105:1504-15183.Sardet,C.,LeCam,L.,Fabbrizio,E.andVidal,M.1997InOncogenesas
TranscriptionalRegulatorsVol.2Ghysdael,J.andYaniv,M.,eds,pp.1?63,BirkhauserVerlag4.VidalM,EndohH.Prospectsfordrugscreeningusingthereversetwo-hybridsystem.TrendsBiotechnol.1999Sep;179:374-81.5.JonesS,ThorntonJM.Principlesofprotein-proteininteractions.ProcNatlAcadSciUSA.1996Jan9;931:13-20.6.JonesS,ThorntonJM.Analysisofprotein-proteininteractionsitesusingsurfacepatches.JMolBiol.1997Sep12;2721:121-32.7.JonesS,ThorntonJM.Predictionofprotein-proteininteractionsitesusingpatchanalysis.JMolBiol.1997Sep12;2721:133-43.8.FieldsS,SongO:Anovelgeneticsystemtodetectprotein-proteininteractions.Nature1989,340:245-246.9.GavinAC,BoscheM,KrauseR,GrandiP,etal.:Functionalorganizationoftheyeastproteomebysystematicanalysisofproteincomplexes.Nature2002,415:141-147.
10.ZhuH,BanghamR,HallD,CasamayorA,BertoneP,LanN,JansenR,BidingmaierS,HoutillierKetal.:Globalanalysisofproteinactivitiesusingproteomechips.Science,2001,293:2101-2105.11.TongAH,DreesB,NardelliG,BaderGD,BrannettiB,CastagnoliZL,etal:Acombinedexperimentalandcomputationalstrategytodefineproteininteractionnetworksforpeptiderecognitionmodules.Science,2002,295:321-324.12.PellegriniM,MarcotteEM,ThompsonMJ,EisenbergD,YeatesTO:Assigningproteinfunctionsbycomparativegenomeanalysis:proteinphylogeneticprofiles.ProcNatlAcadSciUSA,1999,96:4285-4288.13.GaasterlandT,RaganMA:Microbialgenescapes:phyleticandfunctionalpatternsofORFdistributionamongprokaryotes.MicrobCompGenomics1998,3:199-217.14.DandekarT,SnelB,HuynenM,BorkP:Conservationofgeneorder:afingerprintofproteinsthatphysicallyinteract.TrendsBiochem.Sci1998,23:324-328.
15.OverbeekR,FonsteinM,D’SouzaM,PuschGD,MaltsevN:Useofcontiguityonthechromosometopredictfunctionalcoupling.InSilicoBiol1999,1:93-108.16.MarcotteEM,PellegriniM,Ho-LeungN,RiceDW,YeatesTO,EisenbergD:Detectingproteinfunctionandprotein-proteininteractionsfromgenome15sequences.Science,1999,285:751-753.17.EnrightAJ,IliopoulosI,KyrpidesNC,OuzounisCA:Proteininteractionmapsforcompletegenomesbasedongenefusionevents.Nature1999,402:86-90.18.PazosF,ValenciaA:Similarityofphylogenetictreesasindicatorofprotein-proteininteraction.ProteinEng,2001,14:609-614.19.PazosF,ValenciaA:Insilicotwo-hybridsystemfortheselectionofphysicallyinteractingproteinpairs.Proteins,2002,47:219-227.20.HuynenM,SnelB,LatheW,BorkP:Predictingproteinfunctionbygenomiccontext:quantitativeevaluationandqualitativeinferences.Genome
Res2000,10:1204-1210.21.SmithGR,SternbergMJE:Predictionofprotein-proteininteractionsbydockingmethods.CurrOpinStructBiol,2002,12:28-35.22.PazosF,Helmer-CitterichM,AusielloG,ValenciaA:Correlatedmutationscontaininformationaboutprotein-proteininteraction.JMolBiol,1997,271:511-523.23.UetzP,GiotL,CagneyG,MansfieldTA,JudsonRS,KnightJR,LockshonD,NarayanV,SrinivasanM,PochartP,Qureshi-EmiliA,LiY,GodwinB,ConoverD,KalbfleischT,VijayadamodarG,YangM,JohnstonM,FieldsS,RothbergJM.Acomprehensiveanalysisofprotein-proteininteractionsinSaccharomycescerevisiae.Nature.2000Feb10;4036770:623-7.24.RainJC,SeligL,DeReuseH,BattagliaV,ReverdyC,SimonS,LenzenG,PetelF,WojcikJ,SchachterV,ChemamaY,LabigneA,LegrainP.Theprotein-proteininteractionmapofHelicobacterpylori.Nature.2001
Jan11;4096817:211-5.25.MatthewsLR,VaglioP,ReboulJ,GeH,DavisBP,GarrelsJ,VincentS,VidalM.Identificationofpotentialinteractionnetworksusingsequence-basedsearchesforconservedprotein-proteininteractionsor"interologs".GenomeRes.2001Dec;1112:2120-6.26.BockJR,GoughDA.Predictingprotein--proteininteractionsfromprimarystructure.Bioinformatics,2001,175:455-60.27.DengM,MehtaS,SunF,ChenT.Inferringdomain-domaininteractionsfromprotein-proteininteractions.GenomeRes,2002,1210:1540-8.16蛋白相互作用的预测前言我们对于一个蛋白的功能感兴趣的话除了要知道它的序列功能域结构家族以外还想要了解它与哪些蛋白相互作用这些蛋白可能是与它在同一个生物体内或是在不同的生物体里如果能够事先知道这些那么就有可能对下一步的实验有很好的指导作用甚至通过预测而知道它参与的可能机制在现代的药物筛选中通过研究蛋白之间的相互作用而进行有效的药物筛选已
经成为现实而且也必将发挥越来越重要的作用从另一方面计讲细胞几乎所有的功能都是由这些蛋白实现的而细胞在任何时刻的所有蛋白集合组成[1]了相应的蛋白质组,在这样一个蛋白质组里所有的蛋白形成一个大[2,3]的相互作用网络彼此互相作用互相调节互相维持为了构建出这样的一个网络我们应首先知道这里面一对对的蛋白与蛋白相互作用鉴于蛋白质相互作用研究的重要意义很多科学家都致力于这方面的研究相应的许多鉴别蛋白与蛋白相互作用的高通量实验技术也相继出现使该领域的研究在近期内取得了飞速的发展这些方法包括以酵母双杂交为基础[4][5,6][7]的方法利用质谱的蛋白复合物纯化技术蛋白质芯片技术相关信[8,9]使RNA表达谱技术这些技术把我们带入了一个被称为功能基因组学[10]的时期比起基因组学它通常认为更有用更有挑战也更激动人心然而这些实验技术方法远远不能鉴定大量蛋白质及其相互作用的需要同时它[11]们还有一些很大的缺点如低的精确率周期长投资大等等与此相平行的是一些计算机预测蛋白相互作用的方法这些方法有的依据基因组信息有的依据蛋白残基有的依据现有的结构信息等等基因融合
的方法也称为Rossettastone方法从有些基因在某个生物体中分散存在而在另一个生物体中融合成一个基因的这种现象推测这些融合成一个基因的许[12,13]多基因是相互作用的进而可以据此预测其基因产物的相互作用其它的方法包括基因的系统发生图谱的方法利用基因相邻关系的保守性来判断的方法利用系统发育树的相似性来预测镜像树的方法利用相关突变方法等等这些方法的应用范围都很有限利用基因的相邻关系保守性的只能用于原核生物其它几种的应用范围也都很有限一般只能用于6-37的蛋白质而[14]且即使这样它们的准确率也还很低一般只能50%左右另外这些方法只能鉴别同一种生物体中的蛋白质相互作用其实这可能只是蛋白质相互作用的一半另一半是不同生物体中蛋白质的相互作用这主要是一些病原菌在寄主中并与寄主细胞蛋白的相互作用在我们的方法中不仅可以预测同种生物体中的蛋白与蛋白相互作用而且可以预测不同生物体中蛋白质的相互作用预测的范围也大大扩大采用我们的方法几乎对所有的蛋白都可以进行预测准确率也有相应的提高因为以上几种方法似乎都把直接的物理相互作用与间接的功能相关性混为一谈
功能相关性不一定代表着物理上一定有相互作用我们的方法主要以结构为基础它是蛋白质真正相互作用的17基础从功能水平上来说蛋白质可以把它看成是由一些功能域保守的模体组成[15]的因此在这里我们假设一对相互作用的蛋白不管它们在物理上有没有真正的相互作用每个蛋白都是由一些功能域组成的而蛋白之间的这些相互作用是这些功能域作用的集合而且我们假设如果一对功能域Domains之间的相互作用被证明是有效的那么这对相互作用的功能域将是保守的即它不仅在这个生物体中可能再次出现而且在别的生物体中也一样能相互作用这与直系蛋白相互作用同源Interologs的意思是一样[16]的这样给出一个未知其相互作用的蛋白---咨询蛋白queryprotein我们首先分析它的功能域及功能域的结构组成并把与这个蛋白具有一样功能域及功能域构造的蛋白叫做替代蛋白然后我们从现有的数据库中搜索与这个蛋白或者替代蛋白相互作用的蛋白最后找与这些替代蛋白相互作用的蛋白相似的蛋白从中筛选合适的作为预测结果最后结果发现我们的预测是比较有效的得到了比较好的结果18材料与方法一材料
1.1.蛋白相互作用数据库DIP数据库Databaseofinteractingproteins,蛋白质相互作用数据库////0>.记录并分类了由实验鉴定出来的蛋白质之间的相互作用它全面地采集并分类整理了现有的蛋白质相互作用数据这些数据有[17]的是由一些专业人员人工筛选的有的是由计算机自动进行分类的我们用的另外一个数据库是BINDThebiomolecularinteractionnetworkdatabase,////.生物分子相互作用网络数据库它里面存贮一些关[18]于相互作用的描述一些分子复合物及一些代谢途径Pathways1.2用来分析蛋白质的功能域模体及它的构造关系的的数据库SMART分子构造的简单搜索工具http////..uk是一个网上的资源它用来注释蛋白的功能域分析功能域的构造重点是放在真核的一些功能域上它也可对功能域家族进行进一步注释包括蛋白功能亚细胞定位种[19]族分类及四级结构由于它的功能与我们的要求相符我们对功能域的分析主要依靠的就是它当然SMART以及其它一些数据库比如Pfam及TIGRFAMs,都用了HMMs作为鉴定蛋白家族功能域及一些重复片段的手段,与此不同的是PRINTS////.它用的是指纹的方法它并非仅仅集中在一些小的保守区域而是把所有[20]
的保守区域都考虑在内它除了可以得到一些好的比对结果之外它还容忍一定的错配使得我们在SMART无法很好鉴定的时候可以用它来作进一步的鉴定我们用的其它数据库包括InterPro,SCOP,PfamProsite,ProDom及COG等等另外也用了一些基础数据库比如SWISSPROT,PDB,PIR,GENEBANK等等二方法对于一个query蛋白假设它属于A生物体我们要预测它与哪些蛋白相互作用情况有两种在第一种情况下要预测的与query蛋白相互作用的蛋白与query蛋白同在一个生物体A中我们称之为AA预测如果不同假设要预测的是它在B生物体中与哪些蛋白可以相互作用就是第二种情况我们称之为AB预测而C生物体则是不同于A和B但与A和B都有相似之处的生物体且它的蛋白相互作用关系已被研究得较为清楚能够作为A与B之间的桥梁的如酵母2.1该方法的总体思路2.1.1AA预测191.Lookforstand-inproteinsinAorganismQueryproteinAnalyzeitsinAorganismdomainsandarchitecture2.Lookforstand-inproteinsinCorganism
Lookforinter-stand-inproteinsinAorganismLookforproteinsSelecttheresultsbyfunctionalnetwork,similarto