麻省理工学院CSAIL的AI预测蛋白质的功能来自氨基酸链

2019-06-17 12:40:05

艾未未的被挖掘,以分类 癫痫发作和预测是否乳腺癌可能转移,但其唯一的医疗应用程序的远。在一份计划于5月份在国际学习代表会议上发表的学术论文中,麻省理工学院的CSAIL科学家描述了一种“计算”分解链状氨基酸链段如何决定蛋白质功能的系统。他们相信它可以用来改善蛋白质工程 - 即设计具有某些功能的新酶或蛋白质。

我希望将结构边缘化,”CSAIL计算和生物学研究组的研究生,该论文的共同作者特里斯坦·贝普勒在一份声明中说。“我们想知道蛋白质的作用,知道结构对此非常重要。但是,我们能否预测仅给出其氨基酸序列的蛋白质的功能?动机是远离特异性预测结构,转向[发现]氨基酸序列如何与功能相关。“

正如Bepler及其同事所解释的那样,蛋白质的行为 - 包括上述氨基酸链,每个都通过肽键紧密连接 - 很难用机器学习来预测。(也就是说,谷歌的DeepMind在十二月份使用AlphaFold取得了令人瞩目的成就。)只记录了数以万计的数百万个三维折叠蛋白质形状,并且氨基酸序列通常具有相似的结构,因此很难区分小说并重复结果。

因此,论文的作者采用了不同的方法:将预测的蛋白质结构直接编码为表示。具体而言,他们在开源蛋白质结构分类(SCOP)中培训了大约22,000种标记蛋白质的AI系统)数据库,并为每一对计算得分,表明两者在结构上有多接近。然后,他们提供了模型随机对蛋白质和嵌入(即,数学表示)他们的氨基酸序列,从中学习预测他们的3D结构可能有多相似。最后,他们让模型比较两个相似性得分,以确定哪些成对的嵌入共享蛋白质结构,并构建它以同时预测“内容图”,表明每个氨基酸与蛋白质结构中的其他氨基酸的距离。

所有这些工作的结果?一个端到端的系统,给定氨基酸链作为输入,为蛋白质中的每个氨基酸位置产生嵌入 - 嵌入其他模型可用于预测所述氨基酸的功能。在一项实验中,研究人员训练了一种模型来比以前的方法更准确地预测跨膜和非跨膜片段。

“我们的模型允许我们将已知蛋白质结构的信息传递给结构未知的序列。使用我们的嵌入作为功能,我们可以更好地预测功能并实现更有效的数据驱动蛋白质设计,“Bepler说。“从高层次来说,这种类型的蛋白质工程是目标。因此,我们的机器学习模型使我们能够从相对较少的已知结构中学习蛋白质折叠的“语言” - 最初的“圣杯”问题之一。