73
AI资讯

人工智能工具正在设计可以改变医学的全新蛋白质

收录于合集



“好的。开始了。” 西雅图华盛顿大学 (UW) 的计算化学家 David Juergens 即将设计出一种蛋白质,这种蛋白质经过 30 亿多年的修补,进化从未产生过。


在视频通话中,Juergens 打开了他帮助开发的人工智能 (AI) 工具的云版本,名为 RFdiffusion。这种神经网络和其他类似的神经网络正在帮助将定制蛋白质的创造——直到最近还是一项技术性很强且常常不成功的追求——带入主流科学。


这些蛋白质可以构成疫苗、治疗药物和生物材料的基础。“这是一个彻底变革的时刻,”马萨诸塞州萨默维尔的Generate Biomedicines 联合创始人兼首席技术官Gevorg Grigoryan 说道,该公司是一家将蛋白质设计应用于药物开发的生物技术公司。


这些工具的灵感来自于合成逼真图像的人工智能软件,例如今年著名的 Midjourney 软件,该软件被用来制作弗朗西斯教皇穿着设计师白色羽绒服的病毒图像。研究人员发现,类似的概念方法可以根据设计者指定的标准生产出真实的蛋白质形状,这意味着可以快速绘制出与另一个生物分子紧密结合的新蛋白质。早期的实验表明,当研究人员制造这些蛋白质时,有用的部分确实按照软件的建议发挥作用。


研究人员表示,这些工具在过去一年彻底改变了蛋白质设计过程。纽约市哥伦比亚大学的计算生物学家 Mohammed AlQuraishi 表示:“这是能力的爆炸式增长。”他的团队开发了一种用于蛋白质设计的此类工具。“您现在可以创造出具有广受欢迎品质的设计。”


“你正在构建一个针对某个问题定制的蛋白质结构,”华盛顿大学计算生物物理学家 David Baker 说,他的团队(包括 Juergens)开发了 RFdiffusion。该团队于 2023 年 3 月发布了该软件,一篇描述该神经网络的论文本周发表在Nature 1上。(预印本版本于 2022 年底发布,大约在同一时间,包括 AlQuraishi 的2和 Grigoryan 的3在内的其他几个团队也报告了类似的神经网络)。


Grigoryan 补充道,蛋白质设计师现在第一次拥有了可重复且强大的工具,可以围绕这些工具创建新的产业。“下一个挑战是,你会用它做什么?”


宏伟的设计


尤尔根斯将他想要的蛋白质的一些规格输入到类似于在线税务计算器的网络表单中。它必须有 100 个氨基酸长,并形成称为同型二聚体的对称双蛋白复合物。许多细胞受体采用这种结构,新的同二聚体可能是一种合成的细胞信号分子,华盛顿大学计算生物化学家乔·沃森(Joe Watson)也参与了视频通话,他是 RFdiffusion 的共同开发者。但今天早上的设计除了类似于现实的蛋白质之外没有任何作用。


几十年来,研究人员一直在努力构建新的蛋白质。起初,他们试图将现有蛋白质的有用部分拼凑在一起,例如催化化学反应的酶袋。这种方法依赖于对蛋白质如何折叠和工作的理解,以及直觉和大量的试验和错误。科学家有时会筛选数千种设计,以找出一种能达到预期效果的设计。


Baker 表示,AlphaFold(由伦敦人工智能公司 DeepMind(现为 Google DeepMind)开发)和其他基于人工智能的模型的灵光一现,可以根据氨基酸序列准确预测蛋白质结构。设计者意识到,这些神经网络经过真实蛋白质序列和结构的训练,也可以帮助从头开始创建蛋白质。


在过去的几年里,贝克的团队和该领域的其他人发布了一系列基于人工智能的蛋白质设计工具。这些工具使用的一种方法称为幻觉,涉及创建一串随机氨基酸,然后通过 AlphaFold 或称为 RoseTTAFold 的类似工具对其进行优化,直到它类似于神经网络建议的可能折叠成特定结构的东西。另一种方法称为修复,它获取蛋白质序列或结构的指定片段,并使用 RoseTTAFold 围绕其构建分子的其余部分。


但这些工具远非完美。实验往往表明,通过幻觉方法设计的结构在实验室中制造时并不总是能形成折叠良好的蛋白质,例如最终会在试管底部形成粘稠物。幻觉方法也很难制造除小蛋白质以外的任何东西(尽管其他研究人员在二月份的预印本中展示了如何使用该技术来设计更长的分子4)。当给出较短的片段时,修复在形成蛋白质方面也表现不佳。即使该方法确实产生了理论上的蛋白质结构,它也无法针对问题提出多样化的解决方案来增加成功的几率。


这就是近几个月发布的 RFdiffusion 和类似的蛋白质设计 AI 的用武之地。它们基于与生成逼真图像的神经网络相同的原理,例如 Stable Diffusion、DALL-E 和 Midjourney。这些“扩散”网络接受数据训练,无论是图像还是蛋白质结构,然后这些数据逐渐变得更加嘈杂,最终与起始图像或结构不再相似。然后,网络学习对数据进行“去噪”,以相反的方式执行任务。


RFdiffusion 等网络接受了存储在称为蛋白质数据库 (PDB) 的存储库中的数万个真实蛋白质结构的训练。当网络产生新的蛋白质时,它从总噪音开始:随机分类的氨基酸。“你问的是产生噪音的蛋白质是什么,”沃森解释道。经过几轮去噪后,它会产生类似于真实但新的蛋白质的东西。


当 Baker 的团队在除了蛋白质长度之外不提供任何指导的情况下测试 RFdiffusion 时,网络生成了多种、外观逼真的蛋白质,与 PDB 中训练的任何蛋白质都不同。


但研究人员还能够在去噪过程(称为调节的过程)中指导程序根据特定的设计约束来制造蛋白质。


例如,贝克的团队调节射频扩散来制造包含特定折叠的蛋白质,或者可以紧靠另一个分子的表面(一种结合基础上的相互作用)的蛋白质。Grigoryan 的团队甚至开发了一种名为 Chroma 的扩散网络,然后对其进行调节,使蛋白质的形状类似于英语中使用的 26 个大写字母以及阿拉伯数字3。




噪声信号


于尔根斯的电脑屏幕最初显示噪音,这是人工智能系统启动时随机排列的氨基酸。它们被表示为红色、污迹斑斑的曲线,类似于幼儿的手指画。它们逐帧变形为越来越复杂的形状,具有类似蛋白质的特征,例如称为 α 螺旋的紧密螺旋和称为 β 折叠的自我折叠的带状形状。“这是一个很好的混合 alpha-beta 拓扑,”Juergens 说道,他微笑着欣赏这个只花了几分钟就完成的创作。“这看起来不错。”


该工具已在贝克实验室得到广泛使用。“与一年前相比,设计过程几乎无法辨认,”他说。神经网络在解决使用其他方法效率低下、困难或不可能的设计挑战方面表现出色。


在他们的研究中报告的一项分析中,研究人员从另一种蛋白质的片段开始,例如免疫细胞识别的病毒蛋白质的一部分,然后让基于人工智能的工具生产出 100 种不同的新蛋白质,看看有多少种蛋白质。将包含所需的主题。该团队针对 25 种不同的初始形状进行了这项挑战。结果并不总是包含起始片段,但 RFdiffusion 产生了至少一种对 23 个图案起作用的蛋白质,而对于幻觉和修复来说分别有 15 个和 12 个。




RFdiffusion 还被证明擅长制造自组装成复杂纳米颗粒的蛋白质,这些纳米颗粒可能能够输送药物或疫苗成分。之前的 AI 方法也可以制造此类蛋白质,但 Watson 表示 RFdiffusion 的设计要复杂得多。


当负责设计可以粘附到另一种特定蛋白质的蛋白质时,诸如 RFdiffusion 之类的神经网络似乎确实表现出色。贝克的团队利用该网络创建了与癌症、自身免疫性疾病和其他疾病相关的蛋白质牢固结合的蛋白质。他说,一项尚未发表的成功是为一种难以靶向的免疫信号分子(称为肿瘤坏死因子受体)设计了强结合剂,该分子是每年产生数十亿美元收入的抗体药物的目标。沃森说:“它正在扩大我们可以制造结合剂并进行有意义的治疗的蛋白质空间”。


真实世界测试


贝克的团队正在制作如此多的设计,以至于测试它们是否按预期工作已成为严重的瓶颈。“一个机器学习人员可以生成足够的设计,让 100 名生物学家忙上几个月”,马萨诸塞州剑桥微软研究院的生物医学机器学习研究员 Kevin Yang 说,他的团队开发了自己的基于扩散的蛋白质设计工具。


但早期迹象表明 RFdiffusion 的创作是货真价实的。在他们的研究中描述的另一个挑战中,Baker 的团队要求该工具设计包含 p53 关键片段的蛋白质,p53 是一种在许多癌症中过度活跃的信号分子(也是广受欢迎的药物靶标)。当研究人员进行了 95 个软件设计(通过改造细菌来表达蛋白质)时,超过一半的软件保持了 p53 与其天然靶标 MDM2 结合的能力。最好的设计的效果比天然 p53 强约 1,000 倍。沃森说,当研究人员在幻觉中尝试这项任务时,这些设计——尽管预计会起作用——并没有在试管中成功。


总体而言,Baker 表示,他的团队发现 RFdiffusion 的设计中有 10-20% 与其预期目标结合得足够牢固,足以发挥作用,而早期的人工智能方法中只有不到 1%。(沃森说,以前的机器学习方法无法可靠地设计活页夹)。威斯康星大学的同事、生物化学家 Matthias Gloegl 表示,最近他的成功率接近 50%,这意味着只需一两周即可提出可行的设计,而不是几个月。“这真的很疯狂,”他说。




据马萨诸塞州剑桥市哈佛大学的进化生物学家谢尔盖·奥夫钦尼科夫 (Sergey Ovchinnikov) 称,截至 6 月底,基于云的 RFdiffusion 版本每天约有 100 名用户。澳大利亚悉尼大学的生物化学家乔尔·麦凯 (Joel Mackay) 一直在尝试利用射频扩散来设计能够与其实验室研究的其他蛋白质结合的蛋白质,其中包括控制细胞内基因活性的转录因子分子。他发现设计过程很简单,并使用计算机建模来验证,理论上,蛋白质应该与转录因子结合。


麦凯现在正在测试这些蛋白质在细胞中产生时是否可以按预期改变基因表达。他祈祷,因为这样的发现将相当于一种简单的方法来打开和关闭细胞内的特定转录因子,而不是使用可能需要数年时间才能识别的药物(如果它们真的被发现的话)。“如果这种方法对我们的蛋白质类型可靠地起作用,那将彻底改变游戏规则,”他说。


未来的改进


英国牛津大学免疫信息学家夏洛特·迪恩 (Charlotte Deane) 表示,RFdiffusion 等最新模型是一个“阶跃变化”。但关键挑战依然存在。“它将激励人们看到我们可以将这些传播方法推向多远,”她说。


她和其他科学家和生物技术公司特别感兴趣的一个应用是设计更复杂的结合蛋白,例如抗体或 T 细胞(一种免疫细胞)使用的蛋白质受体。这些蛋白质具有与其靶标互锁的灵活环,而不是 RFdiffusion 迄今为止所擅长的三明治状平坦界面。贝克表示,他们在抗体方面正在取得进展。


奥夫钦尼科夫和其他人表示,一般来说,设计功能依赖于软盘区域的生物分子具有挑战性,而软盘区域使它们能够采用许多不同的形状。事实证明,这些特征很难使用人工智能进行建模。奥夫钦尼科夫说:“如果问题确实存在,我们能否与其他东西结合并抑制它,我认为这些方法可以解决这个问题。但为了做一些更复杂、更像大自然的事情,你需要引入一些灵活性。”


旧金山加利福尼亚大学的计算生物学家 Tanja Kortemme 正在使用 RFdiffusion 来设计可用作传感器或控制细胞的开关的蛋白质。她说,如果蛋白质的活性位点取决于几个氨基酸的位置,那么人工智能网络表现良好,但它很难设计具有更复杂活性位点的蛋白质,需要更多关键氨基酸就位——这是一个挑战她和她的同事正在努力解决这个问题。




杨说,最新扩散方法的另一个限制是它们无法产生与天然蛋白质截然不同的蛋白质。他说,这是因为人工智能系统仅接受了科学家已表征的现有蛋白质的训练,并且倾向于创建与这些蛋白质相似的蛋白质。生成看起来更像外星人的蛋白质可能需要更好地了解赋予蛋白质功能的物理原理。


这可以让设计蛋白质来执行天然蛋白质无法完成的任务变得更加容易。“还有很大的增长空间,”杨说。


AlQuraishi 表示,事实证明,最新的蛋白质设计工具在创造能够执行特定任务的蛋白质方面非常强大,只要该功能可以用形状来描述,例如要结合的蛋白质的表面。但是,他补充道,RFdiffusion 等工具尚无法处理其他类型的规格,例如制造一种无论其形状如何都可以进行特定反应的蛋白质,当“你知道自己想要什么但你不知道”时知道几何是什么”。


格里戈里安说,未来的蛋白质设计工具还需要能够生产出符合多种不同标准的蛋白质。潜在的治疗蛋白不仅必须与其靶标结合,而且不能与其他靶标结合,并且应该具有易于大规模生产的特性。


研究人员正在探索的一个方向是是否可以使用简单的语言文本描述来设计蛋白质,类似于 Midjourney 等图像生成工具的提示。“你真的可以想象我们将能够编写蛋白质的描述并合成和测试它们,”沃森说。


格里戈里安和他的同事已经朝着这个目标迈出了一步。在 2022 年 12 月的预印本3中,他们训练 Chroma 为其设计附加描述,并将设计吐出到基于文本的规范,包括“具有 CHAD 结构域的蛋白质”(包含多个螺旋的蛋白质形状)或“转氨酶的晶体结构”(参与制造和分解蛋白质的酶)。


Juergens 今天早上几分钟内创建的蛋白质只是蛋白质 3D 结构的模型。然后,尤尔根斯使用另一种人工智能工具来得出应折叠成该结构的氨基酸序列。作为最后的检查,他将序列插入 AlphaFold 中,看看软件是否预测出与设计相匹配的折叠结构。它们是准确的,AlphaFold 的预测与设计的平均差异仅为 1 埃(氢原子的宽度)。


“我们将这种准确度视为设计的成功,”沃森说。他说,剩下要做的唯一一件事就是看看这种蛋白质在现实生活中的表现如何。

60254
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|真能快速出分!出国留学课程转让!
雅思/托福/GRE
¥4400
年卡|英语口语 一对一 外教 课程转让 楚尼菲 菲教 每节25分钟 低购课20节课
英语课
¥18
次卡|郑州转手9节一对一的小提琴课
小提琴
¥1000
次卡|深圳龙华 青筝坊 专业古筝培训 课时转让 地点在深圳龙华壹方天地
古筝课
¥5800
次卡|郑州个人原因回老家发展无法去郑州上课,现在转让30节一对一古筝课
古筝课
¥4000
次卡|呼和浩特艺朵成人声乐课
声乐课
¥1000
年卡|深圳雅哈初级钢琴课程6个月
钢琴课
¥1500
次卡|武汉低价转,星月海音乐类一对一课程12节
声乐课
¥1600
次卡|深圳声乐课转卖,还有19节课程
声乐课
¥1600
次卡|秦皇岛,罗兰音乐课,转
声乐课
¥1600