《科学》杂志发表了来自蛋白质学大牛David Baker团队的新论文,研究者们提出了一种“Top-Down”的基于强化学习的蛋白设计新思路。与以往不同,这并非是指挥AI修饰优化现有结构、组装所需功能蛋白,而更接近于告诉AI,我要一个xxx功能的蛋白,去做!
在实验中,Top-Down思路不仅设计出了先前技术完全达不到蛋白结构,其产物还具有极强的功能性,对蛋白纳米材料、蛋白药物和疫苗等领域来说不亚于一次技术革命。
论文题图
(资料图片仅供参考)
David Baker其人,非常的牛逼,在这里我也不费劲去给他做传,偷懒抄抄同事写过的大牛履历:
作为蛋白质学领域的杰出科学家和领军人物,David Baker在蛋白质折叠预测、蛋白质与小分子结合、自组装蛋白纳米颗粒、蛋白质设计等方向都有着深入研究和众多贡献。
早在1998 年时,David Baker及其团队就开发出Rosetta平台来预测蛋白质结构,基于物理学原理,对蛋白质的构象进行能量最小化计算,以预测最稳定的三维结构,并在后续的时间里不断拓展Rosetta的应用,如蛋白质。2008年时,David Baker实验室还创造性地开发了蛋白质结构预测和设计的“硬核”小游戏Foldit,动员科研人员、非科研人员一起参与到这个领域。
近几年,他们研发的深度算法RoseTTAFold与备受关注的AlphaFold 2并驾齐驱,仅根据氨基酸序列即可快速准确地预测蛋白质结构,成为迄今为止最准确的蛋白质结构预测算法之一 。去年,他们推出的深度学习算法ProteinMPNN ,可快速根据给出的蛋白质三维结构“逆推”出可能的氨基酸序列,序列恢复率达52.4%(Rosetta为32.9%)。
总之,学科之光。
这次他们想要做的事情,是完全颠覆此前的蛋白结构设计方法。
以前的方法,是一种“Bottom-Up”思路,由单体结构开始逐步组装成寡聚物、复杂的聚合体。这种方法固然有它的有点,比如多个部件可以拆分独立验证,主打一个稳定。
Bottom-Up思路
但它也有局限性,设计的终产物范围被有限的低聚结构限制住了,毕竟只用七巧板,能拼出来的东西也就那么多了。而且这种针对单个亚基来设计优化的方法,也限制了对终产物的整体优化。
而Top-Down的思路则是从整体的结构和性能出发,给出所需的结构特性,让AI进行计算,通过大量模拟蛋白质片段组装,最终寻找到最符合预期的产物。
用昨天刚掉下来的SpaceX打个比方,Bottom-Up要做的是分析总结哪些马达发动机可以用,哪些有问题需要优化,迭代做新的;Top-Down要做的是把钢板螺丝(或者乐高)给AI,然后告诉它,“我要去火星,来做个SpaceX Plus吧!”
Top-Down思路
为了实现全让AI来的想法,研究者们选择了强化学习(RL),也就是AlphaGo打败围棋大师的机器学习方法。更具体地说,是采用了其中的蒙特卡洛树搜索算法(MCTS)。在这个算法中,每个分支点都会进行一次评估,并向上返回进行加权,最终得到最优的路径。
用在蛋白设计上,我们可以理解为,在一个蛋白质片段上,依次增加新的蛋白质片段,每次增加都参考预期的结构特性来评估并打分,比如蛋白的形状、大小、孔隙率、末端位置等等,如此逐次模拟,最终获得在原子级别上,符合预期的精确蛋白结构。
算法思路
如此一来,我们只要给算法提供一些基础的蛋白质片段,然后告诉AI我们想要什么,就够了。
接下来就是看AI有没有理解一切了!
研究者提出的第一个难题是设计一个能填充特定形状的蛋白。之前他们做过两个不同大小的蛋白质环,现在他们决定让AI设计一个能把它俩“粘”在一起中间结构,这个结构要能紧紧连住内外两个环,同时还要有足够的密度,不留下大的空隙。
这是一个Bottom-Up完全做不到的工作。
目的是把这两个环组装成盘
MCTS模拟得到的蛋白结构,通过ProteinMPNN设计了序列,由AlphaFold预测得到了32种符合要求的设计。其中28种是可溶且可纯化的,11种能形成符合预期大小和形状的颗粒,其中2种的形状与设计模型的基本一致。
我们可以看看在冷冻电镜5.1Å分辨率下的终产物之一,与设计模型不能说像,就是一个一模一样。
冷冻电镜下的终产物
研究者认为,这种非自然的形状可能应用于基于纳米孔的传感器。
接下来,研究者使用MCTS设计了一个二十面体蛋白衣壳,他们的目标是让这个产物达到其他方法实现不了的小体积和高紧凑性,它的表面还要拥有能连接其他结构的末端。
经过一万次迭代,MCTS最终生成了比之前已知的任何二十面体蛋白质序列都更短、孔隙与天然进化的衣壳蛋白相当的产物。
该团队之前也设计过二十面体衣壳蛋白,并用在了疫苗上
从几十万个产物中,研究者最终选择了368个进行实验测试,并最终得到了2个非常符合要求的蛋白产物,直径分别为13nm和10nm,比大多数病毒衣壳都小得多。
更值得期待的是,它们的表面具有60/120个N/C端融合蛋白拷贝,比他们之前设计的二十面体蛋白高6倍以上,可以融合到功能蛋白的结构域,形成有生物活性的纳米颗粒。
这意味着,它们能够以更高效的方式易位到细胞核中,为递送蛋白质或DNA提供了新工具。
研究者让衣壳蛋白融合了血管生成素1的F结构域,话不多说看图!融合衣壳蛋白的效果比单独的血管生成素1或者F结构域都好太多。它还比血管生成素1更容易制造、也更稳定……
冷冻电镜下的两种产物结构
血管生成素1(Ang1),F结构域(Fd)
研究者还给衣壳蛋白融合了流感血凝素(HA),形成了新的流感疫苗,效果也比之前已经投放入临床试验的前代产品效果更好。
MI15-RC_I_1体积更小、效果更好
以类似的思路,MCTS具有产生任何我们指定的几何形状的蛋白的能力。我小小声预言一句,蛋白学的未来,翻天覆地了!
参考资料:
[1]https://www.science.org/doi/10.1126/science.adf6591
[2]https://www.bakerlab.org/2023/04/20/protein-design-reinforcement-learning/