《科学》：蛋白设计技术革命！生化大牛David Baker团队颠覆蛋白设计方法，通过强化学习逆向从头创造全新蛋白

《科学》杂志发表了来自蛋白质学大牛David Baker团队的新论文，研究者们提出了一种“Top-Down”的基于强化学习的蛋白设计新思路。与以往不同，这并非是指挥AI修饰优化现有结构、组装所需功能蛋白，而更接近于告诉AI，我要一个xxx功能的蛋白，去做！

在实验中，Top-Down思路不仅设计出了先前技术完全达不到蛋白结构，其产物还具有极强的功能性，对蛋白纳米材料、蛋白药物和疫苗等领域来说不亚于一次技术革命。

论文题图

(资料图片仅供参考)

David Baker其人，非常的牛逼，在这里我也不费劲去给他做传，偷懒抄抄同事写过的大牛履历：

作为蛋白质学领域的杰出科学家和领军人物，David Baker在蛋白质折叠预测、蛋白质与小分子结合、自组装蛋白纳米颗粒、蛋白质设计等方向都有着深入研究和众多贡献。

早在1998 年时，David Baker及其团队就开发出Rosetta平台来预测蛋白质结构，基于物理学原理，对蛋白质的构象进行能量最小化计算，以预测最稳定的三维结构，并在后续的时间里不断拓展Rosetta的应用，如蛋白质。2008年时，David Baker实验室还创造性地开发了蛋白质结构预测和设计的“硬核”小游戏Foldit，动员科研人员、非科研人员一起参与到这个领域。

近几年，他们研发的深度算法RoseTTAFold与备受关注的AlphaFold 2并驾齐驱，仅根据氨基酸序列即可快速准确地预测蛋白质结构，成为迄今为止最准确的蛋白质结构预测算法之一。去年，他们推出的深度学习算法ProteinMPNN ，可快速根据给出的蛋白质三维结构“逆推”出可能的氨基酸序列，序列恢复率达52.4%（Rosetta为32.9%）。

总之，学科之光。

这次他们想要做的事情，是完全颠覆此前的蛋白结构设计方法。

以前的方法，是一种“Bottom-Up”思路，由单体结构开始逐步组装成寡聚物、复杂的聚合体。这种方法固然有它的有点，比如多个部件可以拆分独立验证，主打一个稳定。

Bottom-Up思路

但它也有局限性，设计的终产物范围被有限的低聚结构限制住了，毕竟只用七巧板，能拼出来的东西也就那么多了。而且这种针对单个亚基来设计优化的方法，也限制了对终产物的整体优化。

而Top-Down的思路则是从整体的结构和性能出发，给出所需的结构特性，让AI进行计算，通过大量模拟蛋白质片段组装，最终寻找到最符合预期的产物。

用昨天刚掉下来的SpaceX打个比方，Bottom-Up要做的是分析总结哪些马达发动机可以用，哪些有问题需要优化，迭代做新的；Top-Down要做的是把钢板螺丝（或者乐高）给AI，然后告诉它，“我要去火星，来做个SpaceX Plus吧！”

Top-Down思路

为了实现全让AI来的想法，研究者们选择了强化学习（RL），也就是AlphaGo打败围棋大师的机器学习方法。更具体地说，是采用了其中的蒙特卡洛树搜索算法（MCTS）。在这个算法中，每个分支点都会进行一次评估，并向上返回进行加权，最终得到最优的路径。

用在蛋白设计上，我们可以理解为，在一个蛋白质片段上，依次增加新的蛋白质片段，每次增加都参考预期的结构特性来评估并打分，比如蛋白的形状、大小、孔隙率、末端位置等等，如此逐次模拟，最终获得在原子级别上，符合预期的精确蛋白结构。

算法思路

如此一来，我们只要给算法提供一些基础的蛋白质片段，然后告诉AI我们想要什么，就够了。