“像自动驾驶一样训练智能体完成蛋白进化”，华大智造研发团队Nature子刊发布强化学习算法

肽度TIMEDOO获悉，7月20日，国际顶级学术期刊Nature子刊Nature Machine Intelligence（Nature旗下专注于机器学习领域的顶级期刊）在线发表了华大智造杨梦团队研究成果《Self-play reinforcement learning guides protein engineering》，发布了一款名为EvoPlay的算法模型。这也是华大智造团队在该杂志发表单细胞对比学习自监督Concerto算法后，时隔一年再度发表AI算法相关文章。

“像自动驾驶一样训练智能体完成蛋白进化”，华大智造研发团队Nature子刊发布强化学习算法-肽度TIMEDOO

EvoPlay由“Evo”、“Play”两个英文单词组合而成，前者意为进化，指蛋白质分子的功能进化；Play指的是博弈类搜索算法。EvoPlay算法模型就是借鉴围棋自博弈的方式搜索海量蛋白质突变空间，通过结合不同的功能或结构预测模拟器，像自动驾驶一样训练智能体完成指定功能增强的蛋白进化。

据悉，蛋白质的工程化设计和改造是基因测序仪的底层基础，基因测序仪的迭代升级离不开蛋白工程技术的突破。科学家们通过改造各种各样的蛋白质操纵DNA分子、读取酶催化的信号从而识别碱基序列。从华大智造测序仪试剂里用到的聚合酶、荧光素酶等各种工具酶，到更广范围的生物催化剂、生物传感器、治疗类抗体到生物燃料，都离不开对蛋白质的设计和改造。

“像自动驾驶一样训练智能体完成蛋白进化”，华大智造研发团队Nature子刊发布强化学习算法-肽度TIMEDOO

从AI到BI，EvoPlay模型实现AI智能体训练

近期，人工智能再一次成为全球瞩目的焦点，今天，现代词典将人工智能定义为计算科学的分支，及机器如何模仿人类智能。《大英百科全书》指出：“人工智能，指数字计算机或计算机控制的机器人执行通常与智能生物相关的任务的能力。”简言之，AI是技术性的模拟与推理，是“技术驱动”模式，目标是用机器代替部分人工劳动。

大众熟知的AlphaGo是DeepMind最重要的AI模型之一。它是一个基于深度学习和强化学习的人工智能围棋程序，2016年，AlphaGo与世界围棋冠军李世石进行五局三胜的对弈，并以4比1的总比分获胜，引起了广泛的关注和震动。这一胜利标志着人工智能首次在高度复杂的游戏中超越人类顶尖选手。

而AlphaZero是DeepMind后续进一步发展的AI模型。它不需要任何人类的经验知识，只需要知道游戏规则便能通过自我对弈和强化学习从零开始学习并掌握多种棋类游戏，包括围棋、国际象棋和日本象棋，它以惊人的速度超越了世界上最强大的棋类引擎，并展示了一种通用的自学习方法，能够适应不同的领域和问题。

而华大智造发布的EvoPlay模型便是借鉴了这种方法，并将其运用到了蛋白质设计领域当中，研究团队将蛋白质序列上每一个位点的突变当作是围棋中的每一次落子，将优化的最终序列当作是一局围棋的结束，通过自我对弈和蒙特卡洛树搜索在蛋白质序列空间中不断的搜索和优化序列，同时作者使用一个代理模型来为每一次位点突变进行奖励，最终成功生成了大量的具有特定功能的序列。

从人工智能（AI）到生物智能（BI），EvoPlay算法把经典的强化学习应用到了蛋白质设计框架中，不仅能够增强传统MLDE的采样效率，并能够结合最新的蛋白质结构解析模型（AlphaFold2）直接设计出带目标结构的氨基酸序列。EvoPlay既能够用于传统定向进化，也能够被纳入“从头设计”的理性设计框架中。

文章的通讯作者，来自华大智造研发团队的杨梦表示：“我们有理由相信在更多的理性机制分析以及更精密的结构代理模型的帮助下，EvoPlay的蒙特卡洛树搜索+神经网络可以更好地结合‘从头设计’框架，从而为蛋白设计领域提供新的思路，也可以用来进一步优化基因测序仪里用到的各种工具酶。

此外，EvoPlay模型已经进行了一些实践，比如说研究者已经利用EvoPlay前瞻性地设计了36个荧光素酶突变体，其中的29个变体已申请专利，发现。EvoPlay在寻找起始库之外更高适应性突变体方面非常有效，并且可以与现有的工程流程相集成。

同时，实践也证实了EvoPlay展示了其在高效设计高质量多肽上的性能，将适用于蛋白质-蛋白质相互作用、酶设计和药物发现等多种应用领域。

AI推动生命真智能：EvoPlay模型的展望与未来

伴随着自动化生物实验室的蓬勃发展，以及微流控技术广泛用于分子筛选和进化实验室，更多的自动驾驶实验室（Self-driving Lab）即将出现。在生命科学和技术实验室中的各个环节，包括实验的执行、数据的收集和分析、实验计划的制定等，如Design-Build-Test-Learn (DBTL)的循环的自主执行，未来都可以由自动化系统和人工智能来完成，而不需要人类进行主动的干预或操作。智能体还可以通过LLM等工具整合外部知识，多轮迭代探索，连续学习，创造出满足人类需求的酶、抗体、小分子、基因序列甚至人造细胞。

EvoPlay模型的诞生无疑验证了这种可能性，在人类不断升级认知极限的过程中，人工智能和机器人有巨大的潜力去帮助人类科学进一步探索未知的边界，从认知生命到掌控生命，期待能够实现人工智能和生物智能的和谐共生，最终实现真智能。

编辑：李丽