行研 | 新药筛选技术-那些崭露头角的后浪们（上）

本文作者：Nancy、Yutong、Yuhan

全球新药研发支出已经从2011年的1360亿美元提升至2018年的1515亿美元，预计2020年将达到1598亿美元，CAGR（复合年均增长率）达1.6%。哈佛医学院健康政策系Richard G·Frank教授在其发表的一篇文章中提到，全球新药研发支出中有30%的费用用于小分子药物研发。据此可以估算，预计到2020年，全球小分子药物研发市场规模将达到479亿美元¹。

新药的发现目前在新药研发的过程中尽管有非常多的挑战，但是最根本还在于过程中先导化合物的发现以及优化（Lead Generation)。药物发现团队可以做出的最重要的决定之一就是选择筛选策略以识别先导化合物。其质量影响了整个药物研发前进的方向，因为高质量的活性化合物势必会缩短药物探索的时间，提高后续临床试验的可靠性。

相反，如果初始活性化合物的结构质量低下，例如，较差的物理性能和药代动力学，存在已知会引起问题的结构基团，脱靶效应，较弱的体外药效等，则需要进行长期而复杂的多参数优化。在竞争激烈的市场环境下，这势必会增加研发成本，降低研发成功率²。

2016-2017两年间发表在J.Med.Chem期刊上的66个临床候选化合物的发现策略主要可分为6种，应用占比分别为：已知活性化合物（Known）（43%）、高通量筛选（HTS）（29%）、基于结构的药物设计（SBDD）（14%）、定向筛选（Focused Screen）（8%）、基于分子片段的药物设计（Fragment screen）（5%）、DNA编码化合物库DEL（1%）²。

从文章统计结果中可以看到，基于已知活性化合物（Known）的研究以及高通量筛选（HTS）仍然是新药研发的主流策略，但是DEL技术、虚拟筛选/人工智能筛药等药物发现里的后浪们也已经崭露头角，占有一席之地。

图1²：2016-2017年J.Med.Chem上发表的66个临床候选化合物发现策略统计

下图汇总比较了一些主要的筛选技术的优劣势以及成本、筛选时间等。

表1：各种药物筛选技术的比较

（来源：奇迹之光整理）

面对传统筛选技术（如Known,HTS等）的低成功率和逐年升高的研发成本，新药筛选技术创新迫在眉睫，各种新型筛药平台应运而生。本系列（上/下）将对近5年来发展迅速，并受资本市场广泛关注的3个新兴新药筛选技术DNA编码化合物库筛选技术（DEL）、AI(人工智能)/虚拟筛选，以及基于代谢表型的筛选技术进行介绍及分析。

DNA编码化合物库筛选技术（DEL）

DNA编码的化学文库是大量有机分子的集合，它们分别与DNA片段偶联，用作可扩增的识别条形码³。由于化合物分子分别用DNA条码标记，库成员可以作为混合物存储并通过亲和力捕获程序进行查询。使用DNA标签作为条形码，可以构建和筛选规模空前的化学文库，可能超过十亿种化合物。各个化合物的身份和相对数量可以通过聚合酶链反应（PCR）程序，进行高通量DNA测序来确定⁴。

DEL筛选技术的简要流程如下：编码文库中的每个小分子都有一个预设的DNA序列作为唯一的编码。将编码的化合物文库与固定载体的目标蛋白一起孵育后，没有亲和力作用的分子将被冲洗掉，剩下的有亲和力作用分子可以通过加热与蛋白分离，并返回溶液中。溶液中核酸文库经PCR扩增、高通量测序和数据分析后，将获得具有亲和力的小分子结构，然后通过传统的有机化学方法合成独立于DNA分子的小分子化合物，最后对其通过生化和生物物理方法进行活性测试⁵。

图2³ DEL技术筛选流程

利用DEL进行药物筛选的优势：

成本低，时间短，效率高。可以同时测试成千上万种与结构相关的化合物（包括立体异构体和对映异构体），并在每次选择后提供“即时SAR数据库”
对靶标蛋白需求量少，通量更高⁶
非凡的灵敏度，且可以在简单的试管中快速生成临时的“即用型”化学文库（成千上万个有机小分子⁷）
不需要开发复杂的生物学测定方法
对储存空间要求极小

近年来，DEL的技术进步已将DEL筛选确立为命中发现的常规方法。这些文库的大小和化学多样性正在不断扩大。此外，已报道的DEL筛选命中数迅速增长，并且最近发现的化合物中有相当一部分具有符合预测口服生物利用度的参数的理化性质。

例如，从DEL筛查中鉴定出的一种可溶性环氧化物水解酶抑制剂进入了I期临床试验，成为治疗心血管和呼吸系统疾病的潜在药物⁸。同样，一系列受体相互作用蛋白1（RIP1）激酶抑制剂也显示出了良好的功效，药代动力学特性将以供临床研究进行进一步评估⁹。

目前DEL技术发展趋势

国际和国内诸多药企和外包服务商均开始布局 DEL 技术

目前国际上 DEL 技术领域应用较为成熟的企业有 4 家，分别是 GSK、X-Chem（美国）、HitGen（成都先导）和 Nuevolution（丹麦）。其中 GSK 是对 DEL 技术应用最为成熟、规模最大的企业，但是 GSK 的技术仅供自用，不对外服务。目前很多国内外公司相继进行DEL技术的布局。

表2：DEL 领域主要企业情况梳理

（来源：成都先导招股书，康龙化成 2018 年年报，药明康德 2019 年中报，民生证券研究院）

项目合作的数量增加，行业快速发展

从下图可以看出全球DEL技术服务商对外公布合作项目总量逐年递增。从已公开的合作项目统计看（2015 年至 2019 年 3 月）成都先导是DEL 技术领域研发服务公司中合作项目最多的企业。

行研 | 新药筛选技术-那些崭露头角的后浪们（上）-肽度TIMEDOO

图3 全球DEL公司对外公布合作项目总量

（来源：成都先导招股书，民生证券研究院）

关于DEL技术药物筛选的几点讨论

合成方法具有一定局限性

目前筛选后需要再次合成验证化合物活性，对合成技术及库规模要求较高。

高通量测序技术已成为最大的DEL库的固有限制

尽管高通量测序技术的进步极大地促进了DECL技术的发展，但HTS本身已成为最大的DECL库的固有限制。由于统计分析对于在施加选择条件之前和之后，测序计数与单个文库成员的相对丰度之间的准确关联是必不可少的，所以就文库大小而言，产生足够程度的测序覆盖至关重要。如果要使用一百万个化合物文库对选择进行解码，则需要3到500万个高质量的测序读取，并且每次测序的通量定为约5000万个DNA序列（成本约为5.00欧元），尚无法以合理的成本对包含数百万个成员化合物的DECL库进行准确的计算。

DNA标记的小分子的膜不透性对细胞内DEL选择提出了巨大挑战

目前，没有报告实现这一目标。但是，在其他研究领域，DNA分子已通过各种化学，物理和生物学技术常规地递送到活细胞中。一些方法，例如转染，显微注射和使用细胞可渗透的肽，可能适合于文库递送。高传递效率将是确保细胞内有足够的文库材料可用于靶标检测的重要因素。最后，可能还需要靶标的过表达/标记才能实现靶标特异性¹⁰。

AI(人工智能)/虚拟筛选

AI技术在药物筛选中的应用主要依托于日益提升的机器学习算法和算力，进而开发出新型虚拟筛选方法，提升筛选效率。另一方面， AI图像识别技术同时可应用于高通量筛选之中，辅助优化筛选过程。

其中，以深度学习为代表的AI算法是药物虚拟筛选领域的热门应用方向之一。

利用AI进行药物筛选的优势：

节省时间，极大缩短研发周期
降低筛选成本
先进的算法和大数据可以有效提高筛选的准确性
机器学习的特性有助于发现目标的更多新特性

据报道，与传统方法相比，人工智能可以节省40%-50%的化合物合成和筛选时间，每年为制药公司节省260亿美元的化合物筛选成本¹¹。

使用机器学习进行虚拟筛选，目的在于创建一个模型来预测一个给定的化合物是否会结合到一个给定的目标上。与传统计算机辅助药物筛选有所区别的是，筛选模型并不是完全从“第一性原理”出发，基于人工界定的物理规则（分子、原子之间的相互作用等），而是通过海量数据驱动，利用机器学习发现靶标和目标化合物之间的联系。

模型的建立总体可分成数据集准备和模型验证两个步骤。其中，用于训练的数据集在这个过程中至关重要，用于药物筛选的数据集通常需要是标注了结合活性的化合物库，包含了已知会结合的化合物和已知不会结合的化合物¹²。该数据集将会分成训练集和测试集，分别用于模型的训练优化以及准确性验证。建立一个优质的模型，需要在对训练集的准确性和对未知数据的泛化能力之间取得平衡。

模型的评估基于预测的真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）等数据结果展开，利用以上数据可得出该模型的灵敏度、特异性、准确性以及Matthews相关系数（MCC），此外AUC也是一项常用的评估标准¹²。对于机器学习中不同的算法，需要设定的参数也不尽相同。除了随机设定参数，其他常见的方法包括建立使用不同算法参数的多个模型，通过数据验证选择其中评分最高的一项。

在深度学习发展以前，各种传统的机器学习方法已得到普遍应用，并成为非常有竞争力的预测手段。

图4 人工智能、机器学习、深度学习之间的关系示意图

根据相关论文发布数量的统计发现，在过去的十余年中，贝叶斯、SVM等“浅层”机器学习算法已在药物筛选中占据了主导地位，随着人工智能的发展、大数据的兴起以及计算能力的提升，近年来以深度神经网络为代表的深度学习算法在药物筛选中获得了越来越多的青睐¹³。

诸多研究表示，SVM在传统的机器学习算法中有着最突出的优异表现，作为后起之秀的深度学习算法同时也展现出了不俗的实力，在一些研究展现出了对于包括RF、SVM等机器学习算法的优势¹⁴。深度学习凭借更深神经网络擅长构建更大规模、更加复杂的预测模型，并且拥有自动提取特征的独特优势，但相较于“浅层”机器学习方法需要更大的数据集以及更高性能的算力保证。另一方面，除了算法的选择，超参数的调试对于模型的质量也会产生重要影响¹³。

业务涵盖AI药物筛选的典型公司

表4. 海外的几家与AI药物筛选相关的代表性公司

（来源：企业官网、动脉网等公开资料整理）

根据新闻报道与BenSci的统计分析¹⁵，AI药物筛选领域的投融资现状和趋势：

1）主流大药企的药物研发在AI方向均有布局，大多数药企选择与AI公司进行合作开发

2）自2016年以来AI药物研发领域的投资获得了显著的持续增长，但近期增速正在放缓，且投资正转向后期阶段

3）少数公司获得了大部分资金，20%的企业获得了近80%的投资

4）美国该领域的公司数量远超其他国家，成为了行业的主导者

表5. 国内的部分与AI药物筛选相关公司

（来源：企业官网、动脉网、汇众医疗等公开资料整理）

关于AI药物筛选的几点讨论

深度学习“黑盒”算法的可解释性问题

目前看来，深度学习的算法仍然是一个黑匣子，人们无法确定深度学习模型是否正在学习地正确的物理或化学知识，因而对其模型的参数无法给出清晰的解释¹⁶。机器学习的准确性和可解释性通常很难兼顾，如果不能使神经网络的“黑盒子”透明化，人们很难判断一个模型只是拟合或记住了训练数据，还是真正具备了泛化的能力。

面对药物研发后期巨大的成本投入，药物学家不可能完全相信某个黑盒算法给出的“武断”预测，即仅仅通过AI找到一种潜在的化合物，因为这并不能保证科学家们理解疾病的生化特征。因此，人工智能药物设计研究的重点之一就是需要探索深度学习算法的可解释性，针对性地开发了更符合化学背景、更易于解读的人工智能模型。

相较于算法结构，优质的数据集更加重要

根据目前的情况来看，拥有最优化结构的算法并不是最重要的，真正高质量的模型是需要建立在拥有优质的数据之上，即高质量的数据、高数量的数据以及与研究问题紧密相关的数据¹⁷。

相较于ChEMBL等数据库已有百万级的数据，能用作深度学习算法训练的优质数据仍然稀缺。例如基于配体与受体3D结构进行预测的卷积神经网络算法就需要高质量的3D结构数据，而目前所拥有的相关数据对于训练出一个优秀的模型来说依旧是不足的¹⁸。

因此，AI公司与药企进行合作的一大考量即是可以借助药企的研发数据进行模型的开发和优化。

另一方面，在医药领域，数据往往被孤立地保存起来，或者被特定的研究小组或特定的科学家收集。他们拥有这些数据，但不分享这些数据，这成为了模型优化的一大限制条件。是否能够使得更多的人访问这些数据或将成为AI药物筛选发展过程中的一个关键因素。

目前只有极少的产出，并没有突破性的成果，未来仍存较大的不确定性

目前还没有AI研发的药物上市，进展最快的项目已进入临床研究阶段。相较于AI在药物研发领域的热度，总体来说暂时并没有太多人们所预期的突破性的成果，成效仍有待观察。

AI筛药的评判标准存疑，验证周期较长

如何评判AI进行药物筛选的效果是科学家们必须面对的问题。单从算法模型的拟合度以及数据库筛选的准确性可能并不足以说明模型的可靠度，唯一真正成功的证据是对人工智能产生的分子进行靶点测试，而这需要一两个月甚至更长的时间去合成，验证并得到反馈需要五个月甚至更长的时间。

上篇小结

1）无论是DEL还是虚拟筛选，抑或是其它传统的筛选方法，都是基于靶点出发的正向筛选流程（Target-based drug discovery,TDD）。即基于对疾病和靶点机理的理解，针对某一个和疾病机理高度相关的特定的靶点，从而有针对性的设计药物的研发方式。这也是过去的三十年间主流的筛选策略，为新药发现做出了突出贡献。

2）随着近些年逐年升高的研发失败率，基于靶点的筛选策略也遇到了困境和瓶颈，主要归咎于单药物-单靶标-单疾病的药物设计指导思想。由于靶点一般来自于理想模型的机理研究，所以真的回到人体环境的疾病中，这个靶点可能根本不相关，很多报道的靶点无法在实验室中重复出来。新药用药后可能还会对其他靶点起作用，从而产生副作用，或疗效降低。复杂疾病通常并非单分子的突变或功能障碍，而通常由整体调节网络的功能障碍所引起。像NASH或者肿瘤微环境这样多细胞多通路参与的，文献报道了很多看起来极具潜力的靶点，都在药物开发的各个阶段失败了。

4）已验证的好靶点数量有限，造成公司间对同靶点的竞争非常激烈，同质化严重。

5）基于表型筛选的药物发现（Phenotypic drug discovery, PDD）为解决这些问题提供了可能性。这种药物发现方式不依赖于对靶点和机理的理解。它的起点是一个化合物库，用一个和疾病高度相关的临床前模型或者实验来筛选库中的药效，找到达到期望药效的分子再进一步优化和开发。同时，逆推靶点和其作用机理。

在下篇中，我们将着重介绍基于“代谢表型”的筛选技术，这种颠覆式的筛药策略基于制备门槛极高的代谢探针，其可以动态实时监测化合物对核心细胞代谢物的影响进而发现先导化合物。

究竟是“前浪”更可靠有效，还是“后浪”技高一筹。下篇我们将对基于代谢表型的筛药技术以及如何在这些“前浪”“后浪”选择最适合的筛药平台做详细讨论，尽情期待！

Reference:

1. 1(16). 廖庆阳. DEL技术掀起药物研发革命热潮[N]. 中国医药报,2019-11-04(004).

2. Dean G. Brown and Jonas Boström，Journal of Medicinal Chemistry 2018 61 (21), 9442-9468，Where Do Recent Small Molecule Clinical Development Candidates Come From?

3．Brenner S and Lerner RA (1992) Encoded combinatorial chemistry. Proc Natl Acad Sci USA 89, 5381– 5383.

4．Favalli N, Bassi G, Scheuermann J, Neri D. DNA-encoded chemical libraries – achievements and remaining challenges. FEBS Lett. 2018;592(12):2168–2180.

5．https://mp.weixin.qq.com/s/wiyg5wVlbALdwxZsJrNW-Q

6．民生证券-从 DEL 看药物筛选平台的商业路径选择

7. http://www.decltechnology.com/remarks-outlook.html

8．Lazaar AL, Yang L, Boardley RL, et al. Pharmacokinetics, pharmacodynamics and adverse event profile of GSK2256294, a novel soluble epoxide hydrolase inhibitor. Br J Clin Pharmacol. 2016;81(5)

9．Harris PA, King BW, Bandyopadhyay D, et al. DNA-Encoded Library Screening Identifies Benzo[b][1,4]oxazepin-4-ones as Highly Potent and Monoselective Receptor Interacting Protein 1 Kinase Inhibitors. J Med Chem. 2016;59(5):2163–2178.

10. Mayr, L. M. and Bojanic, D. (2009) Novel trends in high-throughput screening Curr. Opin. Pharmacol. 9

11. 动脉网-百企大战AI+新药研发：全视野透视78家AI创新企业、26家全球制药巨头，https://vcbeat.top/ZTAxNWExNzIwMTI4OGMzZTkxNmQwOGRhYmJiZWFlM2Q=

12. Carpenter K A , Cohen D S , Jarrell J T , et al. Deep learning and virtual drug screening[J]. Future Medicinal Chemistry, 2018.

13. Jing Y , Bian Y , Hu Z , et al. Deep Learning for Drug Design: an Artificial Intelligence Paradigm for Drug Discovery in the Big Data Era[J]. Aaps Journal, 2018, 20(3):58.

14. Carpenter K A , Cohen D S , Jarrell J T , et al. Deep learning and virtual drug screening[J]. Future Medicinal Chemistry, 2018.

15. 9 Artificial Intelligence in Drug Discovery Trends and Statistics，https://blog.benchsci.com/artificial-intelligence-in-drug-discovery-trends-and-statistics

16. Voosen, P. (2017) The AI detectives. Science 357, 22–27

17. Nature: Hunting for New Drugs with AI，https://www.nature.com/articles/d41586-019-03846-0

18. Predicting Drug Target Interactions: Advances and Pitfalls，https://cyclicarx.com/news/predicting-drug-target-interactions