新冠疫情期间,不亚于瑞德西韦(Remdesivir)的一个热词是双黄连口服液。1 月 31 日晚,有新闻称,上海药物所、武汉病毒所联合发现中成药双黄连口服液可抑制新型冠状病毒,这引发民众哄抢双黄连口服液,线上线下均迅速售罄。随后上海药物所回应称,双黄连抑制新型冠状病毒只是初步验证,对于新冠病人是否有效还要做大量试验。

临床试验来了。据中国临床试验注册中心网站信息,2 月 7 日,一个名为《双黄连口服液治疗新型冠状病毒肺炎 (COVID-19) 有效性和安全性的随机、开放、平行对照、多中心临床试验》(下文简称双黄连试验)的研究上线,其目的是评价双黄连口服液治疗新冠病毒肺炎的临床疗效以及安全性。这也是目前唯一一个双黄连抗新冠的注册研究。

瑞德西韦与双黄连试验之比较,尚未起跑已分高下-肽度TIMEDOO

图 | 中国临床试验注册中心网站信息截屏

试验排除了需要机械通气、危重型新冠肺炎患者,并限制了其他多种条件,实际上双黄连试验是针对轻度或中度新冠肺炎的研究。项目负责人为华中科技大学同济医院内科学系主任汪道文和华中科技大学同济医院呼吸与危重症医学科主任赵建平。实施时间是 2 月 5 日。

巧合的是,《瑞德西韦治疗轻症或中症新冠肺炎随机临床试验方案》(下文简称瑞德西韦试验)的实施时间也是 2 月 5 日。这是一项随机、双盲、安慰剂对照的多中心三期临床试验,注册在美国临床试验数据库 (ClinicalTrials.gov (http://clinicaltrials.gov/))。项目牵头人是中日友好医院副院长、呼吸中心常务副主任曹彬。

两者的研发初始均非针对新冠病毒。双黄连口服液是市售药物,其适应症不包括新冠肺炎,至于其抑制新冠病毒的药理学基础,目前仅有上海药物所、武汉病毒所进行了体外细胞试验,并宣称有抑制作用,但并未有经同行评议的论文发表。相较而言,瑞德西韦虽然也非针对新冠病毒研发,但在中东呼吸综合征冠状病毒的小鼠研究中,瑞德西韦能降低肺损伤,降低小鼠病死率,表现优于其他药物。另外,武汉病毒所和军事医学科学院的研究发现,瑞德西韦在细胞水平上能有效抑制新冠病毒,研究论文发表在《细胞研究》(Cell Research)。

一个显著的区别是,瑞德西韦为小分子化学药,是核苷酸类似物,能够抑制依赖 RNA 的 RNA 合成酶。双黄连口服液为中成药,成分复杂(据其说明书称主要成份为金银花、黄芩、连翘,辅料为蔗糖),药理不清晰。

两者均为治疗新冠病毒肺炎的药物试验,也都是新闻关注的焦点。试验结果尚未出台,那么比较二者的试验设计方案,我们能得出什么结论呢?

双盲试验 PK 开放试验

两者最主要的一个区别是,瑞德西韦试验是双盲试验,也就是患者和主治医生均不知道谁在使用瑞德西韦。双黄连试验则是开放试验,也就是患者和主治医生都对服用双黄连口服液知情。

瑞德西韦与双黄连试验之比较,尚未起跑已分高下-肽度TIMEDOO

图 | 双黄连试验和瑞德西韦试验的设计比较。(来源:罗晟视频节目截屏)

瑞德西韦试验预计样本量为 308 人,试验组和对照组分别为 154 人,随机分组,用药情况对患者、医护人员、研究人员、结局评估人员均隐匿。

再看双黄连试验。分为 4 个组:低剂量组(双黄连一次 2 支,每日三次,常规治疗),中剂量组(一次 4 支,每日三次,常规治疗),高剂量组(一次 6 支,每日三次),每组 100 人。加上对照组 100 人,共计有 400 人的样本。其实施地点是黑龙江省传染病防治院和华中科技大学同济医院。随机方法是统计学专业人员用电脑生成随机数字表,由医生将所有患者按照就诊先后顺序编号。

在双黄连试验中,试验组患者都能看到双黄连口服液的包装与标签,同时对照组没有使用安慰剂。杜克大学临床研究所(DRCI)资深临床试验设计专家罗晟在一次视频节目中认为,不设盲会带来不可预计的偏倚,因为病人知道用的是什么药就会有心理暗示,那么没有用双黄连的也会有心理暗示。同样,主治医生知道谁在服药,就有可能会区别对待。此外,测量的人对不同组的测量方法也可能不一致。

通常双盲试验得出的结果会更为严谨。在药物临床试验中,双盲的目的是为了避免研究结果受安慰剂效应或观察者偏向所影响。在双盲试验中,受试对象及研究人员并不知道哪些对象属于对照组,哪些属于试验组。只有在所有资料都收集及分析过之后,研究人员才会知道实验对象所属组别,即解盲。

药智网联合创始人李天泉对 DeepTech 表示,国内医生为了发表论文而进行的临床试验有时候没有采用双盲,那么其试验结果就很可能是假阳性。

原北京协和医学院教授、从事免疫治疗药物研发的王晨光博士强调说,由于新冠肺炎是一个自限性疾病,80% 的轻症患者不会转为重症,如果做不到严格的随机双盲对照,就很难得到客观的试验结果。

美国华盛顿大学(圣路易斯)生物统计教授刘磊则在一个视频节目中担心对照组患者会偷偷换组,即自行去购买双黄连口服液服用。这也是不设双盲的一个潜在性后果。

对于双黄连试验的双盲问题,多位学者提出建议。该试验并非不能采用双盲,既然研究方与哈药集团三精制药有限公司有合作,那么就可以在产品包装上实现双黄连口服液与安慰剂的生产。

李天泉说,即使包装有难度,试验可以采用双黄连胶囊,安慰剂胶囊填入淀粉即可。

为何双黄连试验研究者弃双盲而不顾呢?截至发稿,试验负责人汪道文并未回应 DeepTech 的问题。李天泉分析,其一,只要做双盲试验,那么失败的可能性会就会大大增加,而按现在的做法则很有可能取得成功。其二,双盲试验的成本要高很多,包括时间成本、物料成本和人力成本。

客观评价 PK 主观评价

瑞德西韦与双黄连试验之比较,尚未起跑已分高下-肽度TIMEDOO

图 | 双黄连试验和瑞德西韦试验的设计比较。(来源:罗晟视频节目截屏)

在瑞德西韦试验方案中,结局指标中的主要指标的说明较为详细,包括临床治愈时间窗口是 28 天(以小时为单位,定义为从开始治疗到发热、呼吸频率、血氧饱和度恢复到正常水平,咳嗽缓解,且持续 72 小时以上),症状缓解恢复到正常的标准:发热:腋温≤36.6℃,或口腔温度≤37.2℃,或直肠温度或耳温≤37.8℃;呼吸频率:≤24 次/分(室内空气下);血氧饱和度:>94%(室内空气下);咳嗽:轻度或无(咳嗽程度按“重度、中度、轻度、无”进行分级)。

在双黄连试验的痊愈指标中,主要指标只提到疾病痊愈时间,测量时间点和测量方法均缺失。

比较两者可见,双黄连试验的主要指标是不清楚的,瑞德西韦试验对治愈时间精确到了小时,各项细目均为定量指标。

罗晟认为,如果没有清楚定义痊愈时间,不同医院的判断会有偏倚,加上随访时间不明确可能造成不同病人随访时间不同,这都会造成不可预计的结果偏倚。

王晨光说,评价指标的主观性若太强,加上双盲缺失,测量人员就可能有意或无意对一些指标描述存在偏倚。

安全伦理

双黄连试验于 2 月 4 日获得了华中科技大学同济医学院附属同济医院伦理委员会的批准。伦理委员会的联系人是杜艾桦,她的身份是华中科技大学同济医学院附属同济医院科研处副处长、药物临床试验机构办公室主任、华中科技大学药物临床试验伦理委员会副主任委员、国家药物临床试验机构资格认定检查员。

然而,多位学者担心双黄连口服液的安全性问题。要知道,在 2014 年《国家药品不良反应监测年度报告》中,双黄连合剂(口服液、颗粒、胶囊、片)在中成药口服制剂不良反应中排名第一位。

在哈药集团三精制药股份有限公司的双黄连口服液说明书中,其用量为一次 2 支,一日 3 次。而这个剂量为低剂量组水平,中剂量组(一次 4 支,每日三次)和高剂量组(一次 6 支,每日三次)均远超说明书要求。双黄连试验的项目申请人刘彩玲所在单位即哈药集团三精制药有限公司。

双黄连口服液说明书中对不良反应的描述是尚不明确。这让人无法不担忧入组患者的安全问题。

瑞德西韦的安全性问题有实验基础。2019 年 11 月《新英格兰医学杂志》发表了一项瑞德西韦的人体研究。3 月 1 日,曹彬在一次直播节目透露,“这项人体研究是针对西非埃博拉病毒的,但这项研究给了我们信心,因为至少已经在人身上进行过瑞德西韦人体试验了,能够看得到药物安全性数据。”

罗晟建议,双黄连试验可以考虑加上中期分析。这样的话,如果某个剂量组出现安全性问题,就可以提前停掉。

事实上,双黄连试验还有些名不正言不顺。

在中国临床试验注册中心信息中,该试验为临床四期。一般而言,临床四期并非来验证药物疗效和安全性(这是临床三期的任务),而是在上市后大量调查药物对病人的临床效果及情况,监视新药效果以及副作用。若疗效不理想或出现严重的副作用且发生率较高,则会将那新药召回和退市。此外,按照临床试验规则,临床四期的患者样本至少要超过 2000 个才行,而双黄连试验的入组患者数总共只有 400 个。

双黄连口服液的适应症并没有新冠肺炎,而是“疏风解表,清热解毒。用于外感风热所致的感冒,症见发热、咳嗽、咽痛”。这里的描述都是笼统的。王晨光说,这个已上市药物针对新冠肺炎的临床试验最多是个适应症扩展研究,与临床四期毫不沾边。

瑞德西韦试验正在遭遇患者招募不足的困境,其中瑞德西韦重症组研究招募了 230 例,距离 453 例的招募目标还很遥远。究其原因,除了其试验对患者招募标准高之外,一哄而上的各项临床试验也抢走了诸多患者资源。截至 3 月 12 日上午,中国临床试验注册中心已有新冠病毒相关研究 386 项,其中干预性研究 215 项。也就是说,已有 215 项研究在与瑞德西韦试验抢患者资源。这对于一个最具潜力的抗新冠药物的临床研究来说是巨大挑战。详见此前报道《瑞德西韦遭遇患者样本不足,“人民的希望”淹没在 271 项研究中》。

更糟的是,由于试验设计不合格以及研究质量无法保证等诸多原因,大量匆忙上阵的新冠研究很可能得不到预期的有价值的研究结果。以双黄连试验为例,无论结果如何,按照上述设计而来的双黄连试验都无法作为循证医学的最高质量证据,那么一个薄弱的研究也就无法为后来的临床研究或诊疗奠定坚实的基础。这就意味着,相关研究人员白白浪费了珍贵的临床资源和机会。

来源:麻省理工科技评论