新冠肺炎肆虐之时,有关部门和科技人员筛选、实验、使用了一些药品,但效果没有明确。瑞德西韦却传出治疗效果明显。当人们急盼瑞德西韦早日投入市场、投入抵抗疫情的战斗之中,却听说还要进行随机、双盲、安慰剂对照、大样本、多中心的三期临床实验。实验从2月5日开始,预计要到4月才会出结果。 很多人一直在问,为什么要费时费力地进行临床实验?为啥国家卫健委发布的新型冠状病毒肺炎诊疗方案中推荐用药又没有做这样的实验呢,比如抗艾药、血浆疗法、磷酸氯喹、阿比朵尔、达芦那韦、奥司他韦,以及双黄连和甘草酸二铵等。下面,本文对此问题进行探讨。 一、医药必须通过临床实验来检验来其有效性 自古以来,人们都习惯从先后发生的事件里总结出某种规律,比如,秋天了树叶就变黄,冬天了水就结冰,这种思维习惯在大多数时候方便人们认识事物规律。人们也用这种思维习惯来认识药物的疗效,让患者吃下某种药物或者进行某种治疗,然后观察患者是否痊愈,如果痊愈,则认定该治疗是有效的——这是传统临床的医学阶段。但这种思维方法得到的结论却未必正确。比如,在海南,秋天树叶不变黄,冬天水也不结冰。 18世纪英国哲学家休谟认为,我们从来没有亲身体验或者亲眼证实过因果连接关系本身,看到的永远是两个相继发生的现象,所以一切因果关系都值得怀疑,都应该重新审视。 现代医学从某种角度讲,就是对历史上的一些医药与疗效因果关系的怀疑和重新审视的基础上发展起来的。"放血疗法"的兴起与退出就是一个典型案例。 古今中外都有放血疗法,古埃及《埃伯斯伯比书》就记载中两处了划割皮肤放血的事例,说明在公元前15世纪左右的古埃及已经存在"放血疗法"。公元前5世纪,西方医圣希波克拉底提出了体液学说,为放血疗法提供了理论基础,放血疗法的实践也开始普及,在欧洲中世纪,放血疗法有如医学"黑科技",当时切割血管的刀片叫"柳叶刀",英国著名的医学杂志《柳叶刀》之名就来自于此。到19世纪初,欧美都还将其作为治疗一些疾病的主要手段。 历史上众多著名人物得病后都经过了放血治疗,最后不不治而亡,比如英格兰国王查理二世和安妮女王,法国国王路易十五,音乐家莫扎特,美国国父华盛顿。 号称"宾夕法尼亚的希波克拉底"的本杰明是放血疗法的忠实拥趸者,1794年到1797年美国费城流行黄热病期间,他平均每天为100人放血治黄热病。 虽然欧美对放血疗法是非常信奉,但从18世纪开始,近代哲学和科学的发展,以及统计学的发展,人们重新对一些常见的事物进行了质疑和研究。比如,一位英国记者William Cobbett翻阅费城1794年到1797年的死亡报告,发现被本杰明大夫治过的病人死亡率明显高于其他病人,对其放血疗法进行质疑的批评;1809年,苏格兰军医亚历山大.汉密尔顿把366名患病士兵平均分成3组,3组病人患病情况类似,接受治疗一样,不同的只是两组病人不放血,一组病人加用放血疗法,结果不放血两组别有2个和4个病人死亡,而放血疗法组死了35人;1819年,法国人皮埃尔·路易发表了其7年时间里对近2000名病人临床观察的研究结果,即放血疗法明显增加了病人的死亡率。由此,人们逐渐对放血疗法的信念开始动摇,之后发表的很多文章,都证明放血疗法给病人的伤害远远大于给病人提供的帮助。 综上所述,放血疗法不因为存在时间长达两千多年,不因为几大文明古国都曾存在过,也不因为医圣希波克拉底及本杰明多么推崇,还不因为国王、总统、艺术家信奉而就真正有好的效果,就是因为"分组对照实验"的统计观察和分析,最终证明其疗效不但不能更好治疗病人,而且会给病人带来更多的伤害和死亡。 二、大样本随机双盲安慰剂对照实验的统计学解释 1950年代中期,美国华裔科学家李景均在一项大型癌症临床试验中提出了"随机""双盲"原则。之后不断推广并发展成大样本随机双盲对照实验原则,目前已经成为检验一个药物或治疗是否有效的黄金法则。 本次在中国开展的瑞德西韦的临床实验委员会的5名成员中,有3位是统计学家,2位临床医生,因此可以从某种程度上讲,实验本质上就是统计检验过程。下面,我们从统计角度来解释该次实验。 (一)对照实验,检验是否有效的标尺 对照比较,可以清楚的显示事物相对于其他事物的特征,更便于人们判断和选择。其实,统计检验也充分体现了这个思想,统计检验也称假设检验,首先提出一个原假设,设定某项判断成立,然后列出备选假设,设定该判断不成立,在此基础上,对原假设和备选假设进行概率分析,虽然我们不能由此肯定原假设一定成立,但我们可以根据其犯错的概率很低,而不能拒绝原假设,从而接受其成立的假设;也可以根据其犯错的概率较高,而拒绝其成立。因此,我们也可以理解为我们对事物的判断都是在一定概率基础上的判断,正如统计学家C.R.劳所说"在理性的基础上,所有的判断都是统计学"。 药学上的对照实验,最初源自航海中的坏血病。早期航海,水手们长期漂流在海上,经常会得坏血病,当时人们搞不懂,会猜想各式各样的原因,采取多种办法,但基本都没用,当然也有少数人碰巧好了。几百年过去,一直找不到真正合适的药。 到了1747年,英国军舰上有一位医生林德,想出了"分组对照实验"的方法,把12位生病的海员分成6组,每组两人,分别用不同的验方,比如第一组吃橘子、柠檬,第二组喝稀硫酸,第三组喝海水……结果六天之后奇迹发生了,第一组吃橘子、柠檬的好了,其他组都没好,反复试都是这个结果,于是真正对症的药找到了,就是吃水果。这就是"分组对照实验"的神力。坏血病从此在英国海军中被消灭,人们开始信服了林德的"分组对照实验",这比海神更值得信赖。 1789年,在法国的巴黎学派,以Pierre Louis为代表的医生掀起一次医学革命。他们主张治疗不能依据传统古典理论和盲从权威,而是要观察事实做出推理和决策。Louis第一次引入"对照组"的概念,发现当时广为流行的放血疗法和吐酒石其实并无疗效,发出了循证医学的先声。 自愈力是动物生病后与生俱来的自我恢复能力,是人经过亿万代进化自然形成的本能,自愈系统包含免疫系统、愈合再生系统、内分泌调节系统等多个分系统,是人体对抗疾病最重要的防线。实际上有许多病不治自己也能好,比如有些感冒吃药半个月才好,不吃药两周也好了。这就是自愈,是生物的自我保护机制。其实,很多民间偏方主要依赖的是人体的"自愈效应",而不是他的治疗真正有神效。 所以,要实验一种新药是否有效,必须要在分组中增加一个"对照组",看看"治疗组"与"对照组"有没有显著性差异,从而判断此病是自愈的,还是药物治疗的效果。 (二)大样本,探寻内在规律的基础 认识事物有一个重要的原则,就是大数定律,可以从因偶然性的作用而呈现的杂乱无章现象中找到其中的规律性,或简单的讲,就是在纷乱中找到了一种秩序。比如掷硬币,当每轮只掷10次,正面出现比率可能波动较大,但如果每轮掷50次时,正面出现比率相差较小,倾向于一个稳定的值。也就是当样本增加时,就是显现出其内在的规律性。 又比如,在淘宝网购时,人们往往要考察一下商家和商品的信誉度,这时一个重要的方法就是看评价,不但要看其评价得分,而且还要看评价总数,如果评价总数不多,即使其得到为100分,我们都要打个问号,其信誉度有这么高吗?评价数少的时候其得分受各种因素影响较大,变化也较多,其得分往往不能反映其真正的信誉度,而当评价数很多时,其信誉得分就比较稳定,能够真正反映其本身的信誉度。 因此,要清晰看到事物的规律性,本质特殊,往往需要较大的样本量。此次的临床实验也必须要有大量的观察样本,才能充分说明检验判定的效果。 (三)随机选择,防止系统性偏差的保证 在统计上,随机原则是指在抽样时排除主观意识上的影响,使每个样本有均等机会被抽中的原则,这是避免调查出现系统性偏差的重要方法。举个例子,1936年美国总统选举前,《文学文摘》邮寄1,000万份问卷,回收230万份,调查结果显示共和党候选人阿尔夫·兰登会在531张选举人票中获得370张选票胜过民主党候选人富兰克林·罗斯福。结果盖洛普,根据配额随机抽取的5万个样本预测正确,罗斯福胜出大选。根本原因在于,《文学文摘》抽取的样本是其读者群和拥有电话的富裕阶层居民,排除了大量的低收入人群,而盖洛普则采取了随机抽样的原则。 在考察药物对新冠肺炎的治理效果方面,如果只抽取年轻力壮的人,显然不能真正反映其疗效。 这次瑞德西韦的临床试验还提到"多中心研究",就是除中日友好医院作为牵头单位外,还有多家医院参加,除了可以加快速度外,更重要的是避免在单一医院产生的系统性误差。 (四)安慰剂效应,披在药物疗效身上的外衣 人类身体很奇妙,有时心理因素对身体的效应相当大。二战中,有一次美军伤员太多,战地医疗的麻醉药用完了,伤员们一个个喊痛不止,军医毕阙在无奈的情况下,只好暂时采用骗术,以生理盐水冒充麻醉剂给伤员注射。没想到被注射了盐水的伤员也不疼了,毕阙惊得目瞪口呆。战后毕阙经过研究,终于弄清,这种骗术其实就是心理暗示,但真的有效果,这就是所谓"安慰剂效应"。 在平常生活中,人们也经常发现,有的人心理压力大时,得病后,尤其是自限性疾病,久久不好,当心情轻松后,又很快就好了。因而,对于一种疾病,要知道到底是某种药物起效呢,还是心理暗示起效,必须增加一个安慰剂组,来验证药物的效果。 (五)双盲操作,剔除医患双方的主观影响 一般参加药物实验的人员,对药物疗效总是有期待的,如果有人得知自己用的是安慰剂,可能就不太满意,情绪不好,产生不利影响;而有的人得知自己用的是实验用药,信心大增,对病情好转产生更好影响。这显然不能很好地来剔除"安慰剂效应",也不能真正检验药物疗效。因而必须要"蒙上患者的眼睛",不知道本人用的是安慰剂还是实验用药,这就是单盲实验。 在后来临床实验中,人们又发现一个事实:假如参加治疗的医生知道自己属于哪一组,出于自己的主观目的,能自觉或不自觉地对病人产生暗示,例如说,医生知道患者是安慰剂组,且希望该疗法能被盲测认定,就会暗示患者吃的是假药。又或者,医生身处治疗组,会更加认真细心,从而使不同组病人处于不公平的位置。这些来自医生的主观偏见也会对结果产生影响,因而,医生也必须"蒙眼"。 医患双方的眼睛"蒙起来",这就是双盲实验,所有的数据加密,由第三方统计专业人员来处理、分析,客观公正地评价药物的效应。 综上所述,大样本随机双盲安慰剂对照实验的核心是对照检验,理想状况的对照检验即要将两个完全一样的患者进行用药和不用药的对照检验即可得到结果,然而实际情况却很复杂,不能找到两个完全一样的患者,不得已,首先要剔除倾向性因素影响,如采取双盲剔除医患主观因素,剔除安慰剂效应,提高加入实验门槛纯化入选样本;其次通过随机抽样原则和大数定律消除随机因素影响;最后通过统计检验看看药物是否有显著性效果。 目前,大样本随机双盲临床实验已是医学界公认的确定药物疗效的规则,也是一把严格的利剑,无情地砍掉了那些虚假的疗法,不管这种疗法背后有多雄厚的文化支撑(顺势疗法),也不管这种疗法被实施了多少年(放血疗法),总之无效就是无效。掌握随机双盲大样本原理,不但可以按此做医学实验,而且可以提高科学思维能力: 《自私的基因》的作者道金斯说:如果所有学校都教其学生去做"双盲对照试验",其认知方法和能力将会在以下方面得到提高: 一是学会不从零星轶闻中去归纳普遍化结论; 二是学会去分析和评估一个貌似很重要的结果,可能只是偶然发生的事实; 三是认识到排除主观偏见是件极端困难的事,知道有些主观偏见并不意味着不忠实或不公正,同时有利于打消对权威观点的盲目崇拜; 四是学会不再受骗于顺势疗法和其它假冒医生的江湖骗子; 五是学会更广泛地使用批判性和怀疑的思维习惯,不仅会提高认知能力,说不定能拯救世界。