辛普森悖论之疫苗效率篇
辛普森悖论说,当样品中各子集分布严重不均时,子集与整体可能得出完全相反的结论。 样品空间中分布严重不均的情况很少,辛普森悖论引起的现象不是经常发生。一旦发生,则对一般大众有相当的迷惑性。比如最近麻州Cape Cod 的新冠小爆发案例。 …
最近一个比较有争议的新闻是,被赋予厚望的Remdesivir (又名:人民的希望)在两个临床检验中得出相反的结论。一个说有效,一个说无效。
有人会问:同一个药,有效就是有效,无效就是无效,怎么会有不同的结论?这是因为一个药是否有效,不像1+2=3那样有精准答案,它受到很多不定因素的影响。同一个药或许对甲有效,对乙无效,甚至今天对甲有效,明天对甲无效,…,等等各种不定因素。不过,如果一个药真的有效,在大多数时间对大多数人就会有有效的显示,整体效果不受那些不定因素的主导。这就是为什么临床检验需要有足够的人。
我们先来看看这个问题所牵涉到的两个临床检验。说无效的是中国人(曹彬领头)在中国做的临床检验(下文简称为曹彬检验),说有效的是NIH(美国国家卫生局)在美国做的临床检验(下文简称为NIH检验)。
有人会问,会不会有政治因素?我们不谈政治,只谈科学,用数字说话。
第一个重要数字就是规模,也就是参加临床检验的患者人数。曹彬检验是237人,NIH检验是1063人。在其他条件相同的情况下,当然是人数多的结果可信度比较高。
人数足够多才能从统计意义上避免不定因素的干扰。比如,假设我们要检测一个大学里男生比女生高这个论断。如果随机在校园里抽查三个男生,三个女生,那么结果就不一定能肯定这个论断。因为有可能抽到的三个女生平均比那三个男生高,或者差不多(比如一不小心抽到女篮或女排队员)。虽然这个可能性比较小,但还没有小到可以忽略的程度。如果抽查300个男生,300个女生,就基本上可以肯定得出男生比女生高的结论。具体需要多少人数,要看实际的差距的大小。如果论断是男子篮球队员比女子体操队员高,那么很少的人数就可以了,因为差距太明显。
可惜的是,虽然被寄予厚望,“人民的希望”不是药到病除的神药,而是只对病毒有一定抑制作用的药(比如加快治愈的时间或者减少一定程度的死亡率),也就是说药效不是特别强。如果平均能加快治愈两天,那么有些人就会加快四天,七天,有些人还有可能变慢。当然,如果能确认平均能加快痊愈时间两天,也是很有用的。但是,要验证这种小的疗效,就必须要用很大的数量来检验。曹彬检验的人数不够。按照曹彬自己的话来说,本来以为是上清华的(意思是药有强效),结果只能读一本(意思是药效不大)。药效不大,就需要更多的人。因为人数不够,曹彬检验最后被叫停了。所以,严格说起来,不能说是两个临床检验得出了相反结果,因为有一个根本就没有做完。曹彬他们发表的只是中间数据的结果。文章最后还强调说,要得出准确判断,必须做更大的实验。
一个有趣的问题是,中国的检验是在新冠病毒还在中国爆发持续的时候,怎么会找不到足够的患者呢?听到一种解释是,那一段时间,在中国同时进行着几十个甚至上百个临床检验,其中包括一些中药配方,豆浆,双黄莲之类的。每个检验都需要人,而且临床检验要求患者不能用别的药。大家都要人,最后当然是有些检验找不够人。比较讽刺的是,真正有一定希望的检验找不够患者,但各种配方,清散剂却能够找够,甚至得出有99%的疗效(这里面问题很多,不在这里讨论)。什么叫成事不足,败事有余,这就是。
NIH检验最后得出的结论是,Remdesivir能够加快痊愈4天,有统计意义。死亡率方面有一定的效果(用药组是8%,对照组是11%),但这个效果没达到统计意义上的区别标准(statistical significance)。这就是我们前面说的,有疗效,但不是神药那样强。
关于曹彬检验得不出药物有效的结论还有一些其它解释。比如,曹彬说因为有效的定义不一样(就是打分系统不一样);还有一种解释说,对照组的患者也有用别的药等等。但是,另外还有一个原因,可以直接影响结果,得出无效的结论。讨论这个原因的人不多,我们就展开来说一说。
这个原因就是分组问题。这实际上就是我这篇文章的标题的另一部分,辛普森悖论。我们先讲一讲这个悖论,再回头讲它与曹彬药检有什么关系。
辛普森悖论说,在对甲,乙做比较时,如果把甲乙分成一些小组,有可能出现甲在每个小组都比乙强,但整体上乙却比甲强的情况。
辛普森悖论在现实生活中最有名的例子是贝克莱性别歧视案。有人起诉贝克莱大学,说他们歧视妇女。说有数据显示他们学校男人录取率比女人录取率高。后来校方给出数据,虽然从全校总数来看,男人录取率比女人高,但每个系里女人录取率都比男人高。为什么会出现这种情况呢?贝克莱的具体数字比较麻烦,我把它化简一下便于解释。
假设总共有20个女人和20个男人申请一个大学的教学工作。最后的结果是有15个男士,10个女士被聘用了。表面上看,男人录取率75%,女人录取率50%,明显歧视。但是,当我们仔细看数据时发现:20个男人中有16个申请的是理工科系,有4个申请的是文史哲系。反之,女人中只有4个人申请理工科,16个申请的是文史哲。我们用下面的表格来总结
申请人数分类
聘用人数分类
聘用比例
总比例
理工
文史
理工
文史
理工
文史
男
16
4
14
1
87.5%
25%
75%
女
4
16
4
6
100%
37.5%
50%
从表格中可以看出,不论是理工科还是文史哲,女生录取率都比男生高,但总录取率却是男生比女生高。这个悖论数据的出现是因为文史哲的录取率比理工科低。理工科20个申请人里录取了18个,而文史哲僧多粥少,20个申请人里只录取了7个。而女人申请文史哲的比较多。这相当于说两个班比较考试成绩,两份试卷,一难一易。甲班大部分都选容易的考,而乙班大部分都选难的考。最后的考试成绩不能用来说明乙班的改卷老师更苛刻。
图片说明:因为著名连续剧,辛普森这个形象在美国家喻户晓。辛普森是老顽固。把一个老顽固单独分在一组,其他人做对照组,图片从形象到组合结构都很贴切。
说到底,辛普森悖论的产生是因为样本分布不均。
回头再来说曹彬检验的患者分布问题。
检验一个药是否有效的主要方法(也是几乎所有临床检验所用的方法)就是把患者分成两组,一组用药(治疗组),另一组不用药(对照组)。最后来比较治疗组与对照组的情况。为避免心理作用,对照组也吃药,只不过那是假药,没有任何作用的替代品。下面是我从曹彬文章中截图出来的分组表格最前面一部分。
有很多数据表明,新冠病毒威胁最大的人群是那些本身有疾病的人群。有资料说在因新冠病毒死亡的人群中,本身有疾病的占90%以上。在这些疾病中,危险最大的是心血管疾病,糖尿病,高血压,呼吸道疾病。再看一看上面的表格,治疗组的高血压,糖尿病,心血管病百分比都比对照组高4%到8%,这个是一个不可忽略的差距。后面还有一条呼吸急促,多了9%。治疗组157个人,6%差不多就是10个人。每种疾病多10个,就多出几十个高险病人(考虑到这些疾病有交集,或许没有几十个,但多20个也不是少数)。也就是说治疗组的患者情况要严重很多。按我们前面提法,相当于考试的卷子要难很多。在这种情况下,Remdesivir本来就不大的优势当然就检测不出来了。
前面已经说了,曹彬检验得不出有效的结果的原因有很多,分组问题只是其中一个方面。我只是想利用这个热门话题,普及一下著名的辛普森悖论。也就是通常所说的蹭个热度。如果你因为这个热度点进来读了这篇文章,觉得学到了一点知识,或者搞清楚了一个问题,那么我写这篇文章的目的就达到了。
以前读日本棋手大竹英雄写的一本围棋定式书,在写完一个大型定式后他说,定式很长,跟下来不容易,辛苦了。我也借这段话来做文章的结尾:文章很长,读下来不容易,辛苦了。
长按二维码向我转账
受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。
辛普森悖论说,当样品中各子集分布严重不均时,子集与整体可能得出完全相反的结论。 样品空间中分布严重不均的情况很少,辛普森悖论引起的现象不是经常发生。一旦发生,则对一般大众有相当的迷惑性。比如最近麻州Cape Cod 的新冠小爆发案例。 …
知乎用户 荀子曰 发表 因为同时也是官方的重灾区。 比如某次马克思研讨请来个专门研究文革的美国学者还被人家问的一片沉默。 知乎用户 李子寒泉 发表 某次南京大学的研究生导师座谈会上,一位理工科出身的学校领导就表示,人文社科这一块儿怎么会有 …
知乎用户 试试能不能改名 发表 你们女的捧起来的垃圾,这会问男的怎么看?男的压根不看。 这会问男的怎么看吴亦凡,你几个意思?那意思他成顶流是我们男生的看上去的呗?男的怎么看吴亦凡真的有用的话,吴亦凡连火都火不起来,聊凉凉的前提都不成立。 …
知乎用户 匿名用户 发表 社区网格员还是隶属于街道(县,镇)人民政府。所以,你需要有优势: 1 有一定的关系,在必要的时候能借力借势 2 我见过太多自己或者家里很有钱在这里混仕途的人了 3 有口才,最好交际能力出众,这里适合八面玲珑的人。 …
1930 年代,理工科生走上了中国的政治舞台。 文|柳展雄 1930 年代,中国知识界爆发了一场浩大的论战:是否该督促蒋介石政权民主化? · 1933 年的蒋介石 胡适为首的自由派要求尽快实行选举;阵营另一方的知识分子,则认为民众文盲率高, …