【新冠追踪】美国应无恙——被污染的数据背后
这一篇,是我对美国的新冠病情数据的集中吐槽。美国的新冠数据,遭遇了极严重的污染,想要算出美国现在每周到底有多少新增的新冠病人,简单的去看美国CDC发布的新增确诊数据,是不行的。作为全网首屈一指的数据大师,本文将会尝试清理数据污染,推算出美国 …
一篇论文于 5 月 7 日在医学研究在线数据库 medRxiv 上发布,指出导致新冠肺炎的病毒 SARS-CoV-2 在不同人群中的致死率不同,至少在英国是如此。男性患者的病死率高于女性。老年人和脱离社会的人群高于年轻人、富裕人群和有强大社会关系的人群。糖尿病控制不佳者或严重哮喘患者高于没有这些基础疾病的人。少数族裔高于白人。
这些发现都不算惊人,即便是第一点。毕竟有相当多种类的传染病的感染率都是男性高于女性。甚至吸烟者的病死率低于非吸烟者这一点虽然乍看起来抓人眼球,其实也和其他不同方法得出的研究结果一致;不过哮喘患者吸入类固醇可能起到防护作用这一点似乎值得继续研究。但这项研究的非凡之处并非其实际结论。该论文的第一作者、牛津大学的临床医生、数据学家本·高达克 (Ben Goldacre) 表示,它的亮点在于它用以得出结论的分析方法。论文团队并没有从替全科医生 (英国的家庭医生网络) 管理病患资料的公司的数据库中提取敏感的病历资料,而是开发出了一套软件,在数据储存地就地开展大规模分析。
论文研究了在英国全科医生诊所注册的约 1700 万人的病历及其中 5683 例可归因于新冠肺炎的死亡病例。全科医生是英国国家医疗服务体系 (以下简称 NHS) 中所有非急诊就医的第一接诊点,因此拥有最完整的患者健康记录。以如此规模和详细程度研究这些记录并将个人病历与死亡原因关联起来是前所未有的。过去,单单是计划使用这类基础医疗数据都会在英国国内引起轩然大波。高达克的研究之所以能够推进,完全要归功于新冠疫情的刺激,以及他组建的这支流行病学家和数据学家团队的聪明才智。这支团队自称「安全开放合作社」(OpenSAFELY Collective)。
正常情况下,仅仅是申请权限查看如此庞大的敏感医疗数据就要用掉几个月甚至几年的时间,需要通过伦理委员会、计算机网络安全检查等重重难关。开展分析和发表论文可能又需要好几个月。但眼下的情况非同寻常,实际上,OpenSAFELY 团队从提出构思到发表论文只用了 42 天。
三方面因素促成了这样的高速。首先是英国卫生大臣马特·汉考克 (Matt Hancock) 签署发布通知,广泛允许 NHS 系统内的各类人员访问及处理与抗击新冠肺炎相关的医疗数据。这一系列「患者信息管控」(以下简称 COPI) 通知大大减少了数据再加工过程中的阻碍。众多了解英国政府数字化抗疫的人士大谈人们如何在调取数据遇阻时就亮出 COPI 通知的见闻。OpenSAFELY 团队代表 NHS 开展研究,所以有 COPI 通知撑腰,得以加速推进。
不过,更重要的是在 OpenSAFELY 这面旗帜下积聚的政治影响力。关于电子病历的学术知识由这方面的权威——伦敦卫生与热带医学院 (London School of Hygiene and Tropical Medicine) 下属的一个研究团队提供。实际操作由菲尼克斯合伙公司 (Phoenix Partnership,以下简称 TPP) 完成,这家英国公司为全科医生网络存储了约 5000 万人的电子病历。而高达克本人是英国医学界的名流之一。他曾经是一家全国性报纸的专栏作家,在推特上有近 50 万粉丝。他的个人品牌,加上他率领的牛津大学循证医学数据实验室 (Evidence-Based Medicine DataLab) 的数据学家及程序员,让一切臻于圆满。
但 OpenSAFELY 取得成功最重要的因素是对病历本身的处理手法。团队没有尝试复制病历,也没有从 TPP 的数据中心输出这些资料再做处理。相反,团队程序员编写的软件让研究人员可以直接在 TPP 的数据中心内开展分析。即便在那里,高达克的团队成员也不能在 TPP 系统中随意窥探。他们编写了一系列程序,让他们可以通过安全连接来查询患者的病历信息。团队对病历的一切查询都会生成日志,这样监视者自身也受到了监视。
由于无需复制患者病历,而且每项操作都有日志记录,OpenSAFELY 团队更容易获得人们的信任。高达克的系统甚至得到了英国最激进的隐私倡导组织的支持。关注病历隐私保障的组织 MedConfidential 已经表达了对这种方法的支持。该组织的联合创始人之一山姆·史密斯 (Sam Smith) 说:「它的设计既推进研究也保护患者信息,没把两者对立起来。」医生工会英国医学协会 (British Medical Association) 的伦理委员会主席约翰·奇索姆 (John Chisholm) 表示,这项研究包含有关新冠肺炎致死「风险因素的极有价值的信息」。
这类从病历中探寻模式以提升医疗服务的研究仍处于起步阶段。但英国在这方面走在最前,有两个原因。首先,NHS 的单一医疗市场造就了像 TPP 这样的庞大的病历管理公司。其次,NHS 规定全科医生为第一级诊点,这让他们能将医疗数据一网打尽,并拥有最丰富、最规整的数据集。相比之下,在中国,人们生病后往往直接去医院,而不是找全科医生。北欧国家倒是有协调整齐的医疗记录,因此往往会成为医学研究项目的对象。但北欧国家人口不多且同质化,从研究的角度来看并不是理想的对象。美国的医疗系统由无数分散的私人医疗机构组成,尽管退伍军人事务部的医疗系统内确实有大量规整的病患数据。
所以目前而言,英国仍保持领先。高达克称,英国是「地球上唯一一个拥有完成这样的分析所需的大规模数据的国家」。新的挑战不断出现。OpenSAFELY 团队将研究新冠肺炎对儿童的影响,以及吸入类固醇可能具有的保护作用。除了 TPP 之外,它还开始与其他病历管理公司合作,以扩大可用于分析的数据范围。
假如 OpenSAFELY 团队的研究方法以上述方式不断拓展而能继续奏效,其他人肯定会效仿。而高达克与其合作方为此提供了便利:他们以开源软件的形式留下了一系列工具,任何人都能从著名的代码存储库 GitHub 上免费下载。对这些代码稍作修改,就可以在各类数据库上开展各种查询。
广泛采用这种研究方法将产生重大的影响。电子病历系统将不只用来存储数据,还将成为医学研究基础设施中的活跃组成部分,随科研的需求而调整变化。这对于医疗人工智能的发展尤为重要,因为它需要大量精心管理的数据来足够准确地了解疾病。
新冠疫情不会永远持续。以「国家紧急状态」为名的阶段总会过去。未来想要研究病历将需要提供更具体的正当理由,而不能再依靠 COPI 通知这样笼统的许可。但 OpenSAFELY 团队表明,无需复制数据,也无需请求任何人放心交出庞大而敏感的数据集,也可能得出有趣的研究结果。通过这样的尝试,他们可能让寻找正当理由的负担变轻了一点。
这一篇,是我对美国的新冠病情数据的集中吐槽。美国的新冠数据,遭遇了极严重的污染,想要算出美国现在每周到底有多少新增的新冠病人,简单的去看美国CDC发布的新增确诊数据,是不行的。作为全网首屈一指的数据大师,本文将会尝试清理数据污染,推算出美国 …
众所周知,贵州是今年的新冠恐慌大潮中,表现得最为淡定的一个省,它从没有过硬核挖路断桥,也没有强行封村闭户,最关键的是,它是全国最早下调响应级别的省份之一,在2月23日贵州就决定将公共卫生应急响应级别从1级下降到3级,并从即日开始全面推动复工 …
关于美国的新冠病情到底发展到什么样的程度了,即便在美国国内,都存在巨大的争议——民主党和共和党在此问题上根本就是水火不容鸡同鸭讲。民主党坚持新冠依然肆虐,并且将会带来数以百万计的死亡,如果不继续严加控制的话,美国人没多少人能活过这场浩劫。而 …
林祖伟 BBC中文 Getty Images 显微镜下的冠状病毒。 新型冠状病毒疫情被联合国称为“二战后最大的危机”。从去年年底在中国爆发后,短短几个月扩散至全球多个国家,在这场危机中,国际政坛就病毒来源发生争拗,社交媒体衍生各种不同的“阴 …
美国情报界支持科学界关于新冠病毒起源的共识,即病毒并非人造或基因改造而成。现在所发生的是对“大瘟疫起源的一种不幸的政治化” **文 |《财经》特派记者 金焱 发自华盛顿 ** 编辑 | 苏琦 据新华社报道,美国媒体日前披露,美国右翼势力出于 …