来自中国博士生的奇迹:72小时写稿,32小时过审,被引近万次

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

来自中国博士生的奇迹:72小时写稿,32小时过审,被引近万次

作者:孙滔

当得知下个月就要告别亲手创建的新冠疫情仪表盘,董恩盛五味杂陈,他在朋友圈写道:感谢大家的关注与支持!愿全球疫情早日完全结束!

疫情该翻页了。就在2月,美国约翰?霍普金斯大学(简称JHU)通告称,该校于2020年1月开发的用于跟踪新冠疫情的仪表盘将于3月10日终止运作。

深黑底色点缀着或大或小的红圈,左右两侧是各国确诊病例、死亡和接种疫苗的数目,以及绿色、红色或白色曲线,这个醒目的仪表盘让全球在3年里实时看到了详尽的、可视化的疫情地图数据。2260亿点击,超过36亿次浏览,这半年前的数据足以说明其影响力。

因为这项工作,董恩盛的导师、JHU土木和系统工程系教授Lauren Gardner入选了《时代》杂志2020年全球最具影响力百人榜,她还获得了有“诺奖风向标”之称的2022年拉斯克奖。

导师殊荣屡获的背后,有着2个中国博士生董恩盛和杜鸿儒的极大付出。董恩盛也略带调侃地自称是导师“背后的男人”。

这两个“背后的男人”也得到了回馈,董恩盛以第一作者署名的文章已有4篇,杜鸿儒以第一作者署名的文章有1篇。尤其是其中一篇由他们与导师3人署名的文章,2020年2月发在《柳叶刀-传染病》上,引用次数超过9500次。而按照汤森路透在2014年的统计,有史以来排名第100位的论文引用次数是12000多次。

这篇文章正是介绍新冠疫情数据仪表盘创建的。这只是一篇读者来信(correspondence),且仅有一页多一点。更神的是,“72个小时写稿,32个小时过审”。如果这是研究论文的话,这个引用次数的价值会更大。

按照谷歌学术的统计,董恩盛、杜鸿儒二人的引用次数都已经超过1万。

“一不小心做成了一件大事”

“一不小心做成了一件大事”,2020年上半年,美国达特茅斯学院地理系教授施迅跟董恩盛有一次对话,他给出了这句由衷的评价。

让我们把时钟拨回到2020年1月21日上午,董恩盛和导师Gardner如约来到图书馆喝咖啡交流课题。

彼时30岁的董恩盛作为一年级博士生,进入JHU仅10个月;而35岁的Gardner也是刚刚从澳大利亚新南威尔士大学悉尼分校跳槽过来,董恩盛、杜鸿儒是她唯二的博士生。

因为更早进入师门,董恩盛也就跟导师有更多交流,可谓Gardner在JHU的开山大弟子。值得一提的是,早在2019年5、6月份的时候,董恩盛与Gardner就针对美国麻疹暴发风险做了一份可视化地图,得到了《纽约时报》等美国主流媒体的关注。

他本科毕业于重庆的西南大学地理系,期间交换到中国台湾“中央大学”地球科学系,于2012年赴美,在爱达荷大学拿了地理与统计双硕士。期间他在地理信息系统公司Esri实习过,仪表盘技术就是在那里接触到的。在之后美国电力领域和电信领域工作的3年中,他用该技术做了一些项目。董恩盛看中了Gardner从事传染病数字建模的学术背景,这跟他地理信息系统、计算机和统计学的技术背景非常匹配,有助于他将来从事建模研究。

这次跟导师见面谈新学期计划,董恩盛是有所准备的。彼时新冠疫情主要在中国,泰国、韩国和日本出现了少量病例,美国也刚刚确诊了第一例。出于对中国疫情的关注和担忧,也出于对自己博士课题的早做准备,他已经把疫情数据收集好,做了一个小样。不料想当Gardner买了咖啡端过来的时候,她告诉董恩盛,“要不咱们做一个仪表盘疫情地图吧”。

一拍即合!影响人类应对新冠疫情的重要一环就此开启。

Gardner后来坦承,这个决定是一时冲动。他们最初的想法是通过数据收集,把一种传染病从发生到被消灭的全过程记录下来。

当天晚上,董恩盛熬夜奋战8、9个小时构建了一个仪表盘。最初,这个流程并不复杂:收集、翻译并整合全球来自各式各样渠道的数据,原始数据公布在Google Sheet上(后改为GitHub),之后使用地理信息技术和Esri的平台对疫情数据进行空间可视化渲染。

杜鸿儒于2月1日加入了进来,负责数据的自动抓取、更新,并编写了自动更新的代码。当时25岁的杜鸿儒本科毕业于天津大学化工学院,在威斯康星大学麦迪逊分校获得工业工程及运筹学专业硕士学位,他擅长数学模型和优化。

董、杜就此开始了联手奋战。到后来随着数据陡增,人手再度增加,有4、5个人一起写代码,等一周后自动地图上线已是凌晨3、4点。

他们得到了来自本校学生、图书馆、JHU应用物理实验室,以及Esri公司的帮助。很快团队扩大到了近40人。到当年4月,该仪表盘的日均点击量超过10亿次,最高达到了46亿次。

在回顾这段经历的时候,Gardner说了一句,“不要等待许可, 坐下来并采取行动”(Don’t wait for permission. Take your seat and take action)。

作为旁观者的施迅,对他们这段颇具传奇性的开端很是感慨:要有这种开创性的勇气,不要觉得自己只是一个学生就做不成大事,而是应该大胆去想,大胆去做,去跟导师、同事请教,去获得支持,“在很多情况下,你会得到可能比你预想的要多的支持”。

流量取胜

纷至沓来的关注和荣誉远远超出了他们的预期。

董恩盛的朋友圈记录下了一些激动的时刻:

2020年:1月29日,他做的图被BBC引用;2月29日,他们的仪表盘成了美国副总统、意大利总理决策的重要参考;3月12日,2013年诺贝尔化学奖得主、斯坦福大学结构生物学系教授Michael Levitt来信对其工作点名鼓励,董恩盛“顿感信心满满、干劲儿十足”;3月20日,JHU校长来看望疫情数据团队,“结果我以为他是高级清洁工,囧”;4月7日,《科学》杂志点名报道;5月,被《华尔街日报》采访;6月,同一天有2篇《柳叶刀》系列文章被接受。

2021年:5月,仪表盘数据成为美国疾控中心的指定来源。7月,德国时任总理默克尔来到JHU接受荣誉博士学位时,赞扬了新冠疫情地图的工作。

2022年:3月,《自然》杂志以新闻特写报道了包括他们团队在内的新冠疫情数据工作;7月,《自然》杂志再次报道了各个疫情地图团队的技术特色。

他们的工作早已出圈。据说从制药公司测试疫苗到好莱坞的电影拍摄,都会参考他们的仪表盘来安排工作,以至于JHU被人们叫成了 “map school”(地图大学)。

随之而来的,导师有了更多的研究经费,董恩盛也不用再为自己的学费和生活费发愁了,他们的办公室也翻新了,可谓喜事连连。

他们是以流量取胜的,但他们并非只靠流量。

开展新冠疫情数据收集并可视化的机构还有多家,包括美国疾控中心、世卫组织、《纽约时报》等。而JHU的疫情仪表盘之所以拔得头筹,有众多因素:由于数据收集和可视化做得专业且最早,也因此获得了先发优势;其数据抓取和更新也更加及时、准确,一些国家地区用户会主动联系他们更新数据;JHU医学与公共卫生专业盛名的加持。

除了天时、地利、人和的种种因素,在董恩盛眼里,出于对祖国疫情的关注和担忧从而开始盘算这个项目,才是第一推动力。

新的游戏规则制定者

他们受到的关注度以及得到的荣誉是当之无愧的。

让世界上每一个人都能实时追踪疫情是他们最大、最重要的创新。

拉斯克奖给出的获奖理由是,他们为实时传播权威公共卫生数据设定了新标准。换言之,他们制定了新的游戏规则。

并不是所有疫情地图制作者都始终秉持数据的公开、透明,以及非商业化。董恩盛还对施迅“抱怨”过:《纽约时报》用了JHU那么多无偿的数据,当董恩盛找《纽约时报》要数据时却遭拒。到了2020年3月,《纽约时报》才开始公布全部数据。

公开、透明以及非商业化,也是Gardner更为看重的。她在拉斯克奖的获奖感言中谈及,这项工作更重要的意义是实现了“数据民主化”(data democratization)和科学传播,这有助于公众的知情决策,并促进以证据为基础的公共卫生政策。

换个角度看,当JHU的仪表盘成为流量霸主的时候,它自然就成了标准。法国的态度就是典型。疫情初期,董恩盛找法国要数据,对方完全无视;然而到了后期,法国卫生部发现JHU数据与其要公布的数据有偏差,就主动联系沟通。

作为专业同行,施迅长期从事地理信息技术在健康领域应用,他深深感受到了这次全球大流行对传染病研究的颠覆:在上世纪的西班牙大流感时代,诊断技术和信息技术过于原始,遑论数据准确;而这次全球大流行也是一次史无前例的数据收集和整理的过程,这个过程本身就有巨大的科学价值。人们发现,需要一些非常革命性的手段,重新建立对传染病的认识以及建模手段,而这些的基础都是数据。

董恩盛更是对大数据的影响感同身受:只有量变,才会有质变,才能有进一步的分析,才会带来更多资金和人力资源的投入。他们的数据吸引的不仅仅只是公共卫生专家、计算机科学专家、地理信息专家,还有政治学者、经济学者,每个人都能挖掘到自己的金矿。

仪表盘只是起点

荣誉再多,终有告别时。该和仪表盘说再见了。

这个背景是复杂的。JHU新冠资源中心(CRC)数据负责人Beth Blauer接受采访时分析说,由于居家快速检测已经广泛使用,世界各地发布病例数据的实用性和准确性已经大大降低,那么仪表盘数据的准确性也就难以保障。另一方面,如美国联邦政府的数据收集能力比之前已经大大提高,尤其是其报告的住院数据成了如今最可靠和完整的决策依据。

还有一个原因是许多国家疫情趋于平稳,数据源的公布频率和人们的关注度没有以前那么高了。

Gardner用了“苦乐交织”来形容过去的3年。她说,经过3年日夜不休的维护,是时候改变已有的响应模式了。

谈起自己的导师,董恩盛和杜鸿儒都不吝称赞。

最让董恩盛钦佩不已的是Gardner对信息接受和对学生反馈的速度。她能很快理解他人想表达的意思,然后会给出她的意见。这在3年前两人那次喝咖啡时表现得尤为明显,当董恩盛刚提出自己深思熟虑了好几天的意图,Gardner马上就给出了做仪表盘的计划。

实际上,Gardner在仪表盘上的贡献是关键的,她会指出哪些数据是更重要的,从而需要在仪表盘上展示。同时她需要把各种资源整合到这个项目中。

杜鸿儒感受更深刻的则是Gardner与学生的平等相处。她从来不会催着做任何事情,而是留更多时间给学生自由思考。

董恩盛的工作交叉性更强,他也更愿意做一些有实际应用的事情。接下来,董恩盛需要把精力投入到博士课题中来。课题当然绕不开新冠数据,毕竟疫情仪表盘在一开始也是为了其博士课题而来,所以他会继续进行数据的挖掘以及做一些网络分析工作。

杜鸿儒的研究更偏理论,他已经在利用收集的数据建立深度学习模型,尤其是关注那些人类行为数据和社会调查数据。他希望把人类行为对外界的反馈加入到传统的流行病模型当中,他相信这种混合模型能对未来的疫情作出更准确的预测。

起点足够高,壮阔的科学图景正在他们面前徐徐展开,愿他们走得更远。

参考:  https://www.esri.com/about/newsroom/blog/how-researchers-built-johns-hopkins-dashboard/

https://www.nature.com/news/the-top-100-papers-1.16224  https://www.nature.com/nature-index/news-blog/behind-the-johns-hopkins-university-coronavirus-dashboard  https://laskerfoundation.org/winners/covid-19-dashboard/

(XYS20230222)

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

广州、台湾的疫情数据都假得离谱

广州、台湾的疫情数据都假得离谱 ·方舟子· 此前广州曾经公布过这一轮疫情的数据:有3万多人感染,90%都没有症状,没有一例重症、危重症,更没有一例死亡。我当时就说这个数据非常假,假得离谱。现在它公布的最新数据说有16万人感染,同样约九成没有 …

奥密克戎到底有多严重?标准答案本应出自中国

奥密克戎到底有多严重?标准答案本应出自中国 作者:王晨光 前些日,我在国内的家人相继感染新冠,包括瘫痪卧床近两年的86岁母亲。家人群中,年轻的几位症状不一,基本上5-7天康复。他们开玩笑说,新冠感染不也就这样吗,没啥好担心的。我及时提醒不要 …

饶毅的学术造假

饶毅的学术造假 ·方舟子· 北京大学生命科学学院教授兼首都医科大学校长饶毅很喜欢研究生物学历史,自诩是华人中最懂生物学史的。他的生物学史研究,有一个惊人的主张:孟德尔是天才,而达尔文很笨,因为达尔文虽然做植物实验也得到了显性后代和隐性后代之 …

土-叙地震真的会引发中国境内大地震吗?

土-叙地震真的会引发中国境内大地震吗? 作者:方玄昌 自唐山大地震以来,全世界每一次灾难性地震,几乎都会引出中国社会上与地震预测有关的各种神奇“学说”。目前已经造成数万死伤的土耳其-叙利亚群发地震自然不会例外。 所不同的是,过往更多“神人” …

不能预防感染的疫苗不是好疫苗

不能预防感染的疫苗不是好疫苗 ·方舟子· 中国这次疫情的高峰已经过去了,有些地方甚至已经准备开庆功大会。有一些地方的疾控中心做了调查,发现90%的人已经被感染过了,而且基本上都有很明显甚至比较严重的症状。中国完成疫苗接种的比例高达90%,很 …