如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短 5.5 年」?

by , at 04 August 2020, tags : 淮河 寿命 供暖 断点 纬度 点击纠错 点击删除
使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 chenqin​ 发表

这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。前两位完成了这篇论文的主要部分。这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。

1,科学家是如何得出「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短 5.5 年」这个结论的?

首先要说的是这篇文章使用的 RD 方法(regression discontinuity design),即断点回归方法。断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。

在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。为什么我们那么需要随机性呢?因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度…… 这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。

但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的 100 人放在干净空气中,将另外 100 人放在肮脏空气中并观察一段时间吗?

一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。比如,把性别年龄教育健康程度全部放进回归式中,然后声称,两组人之间由于性别年龄教育健康的不同而造成的差别都已经去掉了,剩下的就是这个政策的效果了。

可是,这很容易遭到批评,而且是没完没了的批评。为什么不控制工资高低?婚姻状况?从事行业?只要没有随机分开,任何特征变量的差异造成的结果,都可能混淆在政策结果中,你不控制这个变量,政策的效果就仍然没有识别干净。遭到批评的研究者只能继续加变量,没完没了的加变量。

更关键的是,前面说的还是可以量化的东西,努力程度?性格特征?甚至,智商?这些不可观测的变量可能影响更大。举一个例子,科学家想知道上了 “一本” 大学对学生未来的工资有什么影响。上了一本和没上一本的大学生,显然不是随机分开的两个群体。当然也没法用控制变量的方法来消除 “一本” 之外的影响,因为肯定有一些不可观测的变量是你控制不了的。控制变量法至此完败。

但科学家并没有束手无策,他们找到了 RD 方法。所谓 RD 方法,就是观察那些在一本线上下 2 分的学生,看 “上一本” 和“没上一本”的学生的未来工资差异。这个想法的天才之处在于,高考的上下 5 分,实在是一件随机性非常大的事情。让这批学生重新考一次,不少学生的情况可能就要逆转。对于这 5 分区间内的学生来说,一条一本线,就像一个天然的分割线,将两组人随机分开了。

退一步说,即使我们将高考视为一项没有随机性的考试,RD 方法还有另外一个假设——连续性假设。那些刚好上了一本的学生,比起差几分没上一本的学生,可能要聪明一点;也可能家庭环境好一点,请了好一点的家庭教师;也可能更努力一些,多做了几道习题。但注意,如果我们将智商、努力程度、家庭环境等等变量都视为连续的变量,那么上了一本的学生,比起没上一本的,也只是多了那么 “一点点”。

于是,我们可以开始观察这批学生的工资了。RD 方法的所有目光,都聚焦在了那个 “间断点” 上。首先看一本线下 1 分的学生,和线下 2 分的学生,线上 2 分的学生和线上 1 分的学生,是否有工资差别?直观上想,可能没有,可能前者比后者高 10 块,这说明在没有其他显著差别时,各种连续变量产出的工资,也应该是一个连续变量。但我们再看线上 0 分的学生,和线下 1 分的学生时,显著的工资差异出现了,乖乖,差 1000 块。

线上 0 分的学生,和线下 1 分的学生,各种特征都应该是差不多的,即便有差别,在连续性假设下也应该是很小很小的差别,那么产生这样显著的工资差异,只能由前者上了一本,而后者没上一本来解释了,因为这是两者间唯一的区别。于是,科学家们说,“上一本” 这个事情,可以增加大学生大约 1000 元工资。

我们回到这篇论文上,作者正是观察到了这样一条天然的分割线:淮河以北地区,政府提供了暖气,用烧煤的方式进行,而淮河以南则没有。那么,淮河两岸十分接近的两个地区,理论上来说也应该服从这样的 “连续性” 假设,也就是各种变量都差不多,唯一的区别就是有没有烧煤。于是作者发现,由于烧煤,淮河以北的空气总悬浮物比淮河以南多了

而空气污染造成的结果,淮河两岸的人均寿命差异则是惊人的 5 年。

同时,不考虑空气污染,用其他变量预测出来的人均寿命则几乎没有差别。这说明了连续性假设是成立的,淮河两岸的两个十分接近的地区几乎拥有相同的特征。作者还发现,淮河以北的超额死亡率,正是由和空气污染相关的心肺疾病相关,并进而与空气总悬浮物相关,而与谋杀、自杀等因素无关。

至此,作者终于给出结论:烧煤将使空气总悬浮物大幅度上升,并使中国北方地区的居民人均寿命降低 5 年。

2,「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短 5.5 年」这个结论有什么问题?

如果看完上面那段,你感到心服口服,感叹科学家真聪明,RD 方法真奇妙,进而相信了这个结论,那…… 你可能不是从事学术工作的。

这项研究主要存在以下三个问题。

第一个问题:连续性假设是否对所有变量都成立?

淮河分界线两边的城市,真的在所有变量上都是连续的吗?作者在 Figure4 中控制了许多变量,并验证他们都是连续的,但那些没有控制的变量呢?我们可能可以说说高考差 5 分的学生没有什么显著差别,但一条河流两旁的城市,我们就很难说他没有显著差别。由于河流两侧的流速不同,地势不同,我们常常能发现一条河两侧的气候特征相差较大,甚至作物种植不同,这些都会导致死亡率的差异,也有可能造成空气总悬浮物的不同,而且他们都没有被控制在作者的图中。

也就是说,淮河这个间断点,在识别烧煤取暖对空气污染以及死亡率的作用上,还不够干净。

第二个问题:无法消除的自选择性

还是从 “一本和工资” 的故事开始讲。科学家们虽然能研究一本线上的学生和线下 1 分学生的工资差异,可却忘记了一个问题:可能有好些刚好越过一本线的学生,并不是因为他考上了一本,而是他老爹有一些手腕,买通了官员,将他儿子的分数改了。而且,又不好太张扬,于是,就改一个躺在一本线上的分数。所以,他们的工资差异,还有一部分来自那些躺在一本线上学生的“有手腕的老爹”。

对于这一项研究来说,所谓的自选择,就是迁移。一些在淮河以北的居民可能发现,淮河以北空气太差,他还是搬到淮河以南吧。而另一些淮河以南的居民感到没有暖气太冷,于是他选择搬到淮河以北。于是,搬到淮河以南的人,更注重自身健康;搬到淮河以北的人,由于体弱而怕冷。如此,两岸居民的分布就出现了差异,其寿命差异,有一部分就来自这些不可观测的自选择效应。

第三个问题:小范围的有效性

回到上一本和工资的那个例子上。“科学家们说,“上一本” 这个事情,可以增加大学生大约 1000 元工资。” 这句话,就有问题。你最多只能说:一本线上 2 分的学生,能因为上一本这个事情,增加约 1000 元的工资。举一个极端的例子,一个因为家庭情况不允许复读,而且本来可以超过一本线 100 多分,甚至可以上清华北大的学生,却因为试卷丢失而少了一门成绩,从而没上成一本。对他来说,“上一本” 这个事情,可能就不止 1000 元工资的差异了。这个例子的意思是,RD 方法得出的结论,仅仅在他所研究的那个小范围内有效。超出这个范围太多,就没有那么有效了。

同样的,我们可以说 “淮河以北,且紧邻淮河的地区,因为烧煤取暖导致的空气总悬浮物增加,损失了 5.5 年的寿命”。但将结论推到北方所有地区,就有问题。比如,也许从淮河向北,人们拥有一个随纬度升高而逐渐上升的“空气总悬浮物耐受能力”,但科学家却无法观察到这点,“5.5 年寿命差异” 的外推便失效了。

鉴于以上三个缺点,烧煤取暖到 5.5 年寿命差异这个逻辑链条,我们都不能够完全相信。更别说将这个寿命差异推广到整个北方地区了。当然,我们也不能矫枉过正,全盘否定这项研究的意义。
这一项研究的重要意义在于:
1,消除了无休止的口水仗,识别了空气污染和健康之间的因果关系。要知道在使用 RD 方法之前,“空气污染有害论” 者还在不停地增加控制变量,“空气污染无害论” 者还在 argue 不可观测的健康特征呢。
2,虽然有上述提到的几个问题,但他们的数据选取让我相信这几个问题都不是特别严重,我们大致可以下定论,淮河以北十分接近的几个城市,由空气污染所导致的寿命减少大致是 5 年左右。这是一个十分醒目的结果,会引起一批人的重视。
3,上一点私货。鉴于两位主要作者都是经济学家,这个研究,是经济学帝国主义的又一次扩张。以后,在这样的自然科学刊物上,来自经济学家的贡献可能会越来越多。因为经济学最关注的就是因果识别,经济学的好些识别方法,早就溢出到了社会科学的其他领域,也正在逐渐蔓延到一些和政策相关的自然科学领域。前阵子的人类学家大战经济学家事件也只是经济学帝国主义的一个缩影,作为经济学研究人员,我感到十分高兴。

知乎用户 米萌萌 发表

作为一个来北方上学的南方人,我想说,没有暖气,我多活那 5 年干嘛?

知乎用户 Patrickshiro 发表

就 substantive issue 而言,最大的问题是在实际操作中,集中供暖的分界线并不是淮河。淮河流经四省。豫南没有集中供暖。湖北几乎没有集中供暖(据说只有十堰有,但那是特殊原因,因为有二汽)。安徽只有淮北少量地方(也是巨型国企导致的)集中供暖。江苏省也几乎没有集中供暖,唯一实现市区集中供暖的是徐州。但这是前些年(2010 年左右)的事,有兴趣可以查新闻。且徐州已经很难说在断点的分界线上了(众所周知淮河无下游,但即使以苏北灌溉总渠为界,离徐州都还有相当距离)。
省内分集中供暖区和非集中供暖区的是陕西、河南、安徽、江苏四省。陕西基本以秦岭为界,没有争议。河南实际上以黄河为界,黄河以南基本上只有大国营单位可能配备供暖。安徽不太清楚,但据我所知皖北供暖并不完全(这一点请安徽的朋友补充)。江苏前面已经说过了。也就是说实际上的集中供暖分界线不是秦岭 - 淮河、而是秦岭 - 黄河 - 江苏山东省界。这离淮河还是比较远的。
根据我看到过的资料,黄河以北才是强制供暖区。黄河以南淮河以北属于可供可不供的。但实际上这一地带大部分城市和单位是不搞集中供暖的。具体实施到什么程度还望方家赐教。不过有一点基本可以确定,淮河一段并非是严格的供暖分界线。李陈等的断点观察结果有较大可能是 omitted variable bias 导致的,因为众所周知,秦岭 - 淮河一线是公认的南北分界线,线两侧还有许多其它重大人文与自然地理差异。

补充:根据正文的图表(Evidence on the impact of sustained exposure to air pollution on life expectancy from China’s Huai River policy,figure 1),李陈等定义的淮河下游显然是以淮河入江一段算的,也就是说他们文中秦岭-淮河线的最后一段是淮河入江水道-长江这条界线。那问题显然就更大了。第一这肯定不是集中供暖界线(如果有苏中如扬州、泰州、南通的朋友可现身说法,有没有集中供暖,如果有小范围的集中供暖,是什么时候实现的)。实际上的集中采暖界线是秦岭 - 黄河 - 山东江苏省界,与文中的秦岭 - 淮河 - 淮河入江水道 - 长江一线南北差距几百公里。第二长江下游两岸的其它差异或者说 unobserved heterogeneities 简直太多了,omitted variable bias 更严重。
另外秦岭以西那一段实际上是西藏与新疆和青海的边界。实际上南疆和青海属于内陆或高海拔地区,冬天也是要供暖的。当然由于这一段两侧基本没有观测点,问题不大。

简单说在陕西以东,实际生活中的集中供暖边界(秦岭 - 黄河 - 江苏山东界)比该文使用的界线(秦岭 - 淮河 - 淮河入江水道 - 长江下游)偏北二到四度。该文主要结果用的 bandwidth 是上下一度,那显然是成问题的。Appendix 里报告了上下五度的结果,也是显著的,但五度这个带宽未免过宽了,五个纬度可是 555 公里。

当然也不能全怪李宏彬和陈玉宇。我见到的全国性媒体对集中供暖界线的报道几乎没有说对的,甚至还有如这篇(看纬度还是看温度——南方该不该供暖气?)上下文自相矛盾的(前面说供暖界线是秦岭淮河,后面又说黄淮平原上的徐州不属于供暖区)。还是对于 “上有政策下有对策” 的国情估计不够。

补充:方法上也确实有模型选择 arbitrary 的问题。年初的 Research and Politics 上发表了哥伦比亚大学著名的统计学家 Andrew Gelman 和 Adam Zelizer 合著的一篇文章,批评了陈李一文使用的方法(http://rap.sagepub.com/content/sprap/2/1/2053168015569830.full.pdf)。

Gelman and Zelizer 的解读极其言简意赅。一言以蔽之,就是陈李得出的结论严重依赖于他们选择的估计所使用的函数形式。寿命缩短 5.5 年(标准误 2.4 年)是三次多项式的估计。高次多项式的优势在于更加通用,缺点在于噪音大且往往不可靠("[t]he higher-degree polynomials have the advantage of being more general but the disadvantage of yielding noisy and often implausible estimates.")。如果使用线性模型,估计结果是 1.6 年(标准误 1.7 年),统计上不显著。

虽然作者(陈李)出于数据的考虑,给出了使用三次多项式估计的理由,但 Gelman and Zelizer 认为仍有可疑之处:即秦岭淮河分界线以北这条曲线在最初几个纬度实际上是上升的。因此可能存在遗漏变量问题。他们没有点明的是,这正与之前谈到的 substantive issue 有关。如果我们将 RD 调整到实际生活中的集中供暖分界线,即北移两到三个纬度(一个纬度大约是 111 公里),即使使用三次多项式,结果也很有可能是不显著的。

Reference:
Gelman, Andrew, and Adam Zelizer. 2015. “Evidence on the deleterious impact of sustained use of polynomial regression on causal inference.” Research & Politics 2(1):1-7.

知乎用户 匿名用户 发表

这篇论文的数据推不出结论不是因为 RD 方法。无法立足主要有两点
1. 为了构造间断点,居然用纬度的三次方去拟合。纬度和燃煤取暖最多只呈弱相关性,用纬度而不用人均燃煤量或者空气污染指标本身就缺乏说服力。而且三次方拟合会极大的放大噪音,这属于人为制造断点。
2. fig3 已经假设淮河纬度为间断点来计算寿命差,这种拟合误差极大。如无此假设,重新拟合,间断点将在淮河以北三到四度附近。

知乎用户 匿名用户 发表

这就跟专家说冰冻西瓜不好,会让营养流失一样,我想说,我吃西瓜是为了营养吗?

知乎用户 Fay Jiang 发表

我去这是我大二的课程选题啊。
当时做了一篇 Critical Review,针对的是本题所提论文的简化(估计是先前)版本,即针对供暖政策对空气污染的研究,两文基本研究方法重合度高,review 也主要是针对论文研究方法、数据处理的讨论。放上渣文以供参考。
主要 “攻击” 点为:

  1. TSP 测量

  2. 缺失因素举例

  3. )人口

  4. )工业比例

  5. 断点回归设计

Review 最后提到了对寿命影响的进一步研究——即本题提到的论文——在 TSP 测量方法上做了改进,但 Review 其他批判性观点仍然适用。同时也有其他答案提到的 “自选择问题”,但并未展开阐述。

陈年期末作业轻拍,凑字数部分就不摘了。 版权所有侵权必究啊(敲黑板~~

说起来这门课程的教授刚好是论文作者之一的 “闺中密友”,期末扔给我们一堆 paper 让来 “找茬”,想必 paper 有什么问题大家也略知。至于之后的寿命研究,我觉得经济意义还不如我看的这篇。
所以有时候我就是不太理解现在的学术世界。。。反正我也不是搞学术的,摊手。

知乎用户 Wing 发表

2013 年 7 月 8 日,北京大学,清华大学及美国的四名研究人员在 PNAS 上发表了题为 <Evidence on the impact of sustained exposure to air pollution on life expectancy from China’s Huai River policy> 的文章。文章中,作者搜集了中国境内 90 个环境监测点的空气悬浮颗粒物(TSP)信息,145 个 CDC 疾病监测哨点(DSP)的人口死亡率信息,国际气象组织的气候资料,以及统计年鉴中的经济数据。基于这些数据,作者使用断点分析(RD)方法,得出空气污染导致人均寿命缩短的结论。具体地说,作者假设淮河两岸附近的人群,其基因型及生活习性基本相同,则影响其寿命的因素,主要是外界环境因素。基于以上假设,通过数据统计计算,作者宣称,计划经济时代,由于国家政策向淮河以北地区提供免费供暖,淮河以北地区(下称北岸或淮河北岸)的 TSP 比淮河以南地区(下称南岸或淮河南岸)高出 55%,约 184ug/m3,期望寿命降低 5.5 年。作者认为,每增加 100ug/m3 的 TSP,人均寿命缩短 3 年。作者进一步宣称,淮河以北地区的北方中国,由于空气污染而减少的期望寿命达到了 25 亿人年的惊人数字。

为了讨论方便,请大家点开原文 http://www.pnas.org/content/early/2013/07/03/1300018110.full.pdf 和补充材料 http://www.pnas.org/content/suppl/2013/07/03/1300018110.DCSupplemental/sapp.pdf

尽管环境污染影响人类健康是一个尽人皆知的命题,但其具体数量仍是一个谜。量化环境污染对人类健康的影响,有助于建立控制污染的政策和经济手段。笔者认同这篇文章研究的目的,也赞同对环境污染加以控制,然而,这个研究犯的错误之多之严重,使得它的结论完全无效。

具体地说,作者犯了以下几个错误:

1. 样本大小并不一致,在回归模型中,人口多的样本,权重增加。实际上,环境对寿命的影响作用到单个个体,人口数再大,也不会有差异。理论用错了。

2. 淮河两岸相同纬度差的样本实际上不存在,回归模型中,以纬度作回归,距离淮河纬度差之差异严重扭曲曲线。理论又用错了。

3. 综合 1、2 两点,严格的比较是选取淮河两岸相同纬度差内期望寿命数据,合在一起,作成对比较。但这样还能 “做出 “显著性么?笔者表示谨慎怀疑。

4. 作者对回归模型的方程选取是随意的而非严格的。

为什么说这是随意选取的呢?让我们先了解一下拟合方程是怎么选取的。我们知道在统计中,为了将现实观测值(这里是期望寿命)和目标变量(这里是 TSP 浓度,纬度,等等)建立联系,一般都要写出函数来进行拟合。然而,哪些函数更符合实际情况,我们并不得而知。比如在本文这个例子里,二次方程和三次方程同样都可以拟合纬度 - 期望寿命数据。那么,如何判断某个函数比别的函数更具有解释力,又不至于过度拟合呢?统计学中用 AIC BIC 这两种函数来表征函数拟合质量。一般认为,AIC 最低的拟合函数模型,最有可能是最好的模型。当然,总有我们没能设计出来的模型。但至少想得到的也得测一下。

AIC: 赤池信息量准则 Akaike information criterion
BIC: Bayesian information criterion

作者在补充数据中提供了 AIC(补充表 9,10,11)。我们看到,在表 S9 中,最好的拟合是三次方程,在 S10 中变成了二次方程(三次方程连 TSP 都弄不出来显著性)。也就是说,在淮河一线 5 度范围内,三次方程的拟合是一个过度拟合,不具有弹性 – 即使放到全国范围内,去掉期望寿命最高最低的几个点,马上我们就能看到它不符合实际情况。

我们还可以看到,没有一个方程完全满足所有变量的 AIC 最小这一条件。因此,我们可以认为,这几个变量很可能就不能用同一条方程加以解释。

实际上,地理位置不仅有纬度还有经度,还有很多很多别的因素。假如把所有因素都放进去考虑,我想他们连三次方程都搞不出来了。在这我们先不讨论他们是否要引入其它变量,只就事论事讨论他们能否从手头的数据推出结论,就不展开了。但这里的数据至少显示,他们选取一个三次方程是不对的,是过度拟合。

假如在回归模型里挑选线性、二次方程而非三次方程,肉眼都能看出来无所谓断点。即使所谓断点成立,按最好的情况,断点也不在他号称的淮河一线,用肉眼都能看出来断点如果存在的话应该在淮河以北 5-8 度。因此这实际上是为了契合他的结论,人为操作出来的断点。

5. 同样地,假如数据之间存在相关性,则其间可能有联系,但这个联系的逻辑顺序是未知的。A 和 B 同时存在,既可能是 A 导致 B,也可能是 B 导致 A,还可能是原因 C 同时造成了 A 和 B。为了统计推断这个逻辑顺序,也要用到 AIC 测试每个逻辑顺序模型。这就引出了下一点:纬度、TSP 及实际期望寿命是三个变量,其关系有可能是纬度→TSP→寿命、纬度→寿命→TSP、纬度→TSP 以及纬度→寿命。

首先,可能性 2 并非完全无可能,比如天气变冷导致人容易病,因为人总是生病,所以生火取暖增多,这是有可能的。即使我们排除可能性 2,但可能性 1 和可能性 3 并未检验 AIC BIC,也未提供原始数据表,根本不能排除可能性 3。在这个意义上,无法排除这样一种可能性,就是纬度增高同时造成 TSP 增多以及期望寿命变化,但这两者是互相独立的,并无联系。因此,宣称所谓因果关系是过度解释,把自己想说的话硬塞到数据嘴里去。这是本文中最重大的一个问题。

6. TSP 与实际期望寿命的关联做不出来, 随便一看图和数据表就能知道。这是为什么作者操纵数据用三次方程和断点分析的原因。淮河以北全部人群的实际期望寿命甚至高于南岸(表 1)。看他的补充图 3 就能发现,实际上这组数据一条直线就能拉平,因为在这个邻域内曲线可以直化。之所以拉了两条直线,我也不明白这是为什么,是故意的么?

这在补充表 S10 中更为明显。实际上如果选(全国数据拟合最优的)三次方程,那淮河两岸 5 度以内的 TSP 根本就没有显著差异,所谓 “心呼吸系统死亡率” 却有(参考一下 7,你会觉得更不可思议)。如果按照他们的逻辑,这说明了心呼吸系统死亡率高跟 TSP 一点关系都没有。

看他的补充表 S9 可知,实际上他们已经做了线性回归,根本做不出来结论,二次也做不出来,只好往三次推。

7. 作者主观归类死因。 将心脏病、脑血管病、肺癌、呼吸系统疾病归为一类,其它癌症、暴力死亡与其它疾病归为一类。参考其补充数据表可见,淮河北岸人群只有脑血管疾病和肺癌的死亡率高于南岸,呼吸系统疾病死亡率甚至低于南岸。而其它类型癌症的死亡率,北岸均比南岸高,如果按照作者的假设,TSP 不导致其它癌症,则不能说明 TSP 导致肺癌发病率高,因为总体癌症发病率北岸就比南岸高,而癌症的原因远不止 TSP 一个,也就是说有可能有 TSP 以外的其它因素(比如重金属污染,温度差异,湿度差异,医疗水平差异,等等)导致所有癌症(包括肺癌)发病率在北方上升。因此,这组数据完全可以作另一种与作者的设想相反的解释,而作者 “忽略了 “他并未检验这种可能性。

==== 好了分点讨论说完了 ====

让我们来总结一下: 作者先假设了 5 中的可能性 1 成立(假设 1),然后用这个假设,设计模型公式,接着回归曲线,假设 4 中的检验都对其有利(实际上从数据能看出这是不对的),随意挑选一个三次多项式(假设 2),由 1、2、4 中引入的偏见,错误地根据淮河划分数据(假设 3),错误地引入人口和纬度权重偏差(假设 4),得到了图 3 的断点结果,即 TSP 对期望寿命的影响权重极大,其分界线刚好在淮河。接着,作者循环论证,用之前拿到的公式参数,去掉 TSP 变量,当然能得到错误的预测期望寿命图 4。再接着,作者如 7 所说,胡乱归类死亡原因,使用公式 2 去检验,自然得到他想要的结果表 3。再接着,作者以淮河两岸的数据过分外推,假设其影响对全国都成立(假设 5),得到了惊人的全北方中国减少寿命 XXX 年的结论。

在这个流程中,作者作了四个毫无根据的假设,犯了三个严重的数据操纵错误,犯了一个循环论证逻辑错误,错误地诱导读者得到结论。这还不是他们错误的全部。

尽最好的努力说,这是一篇极有创意的文章,其错误之多、假设之大胆、论证之武断,令人惊讶。在不向外延伸讨论其它变量的情况下,保守地讨论本文的数据,也不能支持原文作者的结论。这个结论的正确与否,有待进一步检验研究。无论最终数据支持或不支持本文观点,这篇文章的质量也不能改变,it is as thin as a paper[引他人说法]。

知乎用户 上善若水 发表

集中供暖造成的污染让北方人损失了 5 年寿命?

有没有想过,集中供暖带来的好处可能让北方人增加了 10 年预期寿命?

正经东北人告诉你,集中供暖以前,北方人也不是傻的,不是在家里挨冻的,都是自己砍柴,买蜂窝煤自己烧炉子,烧火炕。那玩意多大烟知道不?鼻孔天天都是黑的!是集中烧煤好还是让大家自己烧煤好?

至于清洁能源,那玩意以前多贵知道不,谁能用得起,还让不让百姓吃饭了。

集中供暖极大改善了北方人的生活,经济,方便,和烧炉子比污染小,增加 10 年寿命有没有可能?扣掉污染的 5 年还剩 5 年净增加呢!凡事都有两面,光讨论一面而忽略了另一面的效应,这样的研究有啥意义?

我们以前的发展阶段,烧煤是最可行的办法。随着技术进步经济发展,肯定要过渡到清洁能源阶段的,清洁能源就是那个时期的最佳选择。。

美国佬站在他们那个位置,来研究我们这个阶段的坏处,就好像皇帝听说老百姓吃不起米饭了,很奇怪: 何不食肉糜?

废话,我吃的起么!

知乎用户 特别白 发表

我冒昧说一句啊,如果不烧煤,又有人烧不起别的,冻死的,或者因为寒冷影响活不久的…… 这个怎么算

**************
既然说五亿人,那么从在北方的,从中枢富贵到下层百姓,想必都是包括了的,你们以为人人都能烧得起煤吗?

知乎用户 小智 发表

给大家看看北京和乌鲁木齐的空气质量指数图。
北京的:▼

乌鲁木齐的:▼

这一对比,比较明显的是,在冬季,因为烧煤取暖等原因,污染等级高了很多。

知乎用户 谢丹​ 发表

可变的因素太多了。而且和以前的研究结果不洽合。

1,我承认第三图看起来很连续性,第二图的不连续性实在是看不出来啊。
2,简单说,正确做法,应该把第二图独立出来,交给第三者,看他能否划出淮河的线,能否画出连续线断点。

好吧:拿到第二图:
1,我会先算平均值,咦,平均值居然是北边的寿命比南边长。(严寒有利寿命)
2,淮河南北怎么有点差别呢?淮河南边居然比北边寿命长。(反例?矛盾?)
3,原来淮河北边有暖气,南边没暖气,也就是南边实际比北边更加寒冷。(再次证明 #1 结论)
4,我的结论:严寒有利寿命,比上面的经济学家合理多了。

我觉得这是股票分析师用 K 线图来看出硬币头尾的规律来了。

简单反驳该文章的结论:如果北方因为污染而减少 5.5 岁的话,也就是说北方没有污染就会比南方
高 6 岁的寿命。如果这是纬度引起的,就必须去解释美国南北纬度寿命一致。(美国人不烧煤。)
6 岁差不多是男女的寿命差,看看各个环境男女统计数据的差异,可见这个差异是多大了。

这么惊人的结论需要更加惊人实证的证据。就本案例看,几个教授为了出名把连节操君推倒了。

知乎用户 Jason Bourne 发表

现阶段,没有更好的清洁能源出现之前,在东北不烧煤取暖,很多人寿命会缩短 50 年!

知乎用户 ihodho 发表

据无数平民体验,如果不供暖,我们根本活不过这个冬天…….

知乎用户 臧大为 发表

我感觉这是一个阴谋,这个研究肯定和罗斯柴尔德家族有关,这些研究人员或者研究很可能就是他们背后资助的。美国的石油财阀很害怕中国提高燃煤比例,降低对石油制品的依赖,中国的煤炭资源实在太丰富了,用几万年都没有问题。如果中国一直用煤,石油财团如何挣钱?不管你信不信,反正我是信了,呵呵。

知乎用户 懒骨头 发表

这个问题确实存在,我们这个小区就都是用煤块取暖,我窗外就有个大烟囱每天在冒烟,每天都能闻到一股煤烟味。

我们这里的情况大致类似这样:沙河地区自建公寓烧块煤取暖 晚上烟雾笼罩气味呛人

北京大部分小区据说都改用天然气了,要好多了。

知乎用户 华海境 发表

你愿意为 5 年寿命付多少钱?

如果雾霾和燃煤污染容易导致肺癌增加,那么你可以选择不治病花 30 万去环球旅行,也可以花 30 万治病多活 5 年。你可以花几千元干净采暖,也可以支付 5 年寿命用 1 天 1 元的蜂窝煤。

中国人的命在很长一段时间不太值钱,不过等 GDP 上来以后,中国人的命也会更加值钱的。

利益相关,我奶奶家用的是 1 天 1 元蜂窝煤。

知乎用户 zwhu 发表

淮北本身就是产煤区,空气污染一直就很严重,没有暖气的时候也是常年各种煤渣漂浮, 希望有关专家学者本身去实地考察再做研究。

知乎用户 wichthln 发表

杜绝烧煤,用爱取暖。

关于这个问题,重要的还是想想如何更有效的供暖,合理利用能量吧。
把烧暖气时开窗子的问题解决了,能有很大用。

知乎用户 刘思欣 发表

研究新能源是必要的,主要是现在没有合适的能源代替这个,如果有的话中国早换了!

知乎用户 图样 发表

“叫你们不努力,只能在中国北方烧煤。如果你们努力,就能去法兰西斯坦享受用爱发电供暖。就算你们不努力,你爹妈努力,你也可以去加拿大啊。。。。。”

知乎用户 铲子 发表

@chenqin

提到的就文章采用的断点回归方法而言,我觉得其它变量的连续性这一点有一个很大的遗漏,也就是暖气带来的温度的影响。即供暖不止带来了河两侧污染程度的断点变化,也产生了居住温度上的断点。所以河流两侧既有污染物的显著差别,也有居住温度的显著差别。但仔细想想似乎温暖的居住环境有利于人的寿命?这样的话可能文章的 5.5 年还低估了污染物对寿命的负面影响。不知道在相关领域有没有研究人的生活温度和寿命的关系,希望有这方面的大牛来补充。

知乎用户 荣醉石 发表

然而不供暖可能活不过冬天……

知乎用户 小青蛙 发表

没暖气很多人立刻就死了

知乎用户 匿名用户 发表

所以选择冻死???

知乎用户 S0UVEN1R 发表

看了这个问题,我有以下想法:
1、用爱供暖,引进台湾先进经验。
2、这是 3M 公司的广告。
3、少 5 年就当众筹了吧。

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

为什么总是能听到「安徽是全国默认的泄洪区」?

知乎用户 青衣黄卷 发表 其实作为皖北人被嘲讽要饭的多还挺心酸的。(之前写得是江浙沪的嘲讽,浙江小伙伴觉得他们并不是下游被冒犯到,我觉得还是修改下。毕竟本意并不是说江浙沪是否是下游的事。而是说早些年去江浙沪讨生活的多,人多混杂,素质良莠不 …

喜爱艺术的人更长寿

▲经常参加文艺活动的人生存状态更好。(视觉中国/图) 全文共1970字,阅读大约需要4分钟 经常参与一种文艺活动,就能降低全因死亡率,而创造性的艺术活动效果尤为明显。 本文首发于南方周末 未经授权 不得转载 文 | 南方周末记者 王江涛 责 …

永生仍然只是自欺欺人的妄想

永生仍然只是自欺欺人的妄想 ·方舟子· 因为非法经营罪入狱四年的著名网络推手“立二拆四”刑满释放后推销起了通过人工智能造就第一批“永生”人的项目,据称已拉到了5百万元风险投资。他的这个项目不知是不是受到研究人工智能的计算机科学家库兹韦尔的启 …