哈佛教授孟晓犁是否有搞错了?

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

哈佛教授孟晓犁是否有搞错了?

作者:詹华平

孟晓犁是谁? 从2004年开始,哈佛大学统计系的系主任。

他在杂志《新一代》2015年第12期上发表了一篇面向大众的非学术文章《大数据:越大越有价值吗?》。我是在文摘杂志《读者》(2016年第4期)上读到的。在那篇文章里,他举了一个例子用来说明“所谓大数据,并非越大越有价值”。他的例子如下:

“比如,在美国做一个1000人的抽样调查,这个调查若是在中国做,要达到同样的精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍多一 点。每次我在大学做讲座问到这个问题时,只有10%的人能说出正确答案:仍需抽样1000人。绝大多数人认为,抽样数必须大于4000。”

然后他进一步用喝汤做比喻,“要确定汤的咸淡,大多数人只需要尝几口,并不需要把汤全部喝完。……”

关于喝汤的比喻,我是同意的,但是关于抽样调查,我个人觉得有一点点误导。查一下维基百科https://en.wikipedia.org/wiki/Standard_error#Correction_for_finite_population , 就可以发现,对于人口是有限多的情况,精确地说需要一个修正项(在没有这个修正项的情况下,是与人口数无关)。所以要得到同样的精度,严谨地说抽样数是与总人口数有关的。如果中国人口按14亿算,那么在中国为了同样的精度,必须抽样4373人。也就是说真地必须大于4000人的。

孟晓犁是哈佛大学统计系的系主任,一年的薪水我估计35万美金。而我的年薪是2万元人民币不到。如果读者根据年薪来判断,或许他是对的,而我说的是错误的。

(XYS20160321)

◇◇新语丝(www.xys.org)(xys8.dxiong.com)(xys.ebookdiy.com)(fangzhouzi.me)◇◇

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

关于詹华平《哈佛教授孟晓犁是否有搞错了?》一文

关于詹华平《哈佛教授孟晓犁是否有搞错了?》一文 作者:正元 詹先生自己搞错了,他给的维基百科链接中说得很清楚,那个修正项在抽样比例很小的时候近似1,人口3.2亿修正项0.9999984,人口14亿修正项0.9999995,完全可以忽略不计。 …

少年心事

Elio纠结Oliver坐车前排还是坐后排那段,把男孩拿捏自己爱恋的那点小心思展现得真好玩。 还没有熟练掌握处理感情能力的少年与少女们,喜欢上一个人,想要接近ta的一切,和ta呆在一起,却又怕被对方看出来,现了软肋,也怕被旁人看出来,落了下 …