本福特定律:数学好也能抓住大选舞弊?
各位同学这几天是不是觉得朋友圈微信群里突然出现了很多关于本福特定律(Benford‘s law)讨论? 目前广泛传播的主要有两个版本: 一个是密歇根的选举数据。图片比较了拜登的曲线和川普的曲线,认为川普的曲线更符合本福特定律的分布,得出结论 …
互联网的好处是很明显的,信息传递快,交流方便。但随之而来的缺点也是显而易见的,那就是谣言也传的快。而且由于信息太多,大部分人没有时间(或能力)辨别真伪,于是就先入为主了。
这几天关于民主党投票中作弊的消息满天飞。各种视频铁证,许多都非常可笑。这中间有没有真的?我不知道。但我相信法律,如果有真铁证,系统性地作弊,那法律是不会放过的。
在嘈杂的“民主党投票中作弊”的噪音中,有一节“高音”抢入耳来,号称可以用统计理论证明民主党投票中作弊。搬出了本福特定律(Benford’s Law)。
一人言市有虎,王不信,二人言市有虎,王存疑,三人言市有虎,王信之。这是战国时的人就懂的道理。不管多荒谬的谣言,传的人多了,就有人信了。有理论支持的谣言,更能忽悠人。这个有本福特支持的信息已经传遍微信,微博等各大中文平台。我们这里就来看一看这个本福特是什么来头。
本福特定律说,在现实产生的数据中,数字1出现的最多,其次是2,3,…,逐渐下降。
“高音”说,拜登的票数不满足本福特定律,5出现最多,所以有假。
下图是我收到的第一张图,有人问我如何解释。我的回答是:选举小区大小差不多,拜登支持率也差不多。如果每个小区大约一千投票人,拜登支持率50%+, 出来的结果就会有很多5打头的。根本原因就是:这些数是有关联的。
于是,有人给我发来下面这张图。说:如果你的说法是对的,如何解释川普的投票数满足,而拜登的不满足。
我的回答是:问的好 (按照美国人的套路,不管什么问题,先来一句"This is a good question")。一个满足,另一个不满足的原因是有一个不是真的。有人为说明自己的观点不惜改动数字。图一与图二都是Michigan的数据。比较一下这两个图,图一里川普的数据也不符合,3明显鼓起(只是程度轻一点)。而图二那个图把3抹平了。信息太多,大家就不注意细节了。
还有人发给我别的图,继续问。我没时间继续回答。不过,后来我收到的一个图比较有趣。发图者说,上面两图的数据都不对,这是他用原始数据自己做的图。我已经不知道该相信哪张图了。为了保险起见,我从他那里要来了原始数据,自己做了一张图(下图)。下图左面红色是川普的数字,右面是拜登的数字。可以看出拜登与川普的数都不满足本福特,只是程度不同而已。
还有人挖出历史数据,说过去30年的选举数都不满足本福特。我没有时间和精力去核对。如果有人核对过原始数据,请在评论区留言。
还有人转给我真正的本福特定律专家的推特。我们来看看专家如何解释。
下图是专家对一个关于用本福特定律证明拜登作弊的推特的评论。他说:我是本福特定律的专家,你在 Netflix看的关于本福特定律的录像就是我做的。如果你想让我给你解释你是如何错的离谱,请吱声。
评论以后,专家继续发推。用大写字母告诉大家:本福特定律对检测投票作弊无用。
专家已经发话了,那些想用本福特定律证明民主党投票中作弊的人可以洗洗睡了。
本来文章可以到此结束了,没想到,我把专家发言的截图发到微博上后,有评论说,靠拿专家头衔压人,没有具体解释,不厚道。我们这里就来简答解释一下。
本福特定律成立的一个基本原因是,对自然产生的数字,任意固定位数,比如三位数,到300以前必须要先有200,到200以前必须要先有100,…。 比如一条街的门牌号码,必须先有100号才会有200号,…。所以,1比2出现的多,2比3出现的多。在进位时,先进到1,别的数只有前面n 个机会,而1有n+1个机会,优势是(n+1)/n。这里的n 是数的位数,而这个位数可以用它的对数直接表现出来。再加一些其他条件,于是就有了本福特公式:
log10(1+1/d)
这里的d 是数字。1,2,…, 9. 可以看出,1的比例最大。log10(2) = 0.301 就是30%,2的对后面的优势要在1分过之后,小一些,3就更小,9最小,不到5%.
说明一下,上面不是证明,只是一种启发式的解释。因为本福特定律对所适应的数有一些要求,所以,没有一般条件下的严格证明。
上面这个公式不只是对十进制适用,对任何进制都适用。有趣的是,在二进制下首位必须是1,而log2(1+1/1) = log2(2) = 1 = 100% 正好验证。
从上面的解释可以看出,本福特定律要能适用,相关数字必须要有许多不同的位数,横跨多个数量级。如果都是同一个数量级的数,那么靠前的数字的优势就显示不出来了。总统选举,按选举区统计。选举区的大小都划分的差不多。比如Michigan 的这个数据,90%以上都是4位或5位,没有了本福特定律所需要的数字优势。如果区的大小差不多,支持率差不多,就会造成某个数字特别多。所以,
结论:本福特定律对选举投票的数字不适用。
上面是关于一般选举数据的结论。具体到Michigan的这个数据,这个数据样本太少,这么小的样本还要分成9分,单从样本量上就不满足本福特定律的要求。
上面说的数量级的限制对首位数影响最大,于是有人抛开首位数,看第二位或三位以及其它位数。对其它位数,本福特公式是
其中,n是第几位,d 是具体数字。据霍金说,文章每多一个公式就会少一半读者。我把这个复杂公式放在最后,希望影响不大。
顺便说一句,我试过第二位数,拜登与川普的第二位数都不满足本福特,但拜登的更接近。但与第一位数一样,不能推出任何结论,所以,虽然我做了第二位数的图,但不想干扰主题,就不附了。有兴趣的读者可以找一些数来验证一下。
长按二维码向我转账
受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。
各位同学这几天是不是觉得朋友圈微信群里突然出现了很多关于本福特定律(Benford‘s law)讨论? 目前广泛传播的主要有两个版本: 一个是密歇根的选举数据。图片比较了拜登的曲线和川普的曲线,认为川普的曲线更符合本福特定律的分布,得出结论 …
品葱用户 中華聯邦共和國 提问于 11/9/2020 对这事真有点失望,川普政府对台北可谓不薄,此举颇有些鲁莽。 品葱用户 沉默的火安静地烧 评论于 沉迷捕风捉影没意思的 品葱用户 呆呆加速师 评论于 分属不同阵营的两国自然异样 品葱用户 …
**编者按:**周五醒来,GA和PA翻蓝了!感觉村里管事儿的终于要定下来了。 不过,即便总统人选接近尘埃落定,围绕大选的谣言却不一定会短时间平风浪静,小补丁在后台都收到好几条网友的留言,催我们赶紧出来辟谣了。这不,应各位读者要求,辟谣大咖莫 …
**编者按:**大选投票日已经过去两天了,由于最后几个关键摇摆州的计票结果迟迟未出,因此选举的最终结果还未出炉。不过由于昨天威斯康星州出现的反转,川普阵营表示对该州选票计数有所怀疑,可能会诉诸于重新计票。 候选人究竟是否可以要求重新计票?如 …
品葱用户 ab842612 提问于 11/7/2020 年青白左我相信有機會被洗腦 有錢人/跨國企業員工我相信是想賺全球化的錢 但好像大家都認為大部份支持民主黨的人都是無知/要賺錢/被洗腦就可能有點過了,我們是不是沒真正了解美國城市人不喜歡 …