如何计算水军数量
使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##
两星期前,我回答了中国人口激增是由于毛泽东时期鼓励生育造成的么?这个问题。这问题里,有一个回答来自妄想家(中国人口激增是由于毛泽东时期鼓励生育造成的么? - 妄想家的回答)。
这个答案的评论串里的Xie Yipeng和田锋,都是很早就被我拉黑的id了,原因可以在我这个回答里面找(非专业人士在讨论到涉及专业知识的话题时需要注意什么? - chenqin 的回答)。对妄想家这个答案本身,我这里也不评论,今天我们来讨论一个更有趣的玩意儿。
发现水军
妄想家在11月24日晚十点零五最后一次修改了这个回答,表示反对我的答案。之后,他的回答的赞同数从32个一直上升到了截至我写完这篇专栏前的656个。在我写这篇专栏的时候,赞同数量以一分钟一个的速度上升,极为稳定。
但当我打开他的赞同列表时,极大的违和感包围了我。
这是最近的赞同:
这是最早的赞同:
最早三行赞同,有中文有英文,id有长有短,这是一个正常的赞同列表。但在第44个赞同齐濮过后,便是清一色的中文赞同,而且大多数id由两个汉字组成。其中夹杂的几个英文id赞同,也有着同样的规律,即一个英文单词的前几位中间插入一个空格。
来看一下齐濮吧。
两个不知所谓的回答,个人签名是三个字:吃零食。零赞同,零感谢,204个关注,竟然有183个被关注。最近赞同的三个问题,除了本题之外,分别是
这样的id,为什么会有人关注呢?让我们来看一下他赞同的第一个问题的赞同列表。
这是距离最近的一些赞同
这是其中一小段赞同。
把这些赞同,和妄想家这个回答的赞同进行比较,可以发现,在齐濮之后赞同的614个赞同中,有165个赞同了中国移动离职这一题,他们之中有一些正是在那些壮观的二字id列表中。
同样是两个不知所谓的回答,二赞零感谢,大量关注和被关注。他的动态里有一个问题吸引了我:
莫名其妙的回答,却有315个赞同,赞同列表一样惨不忍睹
不出所料,在齐濮之后赞同的614个赞同中,有153个赞同了公务员这一题。
**翻一翻这些赞同者的关注和被关注列表,一个庞大的水军集团浮上了水面。**在他们的动态里,可以找到另外一些显然是由水军所投票来推高的问题。而且这些问题的赞同可能来自同一个水军集团。
聊天时经常说「我去洗个澡,一会儿再聊」的女生考虑过男人的感受吗?
计算水军总数
如果只是看这几个营销回答的赞同数,我们似乎能得出结论:大概有3-500个水军id吧?但如果我们随机点一些id进去看,却又发现每个id点赞的时间和问题都不同,有时候公务员题被赞了,有时候app题被赞了,他们之间似乎有联系,但也不容易抓住这个联系。
因为每一题的水军,都是其总数的冰山一角啊。
从刚才的分析里面,我们能看出这一个水军集团的运作方式,随机赞同某些热门回答,再分批赞同其要推广的回答。因此,之前被人揪出来的一些所有水军批量赞同一个回答的情况,不太会出现了。但这并不妨碍我们把他们揪出来。
现在来看一种大家都很熟悉的抽样方法。在一个池塘里打捞上来100条鱼,全部做记号之后放回池塘,隔两天再打捞100条鱼。此时做了记号的鱼有5条。那么,如果两批鱼的打捞是完全随机的,则这个池塘共有100乘以100除以5,共2000条鱼。
在这四个问题,加上之前公务员相关的五个问题里,共有多少重复赞同呢?看这个矩阵
上面的矩阵中,对角线表示给自己赞同的人数,对角线之外的元素表示两题之间有多少重复赞同。我们使用池塘捞鱼的方法,假设没两题之间水军分布完全随机,那么使用公式:
水军总数=赞同第题的人赞同第题的人/同时赞同和的人
这是根据池塘捉鱼改编的公式。使用它,我们可以根据每一个问题对,算出水军总数。
上面的矩阵代表了根据每两个问题对算出的水军总数。在这里,我们可以发现GMAT和上日报这两题的重复赞同较多,赞同了GMAT那题的,有269个也赞同了上日报这题,因此这两题算出的水军总数只有416人。也许在这两题里水军随机数用到了同一个seed也说不定。
但在其他问题的交互对里面,我们能发现一个相对稳定的数字,大概在1700到2100之间。APP问题和其他问题的重复值相对较低,而公务员和洗个澡问题的重复值较低,造成了这两个格子的数字大小不同。
因此,我们大致可以得出结论:这是一批总量在1700-2100左右的水军,他们相互之间随机关注,随机提问,随机回答,随机赞同热门问题。但在真正需要顶的问题上,他们会分批出动,保证每个问题不至于有完全一致的赞同序列,而且如果两个id同时赞同了两个问题,他们的顺序必然是打乱的。例如,在GMAT问题和上日报问题里,269个重复赞的水军采取了完全不同的赞同顺序。
我暂时没有找到触发他们批量点赞的机制。我看了几个id,他们都没有赞同过我的回答,尽管他们赞同某个热门回答也只是为了伪装自己,但这已经够让人恶心的了。
我也不太相信妄想家会为了这么一个回答找水军,他的问题可能只是恰好被水军发现时一个批量刷赞的好去处而已。
ps:
在我写完这篇专栏不久,妄想家的回答就被折叠了,知乎的反机器人机制启动了,虽然我估计他的回答属于躺枪,没有请水军,却被水军刷了赞。
虽然已经被折叠,但是这个回答赞同数仍然在以一分钟一个的速度稳步上升,让我们拭目以待最后能达到几个赞,以及“随机刷赞”的假设是不是准确。