如何看待哈佛研究被指通过捏造数据,以证明疫情始于 8 月武汉?
知乎用户 sonatem 发表 大家好,我是哈佛论文的批评文章的作者之一,受第一作者的委托发布下面这个回答。(作者已授权本文的署名转载) -- 大家好,我是德国哥廷根大学应用与数值数学所的 陈浩 博士。我之前在知乎先后用过 @ …
不少人提到很多其他时间序列拟合出来的
也很高,这里先不纠结部分答主忽略了这些所谓的 “也很高” 的
其实比天猫的
低至少一个数量级的事实。我们先详细检验下这种三次方回归的预测效果。
这里我们做一个滚动预测,即从 2013 年起,我们每年开始用三次方回归预测接下来未来的所有数据。之所以选 2013 年是因为 2013 年开始起有了 5 个数据点,达到了做三次方拟合的最低要求(4 个数据点的话拟合度就是 100% 了,大概率过拟合)。结果如下:
统计下相对误差,得到下图:
比较让人震惊的是,用 2013 年的数据来预测 2019 年,误差也有只有 - 3.6%。 用 2017 年的数据预测今年的,甚至比用 2018 年的更精准。
作为比较,我们对前面有答主提到的美国黑色星期五的数据做同样预测(2009-2018 数据,同样用 3 次方模型),则得到的误差如下:
绿色的右下角看上去十分合理:预测的周期越远,误差越大。
再看下实际预测值,在长周期看来根本没就没什么预测能力:
我们换个角度看下预测 n 年后的数据和误差之间的关系:
明显看出,黑色星期五数据,预测的越远误差越大,天猫的。。。真牛逼。也许是因为黑五的数据由多个商家组成,不太好规划吧。
结论:
1、3 次方在天猫上拟合的不是一般的好,好的远超过其他时间序列。这个好不是由
体现的,而是由上述样本外检验(交叉验证)决定的。
观点:
1、不管怎么样,原博主真心牛逼,提前以千分之二的精度预测了今年双 11 的数据。这个牛逼主要体现在两个层面,一是提前性。提前 7 个月作出预测可比那些马后炮的拟合难度要高多了。二是精度真高。那些自称用多项式对其他时间序列做了预测的答主,你们自己看看你们的误差,好意思跟人家比吗?
2、我非常期待天猫明年的数字。3301 亿这个预测值现在已经传的全网到处都是了。明年天猫到底是跟还是不跟呢? 跟吧,会被调侃半天,而且时候的震撼效果肯定会差很多。刻意和预测值拉大差距吧,其实也会在拟合曲线上显示为异常值,毕竟公关负责人已经出来说了,增速稳定才是正常现象。
瞎猜:
1、KPI 压力导致为了完成计划不计手段?天猫执行力牛逼?
3、双 11 的销售计划划尼玛难道 2013 年就做好了??
最后补充一些学术讨论:
有答主提到,美国黑色星期五的数据,如果用线性模型做预测,误差也不大。但线性能预测是不值得一提的,它仅代表了增速稳定而已,属于常见现象。而三次方在样本外长期表现好是一个奇葩现象,一是因为它很难像线性或者指数一样被解释为某些自然规律,二是是三次方由于参数多,容易被过拟合,导致样本外结果惨不忍睹,比如在黑五上。而天猫正的三次方却没有过拟合,这才是它真正异常的地方。
后续我会系统的搜集一批 2009-2019 期间的宏观数据,并系统的扫描各类模型的样本外表现,真正有意义的统计一下天猫数据是否属于小概率事件。也欢迎大家推荐数据源。
感谢您的关注。因遭到知乎的不公平对待,本人移至今日头条,id:智汇元。点击下面的链接可以关注我:
那要看造假的定义是什么了。
以下仅供举例,纯属虚构,如有雷同,纯属巧合。
A 公司参加双十一促销,预计销售额 8 亿。天猫按照 8 亿规模配备了流量资源。
双十一开始 8 分钟后,A 公司发现实际购买转化率不足,有可能完不成 8 亿的销售规模。
天猫增加了流量导入;A 公司增加了促销投入。
数据仍然不足以保证 KPI 的实现。
A 公司要求渠道商线上进货,取消每个账户限购 5 台的规定。约定渠道商可以比渠道价还低,双十一结束后以返点形式体现。
渠道商开启了线上批发模式。
但是仍然达不到预计目标。A 公司要求渠道商导入线下客户。
渠道商人肉 call 门店,门店人肉 call 有购买意向的客户。给予特别折扣,推动其线上购货,或者后台代客下单。
仍然认购额不足,A 公司求助总裁办。
总裁办通过内部 IM 下文,集团年度内购即时开始,每人限购 10 台。购买的同事第二个月凭借未退货订购记录,领取每人最多 2500 块的补助。
一直等内部优惠购的同事们也行动起来了。
仍然认购额不足,A 公司代运营团队找来线上推广合作伙伴。增加预算导入流量,暗示以实际认购额论费用。
各种闻所未闻的流量来了,还有专业的认购团队。
仍然认购额不足,A 公司求助天猫总部。
天猫总部帮 A 公司找了一批愿意以合适价格线上拿货的商家。
最终,A 公司 KPI 顺利完成。大肆宣传天猫完成亿元销售只需??秒,24 小时完成销售额超过 8 亿元。
实际算算帐,A 公司发现其实不怎么赚钱,熬了 3 天 3 夜没合眼的电商代运营团队,连发个加班费都没有。还连带着渠道商哭天喊地。
B 公司看到 A 公司的故事,摩拳擦掌跃跃欲试。第二年双十一打算卖 10 亿元。
C 公司看到 A 公司的故事,振奋精神打算卖 12 亿元。
他们跑步奔向天猫总部。
这是大品牌。小品牌流量给到数(又不给钱加买、且那天也没流量卖给你)、就直接从双十一促销里消失了。
说句不好听的,阿里可以协调商家最后拟合度 100%。不过那没必要。
下面是个人看法。
非品牌流量就是个绳套、只不过前面挂了块奶酪。
当年国美苏宁,就是用线下流量把全国家电企业套住了大半。
现在是阿里和京东。
拼多多的出现是品牌商喜闻乐见的大快人心的。
这让他们脖子上的绳套松了一点。
反电商二选一、也是把绳套松一点。
所有砸钱买流量的人,都是流量的包衣奴才。以后要跪着给流量主子请安的。
把精力更多用在怎么冲业绩上,用在产品改进技术研发的必然减少。
而后者才是隔断绳套的刀。
延伸阅读:
[为什么传统行业几乎都用 Oracle,而互联网行业几乎都不用 Oracle 呢?www.zhihu.com
](https://www.zhihu.com/question/327831901/answer/894268452)
统计学方面有很多知友的讨论已经很好了,我从公共关系 / 政府关系的逻辑来讨论一下。
一直以来,阿里是以公共关系 / 政府关系水平高而著称的。尤其是他们把阿里的业务和主流意识形态结合是非常厉害的。
举个例子,2017 年左右年网上有个 “新四大发明” 的说法,也就是高铁、网购、移动支付和共享单车。有意思的是,其中只有高铁是政府力量主导的,另外三个都是互联网公司们搞出来的。尤其是网购和移动支付,基本上大家都会认为是阿里的名片。新华社、人民日报、央视等官方媒体一度采纳了这个话语体系并广泛宣传。
而这个说法,没错,就是阿里通过一些间接操作炒起来的。
双十一也是同理。最近几年,它已经变成了中国经济的晴雨表、中国科技发展的见证者、消费者信心的检验器。
[“双十一” 见证中国经济内在活力www.bjnews.com.cn
](https://link.zhihu.com/?target=http%3A//www.bjnews.com.cn/opinion/2018/11/12/520404.html)
不过这一类的宣传策略也会有副作用。
好比说 “新四大发明”,不仅在社交媒体上一直有普通网友质疑这个说法的准确性,也有接近体制的人士公开批评:
[体制内震撼发声:“新四大发明” 忽悠了领导忽悠了公众忽悠了自己mp.weixin.qq.com
](https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/hHgxfAQ0PYArnBft39bcdg)
再往后,“新四大发明” 这个提法就变得低调了不少。
说回到双十一。不管这个 “完美数据” 是人工造假,还是先按照目标分解任务要求各参与方必须不计代价完成指标其实差别都不大。关键的问题在于阿里系多年来已经给这个数据赋予了很多意义(而且我个人认为双十一成交额的确对中国经济趋势有一定指标性的价值),就像一个狼人竞选了预言家,是退不下来的。尤其又碰上今年是贸易战,都不说总额下降了,哪怕增速下降都会带来很多不好的联想。
从这一点来看,公共关系 / 政府关系的策略真的是需要从长计议的。
数据能拟合一个简单的模型就是造假吗?那人口数据拟合得更好,岂不是实锤造假?对了我忘了确实有人每年都在说人口数据造假……
诚然,经济数据完美拟合模型不那么容易,但对于双十一这样的数据来说,反而更容易理解——因为任务目标就是这样的,那就完成任务。
事实很可能是——阿里在双十一上有自己的 KPI,而 KPI 是用简单的指数增长算出来的。有了 KPI,再层层分解,不断测算完成可能,想尽一切办法,压榨商家也好,预售期提前也好,锁定购物车只能双十一当天下单也好,都是完成 KPI 的手段。最终完成了 KPI,和造假也没什么关系。
另一个例子是中国的数据,很多人一直吐槽国内地方政府 GDP 之类的数字不真实,因为数字增长非常平稳,比如《蝙蝠侠黑暗骑士》里说的那样。
但政府本身就以 GDP 为目标,最后完成这个目标,不是一件很正常的事情吗?我接触到的一些地方政府,在前几年仍然考核 GDP 的时候,最后三季度发现数据不行,那四季度赶紧就得提前上马一些投资,招商引资要再勤快一点,工作会议上再催促压缩一下项目的签约时间。
这都是为了最终完成 GDP 目标的一个正常工作,这么多年来中国经济增长保持这个平稳增速,完成这个 KPI,地方官员是要尽到 120% 的努力的。换到阿里这样的企业上,这个任务完成只会更精确。
而区别在于,目前中国政府层面可能已经不考核 GDP 了,因为人们已经发现为了完成这个 KPI 所做的扭曲市场代价有些大。但阿里仍然在继续使用这个 KPI,并且为了完成这个 KPI 付出大量努力。
所以真正的问题应该是,在目前国内消费增速放缓的大前提下,用各种手段扭曲消费,保证双十一这个 KPI 的完成,代价会不会太大?最后是让人们把一年的东西放在一天里面下单,还是让消费者买了很多不需要的东西?如果为了完成 KPI 过度扭曲了人们的正常消费,甚至产生了对消费的挤出,那可能就有些得不偿失了。
这个问题的回答受到了与
等朋友讨论的大量启发。
很多回复都在混淆拟合和预测。
确实,高拟合度(R2)说明不了任何问题。基本的线性代数知识告诉我们,只要多项式的阶数足够高,你可以完美拟合任意数据。早在 1885 年,德国数学家 Karl Weierstrass 就证明,闭区域的任意一个连续实函数都可以被多项式以任意精度逼近。有些回答里面提到了泰勒级数,严格来说这个理解是不准确的。泰勒级数是在某一点的邻域以多项式近似代替一个函数,和 Weierstrass 定理中整个闭区域用多项式近似是非常不同的。
有几位答主(如
)提到原博主的模型是典型的伪回归 (spurious regression) 问题,我不赞同。我认为这种说法是典型的计量经济学式的先入为主。所谓伪回归,指的是在没有因果关系的变量 / 自变量之间建立了回归模型。计量经济学关注的是因果关系 (causal relationship),从这个视角来看那当然是存在很多伪回归。但是,因果推断(causal inference) 仅仅只是回归模型的一个作用,而并非全部作用。事实上,回归模型的另外一个更重要的作用是预测。
预测和因果推断在思维方式上是存在着本质的不同的。预测的时候并不关心内生性和多重共线性这类常常困扰着计量经济学家的问题。两个变量是因果关系还是相关关系也不重要。预测也不关心显著性和 p 值。当然这并不意味着预测比因果推断更简单。恰恰相反,预测有未来作为客观的评判标准,而因果推断本质上只是在拟合过去的数据,寻找相应的解释。这个话题本身可能有很大的争议性,感兴趣的可以看看 To Explain or to Predict? 这篇文章
预测模型关心的只有预测准确性问题。有几位答主提到,仅仅一次准确预测并不能说明什么问题。确实,这也是为什么做时序预测时也要做相应的交叉验证。当然时序预测模型的交叉验证不能像一般的机器学习模型的交叉验证一样打乱样本随机抽样,而要严格按照时间先后顺序划分训练集和验证集(见下表)。
真正令人诧异的并不是二次项模型对阿里巴巴双十一销售额的拟合度,而是它惊人的预测能力。仅仅使用 2009 年到 2014 年的数据拟合一个二次模型,对未来五年(2015 年 - 2019 年)双十一销售额做预测,结果如下表中第一行:
第一列为做模型拟合使用的数据起止年份,其它列中的百分比为模型预测值 / 实际值
所以从预测上说,这个模型是非常成功的,绝不是像很多答主批评的过拟合。至于这是不是意味着造假,那就是另外一回事了。我倾向于认为阿里内部就是用这个模型来制定 KPI 的。
有人让我不要怂,那我就不要怂,但我还是不太敢,打个比方吧。
有一个人抛硬币,连抛 10 次,都是正面。
B 看不下去了,跟这人说,你这硬币有问题,第十一次我打赌还是正面。
第十一次抛完以后,果然是正面。
这个时候 C 又跳出来了,说 B 是过拟合,第十一次还是二分之一,抛多了总有 11 连正面的。
并且还举出了很多历史上的十一连正的例子来证明这是过拟合。
比方打完了,剩下的自己想吧……
这问题都不知道能活多久,本来不太敢碰的发发想法就算了。
但是,我还是憋不住想说一句话。
我不知道之前有没有这样的定理,如果没有,那么今天就有了。
温酒定理之:数据是不会骗人的,但解读数据的人会。
拟合函数要是能预测 7 个月以后的数据,这帮人还会来刷知乎?
全炒股炒成徐翔了。
11.13 更新:
又来了一位 “专业人士”,通过一通高大上的计算,告诉我们双 11 销售额与社会消费总额正相关,与 CPI 负相关,所以没有造假。
对此我强烈质疑,认为有凑数据的嫌疑。(甚至有耍猴的嫌疑)
首先 CPI 和社会消费总额用三次回归拟合就很不合理。过拟合痕迹非常明显。
做个对比,用二次就舒服得多
双十一的话,二次三次看起来都挺正常的
更要命的,这位答主是取完对数再做三次拟合,这个说实话就有点搞笑了。原来是三次函数,取完对数明显就不是三次函数了呀。而且从这位答主给出的图可以看出,取完对数再三次拟合的残差,连正负都和直接三次拟合的残差不一致了。这样还怎么分析残差和什么有关呢。就算分析出来了也是另外一个 “残差”,跟原本二次 / 三次函数拟合的残差有什么关系呢。
还是再补两张图
这是取对数后的二次回归与三次回归。
对着拟合得这么差的回归曲线谈残差和什么有关,至少我觉得意义不明。
而且按照这位答主用的三次拟合,已经可以看到 2019 会有一个前所未有的大 “error”,不出意外 2020 会更大,到 2022 会大得惊人(注意上图拟合出来的三次函数 2018 以后的走向)。如果他的模型正确的话,今年中国会有前所未有的超低 GDP 或是超高 CPI???未来几年中国会…???
再来看按直接操作,“双 11 销售额与社会消费总额正相关,与 CPI 负相关” 是否成立
先都二次拟合,残差情况:
整理(计算值减实际值):
肉眼观 (xia) 察(cai),双 11 销售额与社会消费总额明显呈负相关,与 CPI 无明显关系。
综上,该 “专业人士” 的结论没有意义,纯属数字游戏。
(果然可以通过数据处理得到任意想要的结论啊。)
=================== 分鸽线 ===================
原回答:
先下结论:一切提过拟合的(比如四个参数画大象)都是鬼扯。说是因为增长本身就稳定的,也极不可靠。最大可能还是因为 KPI,而这里面确实是有灰色地带的。比如,如果商家为了完成目标自己下单凑够销售额,或者前面有答主提到的为了凑销售额免单,这就是妥妥的造假。
先说为什么不是过拟合。
十个点用二次多项式拟合我觉得一点都不过分(二次已经 0.99938 了),二次都不让用难道用线性吗?拿参数太多说事的我怀疑有没有认真学过概统。
再看这个曲线,非常舒服。作为对比,下图才是典型的 overfit
还可以用某个答主的历年日本参加 HSK 人数图作为对比
这就是看上去也能拟合,但明显残差大得多的结果。
当然上面这些不是最重要的,最最重要的是,人家是用之前数据的成功预测出了今年的啊。都能正确预测了怎么还会有人扯过拟合?
再说为什么不能简单用本身增长稳定、易预测来解释。人口、GDP 这种确实是本身就很稳定的(其实 GDP 也有 KPI 的影响了),问题在于这些都是真正意义上的宏观数据。而双十一销售额是一个一天的销售额,随机影响因素太多了。
而且,不妨用原次高赞答主给的数据做个对比。
全国的社会消费品零售总额(而且是全年的总和),做二次拟合
,天猫双十一一天的销售额做二次拟合
,差了一个数量级(其实样本量不一样,但是大概理解吧)。这个数据到底是想用来证明有问题还是没问题啊 (笑)
再看他给的美国的数据,这曲线明显没有双十一的漂亮啊。
关于亚马逊的,拟合出来
只有 0.9966, 同样差一个数量级。当然,亚马逊应该也有 KPI 的,估计是抓得没那么严。
【
更新:
关于亚马逊,我之前另外途径看到的是 2004~2013 拟合出来 0.9966,那位答主给的是 2015~2019 拟合出来 0.9966。我不知道是哪边写错了,或者恰好数字一样,所以之前不好说样本量的问题。如果真的是 5 年的数据才拟合出两个 9,那这个例子和天猫十年的数据 3 个 9 完全没有可比性。
直接这么比较
确实不科学,我只是大概示意一下。
也就是一个指标,毕竟列举出来的其他场景最多都只有两个 9,双十一拟合出来有三个 9,是不是总让人觉得有些特殊呢 。其实一个更直观、更朴素的指标就是预测的准确度。今年双十一实际 2684,预测 2689,准确度这么高所以很震撼。如果用亚马逊前四年的数据,不管二次还是三次拟合,来预测第五年的,误差都远远大于此,也就没那么震撼了。更有说服力的比较请参考这个回答:
[如何看待双十一销售额完美分布在三次回归曲线上且拟合高达 99.94%?是巧合还是造假?www.zhihu.com
](https://www.zhihu.com/question/355439478/answer/891718904)
】
说了半天,还是因为 KPI。
直接显示屏上造假一个数据应该不至于,但是各种擦边球应该少不了。从下到上一路上有没有虚报我也不敢乱说。“假”不一定有,但 “造” 恐怕是逃不了的。
最后,看各路 “专业人士” 怒斥“愚民”,说一切看似不合理的现象其实都是合理的,不也挺有意思吗。
就是希望这些 “专业人士” 哪天也能做个提前半年以上、精度千分之二以内的预测,给我们这些 “愚民” 开开眼。
双十一销量本来就是一个可以任意调控和操纵的数据。
首先是双十一销售额的确认标准,是按照付款时点计算还是拍下时点计算,是按照券后价计算还是券前价计算,是否包含运费保险?这里面都有大量的调整空间。
其次是是否有大量消费被提前透支或押后集中释放?不同于财务报表,双十一不能体现连续的财务表现,双十一前后的数据很可能产生较大的变动,但是都在这一天集中释放了。只要符合收入确认条件,财务数据通过业务手段跨期调整在形式上不属于财务造假,但这样显然是挖东墙补西墙,通过双十一 gmv 占全年 gmv 比值应该可以看到。
指数增长显然是有天花板的,如果双十一保持指数增长,但占全年 gmv 没有越来越高,那么势必年度 GMV 要保持指数增长,那阿里很快就能成为宇宙第一大公司了。
第三是这个指标如陈老师所说的,会受到 kpi 体制的塑造,它会呈现出高度拟合,可能本来就是 kpi 这么定。而这么定 kpi 的原因,则可能是流量争夺,挤压竞争对手,提高影响力等多方面的战略考量。如果不这么制定双 11,可能也不会发展的如此之快。
双 11 这个数字游戏长期保持这样的指数增长显然是不可能的,但是这个数字游戏就是用来不断压榨员工和供应商潜能,让阿里能够迫使其他列强跟着自己的节奏起舞的有力武器,如果以上市公司财务报表级别的口径和财务信息质量进行连续披露,这个数字恐怕不会那么的好看。至少买阿里股票不能看这个。
[
乐高 (LEGO) 积木 机械组 Technic 10 月新品 12 岁 + 利勃海
京东
¥ 3799.00
去购买
不能确定阿里的数据一定造假了,但是某些答主的洗地显然是有问题的。
不要拿年均的数据和日均数据比,年均数据比日均数据稳定很多。同样大额的销售数据也会比小额的销售数据稳定,零售的销售数据会比批发的销售数据稳定。我觉得拿阿里去和亚马逊的数据对比是可行的,但是感觉 prime day 的数据点有点少。
相关性上差一个量级关系真的很大,不能说 0.999 的数据一定有问题,但是拿 0.99 的数据过来洗,说它没问题,确实有点站不住脚,更别提
, 拿一个 5 个点的数据,用二次回归拟合出一个 0.99 还拿来说,你用一个 5 个点的数据,用三个参数拟合,这个才是真的过拟合,就这样你才 0.99。
再提一下 “过拟合”,9 个点确实有点少,也很有可能过拟合。但是这个事情的关键是用前 9 个点去预测第十个点,还预测的不错,这个可不是过拟合, 因为你只能对训练的数据过拟合,你不能对测试的数据去过拟合(预测时候还不知道今年的数据)
各位想洗地的答主不妨试一下用你们举得例子的 n-k 个点拟合出来的函数去预测后 k 个点,看看效果呗。
个人认为 R 方 = 0.999 的数据还是挺夸张的,特别是在今年经济环境不好,以及拼多多的冲击下,还能保持如此稳定的增长,是很值得怀疑的。
当然这种数据也不一定是造假,其他答主也提出了”KPI 说 “,” 财务调整说“等等。
至于 @尹立庆的推理,最主要的问题在于它只证实了今年的结果,如果可以验证明年或者后年的话,可信度会高很多,然而这个可能是无法实现了。至于只依靠今年的数据能够多大程度上证实数据是有问题的,这个就智者见智仁者见仁了。
看完这些回答我好害怕。
在知乎诸位数据科学从业者的眼里,只有直接写个错数字才叫造假。
价格设陷阱不算造假;
奇妙的退货规则不算造假;
变化莫测的红包发放和红包使用条件不算造假;
购物车锁定不算造假;
这些都叫——完成 KPI
会。
不说其他的,这些数据都不看
11 号下午到晚上的免单
就算是差不多数据造假了
并非小店
都是有牌子的旗舰店
打个比方说就是叭店里价格 200 的商品标价 2000,限定 2000 份,在某一时间段发出,然后通过羊毛群群主,通知给普通消费者,让消费者买下,并在确认收货以后全额返还。
这就是免单
我认为大家额度知道叭?
我同学为双十一贡献快一万,其中 9 千是免单。
包括护肤品,上一季的衣服,茶叶,内衣,全部以福袋方式发放免单
我因为同学薅羊毛不亦乐乎,我就去看了额,一件束腰带 800,两瓶精华 2000 一件我真心考不上的大衣(普通的黑白,袖子看着设计的都有点短)7000。
要不是大部分的价格劝退了我,我可能也会买点这样的
因为比如免单的牙膏
还有图上说的阿胶
都是因为价格太高了,我都没见过 500 以下的,我一买流动资金就没有了,我要过一段时间的穷苦生活。
我见到知乎上说店家和淘宝签了协议,有任务额。
我个人以为,这种福袋免单活动就是为了填任务额的,真的非常难抢,比双十一整点难抢多了,基本上盯着福袋出来,付款密码打完就没货了,不要钱东西谁不想要呢。
我们贫穷的学生党在这上面花 9000 薅羊毛,其他抢福袋高手就不知道了,比如群主,他说他七个号,百雀羚有款面膜(不免单,但是特别便宜)薅回来转手就翻几倍
我觉得双十一已经不是在开心的买东西了
而是在分级做生意了
前天天晚上我哐哐分三次把所有要买的全部下单付款,睡觉了
昨天下午午觉醒来,我发现 tm 我还有一个 18.8 的红包,于是又去下个单
紧接着,我同学提醒心金币庄园里种的树红包没收,我一去看 2 块钱
于是加上剩的红包,又下一单
心力交瘁。
我
以前
都一单结束的
今年草稿纸打了两张准备了各种万一东西被秒了,我应该买什么凑满减
不同金额的满减分开下单,以防弄错
真心累
最后发现 tm 还有免单
种种套路都在刺激你接着买,还买,继续买,甚至送给你,只要你付钱买。
这不是造假呢?
还不用捏造数据
spurious regression / 样本过少什么的根本不是重点呀…
这可是单次的数据,shock 肯定比人口 / GDP / 消费这种年度数据要大得多。可是居然能如此平滑,一点 error 也没有。
大概只有两种解释,要么是造假,要么如高赞所说,KPI 指标就是按照这个模型制定的。
经济学中确实不太看重 R-squared(拟合优度),因此这些科班出身的朋友们对这种级别的 R-squared 不够敏感也是可以理解的。如果加入今年的真实数据(2684 亿),设置三个参数进行回归,那么 R-squared 为 0.9996;而如果今年的数据在 2267 亿至 3172 亿之间,那么进行同样的回归得出的 R-squared 依然超过 0.99.
而如果跳出计量经济学的框架,并不试图去理解数据、分析机制时,我们会看到设定简单的参数就能对数据拟合得如此漂亮,这大几率能够反应双十一的销售额确实存在某个明确的目标。当然,当我们无法获取具体分时数据时,很难从最终的总数据上去区分是完成既定 KPI 还是造假。
补个回归结果的图吧。
如果使用相同模型(3 个参数),采用 2009 至 2017 年的数据,可以估测出 2018 年和 2019 年的销售额分别为 2143 亿和 2683 亿,而实际为 2135 亿和 2684 亿。
本科学的经济学,不做经济学已经好多年了,先用三张图抛砖引玉一下:这是一个宏观计量经济学中比较典型的 “伪回归 / 伪相关” 问题(spurious regression/spurious relationship)。[防杠:我还在做民意测验和政策评估的统计学,因此请不要先入为主地认为作者缺乏统计学常识]
2009-2018 社会消费品零售总额 数据来源:国家统计局
1999-2018 社会消费品零售总额 数据来源:国家统计局
2009-2018 美国零售总额 数据来源:美国联邦储备银行圣路易斯分行
最后再防杠一下。2015 年美国亚马逊开始搞 Prime Day 大促销,2015-2019 年的 Prime Day 日销售量用带二次项的线性回归拟合的 R2 是 0.997,但反正你也可以认为亚马逊也在造假。(这一工作是可视化了
在微信群里的分享)
亚马逊 Prime Day 日销售量 (billion USD) 2015-2019 数据来源:Statista
知乎上学计算机的比较多,很看重所谓的 “训练集”“测试集” 问题。那就再多说两句,宏观数据的性质就是这样,如果没有结构性变化相对容易预测,只要关注世界各国(不仅仅是中国)对于各国经济增长的预测即可,比题主贴文里的预测准多了。一般来说,宏观经济学家对于平常年份的经济增长预测比作者准多了,大家诟病预测不准只是说金融危机即结构性变化预测不准而已。
-—————————-In Response to 知友
-—————————-
Lee Sam 尝试用历史数据做回测的想法很好,可惜用三次方模型来预测 Black Friday Sales 并不公平。因为 Black Friday Sales 的数据生成过程很可能是线性的,如果研究者用 09-13 年五年的数据去估计一个三次方程,当然对线性增长存在过拟合的问题。换言之,用 09-13 年的数据估计回归方程的时候,二次项和三次项的系数是不稳健的,但预测的时候你有一当一地用,当然会出问题。
如果按照知友
的方法错误地使用三次方程(天蓝线)来预测,用 09-13 年的数据去预测 18 年的销量,误差的确超过了 10%,但同样的数据用线性模型(深蓝线)去做,误差是 4.1%,和 Lee Sam 所谓的阿里巴巴的 “预测” 误差 2%-3% 大致相当。
参见下图:
数据来源:How Much Do Americans Spend on Black Friday?
知友
计算的阿里巴巴双十一预测相对误差附下方便参阅比较
-——————————– 再答知友问:—————————————
大部分答案只关注了这个高拟合度,问题这是用 18 年拟合的曲线,来预测 19 年的数据,并且几乎没有误差的准确预测了。而不仅仅是说把历史所有数据过拟合了一条高拟合度的曲线。这个是有质得区别的。所以还是 kpi 精准拆解的可能性相对大那么一点,至于这里面有没有凑 kpi 的行为,那就难说了。
顺便说一句那些一个个掏出几个专业名词或者代码吓唬人的孩子们,求你们把课本丢掉,换个题目作下准确度这么高的预测。
个人感觉,像这样的罗生门,我们万万不能被别人牵着鼻子走。思路被人带跑了,就很被动了。
至少我看到的讨论里面,大家还都围绕着 “拟合的这么好到底合不合理” 这个角度来讨论,有的人认为拟合的这么好一定是造假,也有人辩驳说,时间序列里面的 R2 非常高是很正常的现象,并列举了亚马逊、黑色星期五的例子,都非常有意义。
但是,这些例子再多,也打消不了别人的疑虑:因为拟合的实在太好了!
所以要回答这个问题,我们必须得另辟蹊径。
我们可以试想一下,如果淘宝的确是按照三次方的函数关系伪造数据的话,那么有一个推论是:伪造的数据不可能跟任何实际数据有可解释的相关性。
所以,我们只要找到淘宝的双 11 数据与现实数据是否有相关性、这些相关性是否合理,就大概可以判断他们是否造假了:如果真心找不到任何数据能够佐证双十一的销售数据,那么几乎一定造假了。
当然反过来,如果我们找到了其他数据能够佐证双十一的销售数据,我们当然也不能说他们就没造假,只能说现有证据不支持他们造假的结论,如果你们说他一定是造假的,那么造假也造的挺有水平的。
在科学中,证伪一件事情总是比证实要简单,所以我们就来看看,我们能不能证伪 “双 11 数据没有造假” 这件事情。
所以我找了几个简单的数据:GDP、社会消费总额、CPI,这几个变量应该是根双 11 最息息相关的了:收入越高,双 11 消费越高;社会消费总额显然应该与双 11 有高度相关性;CPI 越高,消费应该越低。
如果我们发现,这三个变量都跟双 11 的销售数据没有相关性,那么拍脑袋造假的可能性就很高了。
废话不多说,先看看数据,国家统计总局的数据:
我们不妨先画个图看看,不过毕竟几个数据的规模差别很大,我们把所有数据都除以其 2009 年的值,从而所有数据在 2009 年都是从 1 开始,就有了下面这张图:
看起来非常不符合直觉,造假石锤。且慢,双 11 从 2009 年到现在,从小规模做做到变成了今天所有商家参加的全民活动,规模增长快也是可以理解的。跑赢 GDP 并不算什么,所以这并不是什么直接的证据。
那我们去趋势看看呢?去了三次方的趋势之后,有了下图:
同样的,由于双 11 的增长的确太快,残差都 dominate 了其他几个变量,啥也看不出来。
其实最好的一个处理方式是先取对数再预测,这也是经济学和统计学里面常用的做法,我们取对数之后再用三次方拟合,得到了如下的图:
大概能看出一些端倪了,特别是 CPI,好像有一点点负相关的关系。这个时候似乎对他们造假的质疑应该有点动摇了。
那么如何统计上检验呢?我们不妨做个回归看看。**我们首先拿上面取过对数的数据对时间做三次拟合,得到残差,然后对残差进行分析。**不过对于时间序列数据,做回归之前要先检验平稳性,我们使用 ADF 检验检验了各个变量的残差的平稳性,都挺平稳的,可以放心地做回归了,回归结果如下:
可以看到,F 统计量勉强过关,不过双 11 销售额与社会消费总额正相关,与 CPI 强负相关,看起来还是非常符合直觉的。
当然,在时间序列中,通过确定性方程去趋势总是有点不舒服,因为总是会感觉随机趋势没有去除干净,那怎么办呢?我们不妨继续按照经济学的套路,先取对数,再求差分,检验平稳性,最后回归。
取对数差分之后的图:
看起来取对数差分之后双 11 的销售额还是有点趋势的,增长率有减少的趋势,这也是可以想象的。考虑到这一层,我在回归里面额外控制了趋势项,并检验残差的平稳性以保证变量之间有协整(cointegration)关系,结果如下:
我分别尝试了使用 2 次和 3 次多项式作为额外的控制以排除趋势,最后检验残差有没有单位根,都没有单位根意味着残差平稳,所以有协整关系。
最后得到了同样的结论,双 11 销售额与社会消费总额正相关,与 CPI 负相关,甚至与收入都可能有正相关关系。
所以,至少从现有证据来看,并不能认为双 11 的销售额数据是完全造假的,证据并不充分。所有的现象都在可以理解的范围以内。
如果造假,那造假手段也算高超:都考虑了全社会消费额还有 CPI 呢!!
讲道理,基于以上的数据分析,就得出阿里数据造假,我个人是不敢苟同的,但是这并不妨碍我认为阿里数据存在造假的可能性,或者数据没有什么参考意义。
什么意思呢?
比如我举个例子,阿里内部肯定有 kpi 的,他们每年给自己定的 kpi 肯定不会随口一拍,必然会根据以往历年数据做各种推算,以确保在破记录、增速、营收等等给一个内外满意的答复,然后真正到时候,全部门一股气去冲,等冲到了也就松口气了。
所以没准阿里内部就是按照这个内部回归曲线去推算的 kpi,然后全力冲到后自然没有太多的干劲了。
有人可能问了,那内部不能再定的目标高点?翻个倍啥的嘛?
别说现在这个规模不太可能了,就是可能,内部也不会这么搞。要知道今年 kpi 翻倍了,那明年、后年的该咋整?胖子不是一口气吃上来的。
这也就是我说的,不能单纯凭借这个预测就完全得出阿里数据造假的结论。
但是呢,我又说了,这也并不能说阿里数据就没造假,我甚至认为这每年的 GMV 数据破纪录毫无意义。
举几个例子:
去年你买了斤猪肉 20 块一斤,今年还是你这个人,还是买了一斤猪肉,花了 50 块,其实购物人次、订单量、平台等都没发生变化,但 GMV 就是翻了 2.5 倍,你觉得这种翻倍有意义嘛?
再举个例子,为了冲双十一当天的数据,提前一个月之前就锁定了交易金额,让你先交定金,等到双十一这天再让你成交,说是这天的数据,但其实前后不知道是多少天的购物交易了,冲这个当天的销售数据有意义么?
再比如,大家都听过刷单吧?且不说阿里内部会不会自己给自己刷单,就说各大商家吧,每家为了冲自己业绩,对外数据展示的好看些,你能知道多少商家是自己给自己刷单么?这些各种商家刷单产生的销售额有多少,占比多少你晓得么?
我就还不提后面有多少退款的行为了。
所以,我说这并不能说明这数据没有造假的可能性,而且管它造不造假,我个人一直觉得这数据没任何意义。
且看吧,不管经济如何,不管人们的消费能力如何,不管以后如何发展,一定会是每年总 GMV 会持续破记录的,现实不允许这个数据下降,但这种数据不过是一种虚假繁荣,营造了平台牛逼,消费者购买力牛逼的假象,其实毫无意义。
这种毫无意义的数据,大家看看就好。
很有意思的一个情况,首先说明个人非数学专业,看了几个比较有理有据的回答,感觉还是有问题没有考虑到。
时间所限没有自己去拿数据做拟合和预测,仅仅讲一讲个人感觉存在的问题,并提供验证造假与否的思路。
首先是一位答主拟合了国家经济增长,并以此说明双十一数据没问题,然而,事实上他所进行的拟合与双十一事实上是差了一个数量级的,虽然两个 R 都很小,但好像不应因此直观判定吧,0.000001 和 0.0000001 是很不相同的。
同时,最大的一个问题是,拿经济增长来对比双十一真的合适吗?即便拟合出来误差是一个数量级甚至更精确,但是两者性质并不能直观地判定为相同,我不是学经济的,但是我没有看到任何一个回答对两者的同质性给予学术论证。
或者,说得直白一点,不能因为你把铁球落下时各点的速度测了一遍拟合以后发现效果十分完美(因为本身这玩意就直接反映物理学公式),就说一个运动员扔了十次球每次抛出后 2 秒时球的速度可以完美拟合是正常的,因为两者看起来都是球的运动,实际上完全不同质。
也许在双十一背后确实有我们没有发现的(或者说是因为我太菜了不知道的┐(´-`)┌)经济学规律,就像铁球的下落速度可以完美拟合是因为有确定的物理公式直接联系一样。但同样有可能,这本身不应该是如此确定的事件。
或者再说得准确一点,这个问题的关键在于,实际预测出的精度,和以这种方法对这一问题进行预测应该有的精度是不是相符合的。
到目前为止,我所唯一看见比较同质的黑五预测,精度也是差了一个数量级的。
综上,个人认为要想证明淘宝的清白,需要选取多组与双十一销量同质的数据(比如京东双十一销量),对比拟合或预测精度,而不是揪国家经济增长这样的东西出来对比。
一问见逼乎平均水平。放着最后精准预测到今年双十一销售额不论,扣 “拟合” 的字眼,可见很多人问题描述都没看完就来讨论问题了。
我找到了美国黑五购物的 08-18 的数据(https://www.thebalance.com/what-is-black-friday-3305710),然后尝试用多项式回归做了一下,拿 08-17 年为训练集,18 年为测试集
二次线性回归 r-squared 0.9944142038405243
预测 18 年 707.035 实际 717.5
三次线性回归 r-squared 0.9945320864059383
预测 18 年 710.14666667 实际 717.5
四次线性回归 r-squared 0.996162712207455
预测 18 年 730.19166667 实际 717.5
所以如果我直接预测 18 年,也可以把范围控制在 707-730 之间,实际 717,我也预测对了。
直觉上,只要这个增长没有太多人为干预或者天灾人祸(比如 08 年次贷危机的时候,美国黑五销售数据就不增反降),跟着经济大盘正常增长,应该不难用多项式回归去拟合一个 99% 正确的结果,开开脑洞,你把全世界的人的身高排一排,发现正好符合正态分布,你也不能说人类正在进行全球性的身高作假,你只能说自然的身高分布就是符合正态高斯,而一个自然的增长曲线就比较像多项式曲线。
好像还有很多质疑的,可能大家直觉上认为多项式拟合很菜?学过泰勒展开的话,应该知道多项式函数可以用来近似一切函数分布(经评论区提醒,感觉加个光滑的解析函数更准确一些),咱不是说阿里没有作假,而是说假如你要说阿里造假,得拿出更有说服力的数学模型,目前这个说法,实在太 weak 了,不值一驳。
本来就人为设计好的,说造假的人是不知道今年双 11 对阿里多重要。
内部:马云退休,张勇当董事局主席第一年。新皇登基的第一件事就是立威,何况张勇逍遥子是双 11 的设计者,相当于太子当年上位的根基。
外部:经济下行,消费萎缩,拼多多崛起,几乎所有阿里系的敌人,比如王兴就等着看笑话。
增长一旦不及预期所有人都会认为——张勇不行,阿里不行,股票暴跌,军心不稳。
如果你是张勇,怎么搞?我当然是要举全公司之力确保万无一失。
所以为了放保险,第一步把接近 3000 亿的目标压下去啊。
这是任何做过销售的都知道的伎俩——年底压货。今年到年底业绩完不成年终奖泡汤,经销商请把我明年要卖的货先买了,后面返点提成再说。这个事情可能提前几个月就已经开始布置了。比如去年 xxx 销售 10 个亿,今年摊派就 12 个亿,反正阿里数据都在手上。加流量,返点,批发,后台下单,总之,只要你配合,我们想方设法,一起搞到 12 亿。优惠明年再说。
第二步就是逼着不确定因素二选一,违法也无所谓。
为什么要保住红线?逼得打官司都要二选一。因为输了官司阿里顶多赔几十万美元,输了双十一股票一跌就是几十亿美元。
第三就是双十一当天的纠偏,如果销售还不及预期,往往最后三个小时都会发大额券。
最后,不得不说阿里还是牛。
造假肯定算不上,更多地是 kpi,这点我也同意。
但是有些答主,甚至一些大 v 就别洗地了好吗?。
这个微博之所以影响这么大就是因为能提前半年精确预测销售数据,到你们这里就变成事后拿数据拟合?
良心呢各位?
文章的核心观点,就是作者通过二元多项式拟合,可以通过 2009-2018 的双 11 销量数据,准确推断出 2019 年销量,且误差极小。因为得出了阿里双 11 销量数据是人为造假的结论。
作为一个刚学 python 的小朋友,我用 numpy 的 polyfit 做一个二次多项式拟合,来复刻一下这个结论到底靠不靠谱。
原来作者用 09-18 年的销售额预测 19 年,我打算做得极致一点:
一个非常有趣的结果是,如果只用前 5 年数据来推测 19 年的销售额,得到的结果是 2581 亿,跟今天公布的实际值 2684 误差也是非常小的。
让我们看看误差的 % 情况,更直观一些。
从平均误差 % 来看,除了用 09-11 推未来的误差非常大以外,其后的模型误差都已经比较小了。再到最近 2 次的误差,已经小于 1% 了。
这或许就是有人怀疑这个数据是「做出来」的原因吧。可是,我们用 09-13 年数据推车 19 年的销售额已经很准了,你能说他们持续作假了 5、6 年么?
以前我们做运营年度预算的时候,通常都会基于实际情况和经验预估,给一个「跳一跳够得着」的目标。
这个目标定得和实际越接近,说明你对于这件事情的理解和掌握越深刻。
比如说,要计算出物体从高空下落 10 米以后的速度。你掌握了地球重力加速度、时间、速度的关系,你计算得很精确,说明你对这件事的本质掌握得很通透。(当然高空丢东西是错误的,不能学习。^_^)
老板们基于实际情况和经验预估,给一个今年双 11「跳一跳够得着」的目标。
内部需要把它拆解成流量、商家支持、促销方案、定金预付额、提前准备时间等等具体的工作指标。(最不要脸的方案就是将 N 天的购物欲释放到 1 天来完成)当准备工作差不多到了以后,就不用再挖空心思想方法了,执行预订计划即可。
高层定数字,下面拆解、落实、完成(通常不会超量太多,给明年留一点余地)。
这就是我们看到的通过二项式拟合预测的数字,和实际出来的数字相差不大的原因。
所以,能够推测出阿里双 11 的销售额并不能说明他们作假。反而是他们对于流量、电商、促销这些玩法把握得更通透的体现。
当然,这种通透过分了,就演变成我们讨厌的「套路」了。
如果你想自己实践一下这个多项式拟合,我在 colab 上已经共享了这段代码,供折腾。
https://colab.research.google.com
满口拟合不谈预测成功的都是耍流氓
我从一个数据工作者的角度来回答一下,数据调整和数据造假根本就是两回事。
经常做财务工作的朋友可能会知道,财务记账根本不是一件绝对的事,中间是有不小的调整空间的,研发人员的餐饮补贴既可以算在研发投入中也可以算在经营成本中,今年签订的合同既可以今年入账,也可以明年入账,不同的账款选用哪种方法摊销好像都有道理,在合理的范围内,随便你怎么做账。
例如 A 股就普遍存在这种情况,咱们先看美国净资产回报率的企业分布率,是呈现下图正态分布的走势,这种才是上市公司正常的资产回报率走势,明显没有什么财务操作。
而 A 股在投资回报率为 0 的地方出现了一次断崖,说明有大量上市公司将净利润进行了调整,要么提高了净利润,要么让亏损更多,为下次财报做准备,反正只要不是连续三年亏损就不会退市。这能说明 A 股的公司喜欢财务造假吗?还真不能确定,只能说有政策、制度因素在驱动中国的上市公司在做财务调整,好让它们的数据更能满足自身利益。
回到阿里的事件上来看,它们双十一的数据调整了吗?肯定调整了。造假了吗?我不知道,也不敢确定。
咱们可以先来对比一下阿里营收和双十一成交额的数据。增长曲线都满足三项式回归曲线,而且营收的增幅好像比双十一的成交额增幅更大,如果这也能算是财务造假的话,哪位胆大的可以去美国证监会举报了,绝对是一条发家致富的道路。
其实单用一个三项式拟合就说双十一数据造假的话,证据还有些不够,因为市场中大多数公开数据都有数学公式的影子,GDP、人口数这些数据都不说了,最典型的就是波士顿、艾瑞这些智库的研究报告和券商的行业分析报告,对于一些市场无法测算的数据,它们都是采用一些公式来估算,10 个数据 9 个猜,剩下一个靠监管。但我们还不能简单说这些数据就是造假的,人家还是通过一定算法估算出来的最优解,虽然带有一定主观目的。
最后,很多朋友说这是阿里控制优惠券、通过大数据提前测算的结果,我觉得这就有点厚黑了,虽然他们现在大数据的能力已经很强大了,也完全没必要控制得这么精确啊,对比来看,还是直接跳转显示器数据来得比较简单直接。
如果我是负责双十一数据的人的话,我先设定今年总 KPI 就是 2680 亿左右,再拉出前几年分时真实成交额数据,直接对应每分每秒应该成交的额度,最后再想想今年我要重点凸显哪几个数据,比如多少秒破 10 亿,多少秒破百亿,最后再考虑一下凌晨 1 点的支付分流会导致成交额短时间暴涨,全天分时的成交数据我就能给你安排得明明白白,找不出一点纰漏。最后,你还要问我数据造假了吗?我认为还是没有的,比较淘宝目前是真的还处于增长阶段。
根据易观的数据显示,淘宝 APP 的活跃用户规模一直处于增长阶段,月活都快要超过 7 亿了,而且人们线上花钱的金额越来越高,这个增长数据也能说得过去。
最后,打个广告,公众号:原来是凌乐
一个靠数据分析股市逻辑的公众号
先放一个 2016 年旧闻
这个事最后我没查到消息,应该是被压下去了
有的回答拿亚马逊数据或者 gdp 数据去拟合,试图说明产生这么高的拟合程度是自然的。
我们暂且不提亚马逊拟合 R^2^ 比双十一的预测低了一个数量级(R^2 越低在一定程度上说明模型预测能力较前者差)
这里引用一下知乎某匿名答主的部分回答
我们严格按照时间先后顺序划分训练集和验证集(见下表)。
真正令人诧异的并不是二次项模型对阿里巴巴双十一销售额的拟合度,而是它惊人的预测能力。仅仅使用 2009 年到 2014 年的数据拟合一个二次模型,对未来五年(2015 年 - 2019 年)双十一销售额做预测,结果如下表中第一行:
https://www.zhihu.com/question/355439478/answer/891793395
我去拿亚马逊 / GDP 这样的数据做了同样的事情,错误率分分钟飙到 20%,是上面双十一模型误差的 4 倍.
python 统计代码放在最下面了,感兴趣可以拿别的数据跑一下,你就会发现双十一这个模型的预测能力有多强,吊打某些大 V 的亚马逊模型之类的
至于有的人说阿里执行能力 NB ,能提前几年就定好增长 kpi,并完美执行 kpi 目标。
可能没这么复杂。
每年老大定个双十一增长 25% 上下浮动的增长目标,今年数据多了就少报一点避免明年没完成增长目标,今年少了就多发几个红包,更改一下统计口径
(双十一销售额是由多项数据综合得到的,对于这种高维的结果,动几个统计定义 / 规则,让财报变得好看,是上市公司的日常操作。)
因此,增长幅度会有所调整,但二阶导几乎不变。
对于这种二阶导几乎不变的数据,三阶多项式很容易能取得一个好的拟合,另一个典型例子是格力财报的营收。
因此,最后的数据一定是一个平滑且能用一个简单函数去拟合的,尽管内部人员可能都没发现这个规律 / 函数
同时,**这并不能说是造假石锤,**如果能用简单的高中数学就能石锤造假了,阿里的会计师都该走人了,本来 2016 年的时候 SEC 就双十一数据调查过阿里,浑水公司之类的大空头肯定盯着。指控对方财报造假做空股票可是个大生意。
综上,这个事情说大可大,说小可小。
从上市公司角度来看,通过改个统计规则,美化下数据是日常操作。
从其他角度来讲,修改 / 美化数据就是改了,放在学术论文上是严重的学术不端。
统计代码,匆匆写下,命名规范之类的没太在意:
import numpy as np
from sklearn.metrics import r2\_score
# 2000~2008年中国GDP数据
x = np.array(\[2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008\])
y = np.array(\[1.21, 1.34, 1.47, 1.66, 1.96, 2.29, 2.75, 3.55, 4.59\])
# 双十一数据
# x = np.array(\[2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018\])
# y = np.array(\[0.5, 9.36, 52, 191, 350, 571, 912, 1207, 1682.69, 2135\])
fit = np.polyfit(x,y, 2)
p1 = np.poly1d(fit)
y\_predict = p1(x)
r2 = r2\_score(y, y\_predict)
#计算R2
print(r2)
# 拿一半数据做验证集,计算正确率
fit2 = np.polyfit(x\[0:6\], y\[0:6\], 2)
p2 = np.poly1d(fit2)
y\_predict = p2(x)
for i in range(len(y\_predict)):
print((y\_predict\[i\]-y\[i\])/y\[i\])
[如何看待双十一销售额完美分布在三次回归曲线上且拟合高达 99.94%?是巧合还是造假?www.zhihu.com
](https://www.zhihu.com/question/355439478/answer/891718904)
这个答案解释的更清楚一些。
关键的问题包括,R2 的数量级,和更加麻烦的,滚动预测的问题。
如果 2013 年的时候,有人冒出来这个念头,那他是几乎可以 以大约 3% 的误差,预测到今年销售额。
这可不是什么 ” 稳定增长的人口数量 “之类的预测。
想象一下,
在 2013 年,有这么一个人,用着 3G 的网络(2013 年底才开始发 4G 牌照),iphone5S ,和 Surface pro2 ,
在滴滴刚刚上线,抖音和拼多多都没有成立情况下,
在快手刚刚从一个 GIF 转换工具开始转型的时候,
仅仅使用过去几年的数据,和几乎最简单的数学工具,就可以极大的准确性,预测出到现在为止 6 年中,每一年的数据。
在这六年中,我们的 GDP 从接近 7.7% 落到 6%,海淀房子的均价从五万涨到了九万,川普从一个
的热爱 WWE 和俄国大妞的亿万富翁变成了这个世界最大强权的领袖。
然而这一切,都不会影响到当年做出的预测。
那能说明这个销售额造假吗?
不,不能。
这种数字的分析,只能给出一些线索,一些问题,
针对这些疑问,永远都可以给出无数的解释,
你只要选择了相信,那质疑永远都不够充分。
如果没有买阿里股票的话,这种事跟我们这种买家真的一点关系都没有,我参与双十一只是单纯的来捡便宜少花钱的。花的不多只有几千块钱,但大多东西都是三四折左右入手的,算下来也省了大几千块钱。我关心的是这个,我能关心的也只有这个,即使双十一销售额负增长,只要有不错的优惠我依然会花钱,没办法我的钱包就是这么实诚 (ಥ_ಥ)
你为什么要在双十一期间买东西?
是想为阿里增加销售额吗?
是想为促进内需做贡献吗?
不!我不想为阿里增加销售额!
也不想为促进内需做贡献!
我在双十一期间买东西是因为穷!是穷啊!(눈_눈)
是不是过拟合不重要,重要的是预测!
好比我们把过去 10 年的 A 股来个过拟合,按照结果预测下一年然后进行操作肯定亏得底裤都没了!
但是这位博主预测准确率高达 99%!
可见定 KPI 的时候,引入随机变量是多么重要!
国家邮政口径,12 日发货量(带物流编号的)就超过了 5 亿,双十一发货期是七天之内。整体包裹不低于 20 亿妥妥的,淘宝占一半。每个包裹 300 左右,10 亿个也差不多 3000 亿左右。在这个大数据时代造假哪那么容易。
难道只有 69 分直接改成 96 分叫造假?这种通过各种巧立名目,控制优惠券,定金提前锁定,以及背后未知的计算方式,其实际上和造假差不了太多了。
我就是干淘宝的,说出隐情可能不大好,但是事实就是阿里为了双十一的数据历年增长,做了很多努力,
1. 年年津贴的增长,一年比一年高的门槛,今年更是达到了 400-50 的门槛,就是促使大家多下单,多凑单,拉高个人消费能力,购物门槛提高了,总量也就提高了,
2. 增加和完善预售机制,最早的双十一是没有预售的,后来为了增加单天销售额提出了预售,大概就是预售 10 天,然后 11 日当天年付尾款,这个肯定会损坏大店日销,所以聪明的大店都采取,新建链接的方式预售产品,但是 2019 年不同了,阿里强行要求有基础销量的爆款等日销链接做预售,那么就是说所有的天猫店日销都被牺牲了 10 天,换取 11 日当天的销售额,这也是阿里最新的提额手段,
3. 双 11 订单锁定,禁止退款退货,这个才是双 11 拉高销售额的最大办法,而且找了很多理由,说是为了服务器稳定,怕增加售后的困难啥的,反正只要锁定付款订单,那么,交易额就会只增不减,
4. 最后两小时发红包,最后俩小时马爸爸发红包,促加购物车的转化,现在马云退休了,这个玩法没了,
5. 还有店铺券的设置,等等,阿里每年都会想新的点子拉到销售额,
单从手段上来讲,双十一绝对性的保证了年年的销售额提升,那么这个销售额真的是真的吗?没造假吗?我作为一名电商从业者可以 100% 确认,数据造假的
1. 从人性上讲,有很多人属于冲动消费,购买了一堆,第二天想想很多没用的,又退了一堆
2. 玩法上讲,由于双十一订单的锁定机制,我拍错了,或者不想买的东西也需要 12 日退款,
3. 在玩法上有津贴玩法,这个玩法有个特点,可以跨店使用满减,那么就会出来很多薅羊毛的,比如,我想买个 50 元剃须刀,但是津贴是满 400-50,那么我怎么才能享受到优惠?常理是我再购买点东西,凑够 400 元,这是大多数人的想法,薅羊毛党年年的玩法是,我就买 50 元的剃须刀,其他东西不要,怎么办?可以这样,我再在别的店铺拍 350 元的东西,凑够 400 元,享受满 400-50 的津贴,然后一到 12 日 0 点把 350 元的货申请退款,只留 50 元的剃须刀,那么按照天猫的平摊优惠机制,你的 50 元剃须刀可以 43.75 元拿下,我相信大多数人的数学还是不错的,薅羊毛党大有人在,所以说,退款量不会低,那么再年年津贴提高门槛同时津贴减的越来越大是时候,那么这个水分就越大
水?谁?税!!!
去查税!
吹牛只要交税,国家也承认你吹牛的数据。
谁查查 11 月每年交了多少税?
过往这么多年的职业历程中,不论是一级市场投资还是二级市场投资,都曾涉猎过,有一句话一直很认可:**too good to be true。**见过太多投前各种形势大好欣欣向荣,甚至是各路机构争抢的标的,投后一地鸡毛的企业了,
在经济放缓的大形势下,拼多多崛起并且各路竞争对手不管线上线下都在双 11 推出大力度的促销活动的情况下,对于这个数据的可靠性,我个人是持保留意见的。
巧合还是造假重要吗?
重要的是天猫的舆论控制能力。
天猫用行动告诉了我们:事实有利时讲事实,法律有利时讲法律。事实和法律都不利时,
掀桌子!
以下故事纯属虚构如有雷同实属巧合。
第一年,老板说今年的目标是增长 10%,于是各部门一起努力结果增长只有 9%,只好用一点特殊手段终于达到了 10%。
第二年,老板说今年的目标是增长 10%,于是各部门一起努力,为了预防去年的情况再次发生,直接用了非常手段,结果增长一不小心达到了 12%,可喜可贺!但是!一想到明年的目标,突然有种心脏骤停的感觉,果断抹掉零头,让它变成 10%。
有些数字不是给用户看的,是给老板和股东看的。
???很难吗?不是每年都在淘宝官方控制?
任务没有完成的,在最后几个小时出现那么多几千的福袋,然后再退款,这不是默认的事情吗?
看了一些答案,对于 KPI 说法还是认可的。
阿里的 KPI 很可能就是按照某个函数设计的,一个可以让利益相关者都满意的函数。然后,在 KPI 的指导下,产生了这些 “巧合” 的数据。
之前在一家零售公司工作,每年底总部就开始给下面的公司分下一年度的任务目标。总部分下来后,我们下面公司在细分到各个部门的年度任务。然后,各部门继续将这个任务分解到各门店。而且,任务不仅有年度总任务,还会按月份细分到每个月。
所以,任务指标都明确好了,怎么完成就看下面的人了。如果最后有可能完不成,也会想其他办法,把数据做上去。
毕竟任务完不成是没奖金的,或者是扣钱的。
至于数据造假,这个词不好界定。虽然刷销量是不真实销售,但是这个销售数据确实是真的,你不能说它假,只是里面有水分。如果是人为改数据的话,这个数据就是造假。
都是 kpi 的锅。
我老婆每年双 11 快结束了都能收到一个大额可叠加红包,类似满 1000 减 150 这样。
真的很管用好么。。。
很多人说是 KPI 的锅,但是稍有常识的人都知道,KPI 的设定一般像:
“今年目标是比去年增长 50%”、“今年目标是 200 亿的增量”、
“既然去年实现了 20% 的增速,今年提高目标设定 30% 的增速。”
…… 诸如此类。
然而双 11 历年的 “KPI” 不管从增量还是增速来看都看不出什么明显的规律:
画个增量和增速的曲线看看:
如果是 KPI 的锅,那应该如何巧妙设置 KPI 使 10 年成交额高度拟合一条二次曲线且 R²>0.999?
但如果说这数据是造假也很难站得住脚。因为这个二次多项式可不是初二年级的孩子学的 y=2x² 或者再复杂一点就 y=2x²+3x+5 这种。
这个二次多项式长这样:
费牛劲编个二次式造假,没必要也没意义。
不是造假也不是巧合,是市场封闭利于控制。
就是单纯算出了他们领导给他们的 KPI,他们领导也是那么算的,这有什么奇怪的
看到前排多说两句
问题是造假与完成 KPI 之间的咬文嚼字吗?
问题是对买卖双方的耍猴控制来完成那么个数字,讨论文字游戏对阿里来说就是御敌于国门之外
三次曲线四个参数,够画个大象出来了。
上面的回答都挺有理,因为 KPI 就是这么设立的,用各种手段完成 KPI,所以没有造假。
深究一层,如果完成 KPI 的手法造假那最后的数据算不算造假?
大跃进的亩产万斤是怎么来的?为了给中央领导看,老百姓把另外田亩的稻子都移到这块田里,不懂的人看了,以为一亩田是能产这么多粮食的。
再说说淘宝今年双十一做了些什么,搞了个定金规则,又搞了个双十一 0 点到 1 点抢优惠券活动,这不就是把另外田亩的稻子都移到这块田里吗?有什么本质区别?
最后亩产万斤算不算造假呢?元芳们怎么看?
也许会成为千古疑案,也许明年就大变玩法了,或者说 “换个统计口径”
造假未必,作为美国上市公司,我觉得他们没有什么必要理由需要造假,平滑数据的手段是很多的。
不过,阿里从来不公布第二天及以后退款的数据,那就别吹有效交易额了。
各位请看清楚,别人不只是拟合,而且是预测准确。
1,10 个样本点虽然不多,但用 2 次多项式来拟合天经地义。用 3 次也不过分,又不是 5 个样本点用 4 次来拟合…… 而 2 次拟合下 3 个 9 的精度可就高得有点吓人了。
2,更何况提前 n 个月精准预测到了今年的数据,和过拟合更没有一毛钱关系了。
3,认为这种宏观数字的增长本来就是稳定可预测的…… 如果能总是以 3 个 9 的高精度预测到宏观数字,一年拿几个亿不过分吧。
4,所以阿里发言人的回应 “世界经济总量也是能被预测的,经济发展也是假的吗” 其实挺蠢的,等于给自己挖了个坑——明年咋办?接着按这个多项式预测的走,那不更洗不清;要不按这个预测走,岂不是说明这个数字是不可预测的,那不就自相矛盾了?
5,感觉上,更有可能的是,设了个目标,然后动用各种手段来完成而已。就跟 zf 里的 “指标调度” 一样,手段多了去了……
6,这算不算造假,就见仁见智了。我感觉,“造” 是有的,“假” 倒未必。
费米说过这样一句话——
我的朋友冯 · 诺依曼曾经说过,用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动。
某司销售团队业绩多年完美 “拟合” 在公司指标的 95% 左右,是巧合还是造假?
到了三季度末一看预测,年底要瞎,于是把销售放出去拼一拼;或者到了四季度发现提前接近完成任务,就让大家都收了,该休年假休年假,不急的订单放到下一年一月在下。
——这算是造假吗?
为什么要这么做呢?
干少了,今年的奖金拿不到,不赚钱;干太多了,今年的数字就是明年的大坑,老板开心地照单全收,然后明年给你一个更高的任务指标——等死去吧你。
提出这个问题的人,显然并不懂销售工作,不理解销售数字给销售人员带来的精神和物质压力,并且真的把销售完全当成了靠天吃饭的简单活。
阿里这么做其实没啥问题,无非就是完成以数字为核心的 KPI 而已,而有人找到了老板定指标的大体思路,将其称为 “三次回归曲线”。
我经历过的真实情景是,有几年,某公司,每年销售老大把前一年的销售数字直接用计算器乘以 1.x,就是今年的指标;由于市场环境好,基本每年都将将完成在这个数字附近。科学吗?三次吗?拟合吗?回归曲线吗?
快别扯了,背后都是销售人员跑断的腿、喝坏的胃、夜深人静独处时流下的泪。
知识分子真是爱想爱算,说话又好听。
八成是定 KPI 的时候用了同一套模型,所以撞车了…
搞过销售的肯定知道,每年怎么完成指标是有讲究的。今年搞太惨不行,不光影响奖金,可能还没办法向上面交代;今年搞太猛也不行,明年怎么定指标?到时候完不成怎么办?每年完成得恰到好处,才能做长久。
至于指标怎么完成,有很多合法的手段。像锤子那样直接 JavaScript 改数据太 low 了,而且人家上市公司,审计也不是闹着玩的。
业内人士,负责头部某国际品牌。
一个小二负责一个类目的头部商家钉钉群。
如果某个时间段 KPI 不够了,
会要求我们发 1 到 5 折的大额券,
折扣力度对应资源位,主会场弹窗级别的。
所以看到数据造假不太可能,
我们都开了双十一作战室,
同行交易额一目了然,
同类目千万级的店铺比比皆是。
与其说造假,不如说,大家完成目标了。
那我们可以说特朗普的发型是理发师根据斐波那契数列来为他量身定制的么?
那些扯什么玩意的,你们还好意思叫大 V,欺骗大家没上过大学?没学过数学?
别一口 bbll 拟合,人家预测成功,误差还那么小,你张口不提,这是知乎啊 还是资乎啊!
与其说,数据作假,我更倾向于认为是一个超大型 campaign 精细化运营的结果,数据不是做假出来的,而是通过精细的目标拆解、多维度资源整合、大手笔流量开源和分发等等一系列运作的结果。
从两个角色来说说原因吧。A 角色是业务,B 角色是品牌。
A 角色,业务。业务表现最核心的落地就是 KPI,也就是业绩指标。双十一发展到现在,早就已经是企业最重要的 KPI 之一了。无论是传统企业还是新兴企业,全部都是一个超级节点。超级节点,一定会设定超级目标,而且一定是那种跳着脚,蹦着高,都很难完成的天文数字目标。
为什么?因为那是双十一啊!全中国人民唯一的一个购物节啊!
双十一早就不是个拍脑袋或者看运气的日子了,所有看似无法达成的目标全部有据可依,有迹可循,而且必须落地。对于淘宝天猫是如此,对于企业商家也都是如此,而且越大的商家越是如此。
举个栗子,多年的 “双十一顶流” 优衣库,2012 年第一次参加双十一,单天就卖了几千万,热门商品几分钟断货,这个成绩或许远比他们当初的预期要高,甚至有些惊喜,但随着越来越成熟的电商模式和套路出炉,每年淘宝和商家对于数字的预期和运营都有了更明确的规划。
今年,优衣库销额最快破 10 亿,对于业务来说,你以为这是惊喜吗?不,这是达标。因为目标之一就是第一个破 10 亿,而且这个目标,是优衣库和淘宝共同制定和完成的。优衣库要选最有卖力的产品、备足够多的货、做好最有竞争力的价格等一系列完整的运营逻辑,而淘宝则需要匹配最好的流量入口、最佳的展示物料和最强的数据算法,以保证这一目标达成。
B 角色,是品牌。和业务相同的,双十一早已经不是惊喜,而是精细化运营。
你以为淘宝的每次交易额播报都是随机的吗?不是,全部都是品牌行为。
每一个金额节点,每一个突破维度,全部都是事先准备好、规划好的。
还是举优衣库的栗子,优衣库最快破 10 亿的消息出炉,快讯和软文全网通发。
这不是一个惊喜运作的方式,而是通稿早已备好,只等目标达成,立即发布。
有人说这是先有目标后有成果。是企业管理能力强大逼出来的业绩。
不知道说这些话的时候有没有过过脑子,如果每年都是绞尽脑汁想方设法拼凑才勉强达标,那么真实数据才多少?
扣掉不正当的刷单和退款。还剩多少?
至少在我身边的几个人,今天退款额都比有效购买金额还高。我真的觉得这所谓的双十一数据起码要打对折。
只要承认了这是 kpi 导向的结果,并且已知这么多提高销售额的不正当方式。那么就是实锤造假。
难道市 zf 要求企业财报作假并表示不追究,那这个市的 gdp 就是真的?
为什么会有人觉得 overfit 了? overfit 的典型表征是在测试集合上表现差。
最简单我截取 09-14 的数据做 training set,之后的 15-19 做 test case 嘛。
从结果推论来看 predict 的非常准了,这个模型非常高质量啊。
对黑五的数据应该也是这样,为什么要求 R2?
不懂计量和统计,不太能理解上面高票认为 overfit 的意思。
不过我认为 chenqin 老师说得对,应该就是 KPI 拆解拆出来的结果。
今年双 11 为了这一天的量,宁愿让快递撞车,所有的购买结算都点到 11 一天很说明问题了。
这种自家在媒体上高调宣布的数字有什么好讨论的?这东西需要负法律责任么?经过会计师审计么?
上市公司经过审计的财报尚且拦不住各种造假,互联网的企业个个都道德高尚的很啊!
完美拟合就像真空当中的球形鸡一样,如果真空中的球形鸡真实存在于这个世界上,那么阿里的这份销售额就是真实存在于这个世界上的。
嗯哼,在以 X 轴为年份,Y 轴为个数的坐标系里,我每年拥有的北京住房数 以及 每年在谈的女友数惊人地和 X 轴吻合。
我一定是个假人。
巧合也罢,真相也好,但是生活还要继续,你需要奥地利真红牛(含气的才是真的),给你战斗的勇气:
[
奥地利原装进口 红牛 含气维生素功能饮料 250ml*4 罐
京东
¥ 49.00
去购买
也许你觉得还不够,那就在喝红牛的时候,鼻子里插上让你放飞自我的薄荷棒:
[
美国 boomboom 鼻通棒提神醒脑
京东
¥ 39.00
去购买
纳尼,还不够,那只能用这个了,每吃一口就能续命三秒的 iFit-Bar 能量棒:
[
美国进口 iFit-Bar 运动能量棒
京东
¥ 166.00
去购买
呃,终于能够凑到 200 字,发这个带好物推荐的回答了。。。。
我从零售商的角度分析一下。
中国零售行业普遍存在着刷单的情况,从快消到家电 3C,甚至是汽车、地产都有刷单的情况。当然快消和家电 3C 严重些。基本逻辑就是,厂商或者供货商承受一定的扣点,然后过账不发货,刷出数据,用好的销售数据促进股票的上涨,或者冲击上市,刷单成本最后想办法在金融市场赚回来 (这是双赢的,零售商需要数据,厂商也需要数据,刷单成本如何分担就看谈判结果)。零售巨头中有官方刷单 (或者叫分销),零售商自己出钱,通过中间商大规模刷数据,这种刷单数额一般很大,有公司内部标准流程。也有各采销经理们,为了完成任务,找到供货商,让供货商来出钱刷单,这种属于半官方 (有一定层级的领导同意,能不能要到这种刷单资源就看采购个人能力了)。当然零售巨头们对供应商和厂商的议价能力强,有时候争取的资源确实多,活动价格做的确实低,采销经理们手上还有一些二皮商来倒鸡毛,这也算是一种刷单。线下大卖场,也有销售人员被迫刷单,用自己的钱来刷单,最后想办法出手,当然,销售人员能最大限度的利用优惠资源来刷单,到时候卖出去还有的赚。
每次活动,零售商们都会订销售目标,在市场好的时候可能完成,市场不好的完不成,完不成怎么办?刷单。刷单后果就使销售数据脱离了真实销售,来年的销售目标,是建立在今年的虚假繁荣之上的订的,更不可能完成,更加依赖刷单,这是个死循环,最后数据越来越脱离实际,趋向于管理层们制定的理想状态。这可能也是销售数据比较符合理想模型的原因。
一共才 10 个点,如果用十个参数的回归模型拟合,拟合度能高达 100% 呢,敢画置信区间看看么?
这有没有公司里做 budgeting 的… 没有的话我给大家讲一讲吧
首先这个 budget 的确是人定的… 先 board meeting 做一个大数,然后按各个 section(就比如说天猫国际卖多少,美妆卖多少)之类的分下去,层层细分,基本上怎么分的也是看历史数据、cost curve(对的你们要是能拿到内部数据我敢说各种成本也是有公式的),还有就是各个 bs 老大的谈判… 然后就是,按大数据给没买多少或者觉得还有潜力的人推一把 1088 红包,某些店多上一点券,某些店喊个截止之类… 这个 budget 应该做了很久了,估计刚做完 618 就上这个了,因为要算 sales,算 margin,扯皮,算券,烦是烦的来…
结论:现有数据无法证实或证伪,事实上也也没有必要造假。
原回答解释了为什么前十个数据能近乎严丝合缝地躺在拟合曲线上不足为奇。补充回答评论里对 2019 年数据预测精度的疑惑。
看起来今年的预测 2689 和实际 2684 只有 0.1% 的误差,而实际上,哪怕是前面十年不存在造假,今年按照三阶模型的自然增长的规律,也有 90% 的概率落在 2689±37=(2651,2726)这个区间内,而 2684 相当于是在预测分布中 0.4 分位的样子,和 0.5 相比也算不了多精准了。
退一步讲,随着数据的增多,就越能通过模型摸清增长规律,预测下一年的销售量就会越接近实际值。假设我们拿掉去年的数据,用前 9 年的数据去预测今年的增长,你会发现,预测的 90% 置信区间变成了 2752±37=(2715,2789), 今年的销售额甚至都落到了这个预测区间之外。**看似只有 2.4% 的误差,实际上都落到 90% 置信区间之外了,何谈精准。**少了去年的数据,这个三次曲线对隔年的预测方差大大增加,威力失效了。如果说是数据造假,那么到底是今年的造假了,还是去年的造假了呢?
============== 原回答分割线 ===============================
拟合得准确或许和既定 KPI 有关,但抛开政治问题,能达到这样拟合的精度,**更主要的功劳在于强大的多项式拟合。**对于这样平滑的点列,三次拟合可以说是易如反掌。
哪怕增长率几乎毫无规律,单纯用年份的**前三阶也足以拟合绝大多数的变化。**我们来做几个模拟实验:
**1. 假设每年销售额的增长是一个随机数。**这里假设初期销售额为 0,之后每年增长一个 0 到 100 之间均匀分布的随机数,和双十一这个故事一样也拟合 10 年。100 次试验的拟合精度这样分布:
可以看到,尽管增长的销售额非常不规律,87% 以上的实验结果都超过了 98% 的拟合优度。
**2. 假设每年的增长率是一个随机数。**这是一个更加不平滑的设定,前一个试验中每年的波动量在 0 到 100 之间,而这个试验每年的波动量在逐年增加。我们假设每年的增长率在 0% 到 100% 之间,服从均匀分布。100 次试验的结果:
即便是更加无规律的增长,也有 78% 的试验结果拟合优度在 98% 以上。要知道,这个设定下的增长量,可能是长这样的:
而此时用年份来解释增长,一阶解释了 70%,二阶解释了 95%,三阶就已经达到了 99.6%:
随机试验尚且如此,何况是有着多种因素联合影响着销售额的、增长更加平滑的双十一呢?其他回答里给出了 GDP、人口等一些自然数据,得到的都是比随机试验更高的拟合优度,销售额有 99.96% 的拟合也不足为奇了。
100 多年前,人们就发现了多项式插值的威力,今天这个古典的方法依然被用来估计和度量很多东西。只要阶数等于样本数 - 1,就能拟合出 100% 精准的完美曲线,也就是 n 个方程解 n 个参数名场面。至于对低阶次拟合,每一阶的极限在百分之几,有兴趣的读者可以移步关于多项式拟合的误差分析,例如:Watson, G. Alistair (1980).Approximation Theory and Numerical Methods. John Wiley。
有人分析过京东的数据吗?是不是也非常完美的符合这个曲线?
这种现象的成因高赞答案已经说的很好了,我只是想吐槽一下这种想法的逻辑问题。
属于小概率事件,在实际生活中几乎是不可能发生的事。因此可以断定,阿里为了吸引双十一的购物热度,对销售额数据进行了人工修饰,存在造假事实。
听说某件事时,因为这件事发生的概率小,就认为这件事是假的,这种逻辑本身是没有道理的。举个例子,学过高中数学的都知道,闭着眼拿粉笔往黑板上扔,击中任意一个点的概率都是零,我现在往黑板上扔了一次,击中了一个坐标为 (x,y) 的点。我跟你说了这件事,然后你告诉我因为击中 (x,y) 的概率是零,几乎不可能发生,因此断定我在撒谎,存在造假事实,你这不是杠精是什么。
事实上,这种想法属于概率的滥用,概率不能用来否定已经发生的事。还是高中数学的内容,老师讲概率定义的时候会提到,一件事发生的概率是 p,是指独立重复很多次实验之后,这件事发生了的次数占总实验次数的比例稳定在 p。对于每次实验,其结果还是确定的。概率是可能性的度量,但它并没有否认每次结果的确定性,更不能作为否认已经发生了的事的证据。
我们可以用概率评估一件事发生的可能性,但记得要用条件概率,并且条件尽可能全面。举个例子,现在的 NBA 西部排行榜上,前几年的王朝球队、拥有库里和汤普森的勇士排名倒数第一,你可能觉得难以置信。但当你知道库里和汤普森都受伤这一情况之后,这个事实就容易理解了。拿双十一这件事说,我们之所以会觉得销售额完美符合曲线是小概率事件,是因为平时生活中很少见到这种符合模型的真实数据。但跟淘宝这种大公司、双十一这种大型零售促销活动相比,我们日常生活中见的那些数据有多少参考和借鉴意义呢?所以如果不考虑具体场景和条件,就会很容易被不相干的生活经验干扰了自己的判断。
想要知道淘宝双十一历年销售额被模型完美拟合的概率,需要有很多很多个有淘宝和双十一的平行世界,统计一下这些平行世界里销售额跟模型的 match 情况,计算一下比例,这个肯定是做不到的。我们只能设淘宝双十一历年销售额被模型完美拟合的概率为 p,然后用相似的场景去估计,比如看看 Amazon 促销日的数据能不能拟合、中国和美国的零售额能不能拟合等等,根据这些场景的结果去不断修正我们对 p 的估计,给出一个在当前条件下置信度比较高的 p 的范围,这其实就是贝叶斯那套思路了。 Sean Liu 的答案里面提到,Amazon 促销日以及中美销售额的数据都是跟模型完美拟合的,再加上淘宝双十一,如果我们用贝叶斯的方法去推断 p,你会发现 p 更可能是一个比较大的值,这就说明在这段时间范围内,国家尺度下的大型零售促销活动的销售额大概率就是跟这些模型 match 的。因此对于淘宝双十一,销售额随时间有这样的规律不是小概率事件,而是大概率事件。
即使淘宝双十一出现这样的规律是大概率事件,我们也不能据此就说淘宝没有造假,否则就是犯了跟上面一样的错误。想要估计淘宝有没有造假,我们应该直接估计淘宝造假这一事件发生的概率,这一点同样需要用条件概率的思维去想。推理小说里的侦探在找凶手时,往往会从每个嫌疑人的杀人动机出发,动机越大嫌疑往往越大,这里的动机其实就是条件概率的体现。杀人本身是小概率事件,但当某人能因为被害人的死去获得巨大的利益,有了作案动机,他的杀人概率就会大幅增大。同样是杀人,在凶手是这个人的条件下就比凶手是别人的条件下概率要高。
再举个例子,A 在网上说自己是千万富翁,B 在网上说自己中彩票得了一千万,谁撒谎的概率比较大?千万富翁这个事件发生的概率显然比中彩票得一千万的概率大,因为后者是前者的子集,但我们不能因为 P(身家千万)>P(中千万彩票) 就判断 P(说谎 | 声称自己身家千万)<P(说谎 | 声称自己中千万彩票)。事实上,谎称自己身家千万能够包装自己的形象,贩卖成功经验和鸡汤,为自己牟取名利,而谎称中千万彩票似乎就没什么额外的好处。因此我们推测 P(说谎 | 声称自己身家千万)>P(说谎 | 声称自己中千万彩票),因为前者有更强的动机。
回到淘宝这件事,作为中国最大的电商,在双十一销售额上连年数据造假使其符合模型的动机是什么呢?对淘宝有什么好处呢?我目前是看不出来,因此我认为淘宝造假的概率是很低的。事实上,淘宝造不造假并不重要,只是希望更多人在怀疑和推断的时候能有更合理的方法和依据。也有可能过两天淘宝发个声明说对不起我们确实造假了,但即使那样我也不觉得自己被打脸,因为如果淘宝造假肯定也是出于我不知道的原因,推断出错是因为掌握的信息不全面而不是方法有误,就像不知道库里汤普森受伤的勇士球迷会估计球队开赛连胜一样。但是如果你因为勇士队衣不好看判断今年他们开局会连败,即使结果说中了也不露脸啊。
如果你的工作是尽量冲高,你有两条路,业务规则手段和造假数据。
在综合了以往数据和今年数据以后发现冲高这件事,十拿九稳的时候,你仍然选择造假吗?
看看是怎么合法冲高吧
1 预售预售还是预售
2 玩游戏促活
3 禁止当天退款退货
4 砸钱发券红包
5 花呗
如果这你还完不成指标,怕是个傻子吧。
完不成指标照样完成 KPI,你还造假,怕真的是啥子
个人感觉感觉不好说,巧合可能性更大
给你三个点,你能画一只大象…
刚刚用 matlab 跑了一下
这个是利用 2009—2018 年的数据拟合了一下,2019 年确实很稳合
但是 2009-2017 年数据拟合效果看不是很好
2019 到 2015 就更不行了
总的来说暗示经济发展低于预期?
#author:Mio
x<-seq(1,11)
y<-c(0.5,9.36,52,191,350,571,912,1207,1682,2135,2684)
model<-lm(y~x+I(x^2))
new.data<-seq(from=min(x),to=max(x),length=length(x))
new.df<-data.frame(E=new.data,E2=new.data^2)
pred<-predict(model,newdata = new.df)
lines(new.data,pred)
summary(model)
# confidence interval
confint <- predict(model,data.frame(new.df=x),interval= "confidence")\[,c("lwr","upr")\]
predict <- predict(model,data.frame(new.df=x),interval= "prediction")\[,c("lwr","upr")\]
plot(y~x, type = "p",cex = .9)
lines(new.data,pred)
matlines(x,confint,lty=c(2,2,3,3), col=c("blue","blue"),lwd=c(1,1))
# add predict interval
#matlines(x,cbind(confint,predint),lty=c(2,2,3,3),col=c("red","red","blue","blue"),lwd=c(2,2,1,1))
x = 第几年双 11,y = 销售额。
双 11 的二项式回归模型,x,x^2,斜率都是显著的。x^3 不显著所以我把这项去了。
双 11 销售额的 95% 置信区间
只能说看起来有点假。。。
黑五的成交数据也很漂亮,不过没有阿里漂亮。
作为对比下面这是黑五的回归模型:
黑五的二阶多项式回归模型
黑五销售额的 95% 置信区间
根据二项式回归,2019 黑五销售额应该为:742-746B$。(我觉得这个太容易打脸了,毕竟黑五的标准差比阿里的大太多,F-Statistics 和广义 R 平方都跟阿里的回归模型不是一个数量级的。)
看置信区间的宽度就知道阿里的数据实在太漂亮了,如果不是造假就是为了完成 KPI 的结果,
各位说拟合很容易的大神麻烦预测一下今年美国黑色星期五的销售额,数据误差在千分之五以内就行。好让我也能在朋友圈装回大神~~
想到了前段时间在统计学课堂上开的一个玩笑。
已知 RNG 战队的 S 赛成绩:
2017 年四强
2018 年八强
2019 年十六强
用线性回归看看
x 是年份,y 是排名
Adjusted R^2 才 0.9286,不算完美啊,这排名应该不是造假吧?
呵,我们用 log transformation 试试?
log(y)~log(x)
啊!!拟合度 1!!这也太假了!
我就皮一下,大佬不要喷我。
拟合度高不代表数据就造假了,虽然发生巧合的概率很低,但这个世界上每天发生的事情有成千上万,其中一两件事发生了低概率事件也不算奇怪吧。
如果想判断数据有没有造假,我们还需要用更多的手段来判定。
高赞
已经解读得很好了。
看到评论区有人说预测。预测准确有什么呢?简单二次曲线的拟合精度就足以预测了。拟合、预测也都只是在「相关性」上解释数据,它们并不能直接揭示数据背后的成因。在强 KPI 驱动的销售额数据上,拟合准了,也不能证明数据就造假了啊。chenqin 已经解释得很好了。
我只是顺带一提,哪怕是原博主发出来的拟合方法,都已经是不可靠的过拟合罢了。
我就简单指出数据拟合操作上的问题。这组数据,只有 10 个数据点,博主却拟合了一个 3 次多项式,有 4 个自由变量。
尚且不知道博主拟合时,有没有把绝对值很大的年份数字 2009-2018 平移到 0 附近以减小拟合误差。姑且假设他这么做了。
下图是我复现的拟合数据。我已经把 2009 年移到了 0。我们来看看各项拟合参数的不确定度和相关性
Final set of parameters Asymptotic Standard Error
======================= ==========================
a0 = 2.41252 +/- 20.66 (856.5%)
a1 = -26.8765 +/- 21.03 (78.26%)
a2 = 28.0119 +/- 5.618 (20.06%)
a3 = 0.154308 +/- 0.4097 (265.5%)
correlation matrix of the fit parameters:
a0 a1 a2 a3
a0 1.000
a1 -0.758 1.000
a2 0.593 -0.959 1.000
a3 -0.500 0.898 -0.984 1.000
常数项 a0 的误差是其绝对值的 8.6 倍。 一次项 a1 – 78%,二次项 a2 – 20%, 三次项 a3 – 2.6 倍。这是一个好拟合吗?显然不是。只有二次项系数是还算差不多 well-defined。其他项的系数完全属于没有统计意义。
再看相关性矩阵。 a1 和 a2 几乎完全负相关。说明 a1 和 a2 不是独立变量。同理,a2 和 a3 也几乎完全负相关。
这说明,这个三次函数的模型,本身就已经过拟合了!
还记得这个 4 参数大象吗?
With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.
——冯 · 诺依曼
附 gnuplot 拟合代码,感兴趣的朋友可以自行复现
$data << EOD
2009 0.50
2010 9.36
2011 52.00
2012 191.00
2013 350.00
2014 571.00
2015 912.00
2016 1207.00
2017 1682.69
2018 2135.00
EOD
f(x) = a0 + a1\*x + a2\*x\*\*2 + a3\*x\*\*3
fit f(x) '$data' u ($1-2009):2 via a0, a1, a2, a3
set xlabel 'Year'
set ylabel 'Sales'
set key center top font ",14"
plot '$data' u 1:2 ls 3 lw 2 ps 3 pt 6 t '',\\
f(x-2009) w lines ls 7 lw 2 dt 2 t sprintf('f(x-2009)=%.2f+%.2f\*x+%.2f\*x^2+%.2f\*x^3', a0, a1, a2, a3)
能拟合可能不能说明什么问题,但能预测就说明具有某种内在规律性的东西了,至少在这段时间内,有某个因子存在规律性,就和每年 GDP 可控一样,淘宝的增长也是逐渐的。说明淘宝这个工具对阿里巴巴来说已经不具有创新性,都是小打小闹的微改,最终走向生命周期的末路可能无法避免。
人在工地,刚刚收工
怎么看?自己都没学好,就来带节奏,题主未来可以一起来搬砖。类似的数据,国内国外都一样。。。精确的像造假。因为它本来就这样
预测和拟合分不清的建议回炉。
热度开始断崖式下降了,KPI 论基本石锤了,算不算造假,见仁见智吧。
没有完成不了的 KPI,双十一这么重要的东西,总有各种办法去完成的,阿里早算好了。至于这些办法算不算造假,见仁见智
从财务的眼光看只是通过一些手段控制金额在某两个数字之间。
造假谈不上,可能只是过渡控制了。
而且根据经济规律也是正常现象。
知乎用户 sonatem 发表 大家好,我是哈佛论文的批评文章的作者之一,受第一作者的委托发布下面这个回答。(作者已授权本文的署名转载) -- 大家好,我是德国哥廷根大学应用与数值数学所的 陈浩 博士。我之前在知乎先后用过 @ …
文/洪广玉(媒体人) 放在波澜壮阔的中国蜂蜜造假史当中来看,近日所谓的北京同仁堂“回收蜂蜜”事件完全不值得大惊小怪。 单纯从食品安全的角度来说,将临期或刚过期的蜂蜜回收重卖,健康风险极低(主要是收集、重包装过程中不能污染),蜂蜜作为一种高糖 …
北京大学常务副校长詹启敏被指涉嫌25篇论文不端,发表时间横跨20多年 作者:孙滔 来源:DeepTech深科技 著名学术打假网站 PubPeer 这次盯上了北京大学常务副校长、中国工程院院士詹启敏。 近日,有网络消息指出: …
每一次大型业务扩张和人员扩张,都会带来价值观问题,都会带来新一轮的改变。 文|管艺雯 编辑|宋玮 阿里巴巴创始人马云曾说,“价值观、使命、目标是任何一家企业都必须有的东西,如果没有这三样东西,就走不长、走不远、长不大。”价值观从阿里创立之初 …
三万人直播的弹幕“翻车”现场到底证明了阿里价值观的脆弱,还是它的坚强? 文|管艺雯 宋玮 编辑|宋玮 阿里巴巴的管理层们已经很久没有感受这样汹涌的“民意”了。 失望、疑惑、不满和愤怒,所有的情绪交杂在一起,渐渐发酵、升腾,随着一场阿里内网全 …