统计学上看西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研方法上严谨吗?

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 chenqin​ 发表

西南财经大学的家庭金融调查项目是一个很了不起的项目,他是第一个尝试准确估计家庭金融资产的调查。在此之前,各式各样的调查虽多,但对一些个人敏感问题,则至多涉及到收入、职位、有几套房子。再深入的问题,比如,家里有多少存款?不敢问了。
笃笃笃,敲门声传来,你打开门,礼貌的房产中介站在门外:先生您好您的房子卖多少钱。

如果一项调查要问到存款这种问题,那么一般来说,他的调查员的结局都不会比这个房产中介好多少。西南财大花了很大功夫进行事先宣传,让人们知道这项调查的重要性与个人隐私的安全性,学生调查员的一次次回访,也极大降低了这项调查的拒访率,最终得到了质量很高的问卷,这都是很了不起的成就。

言归正传。我们来回答这个问题:要了解中国家庭的金融资产情况,28000 户家庭到底够不够?
答案是——看情况,看方法。你想要从这份数据中了解的信息,以及抽样方法,决定了数据的可靠程度。

如果仅仅想要了解所有城市家庭的资产平均数,那么,28000 份问卷已经足够了。这篇关于 CHFS 的新闻显示,中国城市家庭资产的中位数为 40.5 万元,平均数为 247.60 万元。如果家庭资产服从对数正态分布,那么就有

,家庭资产的标准差应当等于

,即 1493 万元。
在计算平均数时,随着样本量增大,样本平均值的方差会依概率收敛到零,收敛速度为样本量的平方根。当我们取 28000 个样本时,样本家庭资产平均数的标准差变成

=8.9 万元,也就是说,只要随机性足够,那么通过 28000 份问卷计算平均得到的家庭资产平均数,有很大可能会(66%)落在一个长度为 18 万元的区间内,几乎肯定会(96%)落在一个长度为 36 万元的区间内。上下各 18 万元的误差,对资产平均值估计来说已经足够准确了。

但是,如果你要精确了解那些最富裕的 1% 家庭的资产分布情况,28000 份问卷则远远不够。很简单,最富有的 1% 家庭在问卷中只有 280 份,与 28000 份的总样本相比,280 份问卷会将样本平均数的标准差扩大十倍。对上一个例子的数字来说,就是上下各 180 万元的误差。这就有些不可接受了。另一方面,仅仅 280 份问卷,也不利于我们了解富人的资产分布的尾部到底有多长。

怎么办呢?通常情况下,完全随机的抽样调查会得到下一幅图:

为了做图方便,该图假设一个人口的收入服从正态分布。当完全随机抽样实行时,被调查到的样本实际上如同红线一般分布,其特点是中间密集而两段稀疏,即收入处于中间水平的人口被调查到了很多,收入最高和最低的人口没有被足够的调查到。
在这种情况下,我们估计总样本平均数——没问题;估计中段人口收入平均数——更加没问题,中段的样本如此密集;但最高 / 低收入的人口——问题就来了。从 2 到 4(-4 到 - 2),区区两根红线,跨越了如此大的收入区间,根本无法与中间段的密集红线相比,因此不能很好代表该区间人口的收入情况。

对此,最简单的一个想法是,增加调查总量。当调查总量足够大时,我们必然也能在左右两段获得足够准确估计的密集红线,问题解决了吗?
没有。调查是一项高成本的活动。每十年一次的人口普查,仅仅是每户家庭一张纸的问卷,就需要 650 万名调查员,80 亿元经费投入。当前,对一个比较详细的调查来说,每增加一个被调查样本,成本就增加 300 到 500 元不等。哪有那么多个几百万元来保证你的尾端准确率呢?

于是,人们想出了一种折衷的方法。中间段人口本身就比较密集,且收入分布较窄,就少调查一些;两端人口,就多调查一些吧。于是上一幅图变成了这样:

中间变稀疏,两段变密集的调查方法,反而使得在收入分布上调查得更均匀了。虽然上图的红线数量比第一幅图还要少几根,但显然下图对各个收入段的情况都有比较好的把握。这种折衷的方式,能够在不增加成本的情况下,同时获得中间收入段和高低两极的收入估计。如果要用这个样本计算总体平均数,只需要加权调整,让所有人口的被抽中概率乘以权重等于一个恒定值即可。比如可以让中段样本一个抵俩,而两端人口两个抵一,方法不一而足。西南财大的家庭金融调查就使用了这种调整。他刻意多抽取了那些最穷和最富的人口,来保证尾端分布估计的准确性。具体方法见 swufe.edu.cn 的页面。其中关键的一个步骤是:
第一,按照各市县的非农人口比例的分位数,将各市县分成 5 个组。分组的依据是各市县非农人口比重 20%、40%、60% 和 80% 的分位数。
第二,在非农人口比例最大的市县组中,居委会和村委会分配的样本比例是 4:0。
第三,在非农人口比例次大的市县组中,居委会和村委会分配的样本比例是 3:1。
第四,以此类推,在非农人口比例最低的市县组中,居委会和村委会分配的样本比例是 0:4

也就是说,在城镇人口占比最高的地方(通常是沿海大城市),抽取尽量多的城镇人口;而在农村人口占比最高的地方(通常是内陆小城镇),抽取尽量多的农业人口。换句话说,在高收入地区尽量调查高收入人口,而在低收入地区尽量调查低收入人口,以此增加两端人口的被抽中概率,来接近上文第二幅图的情况。最后再通过加权来得到总样本平均值。

这种看似十分奇怪的抽样方式,其实正是同时权衡了成本与准确性后做出的选择。

最后,西南财大采用的这种抽样方法也有自己的问题。最大的问题在于一部分人口的代表缺失。根据 2010 年统计用区划代码和城乡划分代码,我们可以算出不同地区的村委会和居委会的分布情况。真实的分布与家庭金融调查的抽样选择相比,可用下图表示:

在城镇人口占比最多的地区,共有 30.7% 的地区实际上仍然属于村委会。但在抽样中,他们完全被舍弃了,也就是说,被抽中的概率为零。任何加权方式,都不能把被抽到概率为零的样本恢复出来

如果把中国的近 3000 个县级单位按照 2010 年人口普查的非农人口比例排列,那么排名靠前的 600 个县级单位共有 2.7 亿人口,当其中占比为 30.7% 的村委会全部被抽样方法舍弃掉时,约 8000 万人将无论如何都不可能被反映到数据中。

如果被舍弃的样本可以用其他类似样本替代也就罢了,但我们实在难以否认:大城市的村委会人口其实有着非常丰富的数据特征。比如他们的征地收益可能会更高,从事非农工作的比例更高,自我雇佣的比例也可能更高等等,但我们却无法在数据中找到他们的身影,这是中国金融调查的一个莫大遗憾。

知乎用户 慧航​ 发表

谢邀。
可以说,CHFS 的抽样从抽样设计到执行还是比较科学的。
统计上最好的抽样方法就是简单随机抽样。但是大家也知道,简单随机抽样在现实情况中操作性很差。所以一般都会采用分层抽样的办法。
题主谈到了异质性,从统计理论上来说,只要我们能保证总体中每个个体被抽中的概率是一样的就可以了。当然如果被抽中的概率不一样,但是我们又知道其被抽中的概率,统计处理的时候也可以通过概率加权的办法解决。
CHFS 的抽样设计据我所知是先从行政区划上抽样,之后再对小区、街道抽样,最后具体到哪一个住户。
可以说,这个抽样设计问题不大。
差的抽样一定是有系统性偏差的。比如系统性偏向城市/农村,偏向高收入人群/低收入人群,偏向东部/西部等等。
你如果要说样本量,其实除了普查数据,世界各地的统计调查样本量有几万已经很不错了。包括美国最有名的 PSID 数据也只有 5000 个家庭的不到两万个个人:Panel Study of Income Dynamics
本人有幸跟随 CHFS 的一只调查队伍走访了上海的部分街道。那次去其实是预调查,也就是说他们已经抽样抽好了街道等位置,他们的任务是走访小区等,把小区的情况摸清楚,画出具体的住户的地图,再从地图中抽出具体去调查的住户。可以说从这个设计上来说避免了具体到住户的偏差。
跟他们聊天,真正调查的时候也很辛苦,经常被人拒绝。他们的策略也是多次去采访打动被访户吧,不到最后不会换被抽中的住户的。所以从实际操作层面来讲,我也很信任这个调查。
在国内微观数据如此之稀缺的情况下,西南财经大学能花这么大力气做一份这么认真的调查,我个人呢还是很感激的。
至于数据质量,在我接触过调查过程之后,我还是很放心的。至于你新不信,我反正信了。
==================
再仔细一看,题主非常想知道样本量的大小是不是很关键的。我的看法是,甘犁的说法是对的。
为什么?刚刚说了,统计调查最害怕系统性的抽样偏差,但是如果你能保证随机性,剩下的问题不大。
为什么?一般来说,样本量影响的是估计量的方差,也就是说,如果我们的抽样是随机的,那么你得到的估计量就不会有系统性的 bias。样本量只会影响到假设检验。
但是我们知道样本量,所以我们在给出一个估计的时候,我们也会确认其置信区间,有了这个置信区间,我们至少知道这个统计量有多可靠。
想起了一个故事,在这里给大家分享一下。
说有一个公司,手头上有海量的数据,要命的是数据量每天都在大量增加。公司每周会从数据库中抽取 1% 的样本做描述行统计交给客户。一开始的时候任务还可以轻松完成,但是到了后来,随着数据量的井喷,1% 的抽样及计算也要花费大量的时间。公司请了一个统计学家,看看统计学家有没有什么好办法。统计学家只写出了大数定理和中心极限定理的式子,问这里面的 N 代表什么?答曰我们使用的数据量。统计学家进一步说,这个式子里面只跟我们使用了多少数据有关,跟我们拥有多少数据无关。所以不要每天抽 1% 的样本,可以每天随机抽比如 10 万条数据就够了。
恩,这就是题主所关心的样本量的问题。

知乎用户 董易 发表

个人是 2013 年在中国北方跟访访员和绘图员的小记一枚…… 跑了陕西河南河北北京山东辽宁黑龙江天津山西宁夏这些省份的访问 or 绘图队伍。下面的内容从科学性上来说极不理性(计量和统计早忘光了原谅学渣 = =),大家就当看故事吧……
总的来说这个调查在访问环节的随机性还是有保证的,拒访需要达到 6 次(其中还要在不同时间段上门,必须有一次社区工作人员陪同)以上才可以向中心提出更换样本申请。虽然在最后这条规定会有些走样,但整体上来说学生访员已经是尽了自己最大的努力去保证这个调查的随机性了。问:私自更换样本会不会被查出来?当然会,中心在接收到调查问卷后,每个季度还有回访。试想:“您好,请问您是住在 XX 小区 XX 栋 XX 单元 XXX 的王先生吗?”“不好意思我们一家都姓李。” 嗯哼,这肯定就是有问题了。所以这种情况还算比较少。
你说一些特殊单位进不进得去?比如我们在西北某重镇的时候,划定的受访社区中就有一个军队大院我们就无法进入。另外在首都,富人区的保安都对我们说这户是啥啥你们可以进,那户是啥啥你们还是别进了……(两个啥啥请自行脑补 = =)
这些对最后的数据准确度当然有影响。但我想这是调查的通病吧,CHFS 已经尽可能地包括了其他调查中拒访率最高的富人阶层。通过学生访员在三伏天里的软磨硬泡(比如写万言书贴在门上啦,在门口朗读参加 CHFS 的 21 条理由啦,笑),CHFS 在城市的拒访率控制在 13%,而农村则更低(百分之几记不清了,3 还是 6 来着,农民朋友可朴实了问啥答啥夏天还请我们吃西瓜虽然秉着不拿人民群众一针一线的精神但还是盛情难却),已经远低于国际上一些著名的资产调查。
CHFS 的问卷,正常情况下都需要做 1 个多小时(在首都的时候一个帝都妹纸用纯正京腔和一受访大妈飞快问答 45 分钟搞定惊诧我也),内容几乎无所不包,而且问得都相当详细。具体的问卷大家可以去 http://chfs.swufe.edu.cn 调查官网上去查阅。反正当年发给我们纸质版的时候(调查时是用笔记本电脑系统,问题自动跳转)是挺厚的一本 A4 册子……
最后插几个小栗子。大富大贵的人家我是没跟进去过,穷苦人家倒是旁听过不少 = = 一个是在华北某省农村的一户老人家,老两口月生活费只有区区 30 元。在华北某省会城市的城乡结合部那建筑学上的奇葩汇集地进行绘图的时候,某绘图员还被狗咬伤了 = = 最后是在首都的地下室里,我们的访员和北漂男青年斗智斗勇,让别人从刚开始的凶神恶煞到最后和那访员称兄道弟…… 太不容易了。
大调查每两年进行一次,下一次就是 2015 年的夏天了。如果抽到您家,还请开个门。谢谢。

知乎用户 qzqz​ 发表

谢邀。

关于抽样调查,我了解不深,经济调查知道的就更少了。前面

@chenqin

@Jichun Si

的回答都不错,我就试着补充一下吧。

题主主要提出了两个问题:
1. 样本数量和随机性的关系。
2. 把全国作为一个总体是否有意义。

首先讲一下第一个问题。

@Jichun Si

总体观点妥当,特别是指出了抽样调查面临的最核心的问题——不能有系统偏差。只要调查方法没有系统偏差,那么增加到一定量的样本总是能得出正确的结论。这样就是题主提到的 “甘犁等一直强调样本数量不是问题,随机性是问题”。但是

@Jichun Si

的出发点 “统计上最好的抽样方法就是简单随机抽样” 是错误的。只有在对样本总体无甚了解的情况下,我们才会采用简单随机抽样,可以参考下面这一段(摘自 wikipedia:Simple random sample
Advantages are that it is free of classification error, and it requires minimum advance knowledge of the population other than the frame. Its simplicity also makes it relatively easy to interpret data collected in this manner. For these reasons, simple random sampling best suits situations where not much information is available about the population and data collection can be efficiently conducted on randomly distributed items, or where the cost of sampling is small enough to make efficiency less important than simplicity. If these conditions do not hold, stratified sampling or cluster sampling may be a better choice.

在我们对样本总体有一定了解的情况下,选择分层抽样可以增加抽样的效率。

@chenqin

的回答中有一个非常直观的例子:如果我们需要知道中国家庭地贫富差距,那么适当的做法是多抽取一些最穷和最富的家庭。

在一切理想的假设下,任何正确的抽样方法(包括简单和分层)都是不会有偏差的。但是实际操作中往往并不如假设,会出现一些潜在的问题。在这项调查中,一个问题就是有的受访家庭会拒访。如果我们知道富裕的家庭更有可能选择拒访,那么最后得到的样本中富裕家庭的数量就会被低估(underrepresented)。为了检验这种可能存在的偏差,常用的方法是比较
(A) 权重调整过的样本
(B) 总体
间各个统计量的差距。例如在 CHFS 报告精选第四页表 3,研究者就比较了 CHFS 和统计局的人口结构。从他们给出的数据来看,CHFS 的样本是能代表全国的。

针对第二个问题,我认为这更多的是一个哲学问题。任何研究都有一个研究对象,CHFS 选择的对象是所有的中国家庭,这当然是可行的。题主提到的 “中国如此之大,异质性如此之高,各地相同之处是有一个中央政府罢了”,我并不太同意。中国的异质性当然高,但是不同省份之间的区别还是远远小于不同国家之间的区别,毕竟大的行政政策都是相同的。所以将中国作为一个研究主体还是有很大意义的。异质性可以作为另外一个研究课题,对比中国不同地域间的家庭金融状况,但我认为这在重要性是低于研究全国所有的家庭的。

知乎用户 ryan 发表

我个人就是访员,大家都说的有道理,我来讲两点细节上的问题吧,甘老师当时给我们上课的时候有讲过 chfs 选样本的两大遗憾是不能去军队,不能去类似富士康的大工厂,这导致样本对于 20 多岁的男青年的代表性削弱了很多

知乎用户 冬日犬 Joker 发表

前两天有幸听了甘犁教授的讲座,讲座上甘教授较为详细地介绍了 CHFS 的抽样问题,还好我做了笔记…… 先马一下回去再回答……
-——————————————————————————————————————————————-
中国家庭金融调查的抽样设计:三阶段规模度量成比例抽样(PPS):
2011 年

  • 全国除西藏、新疆、内蒙之外的 2585 个区 / 县按人均 GDP 分为 10 组

  • 每组抽取 8 个区 / 县,每个区县抽取 4 个社区 / 村

  • 共抽出 80 个区县,320 个社区 / 村

2013 年

  • 在 2011 年的基础上对称抽样,拓展样本量

  • 262 个区 / 县,1048 个社区 / 村(481 个社区、567 个村)

  • 除新疆、西藏之外的 29 个省级行政区有代表性

在数据的质量控制方面,有以下两类措施:

  1. 录音核查
  • 对每位访员的首份访问录音进行核查
  • 访问前期,随机抽取 5%-10% 的访问录音进行核查
  • 访问结束后,对每份访问录音多次进行核查

2. 数据核查:根据键盘记录数据自动识别异常问卷

  • 访问时间少于 30 分钟
  • 有效题量小于 200
  • “不知道” 比例大于 5%

这三种情况视为异常问卷。

CHFS 还有一个环节也很重要,即电话回访
在入户调查时获得受访户的电话号码,从 2014 年起,对这些访户会进行季度电话回访。且从 2015 年开始,CHFS 计划进行月度电话访问。
电话回访的内容包括宏观预期就业资产负债收入消费等等,通过电话回访可以及时反映经济动态变化,也可根据需要添加回访的内容。

另外在拒访问题方面 CHFS 也有严格的换样标准,一般来说是不同时段无人应答 6 次或者拒访 3 次,对于访员来说应该也是蛮磨人的… 不过就拒访率来说 CHFS 做的还是不错,2013 年拒访率整体控制在 10.9%。
-——————————————————————————————————————————————-
写了这么多发觉没有看到补充问题 = =
“中国如此之大,异质性如此之高,各地相同之处是有一个中央政府罢了,把全国当成一个总体是否意义有限呢?”
作为一个大一的小白,可能这个问题我还不好回答。但就个人的浅薄的看法而言,我觉得至少有两点意义是很重要的:
1、CHFS 是一项开拓性的工作,先前没有机构涉足。中国家庭金融调查中心本年度准备再启动两个项目,带给人的感觉也是同样的令人感到振奋的,一个是中国小微企业调查,一个是中国基层治理调查。作为首开先河,CHFS 提供的数据引发的关注和带来的影响我觉得可能是一件意义重大的事。
2、虽然中国地域广阔,异质性高,但许多数据还是有意义的…… 比如前两年 CHFS 对于中国老百姓储蓄率位居世界前列的言论用数据做出的回应,又比如这次讲座上甘教授提到的中国家庭住房空置率问题,我觉得在一国的范围内讨论这些问题还是有一定意义的啦……

知乎用户 匿名用户 发表

大一上的微观经济学课上,教授说过的一番话,给我印象颇深。
他问第一排的女生喜欢什么颜色。女生犹豫不决说不出来。
他说,你说不出来,但是我知道你喜欢的颜色是蓝色。为什么?因为你穿了蓝色的衣服,系了蓝色的围巾,用蓝色的笔盒。我不在意你说的是什么,我只在意你的行动。人们常常言行不一,但是对于从事经济学研究的人,我只在乎你的行为体现的信息。
统计学上的问题我不了解,不过家庭金融调查采取的是简单的问答和问卷模式,人的心口不一这一点很容易对数据真实性造成影响。
后来,我常常在各种场合回想起教授的这番话。比如在填某个性格测试的时候,我们常常不自觉地选择 “我想做的、我认为很好的选择”,而这样的选择未必是我们自己在实际情况中的选择。所以我们测试出的,可能是一个理想的自己,而不是真实的自己。
我想,如何想办法避免这个问题,应当成家庭金融调查下一步应当考虑的。

知乎用户 张茜 发表

从业余角度来说一下。当年有个特别让人震惊并且广为流传的报告出世后,学校组织了一些同学兼职核查数据。录音采访时我记得每个家庭不低于 45 分钟,听着要崩溃了啊,同样的问题我那些天一直在重复听,而且都是农村的,很穷,听着没有窥视的快感,但是我有个同学懂粤语,她有听很多广东那边有钱人采访。
那个访问系统关于不动产方面,原谅我做的贫苦地区农村吧,基本上房子跟三轮摩托,所以我只知道房产单位是万,不是元。像我这边,房子估价 10 万就很少见了,出错也就是多报了几十万。她那边的五六套高房价的房子,总价是很惊人的,1000 万跟 1000 万万的差别,还是很大的。
再有就是小细节了,我做的很多都不是中位数选取,三四千很多不是取 3500,当然,可能是他们执行力不够,也可能是培训要求不一样。
就这些,手机打得,可能比较乱。

知乎用户 晚华 发表

个人感觉最高票答案已经说得很好了
补充一个细节,chfs 有拒访率,普遍来说城市家庭的拒访率远远高于农村家庭,收入较高家庭高于收入较低家庭。
如果我没有记错的话是访问家庭六次拒访,访员可以申请更换家庭。
还有如楼上知友所言,一些比较特殊的地方访员是没有办法访问的。
所以严格来说这对于最终数据的精确度是有影响的。
还有,做这样一项大型调查是有成本的,包括物力和访员的体力等等,所以扩大访问量对于学校来说有一定负担。
但 2011,2013 年,每一年的访问家庭数量都在增加,收入层级也在逐步细化。
这项调查正在变得越来越细致,越来越精准。

知乎用户 草刀 发表

我有做访员的经历,那是 “中国健康与养老追踪调查”,简称 “Charls”,是北京大学社会科学调查中心的一个调查项目,覆盖 150 个县级单位,450 个村级单位,约 1 万户家庭中的 1.7 万人。
这些样本以后每两年追踪一次,调查结束一年后,数据将对学术界免费公开。CHARLS 采用了多阶段抽样,在县 / 区和村居抽样阶段均采取 PPS 抽样方法。CHARLS 首创了电子绘图软件(CHALRS-GIS)技术,用地图法制作村级抽样框。CHALRS 的问卷设计参考了国际经验,包括美国健康与退休调查(HRS)、英国老年追踪调查(ELSA)以及欧洲的健康、老年与退休调查(SHARE)等(本段摘自官网介绍,很高级有没有!)
作为访员,前期培训,十天,培训意义、方法、操作流程等。要求十分严格,要严格按照流程操作,七十多页的问题(实战时是电脑系统题目自动跳转)要逐个问,要严格按照准备好的问题原句问,还有录音,发回总部监督,不合格或者作假要重新做。这是一个规格绝逼高的调查研究项目,各种教授研究员,等着传回的数据做分析,然后写出牛逼的论文,得出牛逼的结论。这一切都是那么的科学、严谨、有意义。
但是。。。。。。这才是重点!
实际情况是,一部分目标访户找不到人,找到人不配合做访问(对于拒访户要求多次登门,实在不行就填拒访,我经常一次过,不配合就直接填拒访),配合做访问的有些问题访户都不知道怎么回答我们就瞎填。采访一户要将近五个小时,发展到最后我们干脆不采访,直接全蒙。作弊的数据发回去也没监督出来重做。这就是最前线收集数据的情况,教授们就是根据这样的数据得出高大上的研究成果的。原谅我的不负责任,但我不是唯一。(当时采访过程中我就常想,以后有机会我一定把这牛逼的情况说出来,高逼格的背后全是狗屎!)
注意!
我只是描述我做访员的情况,题主提到的研究项目我不清楚不做类比。
看了其他答案分析,我觉得抽取 28000 户家庭的全国调研做法统计学上挺严谨的,不过只是逻辑上。

知乎用户 匿名用户 发表

以均值为例,在随机抽样的情况下,中心极限定理确保了样本均值的正态分布:

。那么标准误就应该是

,其中

是样本的方差。显著性为

的置信区间的构造就是

。因此置信区间的大小不但取决于样本量,也取决于样本的方差。

至于你所说的 “统计学原理” 是从哪里来的,那就不得而知了。

知乎用户 水哥叔叔 发表

确实,统计学的一个理论是随机性很重要,一楼也提到了,数理统计的基础就奠定在 “随机抽样” 上的。通俗地讲:
统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

《大数据时代:生活,工作与思维的大变革》,浙江人民出版社,第一部分 01

但我并不认为甘犁教授的抽样是十分合理的,但其原因不在于随机性。请看这篇文章《对西南财大基尼系数的再质疑》,而且里面不仅质疑了他抽样的随机性的问题还有:

  • 抽样的权重

  • 数据的适用范围

  • 调查方式

我认为文章作者对甘犁教授整个调查的攻击要比甘犁自己的辩护更全面。

声明:本人只接受过基础的统计学训练,以上答案的贡献更多在于启迪与参考,欢迎更专业人士指教。

知乎用户 可尼 Cony 发表

关键是大部分人并不愿意提供准确的收入消费情况 这种事是不能轻易和外人透露的

知乎用户 奶爸联盟奶爸哥 发表

方法科学和结果是否有意义是两码事。

这就比如我和姚明平均身高达到 2 米,这种平均法是很科学的,但结果有什么意义吗?答案是没有。

此次西南财经大学中国家庭金融调查(CHFS)无论是从样本的抽取量还是分析方法,还是有一定的依据和科学性的,也算比较严谨,但是用这样的分析方法得出的结论,是不是有说服力,或者说有价值那就值得商榷了。

以前我们在做商业调查的时候,也往往会出现这样的问题,调查的结果和实际情况往往会出现比较大的差异。这个并不是由于调查方法和分析方法的问题,而是由于被调查人的心理层面的原因,很多回答的问题并不是内心所想,而这种心理变化,又无法通过调研表体现出来,因此,会出现结果是实际不相符,甚至是相反结论的情况出现。

因此,我们对于调查结果,不要不认真,也不要太认真,毕竟调查并不能完全作为决策的唯一依据。还是要多维度的看待一个问题,才能得到更全面,更科学的结论。

知乎用户 匿名用户 发表

只要央行想做,就可以大数据统计,用不着偷偷摸摸的抽样调查

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

社科院是如何精确统计出微博用户的平均收入的?

知乎用户 chenqin​ 发表 更新: 据社科院透露: 为了让数据更加精准,社科院的调研团队通过三个途径获得 7 万样本:其中有来自中国互联网信息中心的实时监测数据,样本量 4 万左右;而数据提供方缔元信公司提供 2 万左右,还有 1 万 …

新冠病毒早在巴塞罗那出现了吗?

新冠病毒早在巴塞罗那出现了吗? ·方舟子· 这几天国内媒体大肆报道,说西班牙巴塞罗那大学研究人员从去年3月的废水中检测出了新冠病毒,比新冠病毒在武汉传播早了大半年,可见新冠病毒是从国外传到中国的。在国内做伪科普的几个人,例如松鼠会云无心、中 …

方舟子:去年3月新冠病毒已经在巴塞罗那出现了吗?

文 | 方舟子 这几天国内媒体大肆报道,说西班牙巴塞罗那大学研究人员从去年3月的废水中检测出了新冠病毒,比新冠病毒在武汉传播早了大半年,可见新冠病毒是从国外传到中国的。在国内做伪科普的几个人,例如松鼠会云无心、中国农大范志红,也趁机拿巴塞罗 …

看完4w份问卷,我整个人已经裂开了!!(附500块中奖名单)

5月22号的下午,我发了一个粉丝问卷调查,认真写的同学会发500红包。没想到两天后我上后台一看,我的天已经回收了42515份!!平均每个人花了11分钟! 看得出大家真的非常热情、非常认真、以及非常贫穷啊!在感动震撼的同时,我立马按下了停止回 …