社科院是如何精确统计出微博用户的平均收入的?

by , at 04 August 2020, tags : 问卷 社科院 学历 群体 调研 点击纠错 点击删除
使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 chenqin​ 发表

更新:
据社科院透露:
为了让数据更加精准,社科院的调研团队通过三个途径获得 7 万样本:其中有来自中国互联网信息中心的实时监测数据,样本量 4 万左右;而数据提供方缔元信公司提供 2 万左右,还有 1 万样本量来自于社科院的调查。这样看来,他的数据来源似乎和下面的这份调查不一样,我之后的回答仅供参考。我个人认为同一数据公司在两次调查在方法上不会有多少区别,因此下面的回答应该仍然有价值,所以还是保留下来。
=======================================
这个数据是社科院委托第三方进行线上调查的,数据公司名叫缔元信(Dratio)。《中国新媒体发展报告 (2013)》在京发布 缔元信提供数据支持
研究报告可以在这里下载到:社会化媒体发展趋势研究报告
数据来源的描述是这样的,看起来他总共收回了线上问卷将近 1000 份。

问卷调查在这里可以找到:社会化媒体用户研究有奖调研,只要第一题选择了微博或微信其中之一就可作答,最后问到了答卷人的性别、年龄、学历、职业、收入。这样他就获得了这样一批答卷人的收入情况。
问卷调查最重要的问题就是代表性,即回答问卷的人能不能代表你想要了解的对象群体。不幸的是,代表性问题也是最难解决的问题之一。
有代表性的问卷对象一定要从一个有代表性的总体库中抽取出来,比如常住人口库,户籍人口库。抽取的方法还比较简单,困难的是要保证回答的人也能有代表性。当拒访或瞒报发生在某些特定的人群上时,问卷就不具有代表性了,比如高收入人群几乎必然会拒答有关收入的问题,高学历的人群又对隐私问题特别保留。我们在面对这类情况时,也只能是提高一点奖励,让调查员变得更 formal 一些,多回访几次来表现调查的诚意,以此尽量避免代表性的缺失。
那么大家可以看看,这样一份建立在自愿填写基础上的问卷是否能对整个微博群体有代表性呢?大家可以自己总结,我就不一一列举了。

************** 下面是吐槽时间 ****************
信不信我把奖励从运动水壶改成老年复合维生素这报告就会变成 “老年人是微博的绝对主体和最活跃用户群”?

知乎用户 Maxpeny 发表

说说我 11 年写毕业论文时候的调研结果吧,课题是关于微博上网络营销。调研途径主要是通过线上问卷直接找微博用户调研的,样本数量大约 200 多份。结果是,微博用户主要是存在于一二线城市(一线北上广,二线为主要大城市);学历主要集中在大学大专水平,一些硕士,高中以下几乎没有,所以说是中国学历较高的群体;年龄主要是 40 岁以下的年轻人群体。收入的话,根据上面的几条,你大概可以分析出他们的收入水准了,同时我问卷中有一些是没收入的学生群体。

知乎用户 莲花素手 发表

。《统计数字会撒谎》是本写于五十多年前的书,当时,美国的各大媒体和宣传机构开始非常重视统计数据,称为 “神秘的语言”,但是大量的统计数、统计资料由于主客观的原因而被滥用,已经与事实相去甚远。当时的一个具有深厚统计背景的新闻记者达莱尔 · 哈夫(Darrell Huff)发现了统计数据的谎言,他在广泛调查的基础上,从报刊、杂志、书籍中,从美国统计学会一些统计学家提供的实例中,收集了大量案例,并在 1954 年写下了《How to Lie with Statistics》(统计数据会撒谎)一书。我们对于数据的依赖有多重?我们对于增长率、平均数据等这些统计学下的数据有多依赖?这些问题现在再反问,仿佛已经没有意义。每个人程度不同,但是严重的结果,可以用那句话:“信不信由你”。“统计这种神秘的语言,在一个靠事实说话的社会里是如此地吸引眼球,但有时它却被人利用,并成为恶意夸大或简化事实、迷惑他人的工具。在报告社会经济趋势、商业状况、民意调查和普查的大量数据时,统计方法或者统计术语是必不可少的。但如果作者不能正确理解并恰当地使用这些统计语言,而读者又并不能真正了解这些术语的含义,那么,统计结果只能是废话一堆。” 这段文字作者写在序言里,颇有些醒目。

知乎用户 小条哥哥 发表

所有的回答都是扯淡,沒看 CCAV 最近總說互聯網壞話嗎,社科院這次的數據祇是其中一部分

知乎用户 匿名用户 发表

抽样调查 x 问卷调查!!是的 that’s it.
至少新浪的葛格说他们委托第三方做微博用户消费力调查的时候就是这么做的。当时我和我的小伙伴们都惊呆了:他们有这么大数据量居然还用这么老掉牙的方法?!但是确实是这样,微博用户自生成的数据可用性太差。
新浪尚且如此,社科院拿不到原始数据,更是只能这样了。

知乎用户 阿博 发表

参与过很多门户网站(都做微博)的线上调查,其中很多问题都涉及年龄收入等,问卷不少都提问的比较详尽,社科院直接采取这类网站的调查结果可能性较大。

知乎用户 李伟 发表

青少年是微博的绝对主体和最活跃用户群,
学生是最大职业群体,为了个水壶也就青少年愿意填写问卷了,他们在上学,比较闲。
月收入 5 千元以下用户占 92.2%。
同理,白领会为了水壶暴露自己收入吗?或者说白领填收入的时候是认真吗?

知乎用户 向永艾 发表

这种轻率的结论堂而皇之地公布,也算是传谣吧?

知乎用户 李福东 发表

到目前为止,我没有详细阅读过原始报告。 也不清楚原始的抽样方案,也就不清楚这个结论的产生过程。因此结果的解读难免存在着种种谬误。
不过,我们可以结合其他的相关报告进行分析,对这个结论进行甄别。
如果是采用在线问卷的方式,根本不可能对整体有良好的代表性。
在基础数据都存在问题的情况下,做任何解读都是不负责任的。媒体的断章取义更加剧这种现象。

知乎用户 苍井木有空 发表

看你晒的东西和讨论的话题就知道你是啥收入水平了嘛,你看人家郭美美。。。

知乎用户 巨蟹先生 发表

阿里巴巴是新浪的大股东! 阿里巴巴手里有淘宝和支付宝,淘宝知道你的消费情况,支付宝知道你的资金。大数据时代,你的购物网站浏览记录,消费习惯,社保,个税,工资,一下子就知道,不然中国的那几部超级计算机做什么用的,玩游戏么?

知乎用户 匿名用户 发表

第一次匿名.
再跑个题.
以农业数据统计为例, 好多都是先出结果再照结果派指标. 不派指标时, 除了个别县会真是统计外, 相当一部分都是随意估算的, 并不一定是出于什么目的, 而是本身就是糊涂账. 这些数据合并后, 也不会进行修正, 而是根据需要再做些修改.

知乎用户 富仔哥 发表

不要相信那些不实的消息。。毕竟很多人都是随便选择。就好像现在常常说的当地平均工资,实际上身边没有多少个朋友达到,,而我还一直在拖后腿。。

知乎用户 匿名用户 发表

学历,收入,在不在大中城市混。敢不敢还有别的能吐槽嘛砖家?!

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

为什么学区房比学历贵

最近我有个老朋友特别焦虑,头发一掉一大把。 原因很简单,他人在北京,孩子快到年龄了,要准备上学了,他要买学区房。 买学区房这事情其实没啥问题,唯一的问题是钱不太够。 他现在住着一个120平的房子,地理位置比较偏,学区挺差的,需要把这套房子卖 …

学习工科和文科对领导国家有影响吗?

品葱用户 雷公太极 提问于 7/22/2020 中国的古代文化人从来都是比较没骨气,这是有目共睹的。直到中国有了西方现代工科,那些工科生和理科生才使中国的文化人有了骨气,事实求是起来。闲着没事在想为什么这几年中国能左成这个样子,加速师没文化 …

剧透预告!这份涉及多个重点行业的“成绩单”透露了这些信息…

从年初澳洲山火、伊朗客机坠落,再到一场新冠肺炎疫情席卷全球……2020年以人们未曾想过的方式降临。然而,面对喧嚣与巨变,行进的脚步不能停下,眼睛更不能失去方向。我们需要向前看,在迷雾中寻找出路。 我们更需要向后回望,才能辨别误区,锁定值得坚 …

最近小粉红是否在舆论中落于下风? 如果是为什么?

知乎用户 红色土拨薯 发表 对,粉红不行了,而且从某种长远的角度看,粉红迟早不行,必然不行。毕竟很多事情粉红根本干不了,比如说,执法这一块,是不是就有点强人所难了? 这个时候就得整丶蓝色的东西(指警情通报的背景色) …