印度的人口年龄分布为何每五年出现一个高峰?

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 chenqin​ 发表

@藕粽

的回答是正确的,这个问题的答案就是 Digital preference。印度人口的奇怪形态就是因为记不清自己的生日而产生的误报。

人口普查中,有一个专门的名词,叫 Whipple 指数,范围在 100 到 500 之间,度量的是年龄尾数在 0 和 5 的集中程度。在精确度较为良好的人口普查中,Whipple 指数一般在 100 左右,即以 0 和 5 结尾的年龄人数等于每个年龄的平均人数;当 Whipple 指数等于 500 时,代表 0 和 5 结尾的年龄人数等于每个年龄的平均人数的五倍——此时所有人的年龄都以 0 和 5 结尾。一般来说,Whipple 指数和普查质量的关系如下表所示:

印度就是那种普查质量最最最低的国家。在 2011 年的人口普查,印度的 Whipple 指数是 171,在差的范畴内,说明报告了 0、5 结尾的年龄的人数是平均人数的 1.71 倍。

大家不要笑,由于印度在 2011 年普查中采取了记录出生年份的方法,这个数字比起 2001 年普查的 230 已经有了长足进步了。从下图可以看出,尽管 2011 年的 0、5 结尾(除了 0、5 之外,印度人还偏好 2、8 结尾。这是

@呆涛

提到的偶数偏好,但印度人不喜欢 4 和 6)的凸起仍然很吓人,但比起前两次普查,确实已经好了很多。

Digital preference 的原因十分复杂。

@藕粽

说到了文盲比例,这当然是一个重要因素,比如下图是印度各邦在 2001 年的识字率和 Whipple 指数,可以明显地看到识字率越高的地区 Whipple 指数越低。

但我们也可以发现,对于识字率达到了 90% 以上的 Kerala 邦,Whipple 指数仍然高达 140,处在差的范围内。而中国在 1953 年的第一次人口普查时,文盲率高达 80%,普查的 Whipple 指数却仍然只有 102,数据质量十分优秀。因此,能否记住自己的生日,文盲与否会在一定范围内起到作用,但还有别的重要因素。

生肖无疑算是一个因素。汉族的生肖系统结合自我报告的年龄,一般就可以把出生年份给推定精确了。在历次人口普查中我们都可以发现,不管文盲与否,汉族人口都能精准地报告自己的生辰,而一些少数民族的报告就不那么准确。例如维族和藏族的 Whipple 指数都在 110 以上,其中维族的 Whipple 指数在 1990 年高达 130。下图表示 2010 年普查的维族人口年龄结构,我们也能发现在 0、5 结尾处明显的凸起,虽然没有印度那么强烈。

但生肖也不能解释所有偏差。如果只算兽历,那么维族一样有兽历,印度其实也有,大家都有 12 只野兽,为什么汉族特别擅长记住自己的年龄呢?对生死的态度,可能算是另一个原因。中国的传统视生死为大,对这两个日子都记得很精确。一般墓碑上的生卒年是必不可少的。大一些的家谱里面,即使是最默默无闻的人,一般也有这样几个信息——哪年生的,老婆是谁,哪年死的。印度对生死有着什么样的传统,我不太清楚,但是印度普查局在辩解年龄数据报告为什么那么不准确时,有一句话倒是让人印象深刻:
In country like India, the distortions are naturally greater because precise determination of age is not considered important in everyday affairs.
在印度这样的国家,(普查中的年龄)偏差较大,是因为精确判断年龄在日常生活中并不被认为是一件重要的事。

到底有多不重要?我还是难以体会,直到算出这么一幅图。

上图是印度某个人群在 2004 年小普查中的人口年龄结构。不出意料,波澜壮阔呀。在 0、5 结尾的年龄非常高,在 2、8 结尾的年龄也比较高,在其他年份的人口几乎减半。但问题是,这批人是印度的大学毕业生和研究生,他们是印度学历最高的一群人,仅占印度总人口比例的 4% 不到,和文盲、不识数或者记性不好怎么也沾不上边。连这批人都记不住自己的生日,除了诉诸文化,我还真的想不到有什么别的解释了。

知乎用户 藕粽 发表

Digital preference. 这在文盲率较高的地区是常见现象。人们常常没能确切记录出生年月,在人口普查的时候按照约数(通常是 5、0 结尾)回答年龄。这跟具体的普查年份无关,任何时候普查都会有以 5、0 结尾的年龄为跳跃的现象。

==================================

补充

@呆涛

给出的 Whipple’s Index 是量度 age reporting 准确度的一个常用指数,昨天回答的时候没想起来。但是有几点值得注意:

1-

@呆涛

给出的公式是用来测量 5、0 偏好的,但相似地可以构建别的数字偏好的公式。
2- 该指数只包含了 23 到 62 岁的年龄分布,也就是 25±2 到 60±2 的分布,Whipple 认为线性假设(见 3)对高龄组和低龄组不适用。
3- 该指数有一个重要假设:五岁年龄组内年龄分布为线性。如果有外生变量起作用,这个指数的效用就存疑。

根据

@呆涛

回答里的公式和题主给的印度普查数据(表 C-13),印度 2011 年普查全国的 Whipple’s Index (5、0 偏好)是 171.04,农村地区为 180.52,城市地区为 152.88。表 C-13 是分邦、分性别、分城乡的,可以计算更多的 Whipple’s Index。

@呆涛

还提到文盲率解释的问题。文盲率和这个现象(或者说 Whipple’s Index)高度相关应该是个安全的说法,但文盲率(或者社经发展程度)的确是一个略显 remote 的原因。不过话说回来,用「缺乏相应的计数方式 」「对于数字敏感程度」来解释这个现象有点儿 tautologic。另外,就像

@chenqin

指出的那样,如果要用文盲率来解释这个现象,还需要在地区内部的历史维度和地区间的比较维度上提出更合理的机制。

知乎用户 呆涛​ 发表

部分同意

@藕粽

的答案 (Digital Preference 完全正确! 但是我认为不止是跟文盲率相关的现象).

反对

@孙毓波

的答案 (太主观).

有个叫 George Chandler Whipple 的人发现的一个现象, 进而统计的一个参量. Whipple’s Index 可以用来量度人口普查的可信度. 该参数越大则越不准确. 原因就是参数越大的地区 缺乏相应的计数方式 (不只是文盲, 而只是对数字不敏感), 导致人们很随意的 round up 或者 down 自己的年龄. 比如说 28 岁会说自己 “二十多”, 进而就填 25 或 30. 另一个例子是偶数偏好.

这个指数就类似于 “强迫症调电视音量一定要调到 25 或者 30!!! 28 是个什么音量??!”

这个 Index 不代表文盲比例, 我认为最贴切的描述是 “普通民众对于数字敏感程度”.
就算有人不是文盲, 但是他就是倾向于把自己年龄报成个整数 (19 报 20, 31 报 30).
不是每个人都对于年龄如此敏感.

我的父亲为了工作项目年龄改过好几次, 在二代身份证之前我父亲的生日甚至是根据农历算的, 二代身份证的时候才现编了一个生日 (所以我这个不孝子每年都不给他庆生… …T.T).

算法和参照表格如下:

Nx 表示 满了 X 岁的人口数量

Whipple’s Index 对照量表.

引用: http://ijphjournal.it/article/download/5630/5372

WIKI 如下:
Whipple’s Index (ano… 请各位自行 google/baidu / 维基… 因为维基百科的网址中间有个’ 号 把网址分开了于是知乎识别不出来了…)

关于 India 的报道如下:
Whipple’s Index shows Indians are lying less about their age
摘图:

2001 年的指数大概在 170 ~200 之间浮动 (尼玛数据纯粹不可信啊…)
2010 没找到平均值. 题主你的数据里应该给出来了, 或者有哪位 Demography 大神来指导一下.. 我根据最高最低估算了一下大概是个 125 - 175 的区间吧 (也就是 Bad 那一栏). 说明还是很明显的倾向性. 补充: 目前只有一个民族 / 国家的人口普查 Whipple’s Index 基本对不上号, 乃我大汉族!
我大汉族因为十二生肖的事情导致成为了最有名的 Whipple’s Index NOT apply 的典范!!

知乎用户 火柴 Logan 发表

需要明白的是,印度的人口普查人员调查的是一个人的报告年龄(reported age),而不是真实年龄(actual age)。印度人也没有这么奇怪的理由或习俗要在某一年生一大堆小孩。在人口普查时,通常是一个家长报告所有成员的年龄,所以他们为了方便,一般都是报五的倍数。

从 2011 年的年龄数据可以看出,从年龄 10,12,18,20 以后开始,每隔 5 年就有一个人口高峰。有意思的是,Kerala 地区误报年龄的数量是比其他地区少得多的,因为该地区居民的整体受教育程度比较高。

其实为什么印度人口普查年龄人口为什么那么不精确呢?有诸多原因。

人口普查会问年龄,这很不靠谱,因为有人把出生那一年当作 0 岁,有人则把它当作 1 岁。其实这个问题在哪个国家都有,包括美国,但是在印度,这问题相对严重一点。印度已经逐渐采用询问出生日期的方式做调查。

因为日常生活中,印度人就觉得没必要报告准确的年龄(而中国人喜欢谈论生肖,所以相对准确很多)。所以由于这些社会和文化等原因,在人口普查时,印度人喜欢报 0 或者 5 结尾的年龄,另外他们也喜欢偶数(从上图也可以看出,偶数年龄人口也会有小高峰),比如 12,18。而老年人,许多根本不知道自己的年龄或者直接报年龄段,比如 50-60, 60-70, 70-80。另外,一种很普遍的现象是,许多老人直接虚报一个很大的年龄。这就是为什么上图里面,100 岁以上的人也是不少的(比 95 岁人口高了许多)。

另外,一个比较特殊的人群是妇女。妇女很大比例是文盲,所以她们很难准确地说出自己的年龄 / 出生日期。在许多地区,年轻妇女是被禁止回答调查员的问题,除非调查员是女的。另外,学龄前的儿童或者辍学儿童是很难统计年龄的。

有意思的是,印度并没有什么文化或者社会习俗来纪念生日,尤其是绝大部分的农村地区,压根就不怎么重视年龄和生日。而上面也讲了,日常生活中也不鼓励告诉别人准确的年龄。

出生证明,作为印度唯一合法的证明出生的文件,也挺不准确的。有时入学或者参加选举时,都不检查出生证明。而在刑事案件中,为了确定一个人是否成年,还需要验骨头(ossification test ),特别是青少年罪犯。

参考来源:
http://censusindia.gov.in/Data_Products/Data_Highlights/Data_Highlights_link/introduction.pdf
http://catalyst.nationalinterest.in/2013/09/09/the-age-of-india/

知乎用户 房海波 发表

常年在百度印度吧混,也没听在印度的中国网友说印度有这个习俗,但是发现一个有趣的事,印度人民院每五年选举一次。根据印度的国情,我很怀疑这两个数据间有必然联系,不排除为了选举获胜而将一些未满 18 岁的人的年龄造假成 18 岁,这样就人为形成 5 年一个的高峰,而且 20 岁以上这个生育高峰才明显恰好符合 18 岁才能选举的情况。

知乎用户 草原月色 发表

我觉得道理其实很简单。
印度处于热带地区,一年中只会感到热与非常热的交替。印度历法和阿拉伯历法的一年不是准确的 365.2 天对与他们而言也没什么影响。可见,年和日期对于他们而言对生活的影响非常小。自然,对于年龄也就没什么概念了。
而中国出在亚热带季风带,农业受到四季天气变化的影响很大。所以计算历法的时候会非常仔细。

知乎用户 红猪 发表

读印度史诗《摩诃婆罗多》时,发现一个现象。书中的数字前后矛盾,甚至同一页,同一段落某一个数字都是矛盾的。比如,猴子兵数,同一页第一段是三千万,第二段就变成一个亿,第三段就变成另一个数。就像一个老年痴呆的患者一样。另外,佛经里提到数字时也经常以亿计,比丘动辄千五百人,要么就是三千大千世界。
感觉印度人对数字根本不需要精确,随便一说就可以了。

知乎用户 李毅 发表

参考电影。中间的时间都跳舞去了。不如跳舞,什么都不如跳舞……

知乎用户 孙召忠 发表

我的推断:统计数据本身有误

可能的原因是:

1 调查方法有问题
2 数据处理有问题

============================================================

不同意排名第一的藕粽的回答,理由如下:

1 印度是个文盲率较高的国家,这不假,但高的时候也只有 30% 左右。回来看这个表格,就算这 30% 的人恰好全错了,也不会造成如此剧烈的波动。

2 文盲就记不住自己的出生年份吗?这太奇怪了,他只是文盲而已,会读写的字数达不到标准,仅此而已,他不是弱智!他在社会上生存,他起码他得会数钱吧,1 斤羊肉 150 卢比,1 斤鸡蛋 20 卢比…… 如果连 100 以内的数都不会数还能算个正常人吗?就算他真的不记得自己到底是 22 岁还是 23 岁,那他最多随便说一个 22 或 23,难道他还会取个整数说自己 20 岁或者 25 岁吗?就算他是文盲中的脑残,他不会数 22 这样的数,怎么那么巧会认得 25 呢?

3 就算这些文盲真的记不清自己的出生年份,随便估计了一个,那最终的报表也是相对平滑了。因为误差都是随机的,有大一两年的,也有小一两年的,在正常人的大基数的基础上,最终的结果绝不会如此波动。

综上所述,我觉得印度人口年龄分布曲线异常绝不会是因为文盲率导致的。但真正原因是什么,我也不知道。

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

生育儿童智力水平是否与父母生育时年龄具有统计学关系?

知乎用户 chenqin​ 发表 父母年龄与孩子是否优秀,其实要讨论两个阶段,第一个阶段是怀胎十月。关于这方面,前面许多的答案已经说得很完整了,包括怀孕难度增大,流产率增高,唐氏综合症的概率上升等等。应该说,高龄父母,尤其是高龄母亲却是在怀 …

如何判断人口红利是不是已经消失?

知乎用户 原非伊 发表 小区旧改收尾,挖掘机在楼下作业,大概过了半晌,有人来给挖掘机加油,听语声大概是挖掘机车主兼包工头,于是工程负责人,包工头和挖掘机司机三人碰头。 包工车主对司机说:听话,让你干什么就干什么,利索点,知道么,? 司机满口 …