关闭
关闭
关闭

扫码订阅

陈卫 翟振武

[内容摘要]当 1990 年代各种人口调查“过低的”生育水平难以置信时 ,其“过高的”出生性别比数据却被广泛接受。本文的主要目的是通过对 2000 年人口普查出生数据漏报的性别差异的分析 ,利用教育统计数据 ,重新估计 2000 年及 90 年代的出生性别比。结果表明我国实际的出生性别比并不像2000年普查数据反映的那样严重偏高。我国实际的出生性别比和低年龄组性别比要比普查反映的水平低 5~9 个百分点 。1990 年代在我国出生性别比偏高的部分中 ,女婴漏报的作用高达 50 %以上。本文还根据 2000 年普查千分之一抽样数据 ,考察了出生性别比的社会经济差异。
[作者简介]陈卫、翟振武 ,中国人民大学人口与发展研究中心教授。北京 :100872
伴随着 1990 年代中国生育率的持续下降 ,出生性别比的偏高趋势日益严重。当 1990 年代的人口普查和生育率调查得到的生育率“过低”而难以置信 ,并且学者们使用各种方法和模型来估计真实的生育水平时 ,同样是这些调查得到的出生性别比水平却得到了广泛接受。比如 2000 年人口普查得到的总和生育率为 1. 22 ,而学者们的各种估计大致为 1. 6~1. 8 (于学军 ,2002) 。但是 2000 年人口普查的出生性别比 116. 9 (国家统计局 ,2005) ,人们对此没有过多怀疑。人口普查中出生人口的漏报导致了过低的生育率 ,而出生人口漏报存在显著的性别差异 ,因此出生人口漏报对出生性别比的影响也是显而易见的。本文的目的是进一步考察 1990 年代中国的出生性别比 ,通过教育统计数据来估计1990 年代出生人口漏报及其性别差异 ,从而推算 1990 年代的出生性别比。本文还将利用 2000 年人口普查原始数据分析出生性别比的影响因素。
文献回顾
20 世纪 80 年代以来 ,中国的人口出生性别比出现了迅速而持续的升高 、偏高趋势 ;到 2000 年 ,中国各省的出生性别比除西藏和新疆外都显著高出正常范围 (国家统计局 ,2005) 。出生性别比的升高可以被看作是中国人口年龄性别结构转变的重要特征之一 ,它引起了中国学者、公众、政府和国际社会的广泛关注。大量的研究文献对中国出生性别比持续升高现象 ,进行了实证分析和理论解释( Hull ,1990 ;Jo hansso n and Nygren ,1991 ; Hull and Wen ,1992 ;曾毅等 ,1993 ;高凌 ,1993 ;涂平 ,1993 ;徐毅、郭维明 ,1995 ;贾威、彭希哲 ,1995 ;顾宝昌、罗伊 ,1996 ;刘爽 ,2005) ,主要围绕中国出生性别比失常的表现、原因及后果(张翼 ,1997 ;刘爽 ,2006《; 人口研究》编辑部 ,2003 和 2006 ;蔡菲 ,2007 ;郭志刚 ,2007) 。
概括起来 ,对中国出生性别比偏高的直接原因的解释包括三个方面 :女婴漏报、性别选择性流产和溺弃女婴( Hull ,1990 ; Zeng Yi et al. ,1993 ;马瀛通 ,1994 ;刘爽 ,2005) 。Coale and Banister (1994)
通过对 1990 年之前的人口普查和生育率调查数据的考察 ,认为这些调查的数据质量都非常高 ,出生性别比升高的主要原因是溺弃女婴和性别选择性流产。Hull (1990) 考察了 1982 年人口普查和1987年1 %人口抽样调查中的出生性别比 ,提出了出生性别比升高的这三种解释 ,并讨论了它们各自的可能性 。曾毅等的研究(1993) 对这三种原因进行了更为详细的考察 ,认为 1980 年代后期中国出生性别比的上升几乎全部可以由女婴漏报和性别选择性流产解释,溺弃女婴的影响几乎不存在。他们通过逆向存活法估计了1990年人口普查中的出生漏报 ,女婴漏报高达5. 94 % ,而男婴漏报只有 2. 26 %。用这些漏报率对出生性别比进行调整 ,那么 1989 年全年和 1990 年上半年合计的出生性别比将由 115. 4 下降到111. 4 ,降低了 4 个百分点 ,占偏高部分的 51.3 %。这是他们使用 1990 年人口普查 10 %抽样数据的结果 。如果用 1 %的抽样数据 ,那么女婴漏报将解释出生性别比偏高部分的 42. 6 %。如果用 1988年2 ‰生育节育抽样调查数据 ,那么女婴漏报所解释的比例将更高 。
这些研究的共同特点是使用人口系统内的数据(国家统计局的人口普查和抽样调查以及国家计生委的生育率调查数据) ,通过前后调查数据的一致性检验或各种分析技术来校正出生数据 ,从而估计各种原因的重要性。本文将利用另一个独立存在的数据体系 ———教育统计数据 ,检验和估计 2000 年人口普查中低年龄组人口的漏报及其性别差异,推算 1990年代历年出生人口及其性别构成 ,从而估计 1990 年代中国的出生性别比。
大数据告诉你中国男女比例并未失调,90后性别比均衡
大数据告诉你中国男女比例并未失调,90后性别比均衡
2 1990年代出生性别比估计
在先前发表的研究中 ,我们已经对教育统计数据质量的评估、用教育统计数据对人口普查数据的调整 、出生人口及其性别分布的估计等都作了详细的描述和分析(翟振武、陈卫 ,2007) ,本文就不再进一步说明。由于在利用教育统计数据对普查数据进行调整和生育水平估计时 ,我们得到了 1990 年代历年的出生人口及其性别构成 ,因此也就得到了出生性别比。
在展示我们估计的出生性别比之前 ,我们利用教育统计数据先对普查低年龄人口性别比进行检验。
图 1 显示了 2000 年普查时 6~10 岁各年龄的性别比和他们在教育统计中记录的性别比。假定 6~10 岁未上学儿童中 ,女童多于男童 (这一假定是合理的) ,那么 6~10 岁在校生性别比应高于普查的性别比。但是如图 1 所示 ,教育统计数据中 6~10 岁人口性别比不仅不高于普查的性别比 ,反而低了很多 ,这就证明了普查的低年龄人口性别比是不正确的。
那么 ,通过教育统计数据反映和调整的低年龄人口性别比与普查有多大差异 ? 由于教育统计的小学生在校人数与人口普查在统计时点上是不同的,教育统计时点是每年的9月1日,而2000 年人口普查时点是11月1日 ,因此 ,为了这二套数据在年龄上进行匹配 ,我们将 2000 年普查数据的时点调整到 9 月 1 日 ,同时利用生命表存活率将各年教育统计数据中 9 岁或 10 岁在校人口数匹配到2000 年普查时的同队列年龄。之所以使用教育统计数据中 9 岁或 10 岁在校人口数 ,是因为教育统计的小学在校生人数数据在9岁或10岁达到该队列的最高纪录 (图 2) ,之前和之后年龄的人数或因尚未入学或因已经升学等原因而不能充分反映小学就读人数。
表 1 对比了通过教育统计数据调整的和普查得到的2000年 0~9 岁人口的性别比 。由于
我们当时得到的最近的 2003 年教育统计数据中9岁对应于2000年普查6岁 ,因此6岁以下(0~
5 岁) 数据就需要外推。我们分别用非线性和线性回归拟合进行外推。进行非线性回归时使用 6~22 岁数据 ,计算教育数据与普查数据的比值 ,然后对这些分年龄的比值进行非线性回归拟合进而外推 ;而进行线性回归时只使用 10 岁以下的数据 ,即计算 6~9 岁四个年龄组教育数据与普查数据的比值 ,然后对这些分年龄的比值进行线 性 回 归 拟 合 进 而 外 推 ( 翟 振 武 、陈 卫 ,2007) 。图3显示了通过教育统计数据匹配的和普查得到的 2000 年 0~9 岁分性别人口 ,根据这些数据计算得到了如表 1 所示的 2000 年 0~9 岁分年龄性别比 。很明显 ,年龄越小 ,两者的差异越大 。普查的 0~2 岁人口性别比要比教育数据的性别比高出7~8个百分点 。
大数据告诉你中国男女比例并未失调,90后性别比均衡
大数据告诉你中国男女比例并未失调,90后性别比均衡
由教育统计数据调整得到的 0~9 岁人口 ,利用生命表存活率 ,我们可以将他们倒推至他们出生时的人数。按非线性回归拟合外推而估计的是高方案出生人数 ,按线性回归拟合外推估计的是低方案出生人数 ,而中方案则是高方案与低方案的平均数 。同时 ,在估计出生人数时 ,分别按照 95 %~97 %的小学入学率进行了调整。由于几个不同的入学率和不同方案组合的结果过于繁杂 ,需要明确选择一套数据作为最佳的方案 ,因此 ,我们选择了留有余地的按照匹配的0~9 岁分性别人口入学率95%调整的数据。由于线性回归外推的低方案存在着一定的风险 ,因此我们使用高方案和中方案的结果。表 2 显示了高方案和中方案下1990年代历年的分性别出生人数和出生性别比。
大数据告诉你中国男女比例并未失调,90后性别比均衡
大数据告诉你中国男女比例并未失调,90后性别比均衡
从表2中看出 ,我国出生性别比偏高是确定的事实。但是 ,是否达到了 2000 年普查所反映的如此之高的水平呢 ? 通过教育数据调整的普查低年龄组的性别比看出 ,我国实际的低年龄组性别比要比普查反映的水平低5~9个百分点 。2000年普查的出生性别比高达117 ,而表2中2000 年的出生性别比为 110 左右,实际的出生性别比显然要低得多。据此粗略估算 ,我国出生性别比偏高的部分中 ,有至少高达 50 %是女婴漏报所致 。1995 年 1 %人口抽样调查的出生性别比为 115. 6 ,对比表 2 中1995 年出生性别比 ,可以计算出其偏高部分中有 52 %~63 %来自女婴漏报 ;而 2000 年人口普查出生性别比(116. 9) 偏高部分中女婴漏报所占比例高达 68 %~73 %。考虑到这一年龄组男性的死亡率为每年3‰-4‰这个因素,90后的实际性别比基本处于107的正常区间。
3 出生性别比的社会经济差异
尽管 2000 年人口普查的出生性别比强烈受到出生漏报的性别差异的影响 ,分析出生性别比偏高的社会经济差异 ,将有助于认识出生性别比偏高的特征和影响因素。以往的研究已经得出了许多一致的、重要的结论 ,比如出生性别比偏高发生在二孩及以上出生人口和只有女孩的妇女 、农村出生性别比偏高程度比城镇更为严重 、出生性别比与受教育程度呈倒 U 型关系等(涂平 ,1993 ;高凌 ,1995 ;张二力 ,2005 ;原新、石海龙 ,2005 ;杨菊华 ,2006) 。2000 年人口普查数据也显示了类似的模式。
由于国家统计局出版的 2000 年人口普查数据汇总表中没有出生性别比的社会经济特征数据 ,我们将根据 2000 年普查千分之一抽样数据 ,根据妇女的人口学和社会经济特征 ,来考察中国出生性别比的模式和差异。从该样本妇女的出生性别比特征看 (表 3 中“双变量”这一列) ,严重偏高的出生性别比(120 以上) 发生在年龄超过 30 岁、住在镇、汉族、小学文化、从事服务业或农业这些类别的妇女中。中国的中南地区和东部地区比其他地区的出生性别比高出很多。孩子的人口学特征对于出生性别比的影响最大。出生性别比偏高最严重的情况发生在二孩及以上或者前有孩子全是或多是女孩的妇女 。最高阶层的社会经济群体 ,包括居住在城市、接受过高等教育、是干部和技术人员的妇女 ,其出生性别比也偏高。正常的出生性别比仅仅发生在有限的一些群体中 ,包括没有接受过任何教育、居住在西部地区、生育第一孩子 ,以及已生育过的孩子都是男孩但仍然继续生育的妇女。
由于观察到的双变量关系可能会受到其他因素的影响 ,因此我们通过多变量分析在控制其他的
变量的情况下来检验在多大程度上上述所观察到的模式仍然成立。表 3 展示了通过 logistic 回归调整的出生性别比(模型 1 - 3 中的出生性别比) 。需要注意的是 ,出生性别比的测量和解释应该谨慎 ,因为出生性别比的大小对抽样方法和样本规模较为敏感。纳入分析的妇女样本中仅有 11752 个新生儿 ,可能仅仅因为随机波动或抽样误差就会导致出生性别比的较大差异。为了能够在统计上显著区分出生性别比 105 和 110 (5 %的显著水平) ,样本规模必须至少达到 14000 个新生儿 。尽管样本妇女各类的出生性别比的值在统计上不能完全推断总体 ,但是通过各变量影响的模式与方向体现的出生性别比差异是有重要意义的。
从 Logistic 回归模型的结果中可以看到一些在以往研究中没有充分注意到的有趣而重要的结
论。在年龄、居住地和受教育水平方面 ,它们对出生性别比的影响的方向与双变量分析的结果几乎完全不同。在其他的社会经济和人口学变量控制后 ,年龄与出生性别比呈负相关 ,即妇女年龄越轻 ,出生性别比越高 ;城市的出生性别比比农村高出许多 ;教育水平与出生性别比是正相关的 ,即妇女受教育水平越高 ,出生性别比越高 ,而且受教育水平的这种正相关具有统计的显著性。由于年轻的、城市的以及较高受教育水平的妇女群体更可能有较低的生育意愿和生育率 ,同时她们也更可能获得先进的医疗设施和性别选择的技术 ,因此 ,与其他特征的妇女相比 ,性别选择性流产更可能是她们产生异常高的出生性别比的原因 。印度 ( Ret herford and Roy 2003) 和越南 (Belanger et al. 2003) 也有类似情况 :较高社会经济的阶层有着较高的出生性别比。
4 结论
在人们不能接受 2000 年人口普查得到的“过低的”生育水平时 ,其“过高的”出生性别比数据却被广泛接受。本文的主要目的是通过对普查的出生数据漏报的性别差异的分析 ,利用教育统计数据 ,重新估计 2000 年及 1990 年代的出生性别比 。同时 ,根据 2000 年普查千分之一抽样数据 ,考察了出生性别比的社会经济差异。
根据调整的低年龄组分性别人口和分性别出生人口计算 ,我国实际的出生性别比并不像 2000 年普查数据反映的那样严重偏高。我国实际的出生性别比至少要比 2000 年普查的出生性别比低 7 个百分点。其他低年龄组性别比要比普查反映的水平低 5~9 个百分点。在我国出生性别比偏高的部分中 ,女婴漏报的作用至少高达 50 %;其余的 50 %才是性别选择性流产的作用。2000 年普查的出生性别比偏高部分中更有 70 %左右是女婴漏报所导致的 。这一事实对于恰当 、正确地认识我国出生性别比问题及其后果 ,以及出生性别比与计划生育的关系 ,具有十分重要的意义。

发表评论
发表评论

网友评论仅供其表达个人看法,并不表明铁血立场。

全部评论
加载更多评论
更多精彩内容
+加载更多
热门推荐