人口学研究办法:规范与进步

点击数:255 | 发布时间:2025-02-10 | 来源:www.souhusy.com

    认识人口与计划生育统计的特征防止统计办法和数据的误用
    因为工作关系和职业习惯,笔者对各种各样有关人口和计划生育的工作报告、剖析文章中的统计办法和统计数据比较关注,常常可以发现统计办法和统计数据被误用的状况。本文通过一些实例,剖析因为不知道人口和计划生育的特征而导致统计办法和数据误用的状况。
    1个案与群体
    〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男宝宝6人,女宝宝4人,出生性别比高达150,紧急失调。
    〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,需要当年的计划生育率高于95%,而该村一般每年出生不足20人。
    〔实例3]某地计生委依据群众举报,查出某县一个超生5胎的状况,据此称该县超生问题紧急。
    〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级需要检查服用“福施福”后,人口缺点发生率是不是逐年降低。还有不少地方把孕产妇死亡率是不是逐年降低当作生殖健康服务工作的考核内容。
    这几个例子所出现的问题都是以个案或少量发生的状况,说明一个地方宏观的状况。人口和计划生育统计所剖析的对象(人口)或事例具备群体性,这个群体是由每一个个体的人或事件集合而成。每一个个体是不是发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具备相当的规模后才有意义。群体的规模太小,尽管对每一个个体的统计是准确的,指标的计算也是正确的,但计算结果并不可以客观地反映群体的规律。
    如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比率紧急失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只须有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺点发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即便根据出生缺点、孕产妇死亡发生的平均水平,每年也只有几例,偶然性非常大,在统计数据上非常难表现为逐年降低。至于例3,以一个特例说明全县的状况,更是欠妥。各种人口和计划生育统计教程上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这类统计指标绝大多数不可以用于剖析规模在几百人到一千多人的村级状况,很多指标在县、乡级用也不太适合。多年来各级是通过报表采集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每一个项目,然后逐级大全、上报。如此以来,上、下级的报表式样相同,只不过数目大小有差别,于是,上级单位计算什么指标,下级单位“照葫芦画瓢”计算相同指标。尤其是实行人口与计划生育目的管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这样的情况下,群体性的需要比较容易被忽略。
    2自然属性与社会属性
    〔实例5〕1995年8月,在全国上半年人口形势剖析会上,某省计生委剖析本省当年上半年二孩出生数目比上一年同期降低是什么原因时称,因为自当年起全省广泛推行“三结合”,很多群众为了发财,主动退出二孩指标,于是二孩出生明显降低。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标致使二孩出生降低,那样原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未拓展计划生育“三结合”;至于1995年上半年拓展“三结合”后退出的二孩指标,其二孩出生降低的成效应在1996年将来才能表现出来。群众退出二孩指标与二孩出生数目的降低在时间上出现了“矛盾”。
    〔实例6〕很多文章剖析妇女受教育程度越高,生育的孩子越少。
    这两个例子说明剖析人口出生数目的变化应考虑人口的自然属性和社会属性。人口第一是生物意义上的人口,具备自然属性,同时,人口生活、存在于肯定的社会环境中,具备社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来达成。在剖析人口现象的时候,第一要讲解人口的自然属性,然后再讲解社会属性。就实例5而言,从妇女退出二孩指标到二孩出生降低,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不可以缩短。退指标的发生与出生数的降低在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因拓展“三结合”妇女退出二孩生育指标不会干扰这个时期的二孩出生数目。关于实例6,一个人的受教育程度是社会属性,妇女受教育水平提升,的确会干扰其生育行为。然而,影响生育的自然原因,直接原因是避孕节育行为,具体地说,影响生育的生物原因包含推迟结婚(不发生性行为)、采取避孕手段和流产(终止妊娠)。妇女文化程度影响到上述生物原因发生变化(如文化程度高,可以更好地学会避孕常识,可以提升避孕的有效性,降低怀孕的可能),并通过上述原因影响生育孩子的数目。直接讲文化程度与孩子数目的关系,未免有的牵强。
    3定量与定性
    〔实例7〕各地每年都要剖析当年的人口形势,将当年的数据与上一年的数据进行对比。很多剖析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,获得了巨大的成绩,上了一个新台阶”。但假如大家仔细察看各项指标的数目,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰降低为14.9‰(这其中因为人口年龄结构的变化也能致使出生率降低),多孩出生由165人降低为149人,多孩率由2.2%降低为2%等等。依据这类数据的变化,得出的定性结论应当是:“工作稳步进步,人口增长维持平稳的态势”。人口和计划生育的统计剖析主如果指对数据的剖析,并由“定量”的描述引申到定性的判断。假如忽略定性的剖析,那样,所谓定量剖析不过是数目变化的文字描述而已。把握好定性剖析的重点在于,定性剖析应以定量剖析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数目变化的做法,违背了“定量”与“定性”的基本规律。如此进行的定量剖析,只不过给定性的结论加一些数目的点缀。
    4模糊和精准
    〔实例8〕某区域的一份材料称,依据20年来每年总和生育率的变化,推算当地区20年来少生了1831275人。
    〔实例9〕某县计生委借助农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育常识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上同意宣传、咨询的群众累计达到127328人次”。
    乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字这样精准,让人钦佩。但转念一想,不免生疑:实例8中借助总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女性数相乘计算出生人数,一般来看,每一个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,如何可能精准到个位数呢?况且20年间,该区域的人口并不是处于“封闭状况”,各年龄组人数由于人口迁移而变化,也会干扰到计算少生的数目。至于实例9,在一个开放的、大家频繁走动的集市上,怎么样断定什么人同意了宣传,什么人同意了咨询,并没一个客观的规范;即便有标准,实质操作中也非常难把握,因此,根本没可能逐人统计。实例8、实例9中看上去精准的数据让人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上同意了计划生育宣传、咨询服务的人次达10余万”,可能有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状况或趋势,没必要也没可能做到精准。很多同志在应用统计办法时,总是注意的是办法本身的概念和计算过程,而对计算中数据的来源不知道。人口和计划生育统计是社会经济统计范畴,不少数据是通过抽样调查获得,允许有肯定的误差;即便是全方位的调查(如人口普查、全局报表),在推行过程中,也会遇见如此、那样的干扰或影响,存在着调查误差,这是没办法完全防止的。从某种意义上讲,数据存在肯定的误差,这是人口和计划生育统计的特征之一。
    5缘由与结果
    〔实例10〕最典型的例子莫过于“人口出生率每减少1个千分点,人均GDP提升多少个百分点”的说法。这种说法的依据是借助有关剖析法对全国各省的人口出生率和人均GDP的数目变化进行计算,得出二者之间的函数关系式和有关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数目大小。
    在这个例子中有关剖析法本身与有关的数据都是正确的,然而,用如此一个函数式来讲解人口增长与经济增长的相互关系是有问题的。其一,就统计办法来讲,有关剖析只反映变量之间的有关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来讲,是经济进步影响大家的思想,进而影响大家的生育行为,最后致使生育率降低,人口增长率减少,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不只逻辑上讲不通,数目上的“有关性”也失去了意义。
    笔者在多年的工作中领会到,因为人口和计划生育所具备的特征,人口和计划生育统计剖析办法的应用和统计数据的讲解有别于其它部门和范围对于统计的一般需要。正确地应用统计剖析能够帮助大家认识人口和计划生育的特征和规律,只有科学地认识和把握人口和计划生育的特征和规律,才能防止在统计剖析中陷入误区。
    社会科学实证研究中的统计剖析办法应用
    郑真真(北京大学人口研究所副教授)
    统计学的应用伴随微型计算机的普及愈加广泛,在社会科学实证研究中几乎是无处不在。有了肯定规模的数据和一个统计剖析软件,就能很便捷地进行各种估算和剖析。然而因为统计剖析办法本身并不像加减乘除那样简单,而一些统计剖析软件已经进步到几乎是每人都可用的程度,假如用户在只知其然不知其所以然的状况下操作并得到结果,可能出现对统计剖析办法误用或滥用的现象。本文仅对一些统计剖析中经常见到的问题进行讨论,以引起各方面的看重。
    1描述性统计
    描述性统计是社会科学实证研究中最常见的办法。准确、全方位、正确的描述是所有实证剖析的基础,假如对某个事件或某种现象的描述不了解或存在偏差,那样其后的所有剖析都将是值得怀疑的。一项研究可以将所研究的现象或对象描述了解,就是一个很大的贡献;而描述的偏差或许会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但由于描述性统计所用办法简单易得,总是没得到足够的看重。
    均值的局限常见用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来讲是最好的测量,对于不对称分布则不然,特别会遭到极端值的影响。两个分布完全不一样的样本或许会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而总是这种内部差异正是需要大家进行深入研究的、或应当引起大家注意的。为了弥补均值的这个缺点,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。
    不同群体的可比性在描述性统计中,总是涉及到对不同时期或不同人群的总体描述,以反映社会变化或区域差异。在社会科学中、特别是人口研究中,不少事件的发生都是与年龄密切有关的,如国内妇女大多数在35岁以前完成了生育,从而致使35岁以上育龄妇女中极高的避孕现用率。在这样的情况下,两个样本之间存在避孕现用率的差异可能只不过年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象总是是流动人口犯罪率高于常住人口,但忽略了流动人口的年龄和性别构成与常住人口完全不同,且年轻人男士是犯罪率较高的人群。这种对两个不同群体的比较总是会致使错误的结论。
    绝对数的用法因为中国人口数目巨大,调查研究也很容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调总是会产生戏剧性的成效。比较适当的方法一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比率。
    小样本的代表性在一次抽样的小样本中求得的率或比率会很不稳定,与另一次抽样的结果或许会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比率的同时也报告样本量。
    2双变量统计剖析
    在社会科学研究中,第一剖析的总是是两个变量之间的关系,如用有关或列联表等办法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著有关关系,进行更进一步的剖析才有意义。因此,双变量统计剖析在实证剖析中占有要紧地位。但,因为在应用中对有的问题的忽略,双变量统计剖析也比较容易出现偏差或错误。
    卡方检验的局限在借助列联表对两个定序/定类变量进行有关剖析时,需要进行统计检验来判断两个变量的有关是不是有统计上的显著意义。不少研究结果都用卡方检验的显著性报告有关情况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验比较容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是不是显著有关时,还应当同时报告有关强度,即相应的有关系数,如Gamma,Lambda等。
    统计意义上的显著与差别的实质意义在检验两个定距变量的均值差别是不是具备统计上的显著性时,也存在一样的问题。因为样本量越大,样本均值分布的方差就越小,因此常见的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具备统计意义显著性的差异,在实质日常可能意义并不大,好似在两个草堆之间找出一根草的差距,对判断两个草堆的大小没实质意义。因此,对任何检验结果都应当有符合实质的讲解和说明。
    不真实有关问题双变量剖析中的不真实有关问题,几乎在所有关于社会科学研究办法的教科书中都会涉及到,在统计剖析办法的教学中也被视为经典问题。但多少年来,大家仍然在不断地重复着这个“经典的错误”,即觉得可见的或统计检验结果显著的有关就是真的的有关;更为大胆的做法是把这种有关关系推向因果关系。大家了解,对于有些变量来讲,即便是经过检验断定两者具备统计上显著的有关关系,也未必存在实质意义上的关系,由于可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起用途,有时甚至可能完全是偶然的巧合。比如,失火的大小是以失火损失来衡量的,而参加灭火的消防员人数是与失火大小有关的,失火越大,出动的消防员就越多,凡是是具备知识的人都不会依据出动消防员人数和失火损失两个变量之间的高度有关,判定出动消防员越多失火损失就越大,由于失火的规模是决定原因(但非常难直接衡量)。在有关人口科学研究中也有报告不真实有关的现象,如人口增长率的减少致使了经济增长的提法就是一例。因此,在剖析有关关系时,应当依据理论、常识、经验、甚至知识来判断这种剖析是不是有意义、是不是存在其他变量有哪些用途(称为外在变量),防止得出有悖于常理的剖析结果。有的不真实有关是可以通过统计剖析办法辨别的,如在控制了另外一些变量后察看两个变量的偏有关,或在双变量剖析的基础上,进一步用多变量剖析深入研究。
    3多变量剖析
    回归剖析是多变量剖析中应用最多的办法,特别是逻辑斯蒂回归更是被广泛地应用。在海量应用中,比较明显的问题是用法是不是得当和对结果的报告和讲解是不是规范、合理(见2002年第2期《人口研究》刘金塘文)。除此之外还有一些应当引起注意的问题。
    剖析框架的重要程度在社会科学研究中,各变量之间总是存在错综复杂的关系,假如在进行回归剖析之前没一个明确适当的剖析框架,那样回归的结果或许会引起质疑。一般应在报告回归剖析结果之前,介绍该剖析的框架,如各变量的概念、各自变量与因变量的假设关系及其理由等,对打造的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先讲解了解。对假设因果关系的模型,应当至少可以说明:该因果关系在理论上是正确的、在实践中是适当的;从事件发生的时间上来讲,应当是缘由发生在先、结果发生在后。如有的回归剖析中,未加说明即把所有与因变量显著有关的变量都囊括在自变量中,甚至有的自变量与因变量有明显的互为因果关系,看上去剖析逻辑混乱;还有些论文在简单介绍研究背景和数据来源之后,急于打造因果关系并推出回归剖析结果,然后再依据各变量在回归模型中的显著性一一说明,这等于事后讲解;这类做法都是不对的。
    在拥有“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归剖析,但在此之前,需要有很多的前期筹备工作,包含文献检索和理论框构造建,才能确保统计剖析的科学性。
    剖析办法应用的条件每种多变量办法都有各自的首要条件条件或假设,假如这类条件不拥有或者假设不成立,该办法的应用就成问题。如Pearson有关是考察线性有关关系,多元方差剖析只能分辨线性有关因变量的多元差异,线性回归剖析假设自变量与因变量之间为线性关系,因子剖析办法也是打造在各变量具备肯定的线性有关基础之上的;另外,在逻辑斯蒂回归中,每一个分类都应保证有足够的频数,假如频数太少就会干扰参数估计的稳定性;等等。尽管一般不在报告剖析结果时说明各种假设是不是成立或条件是不是满足,但在进行剖析时应当自觉地进行考察。假如难以满足条件或假设不可以成立,就对数据进行转换或调整后再剖析,或者改变剖析办法。
    多变量剖析结果的展示和讲解多变量剖析的结果一般是通过列表来展示的。目前一种并不少见的做法是直接把统计软件的输出直接复制到论文中,大家总是会在文章中看到包含回归参数估计、参数标准差、检验统计值、检验显著性、偏有关系数等等n行m列的大表,使人有目不暇接的感觉。事实上参数标准差和检验统计值是提供给剖析者的信息,没必要列在结果中;假如不是有特别需要的话,偏有关系数更不是关重视点;最主要的应当是回归参数估计及其显著性。

    [1][2]下一页

  • THE END

    声明:本站部分内容均来自互联网,如不慎侵害的您的权益,请告知,我们将尽快删除。

专业院校

返回顶部

Copyright©2018-2024 国家人事网(https://www.zbxggc.com/)
All Rights Reserverd ICP备18037099号-1

  • 国家人事网微博

  • 国家人事网

首页

财经

建筑

医疗