第一章 引言
一、研究背景
随着我国改革开放进程的一步步深化,人民的收入水平日益提高。国家统计年鉴的数据表明,我国国内城镇居民平均可支配收入水平由1978年的343.4元增长到2019年的33616.25元,农村居民平均可支配收入水平由1978年的133.6元增长到2019年的12363.41元。随着收入水平的提高,收入差距也越来越来越大,我国收入分配呈现出两极化的现象,同时伴随着国家城镇化进程的一步步加深,整体经济二元化的特点日益突出。Birdsall(2001)指出,不平等程度的加剧可能会给发展中国家带来负面的影响,首先不平等程度的加剧会减缓减贫进程;其次收入不平等可能导致不充分的社会契约,并可能引发糟糕的经济政策——对增长、人类发展和减贫产生不利影响;更进一步收入的不平等还可能破坏公民、社会以及政治生活。因此,收入差距的大小对政治、经济的稳定,亦或是人民的幸福程度都密切相关。
国家统计局的数据表明:2006年至2016年间,我国的基尼系数整体上位于一个较高的水平上。数据显示,这10年来基尼系数基本在0.475左右上下浮动,相较于国际上通常认为的基尼系数的0.4警戒线,近10年来我国的收入差距问题较为日益严重。Chen,Wan.Lu(2006)提出,收入差距过大会对我国经济的长期增长带来显著的负面影响。因此在我国经济新常态的背景下,在国家强调“精准扶贫”的当下,收入差距的缩小既可以为所有疲于养家糊口和艰难地追求理想生活的人提供支持,更是我国避开中等收入陷阱的关键因素。因此,对于收入分配、尤其是收入差距问题的研究有极强的现实意义。
提到收入差距的衡量指标,首先最容易想到的就是洛伦兹曲线以及基尼系数。自从洛伦兹曲线这一概念在1905年由美国统计学家洛伦兹提出以来,洛伦兹曲线,或者说洛伦兹函数已经成为了研究收入分配问题的一个有力工具。洛伦兹曲线所表示的“最贫穷的人口计算起一直到最富有人口”的人口百分比对应各个人口百分比的收入百分比的点组成的曲线这一概念使我们可以通过观察不同国家的洛伦兹曲线形状来对一国收入分配情况有一个直观的了解。随后依据洛伦兹曲线定义的基尼系数的提出,使得洛伦兹曲线不再仅仅只是用某一条曲线刻画一国的收入差距状况,更可以通过基尼系数将此差距量化。
...........................
二、研究目的
本文的研究目的在于,本文希望可以提出一种提高洛伦兹曲线估计精确度的方法。并使用此方法研究在现存的所有洛伦兹函数中,哪个洛伦兹函数可以在保证对数据最优拟合的同时可以尽可能多的适用于各种不同的收入分布情况。详细来说,在观察不同的洛伦兹函数对分组数据的拟合过程中,我们发现不同的函数在拟合不同分布特点的数据时拟合精度会出现很大的差异,有些函数可以很好的模拟收入差距较小的情况,但却因为函数形式或参数范围的限制对收入差距极大的情况望尘莫及,而又有些洛伦兹函数则恰好相反,其可能更擅长模拟收入差距大的情况。而洛伦兹曲线的微小变化又会使得整体的收入分布情况发生较大的变化,从而使得我们对基尼系数的估计不再准确。
本文认为,是以下两个原因导致了洛伦兹函数法对分组数据拟合较差:1.由每一年份收入分组数据量较小而带来的系统性估计误差;2.没有按照整体收入特点筛选洛伦兹函数从而带来的函数选取的误差。为了解决这两个问题,本文认为在使用洛伦兹函数法时不单单要考虑对数据的最优拟合,也即NLS方法中的残差平方和最小,同时要考虑微观数据的均值与方差大小。对微观数据的均值与方差的考量意味着我们在估计分组数据时充分的考虑到了微观数据所代表的一国整体收入分布情况,而相较于每一年份仅仅提供11个数据量的分组数据,其所对应的微观数据则是巨大的,这就在一定程度上解决了在估计分组数据时的系统性误差;同时微观数据的均值与方差又在很大程度上反应了整体数据的特点,如果在估计之前我们就可以知道不同的洛伦兹函数可以最优拟合的微观数据的特征值(如均值与方差)的范围,那我们就可以针对不同数据的数据特点选择不同的洛伦兹函数,降低因任意选择函数而造成的估计误差。
..........................
第二章 文献综述
一、基尼系数的估计
但目前关于洛伦兹曲线和基尼系数的估计方法很多且各有利弊。徐宽(2003)回顾了文献中对基尼系数的估计方法,目前常用的基尼系数估计方法主要包括以下四种:对离散数据进行累加从而求解基尼系数的几何方法;Stuart(1954)与Kendall、Stuart(1958)将某些统计学定律进行推广从而提出的协方差方法与平均差方法;以及由Pyatt(1976)和Silber(1989)基于分解基尼系数方法而提出使用矩阵方法来估算基尼系数。在这四种具体的方法中,无论是针对离散数据提出的几何方法还是其他三种实用性更强的方法,在由具体数据估计基尼系数的过程中,我们首先要做的工作就是估计一个分布函数(分布律)或洛伦兹曲线形式。因此,如何对基尼系数的精确估计问题就变成了一个纯粹的统计学问题:如何精确估计收入分布函数或洛伦兹曲线。
..........................
二、洛伦兹曲线的估计
那么究竟该如何从一组数据中估计出收入分布函数或洛伦兹函数呢?颜节礼、王祖祥(2014)对洛伦兹曲线的估计方法做了总结,其认为,目前学界对洛伦兹函数的估计方法基本可以归结为以下两类:经验分步法与洛伦兹函数法。
(一)经验分步法
经验分步法则最早由Pareto(1897)提出,具体做法为假设收入数据服从某一经验分布,在此文中,假设数据近似服从帕累托分布,并使用最小二乘或极大似然估计法估计出分布中的某个参数从而得到收入分布函数的具体形式。这一方法在估计收入分布函数形式时被广泛使用。程永宏、糜仲春(1998)认为当我们将一国人口按照收入高低排列时,个人收入与整体收入比例之间存在一一对应的关系,这说明洛伦兹函数与收入分布函数之间存在某一函数关系。在确定了洛伦兹函数与分布函数之间的对应关系之后,假设一国的收入分布满足逻辑斯蒂曲线,并给出了使用此种方法计算出的基尼系数。程永宏(2006)从中国二元经济的结构特征入手,认为二元经济的存在使得城乡的收入分布差异较大,因此计算统一的混合基尼系数的难度较大,提出使用全新城乡基尼系数的分解方法来估计基尼系数,同样的,此文采用了经验分布的方法来估计这一新的基尼系数,且与其之前的研究类似,作者同样假设收入分布服从逻辑斯蒂分布函数。成邦文(2005)提出应该从对数正态分布入手来研究收入分布函数,并求出了收入分布为对数正态分布时,对应的洛伦兹曲线形式以及相应的基尼系数的大小。欧阳葵(2011)从收入分布函数的定义出发,讨论了基尼系数的理论含义与性质,并假设收入分布函数满足某些特定的收入分布形式如平均分布、一般均匀分布或帕累托分布,并根据这三种不同的分布计算了相关的基尼系数。张顺(2015)对如何更好的估计收入分布函数提出了自己的观点,其认为收入分布的密度曲线应该近似满足χ2分布,并求出了对应的洛伦兹曲线形式,在与另外5种不同的洛伦兹函数通过比较均方误与平均绝对误差的大小来判断χ2分布对数据的拟合效果后,得出当密度函数χ2分布时,使用数据拟合洛伦兹曲线的均方误与平均绝对误差最小的结论。同样的被用于研究收入分配的经验分布形式如伽马分布(McDonald,1984)、布尔分布(Singh,1976)、威布尔分布(Frechet,1927)、贝塔分布(Lester,1970)等等。
................................
第三章 洛伦兹函数的特征矩.........................13
一、洛伦兹函数的一阶矩与 Pietra 比率.............................. 13
二、 参数洛伦兹函数的灵活性..................................14
三、洛伦兹函数的一、二阶矩与洛伦兹函数的灵活性....................16
第四章 多参数洛伦兹函数的灵活性..............................21
一、单参数洛伦兹曲线.................................21
(一)Rhodes 函数......................................... 22
(二)Chotikapanich 函数...........................23
第五章 中国情况分析...................................49
一、数据来源......................................49
二、洛伦兹函数的选取..................49
第五章 中国情况分析
一、数据来源
最后我们关注中国的收入分配情况,并从洛伦兹函数对分组数据的最优拟合以及对微观数据特征最优匹配的角度重新估计了中国的基尼系数。文章使用全球收入不平等数据库(WIID)中的中国数据来从灵活性的角度来讨论数据特点与曲线模型的匹配问题。WIID数据库是由联合国大学世界发展研究所整理的包含全球200个国家共计11000组数据的一个致力于目的是促进所有人的可持续和平等发展的一个开源数据库,其最新的研究已经包含了部分国家2018年的收入分配数据。
首先,全球收入不平等数据库提供了可供直接使用的收入分组数据,这对本文后续估计洛伦兹曲线以及求解基尼系数提供了方便,且分组数据的提供也避免了由微观数据计算分组数据可能造成的误差。其次,全球收入不平等数据库在包含收入分组数据的同时,也汇报了这些分组数据所对应的基尼系数大小,那么,我们就可以使用本文灵活性的概念筛选出最优的洛伦兹函数,在使用此函数计算基尼系数之后,同数据库中汇报的基尼系数作比较,以讨论使用此方法对提高估计精度所作出的贡献。最后因为收入分配问题较为敏感,过高的收入差距可能会造成政治的不稳定。因此各国的收入分配数据的真实性往往会被质疑。针对这一问题,全球收入不平等数据库对所有数据的真实性从1级到13级做了评分,数据真实性越强评分就相应越高。
对于全球收入不平等数据库中的中国数据情况,首先数据库中的中国数据很多,从世界银行的调查数据到某个个人的调查数据,种类繁多。但为了为了统计学上的可比性,本文仅选择了由世界银行提供的从1990年到2015年间12年的以消费计算的中国全国的收入分组数据。
..........................
第六章 结论与展望
一、主要结论
本文主要关注如何提高基尼系数的估计精度。在对目前估计基尼系数的方法进行回顾之后,本文认为无论是从微观数据入手的经验分布法亦或是从分组数据入手的洛伦兹函数法在计算基尼系数时都存在着一定的问题。虽然方法不尽相同,但问题都来自于现有函数或模型不够灵活不能同数据之间相互匹配而造成误差。
针对这一问题,本文试图将洛伦兹函数法与分布函数法两种方法结合起来,提出对分组数据的估计中既要保证分组数据的最优拟合,又要保证微观数据特征的最佳匹配的思路。作为微观数据很重要的一组特征值就是其均值与方差,对于某一分布数据而言,方差与均值的大小就在很大程度上描述了整体数据的分布特点。因此如果一个洛伦兹函数可以尽可能多的适用于不同均值与方差的微观数据,就可以使用此模型来研究各种不同的收入分布情况。依照这一思路,根据不同洛伦兹函数对不同特征的数据匹配能力的强弱,本文提出了灵活性的概念并讨论了不同的洛伦兹函数灵活性的强弱。
我们发现,目前在的众多洛伦兹函数中,尚不存在一个可以适用于所有不同的收入分布情况的函数形式。因此在使用洛伦兹曲线估计基尼系数时,我们需要首先对整体数据进行分析,在确定了相应的一阶矩与二阶矩大小之后再选择对应的洛伦兹函数来估计洛伦兹曲线的形式。其次虽然没有最优的洛伦兹函数,但相较于其他形式的洛伦兹函数,以Pareto函数为代表的洛伦兹族体现出了较强的灵活性,表现在其不仅可以匹配任意收入差距的情况,同时还能尽可能多的描述均值的各种分布情况。但必须指出的一点是,在对极端情况的描述上,Pareto族存在较大的缺陷,其无法描述平均收入以下人口比例与收入比例位于两端时的情况。对于平均收入以下人口比例与收入比例较高的国家,Kakwani模型表现出了较好的灵活性,因此也就更适用于研究中产阶级比例较高国家的收入分配的问题。
参考文献(略)