2 数据
2.1 指标的选择
通过翻阅资料发现,在对于城市综合发展水平的问题研究中, 研究者们对于客观指标的选择基本相同, 都包含着经济、社会、文化、环境等方面,只是不同的研究者对于在指标分类、权重分配上的确立由于本身研究目的不同而或多或少有所差异.张思锋、郭怀星、姜红星的《基于主成分分析方法的陕西中心城市综合发展水平研究》中从经济实力、社会实力、开放程度、设施环境4个方面选取了GDP、地方财政收入、固定资产投资总额、社会消费品零售总额、第二产业占GDP 比重、第三产业占GDP比重、经济发展经济增长率、经济效益人均GDP、人均地方财政收入、人口规模年末总人口、人口结构非农业人口占总人口比重、每万人拥有高等学校在校学生数、人均教育事业经费支出、人均可支配收入、每十万人医生数、每百人公共图书馆藏、每百万人影剧院数、人均住房面积、对外吸引实际利用外资、客运总量、货运总量、邮电收入总量、人均道路铺装面积、每万人公共汽车数、人均用水量、人均用电量、建成区绿化面积、工业废水排放达标率这28个总量和均量指标[1].岳立、饶斌在《城市发展水平综合评价指标体系的设计及评估方法》中从经济发展、社会发展、科教文卫发展、生态环境四个方面选取了GDP 总量、人均GDP 总量、百元固定资产产值、第二产业占总GDP 比例、第三产业占总GDP 比例、非国有经济投资额占投资额的比重、一、二、三产业分别占总GDP 比重、城市化率、基尼系数、万人拥有大学生数、恩格尔系数、人均居住建筑面积、人均拥有机动车数量、城镇最低生活保障覆盖率、R&D 投入占GDP 比重、每万人专业技术人员数、公共教育支出占GDP 的比重、人均娱乐教育文化消费支出比重、居民家庭计算机普及率、人均预期寿命、千人拥有医生数、污水处理率作为指标[4].经参考上述资料研究成果中所使用的有关指标,也参考了国家统计局的《2013年中国城市统计年鉴》中相关指标数据的收集,同时对各种指标进行了多次预处理,为了达到相应的效果,本文从经济、社会、文化、环境4个方面选取了18个总量和均量指标, 作为评价城市综合发展水平的基本变量.指标分别为生产总值(万元)( )、人均生产总值(元)( )、社会消费品零食总额(万元)( )、固定资产投资总额(万元)( )、第二产业占GDP的比重(%)( )、第三产业占GDP的比重(%)( )、年末总人口(万人) ( )、每万人在校大学生数(人)( )、每万人拥有公共汽车(辆)( )、客运总量(万人)( )、邮电收入总量(万元)( )、绿地面积(公顷)( )、地方财政一般预算内收入(万元)( )、工业总产值(万元)( )、居民储蓄存款余额(万元)( )、第二产业从业人员(万人)( )、第三产业从业人员(万人)( )、当年实际使用外资金额(万美元) ( ).
2.2 数据来源文献综述
由于2014年版数据还未公布,各指标所依据的原始数据均来自于《中国城市统计年鉴(2013)》,具体数据详见附录一.
2.3 数据的标准化处理
为了消除各指标的量纲差异和数量级的影响,首先对原始数据进行标准化处理,使得标准化后的变量均值为0,方差为1,依据如下公式可进行数据的标准化:
标准化后的数据详见附录二.
3 主成分分析
3.1 主成分分析理论
研究某一事物时,常常为了更准确、细致、全面地表现出事物的特性和其发展规律,人们往往要将很多个和它有关的指标考虑进去,这些指标也就是在多元统计中所谓的变量.事物有利有弊,这样全面的做法就会产生了如下一些问题:一方面人们考虑尽可能多的指标,这样可以避免遗漏重要的信息,另一方面考虑越来越多的指标这样反而提升了问题的复杂化,并且由于各种指标都是去针对同一事物而选举出来的,无可厚非会造成大量的信息重叠,然而这种信息的重叠有时甚至会导致事物的真正内涵与内在规律的缺失.由于上述问题的产生,对于某一问题研究中所涉及的变量较少且包含的信息量较大这就变成了人们所希望的.多元统计中主成分分析正是考察多个定量数值度量间相关性的一种方法.通过降低维度的过程,将多个相互关联的指标转化为少数几个互不相关的综合指标的统计方法,也就是用较少的指标来代替或者综合反映出原来较多的信息,这些综合后的指标就是原来多指标的主要成分.同时要求主成分变量所包含的指标信息量占原始指标信息量的85%以上. 主成分分析和因子分析的一个应用(2):http://www.youerw.com/shuxue/lunwen_73490.html