相关热词搜索:统计数据 成分 分析 行业 主成分分析和聚类分析 主成分分析与聚类分析
【摘要】:本文采用《2012年中国统计年鉴》中的各行业就业人数的数据,用主成分聚类分析方法,以我国31个行政单位为研究对象,对31个行政地区的就业人数数据用spss19.0版软件进行聚类分析,结果表明了行业就业人数受地区所处的经济发展水平影响较大。
【关键词】:行业统计;spss19.0; 主成分分析法;聚类分析法0 引言在2003年7月24日公交行业统计工作座谈会上,国家统计局局长李德水同志讲话中提出:“行业统计是政府统计的重要组成部分。”[1],从而行业统计的地位和作用在此得到国家政府统计机构的明确和肯定。因此,对我国行业统计数据运用统计方法进行分析具有很重要的理论和现实意义。1 指标的选取及分析方法1.1 指标的选取由于行业的种类繁多,本文引用的是《2012年中国统计年鉴》[2]中有关中国31个行政单位在行业统计中的就业人数数据来进行整理,得到19个反映各地区行业就业的评价指标。这些指标包括:农、林、牧、渔业( )、采矿业( )、制造业( )、电力、燃气及水的生产和供应业( )、建筑业( )、交通运输、仓储和邮政业( )、信息传输、计算机服务和软件业( )、批发和零售业( )、住宿和餐饮业( )、金融业( )、房地产业( )、租赁和商务服务业( )、科学研究、技术服务和地质勘查业( )、水利、环境和公共设施管理业( )、居民服务和其他服务业( )、教育( )、卫生、社会保障和社会福利业( )、文化、体育和娱乐业( )、公共管理和社会组织( )[2].1.2 分析方法1.2.1 主成分分析法主成分分析主要是运用降维的思想,把原来许多有一定相关性的指标(如 个指标),重新组成一组新的不相关的几个综合指标来代替原来的指标[3]。它借助于一个正交变换,将指标数据进行标准化处理,然后再根据指标之间的相关性判定分类,最后依据实际情况从中取几个较少的综合指标尽可能多的反映原来指标的信息。本文就是采用主成分分析法对我国31个行政地区的行业发展水平分析。1.2.2 聚类分析法聚类分析又称为分类分析、群聚分析、集群分析,是研究“物以类聚”的一种多元统计分析方法。它是直接比较各研究对象之间的性质,把性质相近的归为一类,将性质差别较大的归入不同的类[4]。聚类分析分为两种:Q型聚类和R型聚类。其中,Q型聚类是对观测个体的分类,而R型聚类是对变量的分类,两者在数学上是对称的,没有本质的区别。聚类分析的方法包括层次聚类法和非层次聚类法。其中层次聚类法包括聚集法和分解法。而非层次聚类法最常用的就是K平均数法。本文就是先对数据进行主成分分析,然后对主成分分析的结果再进行聚类分析,聚类分析方法采用是K平均数法。通过上述聚类结果可以看出,第一类有6个对象,第二类有11个对象,第三类有14个对象。第一类包括以下行政单位:北京,上海,江苏,浙江,广东,山东。第二类包括以下行政单位:天津,内蒙古,吉林,黑龙江,海南,贵州,西藏,甘肃,青海,宁夏,新疆。第三类包括以下行政单位:河北,山西,辽宁,安徽,福建,江西,广西,河南,湖北,湖南,重庆,四川,云南,陕西。根据上边的分类,第一类对象为经济发达地区,第二类对象为经济相对欠发达地区,第三类对象为经济较发达的地区。这三类聚类结果与实际情况不相符合,尤其是把天津分到了第二类。这说明,分析出来的结果与实际还是存在着小范围的误差。造成这种情况的原因,一是由于非层次分析法它是事先就固定了聚类的数目使得两个或更多对象碰巧处于同一聚类中而造成影响。二是影响各行各业的就业人数的因素不仅仅是与地区经济发展的发达与否来进行的判断。但是总的来说,从地区行业统计数据的聚类结果分析可以看出各地区经济发展水平之间的差距是影响各地区个行业就业人数的重要因素,而各地区各行业人数的不同也会进一步影响当地的经济发展。4结论本文应用spss软件结合主成分分析和聚类分析技术,对我国31个行政地区的19个行业的发展水平进行了综合分析,结果表明:将北京,上海,江苏,浙江,广东,山东这五个省归位了一类,这与实际的情况基本是相符合的,这几个地区,尤其是北京、上海、广东这三个行政区是我国的特大经济发达区,经济越发达,就业的机会就越多,就业人数也就相对于其他地区而言,也就更多。而将天津,内蒙古,吉林,黑龙江,海南,贵州,西藏,甘肃,青海,宁夏,新疆归为一类,这些主要都是经济相对落后欠发达的地区,除了天津。然而从实际情况来看,天津是一个经济发达的城市。这与实际的情况产生了偏差,分析的原因主要是上述结果阐述的两条。而对于这一类中的其他地方,例如新疆、西藏,都是由于地域位置的限制,经济比较落后,主要都是靠政府大力扶持的地方。最后将河北,山西,辽宁,安徽,福建,江西,广西,河南,湖北,湖南,重庆,四川,云南,陕西划分为一类,它们都是处在经济相对发达的水平上,与我国的实际情况相符合。由此可以看出我国各地区各行业人数主要还是受到各地区经济发展水平的影响,而各行业人数的不同反过来也影响了当地的经济,但是同时也要考虑受到其他方面因素的影响。【参考文献】[1]蔡红飞,安建荣.行业统计[J].中国包装,2004,(3).
[2]国家统计局.中国统计年鉴 2012[M].北京:中国统计出版社,2012.[3]谢汉龙,尚涛。SAS统计分析与数据挖掘[M].北京:电子工业出版社.2012.[4]骆方,刘红云,黄崑.SPSS数据统计与分析[M].北京:清华大学出版社,2011.