基于SPSS皮尔逊相关性预测快递网点的派件量
前言
这是我最近这段时间学习统计学以来的一个成果,我甚至不清楚这样的成果是不是真的能够印证出快递网点的派件量,但是这已经是尽我的最大限度努力在完成这一成果,其中对数据条目上的数据不一致而产生的误差都有标注。预测派件量以平和县下辖各乡镇为例。
1 全盘思路
由于平和县各镇的派件量不论是早前的数据还是近年的数据都无法查询得到(其行政层级过低),因此将借助于其他变量(类似于中间量的概念)与行政层级高的已知派件量的皮尔逊相关性分析,来对平和县各镇的派件量作预测,由于这当中的逻辑略微难以理解,以下用思维导图阐释:
需要解释的一点是,我之所以认为能够用与行政层级高的已知派件量相关性显著的中间量,来预测行政层级低的未知派件量,是因为我所选的高行政层级同所要预测的低行政层级都处于同一个省,具有地缘上、文化上、经济上、政治上、历史上的共性特征。在无法得知切实的派件量时,我所想出来的办法就是这样。
为确保预测的精准性,这些中间量将会是平和县各镇所查得到的最新数据(这些数据来源于国家统计局发布的《2017中国县域统计年鉴(乡镇卷)》[1]中平和县各镇的数据及其2010年的第六次全国人口普查[2]所公报的有关平和县下辖乡镇人口数据,后文附录将附上详细的数据量表),其中所记录的数据是相当有限的,有且仅有行政区域面积、常住人口、企业个数、企业从业人员、工业企业单位、城镇建成区常住人口这几个部分的数据,因此这几个仅有的数据只能作为中间量来预测了。高行政层级的(这里我所能找得到的已知派件量层级最低也必须到市级)中间量同时我也在数据搜罗中确保数据是所能查到的最新数据,并且后文会给出对这些数据的误差脚注。
2 预测防控:两种备选已知派件量数据
1 两种备选数据的个案摘要
与此同时,为防避已知数的派件量数据与中间量所测出来的相关性都极弱,因此已知数需要有备选数据——这些备选数据必须是与派件量数据相关性极强的,目前所能找到的备选数据包括互联网用户和邮路单程长度这两种数据(2017年)[3],如下表SPSS所导出的个案摘要所示,其中快递业务(万件)即已知的派件量数据:
然而这两种备选数据能否作为替代派件量(快递业务)的判断依据不能单凭主观臆断,因此将会对其进行相关性分析,结果如下:
2 两种备选数据同派件量的相关性分析
相关性 |
||||
|
互联网用户(万户) |
快递业务(万件) |
邮路单程长度(公里) |
|
互联网用户(万户) |
皮尔逊相关性 |
1 |
.881** |
.826** |
显著性(双尾) |
|
.001 |
.006 |
|
个案数 |
10 |
10 |
9 |
|
快递业务(万件) |
皮尔逊相关性 |
.881** |
1 |
.595 |
显著性(双尾) |
.001 |
|
.091 |
|
个案数 |
10 |
10 |
9 |
|
邮路单程长度(公里) |
皮尔逊相关性 |
.826** |
.595 |
1 |
显著性(双尾) |
.006 |
.091 |
|
|
个案数 |
9 |
9 |
9 |
|
**. 在 0.01 级别(双尾),相关性显著。 |
因为我们只需要得知派件量(快递业务)与两种备用数据(互联网用户及邮路单程长度)之间的相关性,因此只需要观察表中“快递业务”一行与“互联网用户(万户)”“邮路单程长度(公里)”这两列的相关性结果分析:
1.快递业务与互联网用户的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 10,代入上式;
得到:
在快递业务与互联网用户间存在显著的正相关关系,,
。
2.快递业务与邮路单程长度的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与互联网用户间存在显著的正相关关系,,
。
从以上对两者进行相关性的分析,可以得出这样一个结论:两种替代数据与被替代的派件量(快递业务)数据均存在显著的正相关关系,并且互联网用户与被替代数据的正相关程度远大于邮路单程长度,因此这两种数据均可以作为派件量的替代数据以防避已知数的派件量数据与中间量相关性都极弱情况的发生。
4.3 高行政层级下的中间量与派件量的相关性分析
4.3.1高行政层级(福建省市级)中间量的数据处理
由于要将所得到的数据转换为符合我们所需要的数据呈现形式,因此需要对部分原始中间量数据作一定形式的改变和处理:
1.行政区域面积与常住人口数的数据,就我所作出的假设分析来说,单纯的行政区域面积与派件量的相关性不大,而人口密度[4]则有着较为明显的相关性,这是我所作的假设,SPSS的分析会检验该假设。在假设成立的情况下,理应对行政区域面积的原始数据作出二次处理,在将处理结果保留到小数点后五位的情况下,将这一数据结合常住人口数作比例转换,分子为常住人口数,分母为行政区域面积。
2.年龄分层人数的数据,就上面所作的相关性分析可知:互联网用户数与派件量有着显著的正相关,而互联网用户数大多数情况下是年轻人,即在年龄分层中属于15-64岁之间的人群,当然也有部分是0-14岁的学龄前儿童,而对于65岁及其以上的年龄分层就与本次所要预测的派件量相关性小,因此不宜将原始数据照搬来研究。必须对于这种类似的数据进行二次处理以符合我们研究的需要,在此我的处理是在将处理结果保留到小数点后五位的情况下,将人数换算成比例,分子为0-14岁与15-64岁的人数之和,分母是所有年龄之和。
3.男女性别比的数据,就我所作出的假设分析来说,近年来受消费主义的影响,网购和派件量产生大头基本上以女性为主导,这是我所作的假设,SPSS的分析会检验该假设。在假设成立的情况下,为了保证最后的结果分析呈现的是正相关,而非负相关。因此原始数据中除了要将该比例精确至小数点后五位之外,还需要将女性人数作分子,户籍总人口(男女性人数之和)作分母。
以下就预测模型思维导图所罗列的中间量,绘制成表:
原始中间量 |
原始数据来源 |
年份 |
备注 |
是否二次处理 |
处理方式 |
行政区域面积 |
福建省统计局[5] |
2017 |
|
是 |
两者之差转换成比例 (保留到小数点后五位) 分子为: 常住人口数 分母为: 行政区域面积 |
常住人口数 |
福建省统计局[6] |
|
|
||
城镇化水平 |
福建省统计局[7] |
2017 |
|
否 |
|
企业法人单位数 |
福建省统计局[8] |
2017 |
|
否 |
|
年龄分层人数 |
福州市统计局[9] |
2015 |
年份问题见脚注 |
是 |
转换成比例 (保留到小数点后五位) 分子为: 0-14岁与15-64岁 人数之和 分母为: 所有年龄之和 |
厦门市统计局[10] |
2015 |
年份问题见脚注 |
|||
莆田市统计局[11] |
2018 |
|
|||
三明市统计局[12] |
2017 |
|
|||
泉州市统计局[13] |
2018 |
数据不一致见脚注[14] |
|||
漳州市统计局[15] |
2018 |
数据不一致见脚注[16] |
|||
南平市统计局[17] |
2018 |
|
|||
龙岩市统计局[18] |
2017 |
年龄构成数据只有百分比,没有具体人数 |
|||
宁德市统计局[19] |
2017 |
年龄构成数据只有百分比,没有具体人数 |
|||
男女性别比 |
福建省统计局[20] |
2017 |
|
是 |
(保留到小数点后五位) 分子为: 女性人数 分母为: 户籍总人口 |
3 高行政层级(福建省市级)中间量处理后的个案摘要
不同于原始中间量,而是经过上表所述的二次处理后的中间量数据,如下表SPSS所导出的个案摘要所示:
个案摘要a |
||||||
|
人口密度(万/平方公里) |
城镇化水平(%) |
企业法人单位数(个) |
小于64岁人数比重(%) |
女性人数比重(%) |
|
福州市 |
.00618 |
69.5 |
153076 |
90.38718 |
48.93632 |
|
厦门市 |
.23597 |
89.1 |
160593 |
93.98964 |
50.51744 |
|
莆田市 |
.07020 |
59.6 |
31626 |
89.68966 |
48.89052 |
|
三明市 |
.01119 |
59.0 |
34616 |
86.57588 |
47.71406 |
|
泉州市 |
.07664 |
65.7 |
177189 |
85.54904 |
48.18881 |
|
漳州市 |
.03960 |
57.7 |
70247 |
83.68829 |
48.68490 |
|
南平市 |
.01020 |
55.8 |
44640 |
84.21933 |
48.42653 |
|
龙岩市 |
.01387 |
55.7 |
31252 |
87.38000 |
48.14334 |
|
宁德市 |
.02159 |
55.7 |
44902 |
86.73000 |
47.57356 |
|
总计 |
个案数 |
9 |
9 |
9 |
9 |
9 |
a. 限于前 100 个个案。 |
4 高行政层级处理后的中间量与派件量的相关性分析
如下表SPSS所导出的皮尔逊相关性分析所示:
相关性 |
|||||||
|
人口密度(万/平方公里) |
城镇化水平(%) |
企业法人单位数(个) |
小于64岁人数比重(%) |
女性人数比重(%) |
快递业务(万件) |
|
人口密度(万/平方公里) |
皮尔逊相关性 |
1 |
.871** |
.534 |
.680* |
.829** |
.291 |
显著性(双尾) |
|
.002 |
.138 |
.044 |
.006 |
.447 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
城镇化水平(%) |
皮尔逊相关性 |
.871** |
1 |
.764* |
.806** |
.859** |
.422 |
显著性(双尾) |
.002 |
|
.017 |
.009 |
.003 |
.257 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
企业法人单位数(个) |
皮尔逊相关性 |
.534 |
.764* |
1 |
.410 |
.532 |
.855** |
显著性(双尾) |
.138 |
.017 |
|
.273 |
.140 |
.003 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
小于64岁人数比重(%) |
皮尔逊相关性 |
.680* |
.806** |
.410 |
1 |
.733* |
.119 |
显著性(双尾) |
.044 |
.009 |
.273 |
|
.025 |
.761 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
女性人数比重(%) |
皮尔逊相关性 |
.829** |
.859** |
.532 |
.733* |
1 |
.172 |
显著性(双尾) |
.006 |
.003 |
.140 |
.025 |
|
.659 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
快递业务(万件) |
皮尔逊相关性 |
.291 |
.422 |
.855** |
.119 |
.172 |
1 |
显著性(双尾) |
.447 |
.257 |
.003 |
.761 |
.659 |
|
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
**. 在 0.01 级别(双尾),相关性显著。 |
|||||||
*. 在 0.05 级别(双尾),相关性显著。 |
因为我们只需要得知派件量(快递业务)与另外五种中间量(人口密度、城镇化水平、企业法人单位数、小于64岁人数比重、女性人数比重)之间的相关性,因此只需要观察表中“快递业务”一行与“人口密度(万/平方公里)”“城镇化水平(公里)”“企业法人单位数(个)”“小于64岁人数比重(%)”“女性人数比重(%)”这五列的相关性结果分析:
1.快递业务与人口密度的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与人口密度间不存在显著的相关性,,
。
2.快递业务与城镇化水平的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与城镇化水平间不存在显著的相关性,,
。
3.快递业务与企业法人单位数的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与企业法人单位数间存在显著的正相关关系,
,。
4..快递业务与小于64岁人数比重的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与小于64岁人数比重间不存在显著的相关性,,。
5.快递业务与女性人数比重的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与女性人数比重间不存在显著的相关性,,
。
经以上分析可知:与快递业务存在显著相关性的只有企业法人单位数,其他四种中间量与快递业务的相关性都不明显。
5 高行政层级处理后的中间量与备用两种数据的相关性分析
在本文的预测防控:两种备选已知派件量数据中,我们对派件量(快递业务)与这两种备选数据(互联网用户和邮路单程长度)的相关性作了分析,得出来的结论是:这二者与派件量的相关性都很显著。在上面对五种中间量与派件量(快递业务)的相关性分析中只得到一种中间量与之有着显著相关性,中间量过少会导致后期预测乡镇的派件量排名出现一定的偏差。因此这时候需要用到备选数据来进一步作与五种中间量的相关性分析。
如下表SPSS所导出的皮尔逊相关性分析所示:
相关性 |
|||||||||
|
人口密度(万/平方公里) |
城镇化水平(%) |
企业法人单位数(个) |
小于64岁人数比重(%) |
女性人数比重(%) |
快递业务(万件) |
互联网用户(万户) |
邮路单程长度(公里) |
|
人口密度(万/平方公里) |
皮尔逊相关性 |
1 |
.871** |
.534 |
.680* |
.829** |
.291 |
.296 |
.555 |
显著性(双尾) |
|
.002 |
.138 |
.044 |
.006 |
.447 |
.440 |
.121 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
城镇化水平(%) |
皮尔逊相关性 |
.871** |
1 |
.764* |
.806** |
.859** |
.422 |
.579 |
.876** |
显著性(双尾) |
.002 |
|
.017 |
.009 |
.003 |
.257 |
.102 |
.002 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
企业法人单位数(个) |
皮尔逊相关性 |
.534 |
.764* |
1 |
.410 |
.532 |
.855** |
.948** |
.894** |
显著性(双尾) |
.138 |
.017 |
|
.273 |
.140 |
.003 |
.000 |
.001 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
小于64岁人数比重(%) |
皮尔逊相关性 |
.680* |
.806** |
.410 |
1 |
.733* |
.119 |
.298 |
.701* |
显著性(双尾) |
.044 |
.009 |
.273 |
|
.025 |
.761 |
.436 |
.035 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
女性人数比重(%) |
皮尔逊相关性 |
.829** |
.859** |
.532 |
.733* |
1 |
.172 |
.377 |
.684* |
显著性(双尾) |
.006 |
.003 |
.140 |
.025 |
|
.659 |
.317 |
.042 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
快递业务(万件) |
皮尔逊相关性 |
.291 |
.422 |
.855** |
.119 |
.172 |
1 |
.890** |
.595 |
显著性(双尾) |
.447 |
.257 |
.003 |
.761 |
.659 |
|
.001 |
.091 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
互联网用户(万户) |
皮尔逊相关性 |
.296 |
.579 |
.948** |
.298 |
.377 |
.890** |
1 |
.826** |
显著性(双尾) |
.440 |
.102 |
.000 |
.436 |
.317 |
.001 |
|
.006 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
邮路单程长度(公里) |
皮尔逊相关性 |
.555 |
.876** |
.894** |
.701* |
.684* |
.595 |
.826** |
1 |
显著性(双尾) |
.121 |
.002 |
.001 |
.035 |
.042 |
.091 |
.006 |
|
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
9 |
|
**. 在 0.01 级别(双尾),相关性显著。 |
|||||||||
*. 在 0.05 级别(双尾),相关性显著。 |
因为我们只需要得知互联网用户、邮路单程长度与另外五种中间量(人口密度、城镇化水平、企业法人单位数、小于64岁人数比重、女性人数比重)之间的相关性,因此只需要观察表中“互联网用户”“邮路单程长度”二行与“人口密度(万/平方公里)”“城镇化水平(公里)”“企业法人单位数(个)”“小于64岁人数比重(%)”“女性人数比重(%)”这五列的相关性结果分析:
一、互联网用户与另外五种中间量的相关性分析:
1. 互联网用户与人口密度的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在互联网用户与人口密度间不存在显著的相关性,,
。
2. 互联网用户与城镇化水平的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在互联网用户与城镇化水平间不存在显著的相关性,,
。
3. 互联网用户与企业法人单位数的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在互联网用户与企业法人单位数间存在显著的正相关关系,
,。
4.互联网用户与小于64岁人数比重的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在互联网用户与小于64岁人数比重间不存在显著的相关性,,。
5. 互联网用户与女性人数比重的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在互联网用户与女性人数比重间不存在显著的相关性,,
。
经以上分析可知:与互联网用户存在显著相关性的只有企业法人单位数,其他四种中间量与快递业务的相关性都不明显。
二、邮路单程长度与另外五种中间量的相关性分析:
1. 邮路单程长度与人口密度的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在邮路单程长度与人口密度间不存在显著的相关性,,
。
2. 邮路单程长度与城镇化水平的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在邮路单程长度与城镇化水平间存在显著的正相关关系,,。
3. 邮路单程长度与企业法人单位数的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在邮路单程长度与企业法人单位数间存在显著的正相关关系,
,。
4. 邮路单程长度与小于64岁人数比重的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在邮路单程长度与小于64岁人数比重间存在显著的正相关关系,,。
5. 邮路单程长度与女性人数比重的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在邮路单程长度与女性人数比重间存在显著的正相关关系,,。
经以上分析可知:与邮路单程长度存在显著相关性的有四种中间量,分别是(按相关性强弱排序)企业法人单位数、城镇化水平、小于64岁人数比重、女性人数比重。
6 对相关性显著的中间量的处理与排序
从上述的相关性分析可知,相关性显著/较显著的中间量有(按相关性强弱排序)企业法人单位数、城镇化水平、小于64岁人数比重、女性人数比重。
其中,后三个中间量是借助于备选数据所扩大范围而产生的相关性较显著的中间量。下面对这三个中间量与派件量(快递业务)、邮路单程长度的p 值作一个列表比较。当任何一个中间量与派件量(快递业务)、互联网用户的p值均大于0.15的,便予以排除,代表该中间量不在与派件量(快递业务)相关性显著的预测工具范围了:
中间量 |
与派件量(快递业务)的p值 |
与互联网用户的p值 |
与邮路单程长度的p 值 |
是否排除 |
城镇化水平 |
0.257 |
0.102 |
0.002 |
否 |
小于64岁人数比重 |
0.761 |
0.436 |
0.035 |
是 |
女性人数比重 |
0.6659 |
0.317 |
0.042 |
是 |
通过上表分析,得到可预测乡镇派件量的工具的除了本来相关性就非常显著的企业法人单位数,还有城镇化水平,在这个过程中排除了两个中间量。因此到这里,我们终于可以得出结论:与平和县下辖乡镇的派件量有着显著/较显著关系的是:企业法人单位数、城镇化水平。
2 低行政层级(平和县下辖乡镇)下的派件量排名预测
1 低行政层级(平和县下辖乡镇)的中间量数据
由上面所得出的结论:与平和县下辖乡镇的派件量有着显著/较显著关系的是:企业法人单位数、城镇化水平,因此对于平和县下辖乡镇的中间量原始数据,我们只需要获取这两个即可:企业法人单位数、城镇化水平。
下表是对平和县下辖乡镇关于这两个中间量的数据(按企业单位数排序)[21],其中的城镇化水平是我用“城镇建成区常住人口”作分子,“常住人口”作分母算出的:
乡/镇 |
企业个数 |
常住人口 |
城镇建成区常住人口 |
城镇化水平 |
小溪镇 |
2211 |
85221 |
85221 |
1 |
九峰镇 |
275 |
35051 |
12180 |
0.347494 |
南胜镇 |
243 |
26708 |
12863 |
0.481616 |
国强乡 |
192 |
22523 |
|
0 |
安厚镇 |
183 |
57794 |
7098 |
0.122816 |
文峰镇 |
168 |
13392 |
4136 |
0.308841 |
五寨乡 |
156 |
18573 |
|
0 |
坂仔镇 |
141 |
41670 |
15329 |
0.367867 |
大溪镇 |
116 |
40310 |
40310 |
1 |
芦溪镇 |
116 |
31712 |
31712 |
1 |
山格镇 |
92 |
43274 |
11889 |
0.274738 |
崎岭乡 |
58 |
23468 |
|
0 |
霞寨镇 |
26 |
44868 |
14736 |
0.32843 |
2 中间量数据在预测中的算法设定
因为企业法人单位数、城镇化水平这两个中间量数据对于派件量有着或强或弱的影响,因此应当按照各自的权重来进行各乡镇的排名预测。
权重的计算我设计为:
权重Q = 快递业务*快递业务的r(7)值*该中间量与快递业务的r(7)值+互联网用户*快递业务的r(7)值*该中间量与互联网用户的r(7)值+快递业务*邮路单程长度的r(7)值*该中间量与邮路单程长度的r(7)值
因此需要对这些变量的r(7)值作列表统计,如下面两表:
三变量 |
与派件量(快递业务)的r(7)值 |
快递业务 |
1 |
互联网用户 |
0.881 |
邮路单程长度 |
0.595 |
中间量 |
与派件量(快递业务)的r(7)值 |
与互联网用户的r(7)值 |
与邮路单程长度的r(7) 值 |
企业法人单位数 |
0.855 |
0.948 |
0.894 |
城镇化水平 |
0.422 |
0.579 |
0.876 |
预测名次最终结果
根据上面的权重计算的公式得:
Q(企业法人单位数)=1*0855+0.881*0.948+0.595*0.894 = 2.222118
Q(城镇化水平)= 1*0.422+0.881*0.579+0.595*0.876 = 1.453319
预测派件量名次的绝对值 = 企业法人单位数的名次数*Q(企业法人单位数)+ 城镇化水平的名次*Q(城镇化水平)
因此得到如下表:
乡/镇 |
企业个数 |
常住人口 |
城镇建成区常住人口 |
城镇化水平 |
企业单位排名 |
城镇化水平排名 |
预测派件量名次绝对值 |
预测派件量名次 |
小溪镇 |
2211 |
85221 |
85221 |
1 |
1 |
1 |
3.675437 |
1 |
南胜镇 |
243 |
26708 |
12863 |
0.481616 |
3 |
4 |
12.47963 |
2 |
九峰镇 |
275 |
35051 |
12180 |
0.347494 |
2 |
6 |
13.16415 |
3 |
大溪镇 |
116 |
40310 |
40310 |
1 |
9 |
1 |
21.45238 |
4 |
芦溪镇 |
116 |
31712 |
31712 |
1 |
9 |
1 |
21.45238 |
4 |
国强乡 |
192 |
22523 |
0 |
4 |
11 |
24.87498 |
6 |
|
文峰镇 |
168 |
13392 |
4136 |
0.308841 |
6 |
8 |
24.95926 |
7 |
坂仔镇 |
141 |
41670 |
15329 |
0.367867 |
8 |
5 |
25.04354 |
8 |
安厚镇 |
183 |
57794 |
7098 |
0.122816 |
5 |
10 |
25.64378 |
9 |
五寨乡 |
156 |
18573 |
0 |
7 |
11 |
31.54134 |
10 |
|
山格镇 |
92 |
43274 |
11889 |
0.274738 |
11 |
9 |
37.52317 |
11 |
霞寨镇 |
26 |
44868 |
14736 |
0.32843 |
13 |
7 |
39.06077 |
12 |
崎岭乡 |
58 |
23468 |
0 |
12 |
11 |
42.65193 |
13 |
最终结果的误差探讨与引入比对数据
从上表中可以得到一个预测的派件量排名,但是这其间是有一定误差的,包括但不限于:
第一,市级行政单位的派件量相关性显著变量,同乡镇行政单位的派件量相关性显著变量仍存有相关性偏差,两者并非完全符合,但基于这样的数据有限条件下只能如此进行。市级行政单位的派件量与企业法人单位数呈显著正相关,这一相关性事实并非偶然。因为在电子商务平台上快递包裹均是由这些企业法人单位先行选择了派件服务,之后予以对收货人发货的,所以这才是派件量的大头,而非是包裹签收的一端。但这样的情况于乡镇会有所偏差,因为在乡镇所设立的企业可能并非大部分都选择了电子商务平台,因此这一偏差有可能不小。
第二,基于一的偏差,我们引入了城镇化水平的权重以此来平衡预测派件量名次的误差以期缩小化。
第三,可以看到在城镇化水平上有缺失值的部分,也有为100%的数据,出现情况的原因是官方统计数据对于该变量的定义或者抽调时所使用的调查方式问题。比如国强乡、五寨乡、崎岭乡这三个乡之所以为0,是因为它的常住人口数实际上就是登记在户籍为该乡的人口数,而这一户籍只能是乡,而非镇。因此城镇化水平为0;同样的道理,之所以小溪镇、大溪镇、芦溪镇的城镇化水平均为1,也是因为可能官方对常住人口数的计算就是按照登记在户籍为该镇的人口数。因此即便引入了城镇化水平的权重也需要结合企业个数的权重来进行误差的牵制。
而对于上表的最终结果得出一个较为可行实际的优化方案,就需要借助于除了平和县以外的漳州市下辖乡镇的数据。
就我从国家统计局发布的《2017中国县域统计年鉴(乡镇卷)》中的两个表《福建省各乡镇数据》及《各地区主要指标居全国前1000位的乡镇》,对漳州市(平和县位于漳州市)所下辖的乡镇入榜前1000的对应乡镇数据作比对,下表是已经比照过4-9表作过的数据二次处理所得(按位于榜单中在漳州市的名次排序):
位于榜单中在漳州市的名次 |
乡镇名称 |
企业个数 |
常住人口 |
城镇建成区常住人口 |
城镇化水平 |
企业单位排名 |
城镇化水平排名 |
预测派件量名次绝对值 |
预测派件量名次 |
1 |
龙文区蓝田镇 |
1232 |
51738 |
9398 |
0.181646 |
4 |
6 |
17.60839 |
5 |
2 |
龙文区步文镇 |
2860 |
55610 |
26453 |
0.475688 |
2 |
3 |
8.804193 |
2 |
3 |
龙文区朝阳镇 |
727 |
42497 |
9811 |
0.230863 |
6 |
5 |
20.5993 |
6 |
4 |
云霄县莆美镇 |
730 |
75290 |
48019 |
0.637787 |
5 |
1 |
12.56391 |
4 |
5 |
漳浦县绥安镇 |
4013 |
137352 |
74121 |
0.539643 |
1 |
2 |
5.128756 |
1 |
6 |
龙海市角美镇 |
1436 |
167484 |
56760 |
0.338898 |
3 |
4 |
12.47963 |
3 |
按预测派件量名次排序,则为下表所示:
位于榜单中在漳州市的名次 |
乡镇名称 |
企业个数 |
常住人口 |
城镇建成区常住人口 |
城镇化水平 |
企业单位排名 |
城镇化水平排名 |
预测派件量名次绝对值 |
预测派件量名次 |
5 |
漳浦县绥安镇 |
4013 |
137352 |
74121 |
0.539643 |
1 |
2 |
5.128756 |
1 |
2 |
龙文区步文镇 |
2860 |
55610 |
26453 |
0.475688 |
2 |
3 |
8.804193 |
2 |
6 |
龙海市角美镇 |
1436 |
167484 |
56760 |
0.338898 |
3 |
4 |
12.47963 |
3 |
4 |
云霄县莆美镇 |
730 |
75290 |
48019 |
0.637787 |
5 |
1 |
12.56391 |
4 |
1 |
龙文区蓝田镇 |
1232 |
51738 |
9398 |
0.181646 |
4 |
6 |
17.60839 |
5 |
3 |
龙文区朝阳镇 |
727 |
42497 |
9811 |
0.230863 |
6 |
5 |
20.5993 |
6 |
将上面两张表的最终结果进行合并比对排序,其中属于榜单的乡镇数据将加粗显示,同样按照预测派件量位次排序,如下表:
乡/镇 |
企业个数 |
常住人口 |
城镇建成区常住人口 |
城镇化水平 |
企业单位排名 |
城镇化水平排名 |
预测派件量名次绝对值 |
预测派件量名次 |
小溪镇 |
2211 |
85221 |
85221 |
1 |
3 |
1 |
8.119673 |
1 |
漳浦县绥安镇 |
4013 |
137352 |
74121 |
0.539643 |
1 |
5 |
9.488713 |
2 |
龙文区步文镇 |
2860 |
55610 |
26453 |
0.475688 |
2 |
7 |
14.61747 |
3 |
云霄县莆美镇 |
730 |
75290 |
48019 |
0.637787 |
6 |
4 |
19.14598 |
4 |
龙海市角美镇 |
1436 |
167484 |
56760 |
0.338898 |
4 |
10 |
23.42166 |
5 |
南胜镇 |
243 |
26708 |
12863 |
0.481616 |
9 |
6 |
28.71898 |
6 |
九峰镇 |
275 |
35051 |
12180 |
0.347494 |
8 |
9 |
30.85682 |
7 |
龙文区蓝田镇 |
1232 |
51738 |
9398 |
0.181646 |
5 |
15 |
32.91038 |
8 |
大溪镇 |
116 |
40310 |
40310 |
1 |
15 |
1 |
34.78509 |
9 |
芦溪镇 |
116 |
31712 |
31712 |
1 |
15 |
1 |
34.78509 |
9 |
龙文区朝阳镇 |
727 |
42497 |
9811 |
0.230863 |
7 |
14 |
35.90129 |
11 |
坂仔镇 |
141 |
41670 |
15329 |
0.367867 |
14 |
8 |
42.7362 |
12 |
文峰镇 |
168 |
13392 |
4136 |
0.308841 |
12 |
12 |
44.10524 |
13 |
国强乡 |
192 |
22523 |
0 |
10 |
17 |
46.9276 |
14 |
|
安厚镇 |
183 |
57794 |
7098 |
0.122816 |
11 |
16 |
47.6964 |
15 |
五寨乡 |
156 |
18573 |
0 |
13 |
17 |
53.59396 |
16 |
|
山格镇 |
92 |
43274 |
11889 |
0.274738 |
17 |
13 |
56.66915 |
17 |
霞寨镇 |
26 |
44868 |
14736 |
0.32843 |
19 |
11 |
58.20675 |
18 |
崎岭乡 |
58 |
23468 |
0 |
18 |
17 |
64.70455 |
19 |
优化方案分析
根据上表的合并结果可以得到,(为方便说明,下文将会把入榜的乡镇称为“五镇”)事实上将平和县下辖的乡镇切割成了几个区间:
区间一(居于“五镇”之前):小溪镇
区间二(介于“五镇”之间):南胜镇、九峰镇、大溪镇、芦溪镇
区间三(居于“五镇”之后):坂仔镇、文峰镇、国强乡、安厚镇、五寨镇、山格镇、霞寨镇、崎岭乡
区间三的边界即,龙文区朝阳镇,而龙文区朝阳镇目前的申通快递网点也仅有一个,而且须指出的是龙文区朝阳镇是靠近漳州市市区的,即便是这样的地理条件下,申通快递网点数也仅有一个,因此如果需要新增或者拆分网点,与其选择没有入榜的区间三乡镇,不如选择龙文区朝阳镇。而且如果说,是为了避免在弱势地域比如龙文区朝阳镇这样的地方竞争,而选择了在朝阳镇位次以下的乡镇作网点优化,所带来的价值偏低,因为它们所处的位次已经是处于位次倒数后8位了,就算避免竞争激烈也应当选择位次稍高的乡镇。通过以上分析,足以说明位次低于龙文区朝阳镇的平和县下辖乡镇,即区间三的所有乡镇理应维持原状。
龙文区下辖乡镇具体位置 | |
而对于区间二则又有一个边界线,即龙文区蓝田镇,为方便直观看出龙文区下辖乡镇的情况,可以参考如下的地图4-2.可以看到龙文区实际上是与漳州市十分相近的,而龙文区蓝田镇所设的申通网点也只有一个而已,因此如果需要新增或者拆分网点,与其选择没有入榜的平和县下辖乡镇,不如选择龙文区蓝田镇。而且如果说,是为了避免在弱势地域比如龙文区蓝田镇这样的地方竞争,而选择了在蓝田镇位次以下的乡镇作网点优化,但关键在于尽管大溪镇和芦溪镇位次并不低,它们各自入驻的其他家快递公司在其间设立的网点已经很多了(比如大溪镇中通快递有三个以上,中国邮政也有三个,如下图所示),因此就算强行给出二者的优化方案,也不会有多少可观实际的收益增长。足以说明位次低于龙文区蓝田镇的平和县下辖乡镇,即大溪镇、芦溪镇理应维持原状。
至于对于区间二而位次高于龙文区蓝田镇的平和县下辖乡镇可以参考位次居于其上的龙海市角美镇,事实上角美镇的具体情况是因为近几年来建了动车站(角美站),所以发展较为迅速。设立在角美镇的申通快递网点有3个(靠近厦门市的海沧区,两者相邻地域申通快递网点、仓储、分公司据点也多,因为靠近高速公路、动车沿途),可以看到角美镇是由于其地理位置较为特殊,因而设立的快递网点也比较多,属于联通厦门市和漳州市的陆路物流必经之路并且设有动车站。因此龙海市角美镇相对来说比较不具备参考性价值。
再往上一个位次考虑—— 云霄县蒲美镇,这个镇也仅有一个申通快递网点,但是
与前两种情况不同的是,南胜镇和九峰镇位次是靠前的,而且企业个数也相对比之前
两种情况多,百位数破二。而且作为参考系的云霄县蒲美镇之所以申通快递网点少,
是因为在这个镇上的其他家快递网点已经挤占了这一物流配送市场,如下图可看出蒲美镇的快递网点:
因此可以对南胜镇和九峰镇作网点优化方案的考虑。但由于南胜镇的竞争也相对激烈(如下图),因此可以选择九峰镇作网点拆分即可
而对于区间一的有且仅有一个的小溪镇,位次居于其下的漳浦县绥安镇的快递网点如下图所示,绥安镇在如此密集的快递网点下也有三个申通快递,因此作为位次高于其上的小溪镇在原有的网点数为2的基础上应予以新建两个,而不是新建一个的原因是:绥安镇的快递公司是同一家的比较多(韵达网点包括分公司就总共有10家),有一家独大的现象;而小溪镇目前为止,同一家快递公司最多的也只有两家(百世快递、中通快递),因此小溪镇如果新增两家快递网点也有望挤占这一小溪镇的物流配送市场。
最终优化方案确定
因此如上述的分析所得到的结论,即小溪镇新增两个快递网点,而九峰镇作拆分网点的处理,其他网点则保持原状即可,毕竟网点撤销也需要耗费一定的成本。
下面是小溪镇的具体网点增设选址:
由上图可以看到作为平和县的中心镇——小溪镇。商铺和人口密度分布较为密集,与之竞争的快递网点也相当之大。小溪镇原本据表中统计只有两个快递网点,但实际上属于山格镇的快递网点由于山歌镇与小溪镇相邻却设在了靠近小溪镇的位置,布局上其实申通快递在小溪镇设了三个。而竞争的快递网点方不仅包括中通、圆通、顺丰、邮政支行这几个几近全国覆盖的网点,还包括百世、品骏、天天等几家快递网点的角逐。图中的阴影蓝圈是三个申通快递网络的地域带,从中可以看出延伸的地域带并不广,仅局限于东北的区域。而西南的地域则被百世的两个网点、品骏及邮政支局所主导。东南区域尽管密集程度不显但也被圆通以及中通所主导着。位于琯溪商贸城内部也有三家快递网点存在,主导着北部区域。因此如果想要将申通自己的服务区域重叠,又不失地域性地达到与其他网点进行竞争,可在如图上的两个位置进行新设网点的布局以在失利的西南与东南地带争取被服务人群。
下面是九峰镇的具体网点拆分选址:
九峰镇可以看出它的商铺分布主要集中在东偏北的地段,图中阴影蓝所表示的是该镇区大致以韵达快递和中国邮政两个网点之间的距离为直径所包围的整个镇区中心地带。而因此,可以发现原申通网点是远离这一中心地带的,因此进行拆分又不能离原网点太远,否则不利于拆分,因此可以选在如图上的位置,与原网点距离在370米左右,又能在阴影蓝圆的边缘线上进行服务的辐射扩散。
[1] 《2017中国县域统计年鉴(乡镇卷)》:已经是目前所能查得到的最新数据,详询访问该网址:http://www.stats.gov.cn/tjsj/tjcbw/201810/t20181024_1629503.html,这是关于国家统计局对该统计年鉴出版物所作出的官方介绍
[2] 人口普查每10年进行一次,尾数逢0的年份为普查年度。第七次全国人口普查将于2020展开,因此2010年的人口普查数据为目前所能查得到的最新数据,该(所能查得到的)数据提供平和县下辖乡镇的年龄分层人口数及男女性别比,数据来源自WWW.CITYPOPULATION.DE
[3] 这两种备选数据来源于福建统计局发布的2018年统计年鉴 十三 13-18 13-18 设区市邮电通信业务基本情况(2017)
[4] 人口密度的数据需要自行处理是由于《福建统计年鉴》2018 没有记录其下辖各市各自的人口密度,只有全省的人口密度
[5] 行政区域面积详细数据来源:《关于福建省第二次全国土地调查主要数据成果的公报》. 福建省国土资源厅、福建省统计局、福建省第二次全国土地调查领导小组办公室. [2017-06-05].
[6] 常住人口数详细数据来源:《福建统计年鉴》2018 二十 市县国民经济指标 20-4 年末常住人口数(2017年)
[7] 城镇化水平详细数据来源:《福建统计年鉴》2018 二十 市县国民经济指标 20-4 年末常住人口数(2017年)
[8] 企业法人单位数详细数据来源:《福建统计年鉴》2018 一 综合 1-7 各设区市按机构类型分的法人单位数(2017年)
[9] 福州市年龄分层人数年份问题:因为厦门市统计局所发布的最新特区年鉴没有年龄分层人数数据,只能在《福州市2015年1%人口抽样调查主要数据公报》中找到该数据,因此年份为2015
[10] 厦门市年龄分层人数年份问题:因为厦门市统计局所发布的最新特区年鉴没有年龄分层人数数据,只能在《厦门市2015年1%人口抽样调查主要数据公报》中找到该数据,因此年份为2015
[11] 莆田市年龄分层人数详细数据来源:《2018年莆田市国民经济和社会发展统计公报》表1 2018年年末人口数及其构成
[12] 三明市年龄分层人数详细数据来源:《2017年三明市国民经济和社会发展统计公报》表1 2017年年末人口数及其构成
[13] 泉州市年龄分层人数详细数据来源:《2018年统计手册》 表 2018年户籍人口
[14] 泉州市年龄分层人数的数据不一致问题,是由于其数据来源中的表 2018年户籍人口并不按0-14、14-64、64及其以上的年龄组划分,而是更为详细的划法,18岁以下、18-34、35-59、60岁以上,因而与其他数据有一定偏差,在这里取60岁及其以下的人群
[15] 漳州市年龄分层人数详细数据来源:《漳州统计年鉴-2018》三 人口与劳动力 3—13 分县(市、区)人口 及 其 变 动 情 况
[16] 漳州市年龄分层人数的数据不一致问题,是由于其数据来源中的分县(市、区)人口 及 其 变 动 情 况
并不按0-14、14-64、64及其以上的年龄组划分,而是更为详细的划法,18岁以下、18-35、35-60、60岁以上,因而与其他数据有一定偏差,在这里取60岁及其以下的人群
[17] 南平市年龄分层人数详细数据来源:《2018年南平市国民经济和社会发展统计公报》表1 2018年年末常住人口数及其构成
[18] 龙岩市年龄分层人数详细数据来源:《龙岩统计年鉴-2018》三 人口与劳动力 3-9 主要年份人口年龄构成
[19]宁德市年龄分层人数详细数据来源:《宁德统计年鉴-2018》三 人口、就业与职工工资 3—8 分年龄、性别的常住人口数
[20] 男女性别比详细数据来源:《福建统计年鉴》2018 二十 市县国民经济指标 20-3 年末户籍统计人口数(2017年)
[21] 这些原始数据如前述,即第一部分所述,来源于国家统计局发布的《2017中国县域统计年鉴(乡镇卷)》 中平和县各镇的数据