本文首先初选了20个因子作为初选因子,具体如表3.1:
表3.1 初选因子
因子 因子含义 因子 因子含义 因子 因子含义
网民总数(万人)
移动电话普及率(部/百人)
即时通信用户规模(万人)
人均国内生产总值(元)
域名数(万个)
搜索引擎用户规模(万人)
居民消费水平(元)
网站数(万个)
博客/个人空间用户规模(万人)
人均可支配收入(元)
国际出口宽带数(Mbps)
网络视频用户规模(万人)
人均储蓄存款年底余额(元/人)
网民人均周上网时长(小时)
电子邮件用户规模(万人)
互联网普及率(%)
网络购物用户规模(万人)
旅行预订用户规模(万人)
手机网民总数(万人)
网上银行用户规模(万人)
3.2 数据合并
3.2.1 主成分分析的概述
主成分分析的主要目的是对原变量进行“改造”,在不损失原变量太多信息的前提下尽可能降低原变量的维数,即用维数较少且相互独立的线性组合形成的主成分(“新变量”)代替原本的各个变量。
设 为p维随机向量,其协方差矩阵(记为 )为
它是一个p阶非负定方阵。构造线性组合 ,
在约束条件 及 之下,求 使 达到最大。由此 所确定的随机变量 称为X的第k个主成分。
3.2.2 基于主成分分析方法合并各渠道用户规模变量
考虑到第一大类潜在网购用户规模指标的数据有重合的可能性,又因为数字营销的主要渠道有搜索引擎、网络视频、微信/QQ、微博、电子邮件等,所以将六个用户规模(即时通信、搜索引擎、博客/空间、网络视频、旅行预订)指标的数据进行主成分分析,提取出第一主成分当做新的指标 ,把它称作各渠道用户规模,在以下分析中就用这新的自变量 替代原本的 、 、 、 、 、 ,程序见附录3,第一主成分(新的自变量 )如公式(3.1)所示。
(3.1)
3.3 基本统计特征
对数据进行描述性统计分析,程序见附录4。
表3.2 总体变量的描述性统计(1)
变量名 均值 标准差 中位数 最小值 最大值
网民总数 25577 21264 17350 2250 61758
人均国内生产总值 21036 11654 18335 7858 41908
居民消费水平 7923 3979 6805 3632 15632
人均可支配收入 9166 4875 7889 3712 18599
人均储蓄存款年底余额 15532 9116 12675 5076 32894
互联网普及率 19.25 15.76977 13.25 1.8 45.8
手机网民总数 14373 18114 3370 92 50006 数字营销市场规模影响因素及预测的研究(4):http://www.youerw.com/shuxue/lunwen_46293.html