互联网数据分析文献综述和参考文献

菜单

国内外研究现状最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来[ ]。” 52739

近些年来，虽然数学和物理、统计学的发展，为处理繁杂的互联网数据提供了更加科学的理论依据。例如直接的密度统计和随机统计模型，这些模型确实为处理目前巨大的互联网数据提供了一些可能，也减少了冗余的数据度，避免大量的重复数据。

直接的密度统计值适合于相似的数据点，例如在人口统计中，利用密度统计的方法在具有相似的环境下，具有较好的数据统计性。但是人口的分布还与多种因素的相互因素有关，如地形、环境、地价等因素。一些像澳门、摩纳哥、新加坡这样的小国和地区常常位居人口最稠密的地区。事实上，基于像埃及95%的国土是不适宜人类居住的荒漠以及香港1/4的面积是易发泥石流的山区，与传统（人口密度）统计方法的结果相比，这些地方的城市区域更加拥挤[ ]。

直接的密度统计的缺乏精度性，忽略了数据点的异质性。另一方面，直接的密度统计是假定在互联网数据很大的前提下，但是这与现实世界数据是相悖的，某些互联网数据稀疏，就无法利用直接的密度的统计方法。同时在采取直接的密度的统计方法是无法对于数据的系统演化时间和空间信息，很难反映出数据的演化过程。自然就很难找出数据背后潜藏的规律。

互联网数据分析流程图

面对互联网数据资源爆炸，许多研究者利用随机模型论文网（random walk）来处理数据分析人类的出行从而找寻其背后的规律。随机游走是一种不规则的变动形式。在这种变动过程中，每一步的变化都具有纯粹的随机性[ ] 。在很多系统都存在不同类型的无规则行走，他们都具有相似结构。单个的随机事件我们不可预测，但随机大量的群体行为，却是精确可知的，在偶然中隐含着必然。随机性造成了低尺度下的差异性，但在高尺度下又表现为共同的特征的相似性[ ]。按照概率的观点“宇宙即是所有随机事件概率的总和”。

列维飞行（Levy flight pattern）模式也常常被用来分析人类的出行行为[ ] 。有研究者认为，列维原理同样适用于人类行为模式，人的很多行为都是由自己关于过去教训的所塑造，而这些教训相对于我们一生比较平常的生活而言，就是小概率事件，但是对我们影响非常大。可惜的是，我们不知道，这些教训究竟是对还是错。每个人的生活中都应该有类似很多的例子。

但近年来的一系列研究却证实人类出行的时间间隔分布和位移距离分布都服从重尾分布[ ] ，表现为阵发性、有界性、周期性和规律性综合的特征[ ] 。为此，学者相继从不同角度提出了统计模型来解释上述特征产生的原因。在实证和建模的基础上，更具有理论和商业价值的位置预测也是人类出行行为研究的重点之一。用熵的方法得到人类出行的理论可预测性最高可达93%，该结果受到了广泛关注。

智能手机普及、应用软件商店兴起以及定位技术的开发应用，在基于地理位置预测的服务领域，其巨大的商业价值正在一步步得以体现。因此更好的分析基于地理信息数据，对人类的出行进行预测，提高基于地理位置信息应用的实际价值和使用体验具有重要意义。

参考文献

[ ]张东。中国互联网信息治理模式研究[D]。中国人民大学,2010。