摘 要:大数据是指数据规模非常庞大的数据集,对大数据的分析就是要挖掘数据背后的价值(信息、趋势等).本文我们主要对具体案例进行分析,整理一些数学理论在数据分析中的具体应用,从而理解数学理论在数据分析中的重要地位.54912
毕业论文关键词:大数据,数据分析,探索性空间分析,线性规划,列联表,发生比之比
Abstract: Big data is a data set, whose scale is very large. The aim of analyzing big data is to excavate the potential value of the data (information, tendency and so on). In this paper, through analyzing some specific cases, we look forward to induce the application of mathematical theory in data analysis and understand the important status of mathematical theory in data analysis.
Keywords: Big data, data analysis, exploratory spatial analysis, linear programming, contingency table, odds ratio
目 录
1 引言 4
2 数据分析的方法与所运用数学知识的整理 4
3 软件介绍 6
4 具体案例分析 7
4.1探索性空间数据分析数学理论 7
4.2线性规划 8
4.3列联表与发生比之比 10
结论 12
参考文献 13
致谢 14
1 引言
乍一看,大数据这个词似乎相当模糊,指的是大的和充分的信息.这种描述确实符合要求,但它没有提供信息大数据到底是什么.极大型数据集可以表示为大数据,管理和分析它们的传统数据处理工具已经跟不上数据更新的步伐.大数据定义了一个情况:数据集已经非常的庞大,传统信息技术不能有效地处理数据集的大小或数据集的规模和增长.换句话说,数据集已经如此巨大,以至于难以管理,甚至更难获得价值.主要困难是搜索、共享、分析.
给人的第一印象,大数据是一个较为抽象的定义,它表示数据的规模巨大.以往的“海量数据”(massive data)、“超大规模数据”(very large data)等概念与大数据概念之间看不出区别多大.大数据面对挑战,无论是从严谨还是从定义角度去分析,任何有能力去发现和利用大数据价值的手段都应值得推广. 从多维角度去思考大数据的方法或许更容易被公众所接受.大数据具有以下一些特点[1]:
规模性(Volume):大数据体现规模的“大”,企业里充斥着数据,甚至有些积累着TB或者PB级规模的信息.
多样性(Variety):大数据可以说是所有结构化数据(包括非结构化数据:音频、文本、视频等等)里多样性最为复杂多样的.
高速性(Velocity):数据的传播是以光速进行的,数据的积累速度更是飞快,数据的更新速度甚至以微秒计算.
价值性(Value)是国际数据公司(International Data Corporation, IDC推崇的第四V定义,他们认为稀疏性的特点更能体现数据的价值,而真实性(Veracity)则是IBM认为大数据应该必然具有的属性.
2 数据分析的方法与所运用数学知识的整理
对大数据进行分析是当前国际交流最为活跃的领域,很多有价值的,智能的,深入的信息往往是通过数据分析获得的.大数据的分析方法在大数据领域显得尤为重要,主要体现在数据的多样性,数量、存储等等不断增长的复杂性,决定最终信息是否有价值的决定性因素就是数据分析.
数据分析已经如此重要,数学理论在数据分析里的作用更是重中之重,数据分析里处处体现着数学思想,数学工具的多样性导致了多种领域数据分析软件技术的发展,本文在此粗略整理了部分数学思想的核心理论在数据分析中的地位: