在1965年之后的一些年,则是机器学习的理论基础创立的阶段。在这段时期里,也还只是一个学习概念的阶段, 比如去学习模仿人类。但这些都只是对概念进行学习,在实际应用中还是无法使用;
3.复兴时期
接下来的一段时间内机器学习有了巨大进步,不再是学习单一概念,而是进展到学习多个概念。努力地去尝试不同的方法,学习研究不同的技巧;
4.高潮时期
20世纪八十年代,神经网络研究铸件兴起发展,人工智能和计算机科技的快速发展,机器学习有了更好的研究条件,所以掀起机器学习高潮。
机器学习的目的是根据分析有限的样本(数据),通过分析学习建立相应的数据模型,求解出系统输入与输出之间的关系[12]。比如假设变量Y与变量X之间存在着某种未知的联系,那么机器学习的目标就是要找出其中的函数关系。可以选取n个独立分布的观测样本:
(1.1)
在这个函数组合 中,寻求一个最优的函数 ,对它相关关系进行预测分析,使得下面这个式子的值是最小的:
(1.2)
其中, 是预测函数的集合, 是函数的广义参数, 为损失函数,是因为对y进行预测产生的。
基本的机器学习有三类,可以分为有函数逼近、模式识别和概率密度估计。在通常的学习方法中,经常使用经验来判断,对那些已知的样本数据,通过利用相同的损失函数来定义经验风险。
1.2.3 统计学习理论
统计学习的理论也是由Vapnik等人在优尔七十年代提出的,是研究小样本规律的理论,主要应用在解决小样本统计估计和预测学习这两个方面[13]。主要内容包括以下几个方面:
1.VC文理论
VC文理论则是反映机器的学习能力的强弱,当VC文越大那么就是表示学习机器更加的复杂,所研究的目标函数的集合也就越大,相应的学习能力越强。
在样本数据的集合中,通常选择经验风险值小的函数,即是经验风险值最小化原则。在建立模型之前可以先假设几何H,统计学习理论的目的就是要选出这个集合H,所要求的标准是根据其对期望风险的影响能力。后来提出的VC文的含义,就是定义了集合H的一个定量指标。
2.泛化性的界
定义:实际风险与经验风险不会是相同的,它们之间存在着某种的关系,这种未知关系就称之为泛化性的界。影响因素有两个,一为误差;二为机器学习的学习能力。
3.结构风险最小化
经过几十年的分析研究,人们已经可以认识到机器学习的本质,这也就奠定了统计学习理论的基础。统计学理论中的结构风险最小化的原则、VC文理论基础这些都是支持向量机法的基本原则和理论基础。
1.3 几种数据分析方法
1.3.1 线性可分
如图1.2所示的问题,可以用一条直线就能够把目标研究内容准确地分开,这一类问题统称为线性可分问题[14]。
图1.2线性可分问题
如果存在超平面
(1.3)
使得
(1.4)
(1.5)
则把训练集合称为是线性可分的。
- 上一篇:微型不锈钢柱焊接工艺研究+文献综述
- 下一篇:反应物浓度对材料的影响+文献综述
-
-
-
-
-
-
-
浅析中国古代宗法制度
中国传统元素在游戏角色...
C++最短路径算法研究和程序设计
g-C3N4光催化剂的制备和光催化性能研究
高警觉工作人群的元情绪...
上市公司股权结构对经营绩效的影响研究
现代简约美式风格在室内家装中的运用
NFC协议物理层的软件实现+文献综述
巴金《激流三部曲》高觉新的悲剧命运
江苏省某高中学生体质现状的调查研究