距离度量学习是模式识别与机器学习领域的重要研究内容,本文的主要内容就是面向最近邻分类器(kNN),研究利用训练数据学习最佳距离的模型和算法。这其中主要包括三种距离度量学习算法:弱监督距离度量学习,近邻成分分析(NCA)以及大间隔距离度量学习。与监督学习算法不同,弱监督学习算法不需要类别信息,只需要给出样本点之间的“相似”和“不相似”对,就能获得有效的距离度量标准。近邻成分分析相对于其他距离度量学习算法的优势在于可以有效地降低样本的文数以满足数据可视化和快速分类的需要。大间隔距离度量学习是一种基于半定规划的马氏距离度量学习算法,算法的主要思想是使得最近邻样本尽量属于同一个类别,而不同类别样本之间尽可能保持较大的距离。针对不同算法和不同数据集,进行了丰富的实验对比,结果表明,相对于欧式距离度量,使用经过训练集学习得到距离度量标准能够有更好的分类效果。8335
关键词距离度量最近邻分类弱监督近邻成分分析大间隔最近邻分类
TitleRealizationandVerificationofDistanceMetric
LearningforNearestNeighborClassification
Abstract
Distancemetriclearningisanimportantresearchtopicinpattern
recognitionandmachinelearningareas.Thefocusofthethesisishowto
learnagooddistancemetricfornearestneighborclassificationbyusing
atrainingdataset.Threemainalgorithmsareincluded:weaklysupervised
distancemetriclearning,neighborhoodcomponentsanalysis(NCA)and
distancemetriclearningforlargemarginnearestneighbor
classification.Comparedwithotherdistancemetriclearningalgorithms,
weaklysupervisedonescanlearnadistancemetricforclusteringandget
goodresultswithside-informationwhichismadeupofsomepairsofpoints
considered"similar"or"dissimilar",butnotclasslabels.NCAcan
effectivelyreducedimensionalitiesofinputsthatcouldbeusedfordata
visualizationandfastclassification.LMNNisanapproachthatcanlearn
aMahanalobisdistancemetricfork-nearestneighborclassificationby
semidefiniteprogramming,andmetricistrainedwiththegoalthatthe
k-nearestneighborsalwaysbelongtothesameclasswhileexamplesfrom
differentclassesareseparatedbyalargemargin.Manyexperimentsare
conductedondifferentdatasetsfordifferentalgorithms,andtheresults
indicatethatlearnedmetricsperformbetterthanEuclideandistance
metricsinclusteringandclassification.
KeywordsdistancemetrickNNweaksupervisonNCALMNN
目次

1引言1
1.1关于距离度量1
1.2弱监督距离度量学习的特性2
1.3kNN的缺陷及改进2
2弱监督距离度量学习算法3
2.1学习距离度量标准3
2.2K-means上的实验验证5
3监督距离度量学习算法9
3.1近邻成分分析9
3.2大间隔距离度量学习算法14
4三种算法的对比19
4.1模型对比19
4.2实验对比20
结论21
致谢22
参考文献22
1引言
信息行业的高速发展,加快了各行各业智能化的步伐,因此,在卫星遥感图像
分析,医学影像识别,无人驾驶汽车,智能机器人等领域,模式识别与人工智能技术
得到了广泛的应用。分类和聚类技术作为其重要的组成部分,也扮演着重要的角色,
本文中主要用到了两种分类和聚类算法——K-means算法和最近邻分类(kNN)算法。
本文中的弱监督距离度量学习算法[1]
是以K-means算法为原型的,K-means是一
种简单而有效的硬聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的
距离越近,其相似度就越大。K-means算法首先在N个待聚类样本中选择K个作为聚
类中心,然后对剩余样本分别计算到每个聚类中心的距离,并把它归到最近聚类中心
上一篇:Android个人理财系统设计与开发
下一篇:SAR图像相干斑抑制算法研究+文献综述

网络常见故障的分类诊斷【2055字】

Windows操作系统最新补丁大全【3058字】

深度学习基于内容的图像检索

最小二乘法生物数字特征间的关系

电子商务与零售业的现状...

交通运输的最优化问题的模型建立及讨论

交通运输网路的最短路算法的优劣讨论

承德市事业单位档案管理...

医院财务风险因素分析及管理措施【2367字】

志愿者活动的调查问卷表

国内外图像分割技术研究现状

中国学术生态细节考察《...

10万元能开儿童乐园吗,我...

神经外科重症监护病房患...

C#学校科研管理系统的设计

公寓空调设计任务书

AT89C52单片机的超声波测距...