最近邻分类中的距离度量学习算法实现与验证
时间:2017-05-07 19:57 来源:毕业论文 作者:毕业论文 点击:次
距离度量学习是模式识别与机器学习领域的重要研究内容,本文的主要内容就是面向最近邻分类器(kNN),研究利用训练数据学习最佳距离的模型和算法。这其中主要包括三种距离度量学习算法:弱监督距离度量学习,近邻成分分析(NCA)以及大间隔距离度量学习。与监督学习算法不同,弱监督学习算法不需要类别信息,只需要给出样本点之间的“相似”和“不相似”对,就能获得有效的距离度量标准。近邻成分分析相对于其他距离度量学习算法的优势在于可以有效地降低样本的文数以满足数据可视化和快速分类的需要。大间隔距离度量学习是一种基于半定规划的马氏距离度量学习算法,算法的主要思想是使得最近邻样本尽量属于同一个类别,而不同类别样本之间尽可能保持较大的距离。针对不同算法和不同数据集,进行了丰富的实验对比,结果表明,相对于欧式距离度量,使用经过训练集学习得到距离度量标准能够有更好的分类效果。8335 关键词距离度量最近邻分类弱监督近邻成分分析大间隔最近邻分类 TitleRealizationandVerificationofDistanceMetric LearningforNearestNeighborClassification Abstract Distancemetriclearningisanimportantresearchtopicinpattern recognitionandmachinelearningareas.Thefocusofthethesisishowto learnagooddistancemetricfornearestneighborclassificationbyusing atrainingdataset.Threemainalgorithmsareincluded:weaklysupervised distancemetriclearning,neighborhoodcomponentsanalysis(NCA)and distancemetriclearningforlargemarginnearestneighbor classification.Comparedwithotherdistancemetriclearningalgorithms, weaklysupervisedonescanlearnadistancemetricforclusteringandget goodresultswithside-informationwhichismadeupofsomepairsofpoints considered"similar"or"dissimilar",butnotclasslabels.NCAcan effectivelyreducedimensionalitiesofinputsthatcouldbeusedfordata visualizationandfastclassification.LMNNisanapproachthatcanlearn aMahanalobisdistancemetricfork-nearestneighborclassificationby semidefiniteprogramming,andmetricistrainedwiththegoalthatthe k-nearestneighborsalwaysbelongtothesameclasswhileexamplesfrom differentclassesareseparatedbyalargemargin.Manyexperimentsare conductedondifferentdatasetsfordifferentalgorithms,andtheresults indicatethatlearnedmetricsperformbetterthanEuclideandistance metricsinclusteringandclassification. KeywordsdistancemetrickNNweaksupervisonNCALMNN 目次 1引言1 1.1关于距离度量1 1.2弱监督距离度量学习的特性2 1.3kNN的缺陷及改进2 2弱监督距离度量学习算法3 2.1学习距离度量标准3 2.2K-means上的实验验证5 3监督距离度量学习算法9 3.1近邻成分分析9 3.2大间隔距离度量学习算法14 4三种算法的对比19 4.1模型对比19 4.2实验对比20 结论21 致谢22 参考文献22 1引言 信息行业的高速发展,加快了各行各业智能化的步伐,因此,在卫星遥感图像 分析,医学影像识别,无人驾驶汽车,智能机器人等领域,模式识别与人工智能技术 得到了广泛的应用。分类和聚类技术作为其重要的组成部分,也扮演着重要的角色, 本文中主要用到了两种分类和聚类算法——K-means算法和最近邻分类(kNN)算法。 本文中的弱监督距离度量学习算法[1] 是以K-means算法为原型的,K-means是一 种简单而有效的硬聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的 距离越近,其相似度就越大。K-means算法首先在N个待聚类样本中选择K个作为聚 类中心,然后对剩余样本分别计算到每个聚类中心的距离,并把它归到最近聚类中心 (责任编辑:qin) |