基于KNN算法的机器嗅觉及白酒分类研究(6)
时间:2018-06-08 21:15 来源:毕业论文 作者:毕业论文 点击:次
以往传统的仿生嗅觉大多只是对简单的物质气的测量,且测量方法仍旧停留在化学分析方法和仪器分析方法上。可是,对于一些相对含量极为微小的物质及复杂物质的分析,特别是许多含有不同气但是相对含量极为微小的物质,还是只能够停留在人的嗅觉直接测量。为此,就需要大量的时间、人力和物力来培养专门识别气的专家。而人的感官评判有着包括主观性太强、重复性差、耗时长和花费巨大人力等多个缺点。而且,人的感官评判不能用于检测有毒气体、连续工作以及远程操作。 鉴于传统的感官评定和化学成分分析仪器的不足,人们渐渐期望有一种客观且准确的嗅觉鉴别方法来代替两者,仿生嗅觉技术在这种需求下得到迅速的发展,并且迅速发展成为现在的机器嗅觉技术。 2.1.3 KNN算法 KNN算法又名k(最)近邻分类算法,KNN是其英语k-nearest neighbor classification的缩写。而所谓的K(最)近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是:如果某个样本在特征空间中的k个最相似的样本中的大部分属于某一个类别,则该样本也属于该类别,并具有这个类别中样本的所有特性。该方法在确定分类时,只根据最邻近的一个或者几个样本的类别来决定未知样本的所属类别。 KNN算法在类别决策时,只与极少数的邻近样本有关。由于KNN方法主要靠周围的、有限的邻近样本,而不是依靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的未知样本集来说,KNN算法比其他算法更加合适。 KNN算法的优点在于简单,非常易于理解、也易于实现,无需估计参数,更无需训练。比较适合对稀有事件进行分类,特别适用于多分类的问题,例如根据基因特征来判断其功能分类等。 KNN算法在分类时有个主要的不足,就是当样本不平衡时,如一个类的样本容量很大而其他类样本容量相对而言很小时,就有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。KNN算法的另一个不足之处,就是计算量较大,因为对每一个待分类的文本都要计算它到所有已知样本的距离,才能求得它的K个最近邻点。所以,目前比较常用的解决方法,就是对已知样本点进行适当剪辑,事先除去对分类作用不大的样本。因此,KNN算法比较适用于样本容量较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。 而在处理过程中,不管结果点距离邻近K值它有多远。所有临近的K值对这个点的影响效果是一样的。而在实际应用中,则可以采取附加权值的方法,放大临近点对结果的影响,从而达到降低误差的效果。 KNN算法是本次课题研究中的重点技术。寒假期间,在为研究课题做准备的时候,曾经阅读了大量的书籍,以理解KNN算法。就像之前所叙述的那样,这些书籍对于KNN算法的描述大同小异,概念上是接近的,只是描述的语言略有区别罢了。就个人而言,KNN算法,简单地概括来说,就是求K最邻近距离的模糊算法。之所以称它为模糊算法,是因为KNN算法可以根据使用环境的不同,而改变未知参数K的大小,使整个算法具有一定的灵活性,而不是固定的死板。 虽然KNN算法可以算得上是数据挖掘中最简单的算法,但是这个算法使用得当的话同样可以有意想不到的效果。 2.1.4 电子鼻 前文也提到过,电子鼻是模拟动物嗅觉器官开发出的一种高科技产品。它是利用气体传感器阵列的不同的响应图案,来识别气的电子系统。电子鼻甚至可以在几小时、几天乃至数月的时间内连续地、实时地监测特定位置的气状况。电子鼻甚至能够测定对人类来说有害的有毒气体,亦可以进行远距离操作。这可比人为测定气体的限制少了许多。 (责任编辑:qin) |