孙萌月 张奥丽 曾进成 【摘 要】支持向量机是基于统计学习理论发展起来的一种新的机器学习方法,应用于解决各种小样本分类问题。经文献报道,鸢尾花自身的固有属性可以作为输入指标用来预测鸢尾花的种类。本文以鸢尾花的属性数据建立分类模型,结果表明支持向量機分类方法具有很好的泛化性能,为自动判定鸢尾花种类提供了一种有效的方法。 【关键词】支持向量机;分类问题;核函数 鸢尾花属于鸢尾科,是一类具有较高观赏价值的草本植物,其萼片是绚丽多彩的,和向上的花瓣不同,花萼是下垂的。通过鸢尾花的属性来判断鸢尾花的种类,可以更高效率的培育出相应需要的鸢尾花,来满足现实需求量。 人工智能的快速发展带动了基于数据挖掘的人工神经网络和支持向量机智能分类方法。人工神经网络具有非线性、自学习、自适应,能够大规模并行处理等特征,同时内部训练过程是在黑箱中进行的,只要直接输入数据即可得出结果[1]。但缺点也很明显,神经网络中参数无法解释,同时训练过程在黑箱中进行,具有一定的盲目性,由于它是基于经验风险最小化原则,容易出现"过拟合"现象,即有可能出现陷入局部最优解而无法得到全局最优解的现象。而支持向量机(SVM)借助最优化方法来解决机器学习问题[2],依赖结构风险最小化原则,针对小样本得到全局最优解,解决了在神经网络方法中无法避免的局部极值问题。 因此,本文将目标数据集的三种鸢尾花的花萼长度、花萼宽度、花瓣长度、花瓣宽度四个属性用来做样本的定量分析,建立模型,通过SVM分类的方法,根据给定的训练集,通过大量的训练点,寻找实值函数,由此得到决策函数,以便用决策函数推断任意模式(输入指标向量或称输入)相对应的输出指标。 一、基于支持向量机的鸢尾花类别预测 1.支持向量机 支持向量机分类方法是一种基于结构风险最小化的原理,针对一个给定的有限数量训练集样本的学习任务,通过在原空间或经投影后的高维空间中构造最佳分类超平面作为决策面。从线性可分模式来看,该决策面不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面的距离最大[3]。训练样本为非线性时,通过非线性函数φ( x) 将样本 x 映射到一个高维线性特征空间,在这个维数可能为无穷大的线形空间中构造最优分类超平面,并得到分类器的判别函数。再根据最大间隔思想[4],引入惩罚项 CΣ§i,建立原始最优化问题, 通过强对偶定理对原问题进行求解,利用核函数提高样本的线性可分性,将线性分类学习机算法推广到非线性的情况。 2.K重交叉验证 K重交叉验证是常用的精度测试方法[5]。验证方法是将数据集分成 K份,轮流将其中K-1份做训练,1份做测试,K次结果的最佳值作为对算法精度的估计。本文算法中采用K重交叉验证方法来计算准确率,进而确定合适的惩罚参数C及核函数。 3.数据 在UCI数据库,下载得到初始的Iris样本数据集共计150条。统计各个选项在不同决定指标所占比例对比分析,从而得到合适的指标,这里主要参考各指标的选项在输出指标鸢尾花类别中所占的比例。经预处理,分别得到三类鸢尾花的四个属性的平均值数据, 二、建模 鸢尾花的种类有很多,这里我们选取山鸢尾、变色鸢尾、维吉尼亚鸢尾三种比较有名的鸢尾花类别,而鸢尾花类别受其自生属性影响,经文献查阅,最终选取较为典型的4个指标作为输入,以鸢尾花类别作为输出建立模型。该模型为多类分类问题,以鸢尾花类别作为输出指标,分为山鸢尾、变色鸢尾、维吉尼亚鸢尾三种。而输入指标有花萼长度、花萼宽度、花瓣长度、花瓣宽度。 重要指标进行分析: (1)TP Rate: 简称TPR(真正率),即被模型预测为正的正样本比率。TPR = TP /(TP + FN) 正样本预测结果数 / 正样本实际数。以第一条数据为例,TPR=28/30= 0.933。 (2)FP Rate:简称FPR(假正率),即被模型预测为正的负样本比率。FPR = FP /(FP + TN)?被预测为正的负样本结果数 /负样本实际数。以第一条数据为例,FPR=2/120= 0.017。 (3) MCC:即Matthews 相关系数。MCC=(TP*TN-FP*TN+FP)*(TN+FN)]^0.FN)/[(TP+FP)*(TP+FN)*(5,同时考虑了 FP和 FN,并适用于不平衡问题(两个类的比例相差很大)。取值在[-1,1]之间,1 代表完美的预测,0 代表与随机分类器效果一样,-1 代表预测结果与实际结果完全不一致。 可知,通过对该训练模型的训练与测试,分类准确率可达到95.3%,能够将鸢尾花的三种类别比较好的分开,具有较高的泛化能力,且MCC均趋近于1,说明该训练模型的稳定性很好。 三、结论 本文通过实例验证可以看出鸢尾花的种类受其属性的影响,根据鸢尾花的属性及种类分别作为输入、输出指标建立模型,应用支持向量机分类的方法进行研究,得到合适的决策函数,可以对已知相关属性的鸢尾花做出较为准确的分类。为预测鸢尾花种类提供了一种有效的方法,也为鸢尾花种植者选择种类提升了效率,带来了方便,同时也通过此实例体现了支持向量机分类应用于解决小样本分类问题的优越性。 【参考文献】 [1]蒋林利. 基于支持向量机的电子商务模式下的信用评价模型[J].现代计算机学报,2012. [2]邓乃扬,田英杰. 数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004,49-77,164-223.