快生活 - 生活常识大全

基于支持向量机的小麦品种识别


  陈茂林 龚正 高荣荣
  【摘 要】本文应用基于支持向量机算法,根据小麦种子的7个基本特征进行小麦品种识别。采用UCI标准数据集收集的210条小麦种子特征数据,对小麦品种进行分类验证。经检验,基于支持向量机对小麦品种数据的预测正确率可达到96%。本实验结果表明该方法可以用于识别小麦种子特征并能对小麦品种进行正确的识别。
  【關键词】支持向量机;小麦品种识别;UCI数据集
  一、引言
  小麦是小麦系植物的统称,是单子叶植物,是一种在世界各地广泛种植的禾本科植物,小麦的颖果是人类的主食之一,磨成面粉后可制作面包、馒头、饼干、面条等食物;发酵后可制成啤酒、酒精、白酒(如伏特加),或生质燃料。小麦富含淀粉、蛋白质、脂肪、矿物质、钙、铁、硫胺素、核黄素、烟酸、维生素A及维生素C等。
  人工智能的快速发展带动了基于数据挖掘的人工神经网络和支持向量机智能分类方法。人工神经网络具有非线性、自学习、自适应,能够大规模并行处理等特征,同时内部训练过程是在黑箱中进行的,只要直接输入数据即可得出结果。但缺点也很明显,神经网络中参数无法解释,同时训练过程在黑箱中进行,具有一定的盲目性,由于它是基于经验风险最小化原则,容易出现"过拟合"现象,即有可能出现陷入局部最优解而无法得到全局最优解的现象。而支持向量机借助最优化方法来解决机器学习问题,依赖结构风险最小化原则,针对小样本得到全局最优解,解决了在神经网络方法中无法避免的局部极值问题。支持向量机(SVM)建立在计算学习理论的结构风险最小化原则之上,其主要优点之一是可以处理线性不可分的情况。支持向量机用于模式识别的基本思想是将一个超平面作为决策平面,不但能将分类中的两类样本正确分开,而且使分类间隔最大,即将优化问题转化为一个凸型的二次规划问题,由标准的拉格朗日乘子法求出的结果即为全局最优解,且具有很高的精度。
  二、材料与方法
  (一)材料
  从UCI数据集收集小麦种子数据集,其内容包括三种不同品种的小麦的籽粒:Kama、Rosa、Canada。选取小麦的7个特征(面积、周长、致密度、核仁长度、核仁宽度、不对称系数、核沟长度),进行分类验证。
  (二)方法
  支持向量机
  支持向量机分类方法是一种基于结构风险最小化的原理,针对一个给定的有限数量训练集样本的学习任务,通过在原空间或经投影后的高维空间中构造最佳分类超平面作为决策面。从线性可分模式来看,该决策面不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面的距离最大。如图1所示。训练样本为非线性时,通过非线性函数φ(x) 将样本x映射到一个高维线性特征空间,在这个维数可能为无穷大的线形空间中构造最优分类超平面,并得到分类器的判别函数。再根据最大间隔思想,引入惩罚项CΣ§i,建立原始最优化问题,通过强对偶定理对原问题进行求解,利用核函数提高样本的线性可分性,将线性分类学习机算法推广到非线性的情况。
  小麦种子的种类众多,本文选取了Kama、Rosa、Canada三种有代表性的小麦种子,由于小麦种子类别受自然因素和自身属性的影响,经查阅文献,最终选取7个较为典型的特征作为输入,以小麦种子类别作为输出建立模型。本实验选取了210条数据,随机分为7组,对其中的6组数据进行模型训练,对训练集用支持向量机进行处理,应用训练之后的模型对预留的1组测试集进行测试。
  三、实验结果
  本实验通过对训练集用支持向量机的分类算法进行处理,采取交叉验证的方法,得到最优的惩罚参数C=512和g=0.03125。经本实验验证,小麦品种的分类准确率达到96%,可以将三种小麦种子合理的分类,说明该训练模型的预测效果很好。
  四、结论
  本文通过实例验证可以看出小麦的种类受自然因素和自身属性的影响,根据小麦的属性及种类分别作为输入、输出指标建立模型,应用支持向量机的方法进行研究,得到合适的决策函数,可以对已知相关特征的小麦种类做出准确的分类。为预测小麦种类提供了一种合理有效的方法,同时也体现了支持向量机分类算法解决分类问题的优越性。
  【参考文献】
  [1] 黄发良,钟智. 用于分类的支持向量机[J]. 广西师范学院学报 (自然科学版 ),2004,(03):75-78.
  [2]刘桃花,侯木舟.鲍鱼年龄分类中的判别分析和聚类分析[J].邵阳学院学报(自然科学版),2016,13(01):14-18.
  [3]王宏勇,侯惠芳,刘素华.基于遗传算法和支持向量机的玉米品种识别[J].计算机工程与应用,2008(18):221-223.
网站目录投稿:芷容