热门关键词:

基于果蝇优化算法的支持向量机故障诊断

  • 该文件为pdf格式
  • 文件大小:289.17KB
  • 浏览次数
  • 发布时间:2014-08-15
文件介绍:

本资料包含pdf文件1个,下载需要1积分

Fault diagnosis based on support vector machines optimized by fruit flyoptimization algorithmZHANG Xiang,CHEN Lin(Colege ofInformation Science and Engineering,Wuhan University ofScience and Technology,Wuhan 430081,China)Abstract:A feature selection and parameter optimization method of Support Vector Machines (SVM)based on Fruit FlyOptimization Algorithm is proposed.Imitating the foraging behavior of fruit flies,the smel concentration judgment value isused as the parameter and the feature set is binary-encoded to generate the subset which can be used to train the mode1.Thena proper fitness function is constructed to search the best parameters and feature subset.The test shows the proposed approachhas higher precision on classifcation and global search ability compared with other methods.Moreover,the method is appliedto the roling bearing fault diagnosis,and the simulation result reveals good performance。

Key words:fruit fly optimization algorithm;support vector machines;feature selection;fault diagnosis在当前的故障诊断系统 中,广泛用到的智能诊 断方法是专家系统和神经网络。专家系统需要完备的样本建立知识库,且容错能力较差。神经网络以经验风险最携为原则,在小样本情况下容易产生过分拟合。且易于陷入局部极小点。

然而现代工程实际中.不可能存在足够多的故障样本,这也制约着智能诊断系统的发展〃立在统计学习理论基础上 的支持向量机(SVM)l,能够解决小样本学习问题。支持向量机以结构风险最携为原则,兼顾训练误差与泛化能力,克服了过学习与欠学习,局部极值等问题。在实际应用中,同时进行 支持 向量 机的特征 选择与参数 优化将能 极大提 高分类器的分类准确率。

目前常用 的参数选择算法有网格搜索法,遗传算法(GA)I2]与粒子群算法 (PSO) 。网格搜索需要根据经验多次缩放参数的取值范围,且比较费时。遗传算法和粒子群算法 自身参数就多,而且每个参数都会影响到 SVM的分类精度。文献I41提出了-种新的智能优化算法-果蝇优化算法 ,该算法原理简明易懂,初始化参数较少,易于修改。本文将果蝇优化算法优化支持向量机模型,应用于故障诊断 ,并且将数据集特征进行二进制编码得到特征子集用于训练 ,同时做到了特收稿 日期 :2013-03-06 稿件编号 :201303073征选择与参数优化。通过与遗传算法和粒子群算法比较优化效果 ,证 明该算法正确有效 。

1 支持向量机分类原理支持向量机分类的目的是计算有效地途径.从而能在高维特征空间中学习最佳分类超平面。所谓最优分类超平面就是不但能将两类样本正确划分。并且使每-类数据与超平面最近的点与超平面之间的距离最大。

1.1 二值 分类支持向量机是针对二值分类问题提出的,首先考虑线性可分的情况,设故障样本为 ( ,y1), ∈R ,yi∈1,-1,i1,,2,其中,f为样例数目, 指样例,yl是它们的标记。

分类 的 目的就是找-个 超平 面使得这 两类样 本完全分开.且使分类超平面具有更好的推广能力。设分类超平面为<09, >60,定义-个样本点到超平面的间隔 8i (< ,>6),将 ∞归-化得到几何间隔 Ti 81,几何间隔表示l ll点到超平面的欧式距 离。由于样本 集到超平 面的距离最近的点的值是-个定值,可以固定间隔为 1,因此,几何间隔成为1/Il l,使分类间隔最大就是使 l l最校该问题转化为作者简介:张 翔(1986-),男,湖北荆州人,硕士研究生。研究方向:人工智能,信号处理与算法优化。

- 90-张 翔。等 基于果蝇优化算法的支持向量机故障诊断二次规划问题:mi . 1 I 2c∑基s.t.yi(6)≥1《 ,i1,,Z (1)式(1)为带凸约束的二次规划问题 ,其中,C为惩罚系数,直为松弛变量。引入拉格朗13函数将其转化为对偶问题 :m a)∑ - ∑yyjotf >il 二 i,jls.t. OtlyFO,0≤ ≤c, 1, ,z (2)求解式(2)得到优化系数 %,其中不为零 的嘶对应的样本为支持 向量 ,然后根据 KKT条件 ,得到参数 b,则最优分 类函数为:,( )sgnf∑otlyi6) (3)对 于非线 性 问题 ,引入核 函数 K(x ,xj)将低 维空 间 的输入值映射到高维空间进行内积运算,实现某-非线性变换后的线性可分,此时:,( )sgn∑啦yKb) (4)本文选榷向基核函数:K( , )exp(- ) (5)式(5)中IT为核参数。

1.2 多值分类在实际应用中,故障诊断属于多值分类问题,因此需要将支持向量机推广到多值分类问题上,处理多类问题常见的方法悯有以下几种 :1)-对-法;2)-对多法;3)层次支持向量机;4)有向无环图支持向量机。本文使用 Libsvm工具箱建立SVM模型.因此使用的是-对-法。

2 基于 FoA-SVM 的特征选择与参数优化大量研究表明,SVM模型参数 ,尤其是惩罚系数 C,以及核参数 盯是影响模型性能的关键因素。惩罚系数 C的作用是在确定的数据子空间中调节学习机器置信范围和经验风险的比例以使学习机器的推广能力最好。但是 ,当C增大到-定值时。预测误差也可能上升。核参数 or则反映了i)iI练样本数据的分布,它的改变实际上是隐含地改变映射函数,从而改变样本数据子空间分布的复杂程度,即线性分类面的最大 VC维,也就决定了线性分类达到最小误差。使用人员往往根据经验,通过反复试验选认适参数,不能保证模型收敛到全局最校因此。如何选择最佳的参数值是设计 SVM分类器的关键问题2.1 果蝇优化算 法果蝇优化算法 (Fruit Fly Optimization Algorithm,FOA)E4]是-种基于果蝇觅食行为推演出的寻求全局优化的新方法。

依照果蝇的觅食行为,将最优解作为食物源,果蝇依靠嗅觉搜索食物气味并往食物方向飞去,已达到逐步逼近食物源的目的。其步骤如下 :1)随机初始化果蝇群体位置,得到初始坐标( ,y)。

X XRandom,Y YRandom3)计算个体与原点距离 D,揉离的倒数为味道浓度判定值 .s。

Dl-、V/1yl iJ-TV1 i, SIlDi4)将判定值带入适应度函数计算味道浓度。

Smell.]itne,(5i)5)保留浓度最高的果蝇▲入迭代,更新最靠近食物的果蝇位置 ,最后找 出最优解 。

2.2 特征编码特征编码是将数据集特征转换为二进制表示,编码结构如 图 1所示 。

区Ⅱ工[丑习图 1 特征 编码Fig.1 Feature codingN为二进制位数。等于数据集的特征维数。每-位对应-个特征,其取值为 0和 1,1代表该特征被选人特征子集 ,0代表该特征未被选择。

2.3 适应 度函数分类准确率和选择的特征数为构造适应度函数的重要因素。因此 ,对于适应度函数的设计应该兼顾最高的分类精度与最少的特征选择数。现定义适应度函数如下 :fimessiaccuracyi-o,4f1-墅 (6) N /为分类准确率的权值,∞,为特征选择数的权值qJ;代表特征掩码 1表示该特征被选取 0表示未被选择。本文侧重于研究不同算法的分类准确率,因此分别取 toA0.8和torO.2。

2.4 FoA-S、 模型通过 MArI.IAB建立 FOA-SVM模型 ,过程 如下 :步骤 1.确定种群规模,迭代次数。由于优化参数有 2个,初始果蝇位置时, ,y应分别取 2个随机数,对每个个体飞行方向和距离随机赋值 (即设定搜索步长),得到初始坐标(X1,Y1),(X2,Y2)。计算果蝇到原点距离,得到味道浓度判定值 S1i,S2i。

步骤 2.适当缩放判定值大小以确定 C、 的取值范围,Cm'S1i,ITn'S2i。m、n的取值需根据 C、IT的定义域调整。本文取 C E0,1 000, ∈[0,1001,在步骤 1中,将.S的范围限制在[O,10,因此 mlO0,nlO。

步骤 3.对数据集特征进行二进制编码。得到特征子集。用于训练 SVM模型,得到适应度函数fitness。

步骤 4.fitness的最大值对应位置浓度最高的果蝇 ,保留该果蝇的坐标值,此为初始最佳坐标值。

- 91-《电子设计工程12013年第 16期步骤 5.进入迭代寻优过程,保留最佳适应度 ,同时也得到了最佳 G,Or参数值以及特征子集。这里应该注意,最佳适应度可能对应多个 c,or的值 ,根据前文所述 ,C过大时,可能造成误差上升 ,因此保留最小的 C以及对应的or值。

2.5 实验分析实验数据来 自UCIt6]标准数据库,选择 3个常用 的数据集 :Ionosphere,Image和 Glass。数据集基本信息如表 1所示,Ionosphere为电离层数据集,包含 2类雷达 回波共 351个样本 ,每个样本记录了电离层信号脉冲的 34个特征;Image是由 7张图片分割成的 2 3l0个样本数据集 ,每张图片对应 330个样本 .每个样本有 19个属性 :Glass为玻璃鉴别数据集 ,包含 6种玻璃共 214个样本 。每个样本记录 了玻璃的 9种 重要成分 。其中 Ionosphere代表二值分类 ,Image代表多类分类 中的平衡数据集 ,Glass代表 多类分类中的不平衡数据集。

表1 数据集信息Tab.1 Data setsinformation为了验证该模型的分类效果 ,建立 GA-SVM和 PSO-SVM模型进行对比。并且在这两种模型中均加入特征选择。

分别选取 Ionosphere和 Image中的 101个和 1300个样本作为训练集 ;从 Glass的每类数据 中选取-半 的样本 ,共 107个用于训练。在初始化过程中.为保证初始条件-致。统-取种群规模为 20,迭代次数 100次,初始坐标均采用 FOA-SVM得到的初始值。

分类准确率用 10次实验的平均值表示。并标注了每个模型得到的最大与最小值。表 2为未加入特征选择的实验结果,表 3则为带特征选择的实验结果,并以FOA-SVM为例,给出了 10次实验所选特征数目的平均值 ∩以看出,GA,PSO和 FOA的分类准确率均有提高 ,说明进行特 征选 择后改善了分类器的性能.并且 FOA在 3种数据集中的分类准确率都要高于 GA和 PSO,尤其对于不平衡数据集 Glass。提高了l3%,这在实际工程应用中是非常重要的。从平均处理时问上来看 。虽然在样 本数 比较 少的情况 下 ,FOA的处理时间略高于其他两种算法。但在样本数很多时,极大地缩短了仿真时间。因此.FOA对分类器的优化效果好于 GA和PSO算法。

表2 不带特征选择的实验结果Tab.2 Experiment results withoutfeature selection表3 带特征选择的实验结果Tab.3 Expe riment results with featurelecfion在表 3中可以观察到.GA和PSO得出的分类准确率最大值均小于FOA.这是因为基本遗传算法的早熟现象以及基本粒子群算法具有的聚集现象 ,会使其陷入局部极值 ,因此需要跟模拟退火算法等局部搜索能力强的算法配合使用方能达到比较好的效果 ,而 FOA-SVM模型全局搜索能力较强,能够跳出局部极值。

3 故障诊断本文以6205-2RS JEM SKF深沟球轴承为诊断对象,轴承尺寸如表 4所示。

襄 4 轴承尺寸:(inch)Tab.4 Bearing size被测试轴承支承电机轴 .使用电火花加工技术在轴承内圈,外圈,滚动体上分别布置了单点故障。使用加速度传感器采集振动信号,采样频率为 12 000 Hz,得到 4种类型- 92-的振动数据,分别为 :1)正常;2)内圈故障;3)滚动体故障;4)外圈故障。

对采集的信号进行三层小波包分解,比较分解后各节点的能量并重构能量较大的节点,最后绘制包络谱。图2为转频 29.17 Hz时 4种类型的包络谱,经计算得到理论故障频率为内圈故障fF157.94 Hz,外圈故障104.56 Hz,滚动体双故障fro137.48 Hz。在图(b)和图(d)中能清晰看到频率为157.5 Hz和 104.7 Hz的谱线,但是在图(e)中很难发现滚动体故障频率,这是因为滚动体是滚珠,其运转中不但有公转和 自转.还会发生亿,滚珠表面缺陷对滚道有时有冲击,有时无冲击。因而会产生断续性故障信号,有较强的随机性,其频谱在故障频率下的特征不明显。有统计资料表明,使用峭度系数 K和 RMS值共同来监测滚动轴承振动情况,故障诊断成功率可达到 96%以上71。

在实际测量中,转速的微小波动,环境的扰动以及频率分辨率会造成实际故障频率与理论计算值存在微小差异,可在计算值±1 Hz范围内进行峰值搜索,找到幅值最大点对应张 翔。等 基于果蝇优化算法的支持向量机故障诊断频率/llz(a)正常信号(a)norm&l gignal频率/tlz(b)内圈故障(b)inner race faut频率/Hz(c)滚动体故障(c)baIl fault频率/Hz(d)外圈故障(d1 OUtor Z&CC fault图2 4种轴承信号包络谱Fig.2 Envelope spectrum of bearing signal in four types的频率,即为实际故障频率 , , , 。在快速傅里叶变换的过程 中 ,存在能 量泄露 ,因此 ,选取 实际故 障频 率周围±l Hz范围内的幅值总和 A ,A ,A。,A肋作为分类的特征向量。

从采集的4种类型的数据中各取 28个样本,每组样本的采样点数为 16 384,其中56组用于训练模型。56组用于测试 。输入特征向量 ,A A A肋,K,RMS],故障类别 y(1,2,3,4),建立 FOA-SVM模 型 ,检验该 故障诊 断模型 的分类效果,分类结果如图 3所示。

鞫2№ 测试集样本图3 故障诊断结果Fig.3 Fault diaosis result图 3中横坐标代表 56个测试样本 。纵坐标代表 4种类别,每种类别对应 14个样本∩以看出,预测结果与实际故障相吻合,尤其是对于滚动体故障也能完全区分出来 ,说明FOA-SVM模型具有良好的性能.能够解决工程实际中故障样 本数不够的问题。

4 结 论文中提出了-种基于果蝇优化算法的支持向量机特征选择与参数优化算法 ,通过与标准遗传算法和粒子群算法的对 比实验,证明该算法有效的搜索到了全局极值。能够同时进行特征选择与参数优化,提高了分类器的性能。然后建立了 FOA-SVM故障诊断模型,能够有效区分内圈,外圈和滚动体故障,在故障分类中得到了相当好的结果。但该算法也存在不足 ,味道浓度判定值只能取正值 ,适用于优化参数取值范围为正数的情况。

正在加载...请等待或刷新页面...
发表评论
验证码 验证码加载失败