本发明涉及涉及机器学习和优化算法领域,具体为基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法。
背景技术:
1、特征选择是机器学习中的一个关键步骤,旨在从大量的特征中选出最相关的子集,以提高模型的性能和效率。特征选择的主要目标是通过去除冗余和不相关的特征,减少数据的维度,降低计算复杂度,并提高模型的泛化能力。支持向量机(svm)是一种用于分类和回归分析的监督学习模型,广泛应用于模式识别、文本分类、图像识别等领域。然而,svm的性能高度依赖于其参数选择,如惩罚因子c和核函数参数γ。因此,如何选择最佳的特征组合和svm参数成为影响分类性能的关键问题。
2、优化算法,如遗传算法、粒子群优化和麻雀搜索算法等,已被用于特征选择和优化svm的参数配置。斑翠鸟优化算法(pko)是一种新兴的仿生智能优化算法,模拟斑翠鸟在自然界中的捕食行为,具有较好的全局搜索和局部优化能力。因此将斑翠鸟优化算法优化特征选择,并寻找出支持向量机的最优惩罚因子c和核函数参数γ应用于芯片表面缺陷分类中,可以提高分类的精度。
技术实现思路
1、为解决上述技术问题,本发明提出了基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,以解决现有技术中存在的分类精度低的问题。
2、为实现上述目的,本发明采取的技术方案是:
3、基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:具体步骤如下;
4、步骤一:读取芯片表面缺陷特征数据,确定寻优目标是使得支持向量机的测试集样本分类误差最小的特征组合、惩罚参数c和核函数参数γ;
5、步骤二:初始化斑翠鸟优化算法的参数,包括种群大小和最大迭代次数,随机生成初始种群,使其均匀分布在搜索空间内;
6、步骤三:将支持向量机方法中的测试集样本分类误差作为斑翠鸟优化算法的适应度函数,计算每个斑翠鸟个体的适应度函数值;
7、步骤四:如果rand()<0.8,则开始探索阶段,探索阶段灵感来自于斑翠鸟的栖息和悬停行为,在斑翠鸟算法中,种群的位置是根据斑翠鸟的觅食活动来确定的,如果rand()>0.5,则执行栖息策略,否则执行悬停策略,如果rand()30.8,则开始开发阶段,开发阶段的灵感来自于斑翠鸟的潜水行为,如果新生成的解优于先前的解,则替换它们,并执行共生阶段,共生阶段是通过模拟斑翠鸟与欧亚水獭的共生关系来改进解的多样性;
8、步骤五:判断是否满足终止条件,如果达到最大迭代次数,则终止迭代;否则,返回步骤四继续迭代;
9、步骤六:输出步骤五得到的最优特征组合、惩罚参数c和核函数参数γ,以及分类正确率。
10、进一步,步骤二中对斑翠鸟优化算法参数的初始化具体为;
11、每个斑翠鸟的位置初始化为:
12、xi,j=lb+(ub-lb)·rand (1)
13、其中xi,j表示第i个体在第j维度的位置,rand是0到1之间的随机值,ub和lb分别是搜索范围的上限和下限,每个斑翠鸟的位置都代表了优化问题的一个候选解。
14、进一步,步骤三中用支持向量机方法中的训练集样本分类准确率作为斑翠鸟优化算法的适应度函数适应度函数具体为;
15、对于一个支持向量xs,其到超平面的距离可表示为;
16、
17、这个距离被称为“硬间隔”,其将所有样本点正确划分且样本都在间隔边界之外,此时,|wtxs+b|=1,因此可将最大化间隔的问题转换为求max(1/||w||)的问题,其约束条件为|wtxi+b|>=1,i=1,...,n。其中,xi为样本在特征空间的位置;
18、为了方便计算,支持向量机寻找最优超平面的优化问题可描述如下问题:
19、
20、其限制条件为yi(wtxi+b)≥1,i=1,...,n;
21、对训练集中的每个训练样本及标签(xi,yi),设置松弛变量εi,此时非线性支持向量机寻找最优超平面的问题可描述如下:
22、
23、其限制条件改为yi(wtxi+b)≥1-εi,εi≥0,i=1,...,n,其中c是惩罚因子,代表支持向量机对错误分类样本的容忍程度,是一个大于0的常数;
24、将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题,并转化为等价的对偶形式后,问题转变成如下形式:
25、
26、其限制条件为
27、设x是低维空间,输入变量xi,xj∈x,y为变换后的高维特征空间,则核函数的定义为:
28、
29、此时非线性支持向量机优化问题转变成如下形式:
30、
31、其限制条件仍为但内积运算变为核函数运算,这大大减小了运算量;
32、非线性支持向量机的主流核函数是径向基核函数,公式如下:
33、
34、其中,γ越小,分类越具体,可能会过拟合;γ越大,分类越模糊,发生欠拟合。所以,需要正确定义γ的值,以提高支持向量机的分类性能。
35、进一步,步骤三测试集样本分类误差作为斑翠鸟优化算法的适应度函数具体为,计算每个斑翠鸟个体的适应度函数值,斑翠鸟优化算法的目标是找到一组特征子集,惩罚参数c和核函数参数γ,使得测试集的误差最小,准确率最高。测试集误差定义为:
36、
37、其中,tsim表示预测标签,ttest表示真实标签。
38、进一步,步骤四所述的探索阶段具体为:
39、探索阶段会根据情况调整个体位置,使其趋向于全局最优解,在这一阶段,搜索个体根据斑翠鸟的觅食行为更新位置,更新公式如公式(10)所示:
40、xi(t+1)=xi(t)+a*t′(xj(t)-xi(t)) (10)
41、其中,xi(t+1)表示下一次迭代的解,xi(t)表示当前迭代的解,参数α通过2′randn(1,dim)-1求解,其中randn代表了正态分布中的随机数,dim表示解的维数,如果rand()>0.5,则执行栖息策略,通过公式(11)计算t:
42、
43、否则执行悬停策略,通过公式(12)计算t:
44、
45、其中,pko_fitness(i)and pko_fitness(j)分别是第i个和第j个斑翠鸟的适应度值,另外,bf是拍打因子,通常设置为8。
46、进一步,步骤四所述的开发阶段具体为:
47、开发阶段模拟了斑翠鸟的潜水行为,用于局部搜索,即在已经找到的较优解附近进行更精细的搜索,当斑翠鸟发现鱼的时候,会很快潜入水中捉鱼,这种行为通过一下数学公式来建模:
48、xi(t+1)=xi(t)+ha*o*a*(b-xbest(t)) (13)
49、其中,α是一个通过2′randn(1,dim)-1计算得到的控制参数,b=xi(t)+o2*randn*xbest(t),pko_fitness(i)代表第i个斑翠鸟的适应度函数值,best_fitness代表了所有迭代中的最佳适应度值,o&ha代表了斑翠鸟的捕猎能力。
50、进一步,步骤四所述的共生阶段具体为:
51、如果新生成的解比原先的解更接近于最优解,那么替换原先的解,并执行共生阶段,共生阶段是受水獭和斑翠鸟共生关系启发的,这种共生关系允许斑翠鸟从水獭的捕猎行为中受益,这种行为在数学上表示为:
52、
53、其中,从种群中随机抽取2个个体,其位置用xm和xn表示,斑翠鸟的捕食效率用pe表示,其中pemax和pemin固定值分别为0.5和0。
54、与现有技术相比,本发明具有以下优点:
55、1.选择出了最优的特征子集、支持向量机的参数,提高了支持向量机分类的精度;
56、2.斑翠鸟优化算法的全局搜索能力强,能够避免陷入局部最优;
57、3.适用于芯片表面缺陷的分类任务。
1.基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:具体步骤如下;
2.根据权利要求1所述的基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:步骤二中对斑翠鸟优化算法参数的初始化具体为;
3.根据权利要求1所述的一种基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:步骤三中用支持向量机方法中的训练集样本分类准确率作为斑翠鸟优化算法的适应度函数适应度函数具体为;
4.根据权利要求1所述的基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:步骤三测试集样本分类误差作为斑翠鸟优化算法的适应度函数具体为,计算每个斑翠鸟个体的适应度函数值,斑翠鸟优化算法的目标是找到一组特征子集,惩罚参数c和核函数参数γ,使得测试集的误差最小,准确率最高。测试集误差定义为:
5.根据权利要求1所述的基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:步骤四所述的探索阶段具体为:
6.根据权利要求1所述的基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:步骤四所述的开发阶段具体为:
7.根据权利要求1所述的一种基于斑翠鸟优化算法优化特征选择的芯片缺陷分类方法,其特征在于:步骤四所述的共生阶段具体为:
