一种自学习属性权重的K-means聚类方法

专利2024-08-09  65


一种自学习属性权重的k-means聚类方法
技术领域
1.本发明涉及聚类分析技术领域,具体涉及一种自学习属性权重的k-means聚类方法。


背景技术:

2.聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。
3.聚类分析是将抽象的数据集按有关特征的相似程度划分为若干组或类的过程,其目的是将一个没有类别标记的数据集按照某种准则划分为若干个类,使得同一个类中的对象尽可能的相似,而属于不同类的对象间的差异尽可能大。聚类分析作为一种重要的无监督学习方法,能够从研究对象的特征数据中挖掘出关联规则,是一种强有力的信息处理方法,它在数据挖掘、图像分割、模式识别和特征提取等诸多领域都有着广泛的应用,并取得了令人满意的效果。
4.如专利申请号为cn201910615891.4的专利,其在说明书中记载有“根据数据集的差异矩阵计算各个样本的样本密度,得到k-1个密度最大的样本集,以这些样本集的均值作为聚类质心,得到k-1 个聚类质心,然后取剩余数据的均值作为第k聚类质心,相比传统的聚类算法(各个属性具有相同的权重),该算法更能体现簇内相似性与簇间相异性,使得各个聚类簇具有本簇内特征权重,该权重能够体现本簇内样本的共同特征,以及本簇内各个属性对聚类的影响大小”,又如专利申请号为cn201910387627.x的专利,其在说明书中记载有“利用自下而上的层次聚类改进二分k-means聚类,聚类过程中无需指定k值个数,一次二分聚类即可获得最小sse簇,再通过判别条件,使其自动收敛。该方法的聚类性能优于k-均值聚类算法和二分k-均值聚类算法,使聚类后的结构更加紧密,簇边界更清晰。根据本发明实施例的改进二分k-means聚类方法,通过计算误差平方和sse衡量该聚类算法性能的优劣。通过层次聚类和二分k-means聚类结合的改进算法对数据进行多次的聚类,直到收敛,可获得更好的聚类效果”,上述方法,虽然能够实现聚类分析效果,但是其过程复杂,聚类后,收敛性不佳,而且速度较慢,无法满足需求。
5.综上所述,研发一种自学习属性权重的k-means聚类方法,是聚类分析技术领域中急需解决的关键问题。


技术实现要素:

6.针对现有技术所存在的上述缺点,本发明在于提供一种自学习属性权重的k-means聚类方法,本发明所提供的方法,聚类平均值得到大幅提升,收敛性也得到提升,而且提升了速度。
7.为实现上述目的,本发明提供了如下技术方案:
8.本发明提供了一种自学习属性权重的k-means聚类方法,包括以下步骤:
9.(1)获得给定图像的聚类数据集,初始化初始聚类中心和权值,根据最小距离,从
数据集中获得数据点集;
10.(2)计算数据点集的最小树t=(v
t
,e
t
);
11.(3)将e
t
的所有边长按照长度从小到大进行排序e1,e2,..., e
n-1
,分别计算他们的均值m

和方差v


12.(4)计算
13.(5)从t中去掉共p-1条大于θ的边,获得p个连通分支,分别标记为t
p
=(v
p
,e
p
),计算t
p
的质心;
14.(6)令计算
15.本发明进一步的设置为:在步骤(1)中,获得给定图像的聚类数据集是对所给定的图像进行灰度化处理、中值滤波处理、图像分割以及特征提取,将所提取的特征数据作为聚类数据集。
16.本发明进一步的设置为:在步骤(2)中,计算数据点集的最小数的方法为:
17.假设数据集为rn,数据点集为x={x1,x2,

,xn};
18.计算数据点集x={x1,x2,

,xn}的一颗最小树t=(v
t
,e
t
)。
19.本发明进一步的设置为:在步骤(3)中,所述的均值
20.本发明进一步的设置为:在步骤(3)中,所述的方差
21.本发明进一步的设置为:在步骤(5)中,p=n-k
*

22.本发明进一步的设置为:在步骤(5)中,t
p
的质心公式为:
23.本发明进一步的设置为:在步骤(6)中,若则停止计算,其中t=0时,ω为设定值。
24.有益效果
25.采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
26.本发明获得给定图像的聚类数据集,初始化初始聚类中心和权值,根据最小距离,从数据集中获得数据点集,计算数据点集的最小树,然后估算一个合理的θ值,去除从t中去掉所有大于θ的边,将所得到的连通分支数作为聚类个数,并将连通分支定点中心作为聚类质心,通过迭代计算,完成聚类,所提供的方法,聚类平均值得到大幅提升,收敛性也得到提升,而且提升了速度。
附图说明
27.图1为本发明中平均值的统计图;
28.图2为本发明中时间的统计图。
具体实施方式
29.为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.下面结合实施例对本发明作进一步的描述。
31.实施例1:
32.本发明提供了一种自学习属性权重的k-means聚类方法,包括以下步骤:
33.(1)获得给定图像的聚类数据集,初始化初始聚类中心和权值,根据最小距离,从数据集中获得数据点集。
34.进一步的,获得给定图像的聚类数据集是对所给定的图像进行灰度化处理、中值滤波处理、图像分割以及特征提取,将所提取的特征数据作为聚类数据集。
35.(2)计算数据点集的最小树t=(v
t
,e
t
)。
36.进一步的,计算数据点集的最小数的方法为:
37.假设数据集为rn,数据点集为x={x1,x2,

,xn};
38.计算数据点集x={x1,x2,

,xn}的一颗最小树t=(v
t
,e
t
)。
39.(3)将e
t
的所有边长按照长度从小到大进行排序e1,e2,..., e
n-1
,分别计算他们的均值m

和方差v


40.进一步的,均值
41.方差
42.(4)计算
43.(5)从t中去掉共p-1条大于θ的边,获得p个连通分支,分别标记为t
p
=(v
p
,e
p
),计算t
p
的质心。
44.进一步的,p=n-k
*

45.t
p
的质心公式为:
46.(6)令计算
47.进一步的,若则停止计算,其中t=0时,ω为设定值。
48.实施例2:
49.采用实施例1中的方法处理包含350个样本的数据集(作为实验组),再采用传统的khm算法和de-khm算法处理分别包含350个样本的数据集(分别作为对照1组和对照2组),相关数据记录于表1。
50.表1:聚类结果记录表
[0051][0052]
由表1和图1-2可知,本发明的方法,聚类平均值得到大幅提升,收敛性也得到提升,而且提升了速度。
[0053]
本发明获得给定图像的聚类数据集,初始化初始聚类中心和权值,根据最小距离,从数据集中获得数据点集,计算数据点集的最小树,然后估算一个合理的θ值,去除从t中去掉所有大于θ的边,将所得到的连通分支数作为聚类个数,并将连通分支定点中心作为聚类质心,通过迭代计算,完成聚类,所提供的方法,聚类平均值得到大幅提升,收敛性也得到提升,而且提升了速度。
[0054]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种自学习属性权重的k-means聚类方法,其特征在于,包括以下步骤:(1)获得给定图像的聚类数据集,初始化初始聚类中心和权值,根据最小距离,从数据集中获得数据点集;(2)计算数据点集的最小树t=(v
t
,e
t
);(3)将e
t
的所有边长按照长度从小到大进行排序e1,e2,...,e
n-1
,分别计算他们的均值m

和方差v

;(4)计算(5)从t中去掉共p-1条大于θ的边,获得p个连通分支,分别标记为t
p
=(v
p
,e
p
),计算t
p
的质心;(6)令计算2.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(1)中,获得给定图像的聚类数据集是对所给定的图像进行灰度化处理、中值滤波处理、图像分割以及特征提取,将所提取的特征数据作为聚类数据集。3.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(2)中,计算数据点集的最小数的方法为:假设数据集为r
n
,数据点集为x={x1,x2,

,x
n
};计算数据点集x={x1,x2,

,x
n
}的一颗最小树t=(v
t
,e
t
)。4.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(3)中,所述的均值5.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(3)中,所述的方差6.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(5)中,7.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(5)中,t
p
的质心公式为:的质心公式为:8.根据权利要求1所述的一种自学习属性权重的k-means聚类方法,其特征在于,在步骤(6)中,若则停止计算,其中t=0时,ω为设定值。

技术总结
本发明涉及聚类分析技术领域,具体涉及一种自学习属性权重的K-means聚类方法;本发明获得给定图像的聚类数据集,初始化初始聚类中心和权值,根据最小距离,从数据集中获得数据点集,计算数据点集的最小树,然后估算一个合理的θ值,去除从T中去掉所有大于θ的边,将所得到的连通分支数作为聚类个数,并将连通分支定点中心作为聚类质心,通过迭代计算,完成聚类,所提供的方法,聚类平均值得到大幅提升,收敛性也得到提升,而且提升了速度。而且提升了速度。而且提升了速度。


技术研发人员:徐天杰 王平心 李刘万 吴婷凤 凡嘉琛
受保护的技术使用者:江苏科技大学
技术研发日:2022.07.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-9279.html

最新回复(0)