一种基于粒球的三支聚类方法

专利2025-11-17  30


本发明涉及市场细分,尤其涉及一种基于粒球的三支聚类方法。


背景技术:

1、市场细分则是市场营销中的一个重要概念,它指的是将整个市场按照某种特定的标准或特征划分成不同的细分市场,以便更好地满足不同消费者群体的需求。而聚类分析作为一种数据挖掘技术,可以帮助市场营销人员更好地理解市场细分,识别潜在的消费者群体,并制定针对性的营销策略。基于此,国内外学者做出了许多贡献:在先技术[1](邱华伟,et al."基于主成分和聚类方法对我国中成药市场细分研究."价格理论与实践(2022).),邱华伟等人采用平方euclidean距离,使用组间联接测量区间,对样本数据进行层次聚类;在先技术[2](bach m,pivar j,b.churn management intelecommunications:hybrid approach using cluster analysis and decision trees[j].journal of risk and financial management,2021,14(11):544.),bach m等人将k-means聚类与chaid决策树算法相结合,构建分类模型,以识别具有最高流失水平的聚类中的流失决定因素。以上两种算法所作出对相关数据的分类均属于二支决策范围,样本所在的类簇之间有着清晰的边界,不存在既属于一个类簇又属于另外不同类簇的对象。目前互联网大数据时代已经到来,保持二支决策的聚类,将样本中的对象强制划分到一个类簇当中的决策是抱有风险的。此外,在高维数据情况下,面对海量数据所带来的各种信息,聚类分析需要大量的计算资源和时间来处理大规模的数据集。


技术实现思路

1、发明目的:本发明的目的是提供了一种基于粒球的三支聚类方法,有效的减少聚类过程中的大量计算,降低在不确定性信息状况时,样本对象强制分配到一类簇当中的风险,从而提升市场细分结果的质量。

2、技术方案:本发明所述的一种基于粒球的三支聚类方法,包括以下步骤:

3、(1)利用matlab获取所需市场细分数据集pricerunner中的信息;其中,文件格式为mat;

4、(2)运用k-means算法解析消费者数据信息并聚类;

5、(3)根据得到的聚类结果,利用三支聚类方法构建不同的消费市场粒球模型,获取市场细分结果。

6、进一步的,步骤(1)中,数据集pricerunner中的信息包括:样本数35311,特征数7,类别数10。

7、进一步的,步骤(2)具体如下:利用k-means算法,将消费者信息的数据集u={x1,x2,...,x35311}进行迭代次数为1的初步聚类,获取初步的市场细分结果c={c1,c2,...,c10};其中,在聚类结果中,任意两部份的簇类ci与cj中不包含相同的数据集,且任意类簇不为空集。

8、进一步的,步骤(3)包括以下步骤:

9、(31)粒球球心为:粒球半径为:ri=max{dist(x,ci)|x∈ci},构建出最初的消费者子市场粒球模型;其中,粒球球心为该类簇ci中消费者数据集的平均值,i=1,…,10;粒球半径为该类簇中距离粒球中心最远数据集到粒球中心的距离;|ci|为当前粒球ci中的消费者样本数量,x是当前粒球ci中的消费者数据样本,dist(.)表示向量x与ci之间的欧氏距离,x表示当前消费者子市场粒球ci中的消费者数据样本,ci表示为粒球ci的球心;

10、(32)设置算法迭代次数n,粒球核心域中数据集的权重w,边界域中数据集的权重1-w,其中0<w<1;

11、(33)计算第i个初始消费者子市场粒球模型中的球心与其它子市场粒球间的距离;

12、(34)判断近邻粒球;

13、(35)判断稳定域及活动域;

14、(36)对于稳定域更新粒球ci的球心ci'以及半径ri',公式如下:

15、ri'=max{dist(x,ci')|x∈co(ci)∪fr(ci)'},其中|co(ci)|表示粒球ci核心域中的消费者数据集数量,|fr(ci)'|表示原边界域中的消费者数据集进行重新就近分配后的新边界域中的数据集数量,w表示该域中数据集的权重,x表示该域中所包含的消费者数据集;

16、其余区域中的样本数据则构成边界域,并按距离就近原则分配到其余子市场粒球中。

17、(37)重复步骤(33)~(36),重复k次一次迭代完成,若所有的粒球球心ci不再发生变化或迭代次数达到事先设定的阈值n,则提取得到该粒球ci的核心域;提取得到该粒球ci的边界域;得到最终市场细分结果:c={(co(c1),fr(c1),(co(c2),fr(c2)…,(co(ck),fr(ck)}。

18、进一步的,步骤(34)具体如下:设子市场粒球模型c的半径为r,球心为c;若ci为粒球c的近邻粒球,则其中,r=max{dist(x,c)|x∈c},x为当前类簇中的消费者样本。则使得假设x位于线段cci上,则有||x-c||+||x-ci||=||c-ci||;即||x-c||>||x-ci||;即若ci为粒球c的近邻粒球,则粒球c中的消费者数据存在被调整到粒球ci中的可能性;

19、若cj不为粒球c的近邻粒球,则在子市场粒球模型c中,||c-x||≤r,||c-x||≤||x-cj||;

20、进一步的,步骤(35)具体如下:给定任意一个粒球ci,其近邻粒球球心的集合为{nci};若则对于球心集合内的所属任意粒球cj,球心cj∈{nci},有以ci为球心,为半径所覆盖的稳定域,将粒球ci中除稳定域以外的区域定义为活动域;若则整个粒球ci都为稳定域。

21、进一步的,步骤(36)中,就近原则具体如下:在粒球ci中,去除稳定域中的数据后,所剩余的数据构成该粒球的边界域;依次计算该粒球边界域中的数据到10个粒球球心的距离,并将数据重新分配给距离其最近的粒球模型中。

22、本发明所述的一种基于粒球的三支聚类系统,包括:

23、获取模块:用于利用matlab获取所需市场细分数据集pricerunner中的信息;其中,文件格式为mat;

24、聚类模块:用于运用k-means算法解析消费者数据信息并聚类;

25、三支聚类模块:用于根据得到的聚类结果,利用三支聚类方法构建不同的消费市场粒球模型,获取市场细分结果。

26、本发明所述的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现任一项所述的一种基于粒球的三支聚类方法。

27、本发明所述的一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的一种基于粒球的三支聚类方法。

28、有益效果:与现有技术相比,本发明具有如下显著优点:通过对每一个消费者子市场建立一个粒球模型,以自适应的方式为每个粒球寻找其近邻粒球。根据近邻粒球的情况来将该粒球划分为核心域与边界域,以赋予不同的权重将核心域与边界域中的消费者数据进行更新迭代。在达到实现设定的阈值或粒球球心不再发生变化时,得出最终的市场细分结果。该方法构建的消费者子市场模型,能够在进行聚类的过程中,针对不同种类的消费者数据集进行适当调整,灵活的修改不同区域消费者数据集间的权重;也能够较好的提升在对大数据、高维数据进行聚类时的效率,减少一部分不必要的计算量。


技术特征:

1.一种基于粒球的三支聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于粒球的三支聚类方法,其特征在于,步骤(1)中,数据集pricerunner中的信息包括:样本数35311,特征数7,类别数10。

3.根据权利要求1所述的一种基于粒球的三支聚类方法,其特征在于,步骤(2)具体如下:利用k-means算法,将消费者信息的数据集u={x1,x2,...,x35311}进行迭代次数为1的初步聚类,获取初步的市场细分结果c={c1,c2,...,c10};其中,在聚类结果中,任意两部份的簇类ci与cj中不包含相同的数据集,且任意类簇不为空集。

4.根据权利要求1所述的一种基于粒球的三支聚类方法,其特征在于,步骤(3)包括以下步骤:

5.根据权利要求1所述的一种基于粒球的三支聚类方法,其特征在于,步骤(34)具体如下:设子市场粒球模型c的半径为r,球心为c;若ci为粒球c的近邻粒球,则其中,r=max{dist(x,c)|x∈c},x为当前类簇中的消费者样本。则使得假设x位于线段cci上,则有||x-c||+||x-ci||=||c-ci||;即||x-c||>||x-ci||;即若ci为粒球c的近邻粒球,则粒球c中的消费者数据存在被调整到粒球ci中的可能性;

6.根据权利要求1所述的一种基于粒球的三支聚类方法,其特征在于,步骤(35)具体如下:给定任意一个粒球ci,其近邻粒球球心的集合为{nci};若则对于球心集合内的所属任意粒球cj,球心cj∈{nci},有以ci为球心,为半径所覆盖的稳定域,将粒球ci中除稳定域以外的区域定义为活动域;若则整个粒球ci都为稳定域。

7.根据权利要求1所述的一种基于粒球的三支聚类方法,其特征在于,步骤(36)中,就近原则具体如下:在粒球ci中,去除稳定域中的数据后,所剩余的数据构成该粒球的边界域;依次计算该粒球边界域中的数据到10个粒球球心的距离,并将数据重新分配给距离其最近的粒球模型中。

8.一种基于粒球的三支聚类系统,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于粒球的三支聚类方法。

10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1-7任一项所述的一种基于粒球的三支聚类方法。


技术总结
本发明公开了一种基于粒球的三支聚类方法,包括以下步骤:(1)利用Matlab获取所需市场细分数据集Pricerunner中的信息;其中,文件格式为mat;(2)运用k‑means算法解析消费者数据信息并聚类;(3)根据得到的聚类结果,利用三支聚类方法构建不同的消费市场粒球模型,获取市场细分结果;本发明一定程度上减少了不必要的计算量,同时,本发明可以自适应聚类后子市场中不同数据集区域的划分,从而提升市场细分结果的各项性能,使子市场间的分离程度得到提高,使之能够更好的揭示消费者数据间的内在结构。

技术研发人员:韩兴雨,朱金,孟义平,王平心
受保护的技术使用者:江苏科技大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-17671.html

最新回复(0)