1.本发明属于通信网络技术领域,涉及一种业务类型识别方法,具体涉及一种基于联邦学习的业务识别方法。
背景技术:2.由于不同地域的无线路由器数据在数量和种类上比较单一,因此不同的无线路由器业务识别检测器参数差异很大,难以灵活应对物联网或移动互联网环境快速变化的数据流。对于如何合理分配网络资源,部署服务质量控制机制,优化网络基础体系结构,提高用户服务满意度等,这些问题给网络运营商带来了巨大的挑战。
3.传统的业务类型识别方法包括基于网络端口映射的业务识别方法、基于有效载荷分析的业务识别方法、基于行为特征的业务识别方法。基于网络端口映射的业务识别方法通过获取数据传输的端口号判断应用业务的协议类型,进而识别对应数据流量所属的网络业务。但是目前p2p协议中使用的动态端口技术早已破坏了固定端口号与应用业务之间一一映射的关系;基于深度包检测(deep packet inspection,dpi)的业务识别方法适应错综复杂的网络环境。该方法可以根据流量负载特性,匹配各个应用协议的典型特征,从而达到网络业务识别的目的。但是基于dpi的业务识别技术计算开销较大,业务识别的时间过长,实时性不高。除此之外,基于dpi的业务识别还涉及侵犯用户隐私,识别精度也达不到预期要求。
4.联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现ai协作。联邦迁移学习让联邦学习更加通用化,可以在不同数据结构、不同机构间发挥作用,没有领域和算法限制,同时具有模型质量无损、保护隐私、确保数据安全的优势。由于数据不发生转移,因此不会泄露用户隐私或影响数据规范。这充分彰显了联邦学习在处理分类任务时的科学性以及有效性,因此联邦学习也为解决应用业务识别问题提供了可能性。
5.申请号为202111220431.5的专利申请公开了一种基于云边协同的联邦学习的业务类型识别方法,所述基于云边协同的联邦学习的业务类型识别方法所构建的云边协同平台中包括多个边缘服务器,每个边缘服务器抓取终端请求流经自己的多条包含不同业务类型的数据流,并基于联邦学习对全局模型进行迭代训练,扩大了数据流的数据集范围,进而可获得泛化能力更强的全局模型。但该方法所使用的中心化联邦学习方案过分依赖中央服务器,当中央服务器发生故障时,该联邦学习训练将无法正常进行;同时该方法所采用的联邦学习机制下使每个客户端都参与训练,大量的数据交互增加了数据的交互代价和系统的整体复杂度。
技术实现要素:6.针对上述存在的问题,本发明提供了一种基于联邦学习的业务识别方法,根据不同的系统性能要求和计算消耗需求,本发明提供了不同的分布式联邦学习交互机制,通过
将本地数据输入深度学习分类器,对分类器进行训练,然后将训练后的分类器参数与其他无线路由器进行交互与结合,改善了终端对于异常的检测的精度,通过将各个路由器模型进行交互与融合,以期达成改善系统整体性能的目的。
7.本发明为解决上述技术问题采用的技术方案如下:
8.一种基于联邦学习的业务识别方法,具体包括如下步骤:
9.步骤1:构建由若干个无线路由器作为边缘端组成的边缘协作式系统,其中每个无线路由器均配备边缘初始数据集和边缘初始神经网络分类器;
10.步骤2:通过边缘协作式系统中的若干个无线路由器采集网络流量数据集,并将采集到的数据集处理成训练模型需要的数据集格式;
11.步骤3:根据不同的业务需求,选用不同的分布式联邦学习机制训练得到初始模型,并经过聚合更新得到全局模型;
12.步骤4:将步骤3训练得到的全局模型放到业务识别分类器模型库中,作为包含在所述业务识别分类器模型库中的不同算法,然后根据所识别的不同的业务类型选取业务识别分类器模型库中不同的算法;
13.步骤5:通过联邦学习的协同训练手段,合并众多参与训练的路由器识别出的数据流特征,并部署到更多路由器上,使得每个路由器都可以识别出全部的业务类型,增强识别模型的泛化能力。
14.进一步地,所述将采集到的数据集处理成训练模型需要的数据集格式的具体内容包括:对捕获的数据集进行预处理并进行特征提取,除去与类别属性无关的冗余特征后,将其分为训练集一和验证集一,对训练集一进行特征提取,除去与类别属性无关的冗余特征作为特征集放进建立的样本数据库。
15.步骤3中所述不同的分布式联邦学习机制包括同步交互机制和异步交互机制,所述同步交互机制和异步交互机制具体如下:
16.(1)同步交互机制:在每一轮训练初始模型的开始,每个无线路由器用户都参与训练,训练本地数据得到初始模型,每个边缘端将本地模型同时传输给其他所有无线路由器用户,每个边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个边缘端模型的更新;
17.所述同步交互联邦学习模型的总体优化目标为:
18.其中
19.其中fi(ω)=l(xi,yi;ω)即(xi,yi)在神经网络模型参数ω下的损失函数。假定每一轮训练中有k个边缘端参与训练,为第k个边缘端参与训练的数据索引集合。nk为边缘端参与训练的样本个数,则优化目标变为:
20.其中
21.在此同步交互机制中,不同无线路由器的模型权重参数同时参加模型融合加权平
均对目标函数进行优化,不断改善系统对异常检测的精度,并将信息反馈给其他边缘节点,根据不同的异常类型,采取针对网络攻击和系统异常的防护策略;
22.(2)异步交互机制:在每一轮训练初始模型的开始时随机选取m个无线路由器用户参与训练,训练本地数据得到初始模型,每一个被选中的无线路由器将模型传输给其他边缘端,其他边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个无线路由器模型的更新;重复若干次该过程进行多轮迭代,以不断改善系统整体性能;
23.相较于上述同步交互机制,所述异步交互机制的优化目标不变,但是由于不同无线路由器接收到的模型参数和次数可能不同,因此其中对不同边缘端的模型权重参数加权平均的方式为:式中wi为此无线路由器的原始权重,w
tj
为本节点收到的其他参与训练的m个边缘端模型的权重参数。
24.根据不同的业务需求选择不同的分布式联邦学习机制,当业务需求为要求整体模型的稳定快速收敛时,选取同步交互机制;当业务需求为要求大量数据的交互代价和系统的整体复杂度,选取异步交互机制。
25.进一步地,当所述步骤3中选取同步交互机制时得到全局模型的具体步骤如下:
26.(3a)初始模型训练阶段:在每一轮训练模型的开始,每个无线路由器都参与训练,训练本地数据得到初始模型;
27.(3b)全局模型训练阶段:根据步骤(3a)训练得到的初始模型,每个边缘端将所述初始模型同时传输给其他所有无线路由器,每个边缘端将接收到的初始模型参数与其本身的参数加权融合,以实现各个边缘端模型的更新;
28.(3c)联邦学习聚合更新识别模型,在不泄露隐私数据的情况下,实现全局模型的训练。
29.进一步地,当所述步骤3中选取异步交互机制时d得到全局模型的具体步骤如下:
30.(3a)初始模型训练阶段:在每一轮训练模型的开始时随机选取m个无线路由器用户参与训练,训练本地数据得到初始模型;
31.(3b)全局模型训练阶段:每一个被选中的无线路由器将所述初始模型传输给其他边缘端,其他边缘端将接收到的初始模型参数与其本身的参数加权融合,以实现各个无线路由器模型的更新;
32.(3c)联邦学习聚合更新识别模型,在不泄露隐私数据的情况下,实现了全局模型的训练。
33.进一步地,步骤4中所述的不同算法包括深度学习cnn算法模型、xgboost模型、图神经网络gcn算法模型;对于图像或其他拥有海量变量的数据,选用深度学习cnn算法模型;对于变量数较少的表格数据,选用训练好的xgboost模型;对于图结构,或称拓扑结构,如社交网络、化学分子结构、知识图谱的数据,选用图神经网络gcn算法模型。
34.进一步地,所述深度学习cnn算法模型建立的具体步骤如下:
35.步骤1)根据具体算法模型训练所需的数据集处理
36.(1a)对通过边缘协作式系统中的若干个无线路由器采集网络流量形成的数据集进行初步处理形成初步处理的训练集二;
37.(1b)加载上述初步处理的训练集二,对其打上标签,如游戏类、视频类、社交类和
web浏览类这四种业务类型分别对应标签0、1、2、3;
38.(1c)提取文本关键词,将出现频率最高的前2000词排序并建立token字典,如tcp协议出现次数最多,就将其排列为1,并使用token字典将“文字”转化为“数字列表”,用1代表tcp协议;
39.(1d)截长补短,让所有的数字列表长度都是64,长度超过64的截断后面的信息,字节信息长度不足64,则在后面补零到长度达到64,保证每个文本都是同样的长度;
40.(1e)最后再用embedding层将“数字列表”转化为“向量列表”,cnn模型训练需要的训练集二就处理完成。
41.步骤2)构建cnn卷积神经网络
42.本文cnn神经网络使用基于cnn的一维模型,包括四个卷积层conv,两个最大池化层,两个全连接层,一个softmax层;其中conv1和conv2的神经元个数都是256个,内核大小都是3个,全零填充步长都为1,conv3和conv4神经元个数为128,内核大小为2,全零填充步长为1,两个最大池化层内核为2,填充步长为2,两个全连接层神经元个数为128;所述cnn模型训练的每个池层最后都用批规范化,四个卷积层使用的激活函数都是relu函数,训练模型adam优化算法时最大30epochs,学习速率为0.001;本网络使用早期停止,即当训练在5个epochs内,损失函数没有提升,训练终止;本网络结果基于10倍交叉验证。
43.步骤3)将步骤1)处理好的cnn训练集输入到步骤2)中构建好的cnn卷积神经网络中进行训练得到cnn算法模型;
44.步骤4)将训练好的cnn算法模型保存到业务识别分类器模型库中。
45.进一步地,所述步骤5还包括合并众多参与在线训练的路由器识别出的数据流特征,以提高业务识别的实时性性能,根据业务的演进自动更新模型,改善因业务更新造成的识别模型准确率下降状况,使得识别模型的识别率长时间维持在较高水平;同时通过将识别出的数据流特征部署到更多的路由器上,可增强识别模型的泛化能力。
46.进一步地,所述业务类型包括游戏类、视频类、社交类和web浏览类;所述游戏类、视频类、社交类和web浏览类业务类型分别对应腾讯游戏、抖音、微信和微博四种数据流。
47.本发明的技术方案能产生以下的技术效果:
48.1.本发明通过采用边缘协作式系统,将本地数据输入到深度学习神经网络中进行训练,然后将训练后的模型参数与其他无线路由器进行交互与结合,在保护用户数据隐私的前提下,将模型聚合在本地执行,每个客户端将其本地模型广播给其他客户端的同时,也接收其他客户端广播的模型参数,改善了终端对于异常的检测的精度,并根据检测结果,可对外部和异常运行的终端进行相应处理,以期达成改善系统整体性能的目的;且通过将各个路由器模型进行交互与融合,解决了中心化方案中带来的过分依赖中央服务器的问题。
49.2.本发明所提出的异步交互机制通过在每一轮训练模型的开始随机选取一部分用户参与训练,每一个被选中的无线路由器将模型传输给其他边缘端,其他边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个无线路由器模型的更新,不断重复这个过程,进行多伦迭代,来不断改善系统整体性能,有效地减少了大量数据的交互代价和降低了系统的整体复杂度。
附图说明
50.图1为本发明所述的分布式联邦学习异步交互机制架构图;
51.图2为本发明所述的分布式联邦学习同步交互机制架构图。
具体实施方式
52.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及对应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
53.本实施例所述基于联邦学习的业务识别方法具体包括如下步骤:
54.步骤1:构建由若干个无线路由器作为边缘端组成的边缘协作式系统,如图1、2所示,其中每个无线路由器均配备边缘初始数据集和边缘初始神经网络分类器。
55.步骤2:通过边缘协作式系统中的若干个无线路由器采集网络流量数据集,并将采集到的数据集处理成训练模型需要的数据集格式。
56.所述网络流量包括四种常见的数据流:腾讯游戏、抖音、微信和微博,这四种数据流分别对应四种业务类型:游戏类、视频类、社交类和web浏览类;
57.所述将采集到的数据集处理成训练模型需要的数据集格式的具体内容包括:对捕获的数据集进行预处理并进行特征提取,除去与类别属性无关的冗余特征后,将其分为训练集一和验证集一,对训练集一进行特征提取,除去与类别属性无关的冗余特征作为特征集放进建立的样本数据库。
58.步骤3:根据不同的业务需求,从同步交互机制和异步交互机制两种分布式联邦学习机制中选取适当的机制训练初始模型,并经过聚合更新得到全局模型;
59.所述同步交互机制具体为:在每一轮训练初始模型的开始,每个无线路由器用户都参与训练,训练本地数据得到初始模型,每个边缘端将本地模型同时传输给其他所有无线路由器用户,每个边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个边缘端模型的更新;
60.所述同步交互联邦学习模型的总体优化目标为:
61.其中
62.其中fi(ω)=l(xi,yi;ω)即(xi,yi)在神经网络模型参数ω下的损失函数。假定每一轮训练中有k个边缘端参与训练,为第k个边缘端参与训练的数据索引集合。nk为边缘端参与训练的样本个数,则优化目标变为:
63.其中
64.在此同步交互机制中,不同无线路由器的模型权重参数同时参加模型融合加权平均对目标函数进行优化,不断改善系统对异常检测的精度,并将信息反馈给其他边缘节点,根据不同的异常类型,采取针对网络攻击和系统异常的防护策略;同步交
互机制的优点是可以保证整体模型的更加稳定快速的收敛,但是大量的数据交互增加了数据的交互代价和系统的整体复杂度;
65.所述异步交互机制具体为:在每一轮训练初始模型的开始时随机选取m个无线路由器用户参与训练,训练本地数据得到初始模型,每一个被选中的无线路由器将模型传输给其他边缘端,其他边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个无线路由器模型的更新;重复若干次该过程进行多轮迭代,以不断改善系统整体性能;
66.相较于上述同步交互机制,所述异步交互机制的优化目标不变,但是由于不同无线路由器接收到的模型参数和次数可能不同,因此其中对不同边缘端的模型权重参数加权平均的方式为:式中wi为此无线路由器的原始权重,w
tj
为本节点收到的其他参与训练的m个边缘端模型的权重参数。
67.本实施例中,为了灵活地应对物联网环境的快速变化的数据流,采用异步交互的分布式联邦学习机制,如图1所示为本发明所述的分布式联邦学习异步交互机制架构图,具体包括初始模型训练阶段和全局模型训练阶段:
68.初始模型训练阶段:在每一轮的开始随机选取一部分无线路由器用户,并将处理好的训练集一分发给这些路由器用户参与训练,训练本地数据得到初始模型;
69.全局模型训练阶段:每一个被选中的无线路由器将训练好的初始模型传输给其他所有边缘端,其他边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个边缘端模型的更新。不断重复这个过程,进行多轮迭代,使得每个无线路由器模型都收敛,在不泄露隐私数据的情况下,最终达到不断改善系统整体性能的目的。
70.步骤4:将步骤3训练得到的全局模型放到业务识别分类器模型库中,作为包含在所述业务识别分类器模型库中的不同算法,所述不同算法包括深度学习cnn算法模型、xgboost模型、图神经网络gcn算法模型;然后根据所识别的不同的业务类型选取业务识别分类器模型库中不同的算法模型;
71.其中,所述深度学习cnn算法模型建立训练的具体步骤如下:
72.步骤1)根据具体算法模型训练所需的数据集处理
73.(1a)对通过边缘协作式系统中的若干个无线路由器采集网络流量形成的数据集进行初步处理形成初步处理的训练集二;
74.(1b)加载上述初步处理的训练集二,对其打上标签,如游戏类、视频类、社交类和web浏览类这四种业务类型分别对应标签0、1、2、3;
75.(1c)提取文本关键词,将出现频率最高的前2000词排序并建立token字典,如tcp协议出现次数最多,就将其排列为1,并使用token字典将“文字”转化为“数字列表”,用1代表tcp协议;
76.(1d)截长补短,让所有的数字列表长度都是64,长度超过64的截断后面的信息,字节信息长度不足64,则在后面补零到长度达到64,保证每个文本都是同样的长度;
77.(1e)最后再用embedding层将“数字列表”转化为“向量列表”,cnn模型训练需要的训练集二就处理完成。
78.步骤2)构建cnn卷积神经网络
79.本文cnn神经网络使用基于cnn的一维模型,包括四个卷积层conv,两个最大池化
层,两个全连接层,一个softmax层;其中conv1和conv2的神经元个数都是256个,内核大小都是3个,全零填充步长都为1,conv3和conv4神经元个数为128,内核大小为2,全零填充步长为1,两个最大池化层内核为2,填充步长为2,两个全连接层神经元个数为128;所述cnn模型训练的每个池层最后都用批规范化,四个卷积层使用的激活函数都是relu函数,训练模型adam优化算法时最大30epochs,学习速率为0.001;本网络使用早期停止,即当训练在5个epochs内,损失函数没有提升,训练终止;本网络结果基于10倍交叉验证。
80.步骤3)将步骤1)处理好的cnn训练集输入到步骤2)中构建好的cnn卷积神经网络中进行训练得到cnn算法模型;
81.步骤4)将训练好的cnn算法模型保存到业务识别分类器模型库中。
82.将训练好的cnn算法模型保存到分类器模型库中,训练好的cnn模型即作为一个业务类型识别器,其他机器学习算法类似。
83.步骤5:通过联邦学习的协同训练手段,合并众多参与训练的路由器识别出的数据流特征,并部署到更多路由器上,使得每个路由器都可以识别出全部的业务类型,增强识别模型的泛化能力。
84.进一步地,通过联邦学习的协同训练手段,合并众多参与在线训练的路由器识别出的数据流特征,以提高业务识别的实时性性能,根据业务的演进自动更新模型,改善因业务更新造成的识别模型准确率下降状况,使得识别模型的识别率长时间维持在较高水平。
85.上述仅为本发明的优选实施例,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。
技术特征:1.一种基于联邦学习的业务识别方法,其特征在于,具体包括如下步骤:步骤1:构建由若干个无线路由器作为边缘端组成的边缘协作式系统,其中每个无线路由器均配备边缘初始数据集和边缘初始神经网络分类器;步骤2:通过边缘协作式系统中的若干个无线路由器采集网络流量数据集,并将采集到的数据集处理成训练模型需要的数据集格式;步骤3:根据不同的业务需求,选用不同的分布式联邦学习机制训练得到初始模型,并经过聚合更新得到全局模型;步骤4:将步骤3训练得到的全局模型放到业务识别分类器模型库中,作为包含在所述业务识别分类器模型库中的不同算法,然后根据所识别的不同的业务类型选取业务识别分类器模型库中不同的算法;步骤5:通过联邦学习的协同训练手段,合并众多参与训练的路由器识别出的数据流特征,并部署到更多路由器上,使得每个路由器都可以识别出全部的业务类型,增强识别模型的泛化能力。2.根据权利要求1所述的一种基于联邦学习的业务识别方法,其特征在于,所述将采集到的数据集处理成训练模型需要的数据集格式的具体内容包括:对捕获的数据集进行预处理并进行特征提取,除去与类别属性无关的冗余特征后,将其分为训练集一和验证集一,对训练集一进行特征提取,除去与类别属性无关的冗余特征作为特征集放进建立的样本数据库。3.根据权利要求2所述的一种基于联邦学习的业务识别方法,其特征在于,步骤3中所述不同的分布式联邦学习机制包括同步交互机制和异步交互机制,所述同步交互机制和异步交互机制具体如下:(1)同步交互机制:在每一轮训练初始模型的开始,每个无线路由器用户都参与训练,训练本地数据得到初始模型,每个边缘端将本地模型同时传输给其他所有无线路由器用户,每个边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个边缘端模型的更新;所述同步交互联邦学习模型的总体优化目标为:其中其中f
i
(ω)=l(x
i
,y
i
;ω)即(x
i
,y
i
)在神经网络模型参数ω下的损失函数;假定每一轮训练中有k个边缘端参与训练,为第k个边缘端参与训练的数据索引集合;n
k
为边缘端参与训练的样本个数,则优化目标变为:其中在此同步交互机制中,不同无线路由器的模型权重参数同时参加模型融合加权平均对目标函数进行优化,不断改善系统对异常检测的精度,并将信息反馈给其他边缘节点,根据不同的异常类型,采取针对网络攻击和系统异常的防护策略;
(2)异步交互机制:在每一轮训练初始模型的开始时随机选取m个无线路由器用户参与训练,训练本地数据得到初始模型,每一个被选中的无线路由器将模型传输给其他边缘端,其他边缘端将接收到的模型参数与其本身的参数加权融合,以实现各个无线路由器模型的更新;重复若干次该过程进行多轮迭代,以不断改善系统整体性能;相较于上述同步交互机制,所述异步交互机制的优化目标不变,但是由于不同无线路由器接收到的模型参数和次数可能不同,因此其中对不同边缘端的模型权重参数加权平均的方式为:式中w
i
为此无线路由器的原始权重,w
tj
为本节点收到的其他参与训练的m个边缘端模型的权重参数。4.根据权利要求3所述的一种基于联邦学习的业务识别方法,其特征在于,当业务需求为要求整体模型的稳定快速收敛时,选取同步交互机制;当业务需求为要求大量数据的交互代价和系统的整体复杂度,选取异步交互机制。5.根据权利要求4所述的一种基于联邦学习的业务识别方法,其特征在于,步骤3中选取同步交互机制得到全局模型的具体步骤如下:(3a)初始模型训练阶段:在每一轮训练模型的开始,每个无线路由器都参与训练,训练本地数据得到初始模型;(3b)全局模型训练阶段:根据步骤(3a)训练得到的初始模型,每个边缘端将所述初始模型同时传输给其他所有无线路由器,每个边缘端将接收到的初始模型参数与其本身的参数加权融合,以实现各个边缘端模型的更新;(3c)联邦学习聚合更新识别模型,在不泄露隐私数据的情况下,实现全局模型的训练。6.根据权利要求4所述的一种基于联邦学习的业务识别方法,其特征在于,步骤3中选取异步交互机制得到全局模型的具体步骤如下:(3a)初始模型训练阶段:在每一轮训练模型的开始时随机选取m个无线路由器用户参与训练,训练本地数据得到初始模型;(3b)全局模型训练阶段:每一个被选中的无线路由器将所述初始模型传输给其他边缘端,其他边缘端将接收到的初始模型参数与其本身的参数加权融合,以实现各个无线路由器模型的更新;(3c)联邦学习聚合更新识别模型,在不泄露隐私数据的情况下,实现了全局模型的训练。7.根据权利要求1-6任一项所述的一种基于联邦学习的业务识别方法,其特征在于,步骤4中所述的不同算法包括深度学习cnn算法模型、xgboost模型、图神经网络gcn算法模型;对于图像或其他拥有海量变量的数据,选用深度学习cnn算法模型;对于变量数较少的表格数据,选用训练好的xgboost模型;对于图结构,或称拓扑结构,如社交网络、化学分子结构、知识图谱的数据,选用图神经网络gcn算法模型。8.根据权利要求7所述的一种基于联邦学习的业务识别方法,其特征在于,所述深度学习cnn算法模型建立的具体步骤如下:步骤1)根据具体算法模型训练所需的数据集处理(1a)对通过边缘协作式系统中的若干个无线路由器采集网络流量形成的数据集进行初步处理形成初步处理的训练集二;
(1b)加载上述初步处理的训练集二,对其打上标签,如游戏类、视频类、社交类和web浏览类这四种业务类型分别对应标签0、1、2、3;(1c)提取文本关键词,将出现频率最高的前2000词排序并建立token字典,如tcp协议出现次数最多,就将其排列为1,并使用token字典将“文字”转化为“数字列表”,用1代表tcp协议;(1d)截长补短,让所有的数字列表长度都是64,长度超过64的截断后面的信息,字节信息长度不足64,则在后面补零到长度达到64,保证每个文本都是同样的长度;(1e)最后再用embedding层将“数字列表”转化为“向量列表”,cnn模型训练需要的训练集二就处理完成;步骤2)构建cnn卷积神经网络本文cnn神经网络使用基于cnn的一维模型,包括四个卷积层conv,两个最大池化层,两个全连接层,一个softmax层;其中conv1和conv2的神经元个数都是256个,内核大小都是3个,全零填充步长都为1,conv3和conv4神经元个数为128,内核大小为2,全零填充步长为1,两个最大池化层内核为2,填充步长为2,两个全连接层神经元个数为128;所述cnn模型训练的每个池层最后都用批规范化,四个卷积层使用的激活函数都是relu函数,训练模型adam优化算法时最大30epochs,学习速率为0.001;本网络使用早期停止,即当训练在5个epochs内,损失函数没有提升,训练终止;本网络结果基于10倍交叉验证;步骤3)将步骤1)处理好的cnn训练集输入到步骤2)中构建好的cnn卷积神经网络中进行训练得到cnn算法模型;步骤4)将训练好的cnn算法模型保存到业务识别分类器模型库中。9.根据权利要求7所述的一种基于联邦学习的业务识别方法,其特征在于,所述步骤5还包括合并众多参与在线训练的路由器识别出的数据流特征,以提高业务识别的实时性性能,根据业务的演进自动更新模型,改善因业务更新造成的识别模型准确率下降状况,使得识别模型的识别率长时间维持在较高水平;同时通过将识别出的数据流特征部署到更多的路由器上,可增强识别模型的泛化能力。10.根据权利要求1-6、8-9任一项所述的一种基于联邦学习的业务识别方法,其特征在于,所述业务类型包括游戏类、视频类、社交类和web浏览类;所述游戏类、视频类、社交类和web浏览类业务类型分别对应腾讯游戏、抖音、微信和微博四种数据流。
技术总结本发明公开了一种基于联邦学习的业务识别方法,属于通信网络技术领域。该方法通过构建由若干个无线路由器作为边缘端组成的边缘协作式系统;然后通过该系统中的若干个无线路由器采集网络流量数据集,并将数据集处理成训练模型需要的格式;根据业务需求,选用不同的分布式联邦学习机制训练得到初始模型,并经过聚合更新得到全局模型;将训练得到的全局模型放到业务识别分类器模型库中,然后根据所识别的不同的业务类型选取其中不同的算法模型;最后通过联邦学习的协同训练手段,合并众多参与训练的路由器识别出的数据流特征,并部署到更多路由器上,使得每个路由器都可以识别出全部的业务类型,有效增强识别模型的泛化能力,不断改善系统整体性能。断改善系统整体性能。断改善系统整体性能。
技术研发人员:朱晓荣 刘文杰 张衡
受保护的技术使用者:南京邮电大学
技术研发日:2022.06.22
技术公布日:2022/11/1