一种基于强化学习的红队测试计划生成方法

专利2024-10-14 78

1.本发明涉及网络数据安全技术领域，具体涉及一种基于强化学习的红队测试计划生成方法。

背景技术：

2.红队测试是通过模拟真实黑客攻击的方式对网络系统进行安全评估的方法，然而通过安全专家手动计划和执行攻击的方式，具有较高的经济成本、时间成本和人力成本。自动化红队测试为解决手动红队测试面临的问题提供了思路，旨在更加高效、低成本和可重复地进行网络安全评估。与此同时，人工智能技术的发展为自动化红队测试提供了新的方向，随着deepmind alphago在围棋领域超越了人类专家，强化学习与红队测试的结合成为了可能，两者都是根据环境状态进行动态决策的过程，本质上是计划问题。自动化攻击计划生成作为自动化红队测试的重要部分，将红队测试过程形式化为最终实现攻击目标的一系列敌手攻击技术的集合，旨在代替安全专家进行攻击计划决策过程。自动化攻击计划生成利用强化学习算法将敌手攻击技术构建为满足红队测试需求的攻击计划。强化学习算法根据动作选择方式的差异可以分为以值为基础和以策略为基础，本发明则采用基于价值的强化学习算法：q-learning算法。

技术实现要素：

3.本发明是为了解决人工红队测试面临的成本较高，耗时较长以及专业人员较少等问题，提供了一种基于强化学习的红队测试计划生成方法，能够代替安全专家进行攻击计划决策过程，有效的提高了红队测试的效率。
4.本发明提供一种基于强化学习的红队测试计划生成方法，包括以下步骤：步骤1、敌手攻击行为模拟；敌手攻击行为是构成红队测试计划的基本组件；由att&ck攻击行为知识库与模型（后续简称为att&ck攻击行为知识库与模型）可知：敌手攻击行为包括敌手攻击战术和敌手攻击技术，敌手攻击战术为红队测试提供行动纲领，目前敌手攻击战术有14种，分别为侦察、资源发展、初始访问、执行、持久化、权限提升、防御规避、凭据访问、发现、横向移动、收集、命令与控制、渗出以及影响，而敌手攻击技术则是敌手攻击战术的具体实现和实施；敌手攻击行为模拟是将敌手攻击技术进行编程化和脚本化，从而为红队测试计划提供基础数据集；步骤2、红队测试过程建模；所述红队测试过程建模为马尔可夫决策过程，由五元组定义，所述表示攻击者在红队测试过程中所处的状态，所述表示攻击者所拥有的敌手攻击技术的集合，所述表示奖励值，指攻击者执行攻击动作后获得的奖励，所述为状态转移函数，指攻击者执行某个攻击动作后可能的状态分布，所述代表用于计算整个过程累计奖励收益的折扣因子；
步骤3、击者建模；所述攻击者由3个部分构成：知识、能力、策略；知识，定义攻击者对于给定红队环境状态的了解；能力，即攻击者执行的攻击动作，模拟了红队测试生命周期中的各个阶段（包括信息侦察和收集、漏洞探测、漏洞利用、权限维持以及后渗透攻击阶段等），每个能力都是根据att&ck攻击行为知识库与模型中的敌手攻击战术和敌手攻击技术进行设计；策略，表示攻击者如何在给定红队测试场景下选择攻击动作，将攻击动作链接在一起并执行，以实现攻击目标；步骤4、构建红队攻击计划；攻击者将知识、能力和红队测试目标作为输入，采用基于价值的q-learning强化学习算法来构建红队攻击计划；步骤5、选择当前最优攻击计划并执行；攻击者从当前构建的攻击计划中选择最优的攻击计划，即最适合当前红队测试环境、测试任务和测试目标的攻击计划，然后执行该计划。
5.进一步的，对敌手攻击技术进行编码，具体的为：id字段是敌手攻击技术的唯一标识，name字段是敌手攻击技术进行编码后的名称，description字段是敌手攻击技术的功能描述，tactic字段是敌手攻击技术在att&ck攻击行为知识库与模型中对应的战术，technique字段包括attack_id和name两个子字段，分别为敌手攻击技术在att&ck攻击行为知识库与模型中对应的技术编号和名称，platform字段为执行敌手攻击技术的操作系统，其中包括command和parsers子字段，command字段为敌手攻击技术在相应操作系统上的具体编码实现，parsers字段的功能是解析敌手攻击技术执行后的结果数据。
6.按照att&ck攻击行为知识库与模型通过红队计划进行红队测试，红队计划由att&ck敌手攻击战术（tactic）构成，敌手攻击战术则由att&ck敌手攻击技术实现，具体敌手攻击技术称为攻击动作，对于任意具体的计划和动作，有以下定义式：其中n为构成某个计划所需要的攻击动作个数，。对于每个动作，拥有两个必要的属性：（1）为执行动作必须为真的一组前置条件；（2）为在执行动作后将成立的一组后置条件。
7.结合马尔可夫决策模型，在时间步，状态下执行动作，将转移到下一个状态，其中为动作的前置条件，为动作的后置条件，如果状态对攻击计划有正向推动作用，则攻击者会获得奖励；反之攻击者则会获得惩罚；在后续的训练中，奖励和惩罚会使处于某个状态的攻击者偏向于选择对攻击计划有推动作用的动作，而避免对攻击计划无意义的动作。
8.进一步的，根据红队测试场景和目标，强化学习决策方案构建攻击计划；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式（1）和式（2）为攻击计划的评估标准，式（1）表示攻击计划由构成该攻击计划的一系列攻击技术组成，为强化学习中的动作属性，n表示攻击技术的个数；式（2）中表示攻击计划的评分函数，是设计者为每个独立的动作分配的一个动作得分数值，是高度可定制的，其核心是马尔可夫决策过程中的动作偏好映射，而价值()主要用于衡量在不同状态下采取相同动作，获得的后置条件价值的差异。
9.本发明所述的一种基于强化学习的红队测试计划生成方法，作为优选方式，基于强化学习的红队测试计划生成方法包括：信息收集模块：用于对目标主机进行攻击面和情报信息收集，用于分析和生成目标主机存在的漏洞信息，用于将攻击面和情报信息、漏洞信息传送至攻击计划决策模块；攻击面和情报信息包括ip、域名、端口、邮箱地址、用户信息、服务器和操作系统的类型、使用的开源软件、数据库类型以及所有链接页面等；所述漏洞信息包括系统漏洞和web应用漏洞；此外，信息收集模块还需要确定红队测试场景和目标；敌手攻击行为模拟模块：可以用于接收信息收集模块传送的攻击面和情报信息、漏洞信息，用于对漏洞信息进行验证并利用漏洞对目标主机进行攻击，获取目标主机的访问权，用于将att&ck攻击行为知识库与模型中的敌手攻击技术编程化实现；攻击计划决策模块：用于接收信息收集模块传送的红队测试目标，用于将敌手攻击技术和红队测试目标作为攻击计划决策模块的输入，用于根据基于价值的强化学习算法来构建红队测试攻击计划；攻击计划评估模块：用于接收攻击计划决策模块构建的攻击计划，用于根据攻击计划评估模块的评分算法评估当前攻击计划中的最优攻击计划，用于将最优攻击计划传递给攻击计划执行模块；攻击计划执行模块：用于接收攻击计划评估模块传送的最优攻击计划，用于执行最优攻击计划；测试报告分析模块：用于根据攻击计划执行模块的输出数据生成红队测试报告，用于分析红队测试报告。
10.本发明具有以下优点：与人工测试方式相比，以计算机程序模拟黑客可能使用的攻击技术/方法，对目标主机进行非破坏性质的攻击性测试，使得红队测试水平更加稳定，不受人的不确定因素的影响；所述计算机程序可以无限复制，复制成本低，不存在人才短缺的缺点，可以满足海量网络系统的红队测试需要，红队测试效率高。
11.与现有的自动化工具相比，能够支持红队测试的全生命周期；所述计算机程序提供自动迭代攻击，支持基于目标主机的情报信息进行自主规划和决策攻击计划和攻击方法；所述计算机程序基于强化学习算法生成红队测试攻击计划，具有更高的效率和鲁棒性。
附图说明
12.图1为本发明技术方案流程图；图2为本发明的技术方案模块组成图；图3为本发明红队测试过程的环境模型与攻击者模型的整体交互架构图；图4为本发明攻击计划构建模型图；图5为本发明敌手攻击技术字段编码方案。
具体实施方式
13.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
14.具体步骤如下：步骤1：敌手攻击行为模拟：根据att&ck攻击行为知识库与模型，目前敌手攻击战术有14种，分别为侦察、资源发展、初始访问、执行、持久化、权限提升、防御规避、凭据访问、发现、横向移动、收集、命令与控制、渗出以及影响，所述敌手攻击战术仅为红队测试提供目标纲领，具体行动由敌手攻击战术中的敌手攻击技术实现。
15.如图5所示为敌手攻击技术字段设计，利用这些字段可以有效的对敌手攻击技术进行编码。其中，所述id字段是敌手攻击技术的唯一标识，所述name字段是敌手攻击技术进行编码后的名称，所述description字段是敌手攻击技术的功能描述，所述tactic字段是敌手攻击技术在att&ck攻击行为知识库与模型中对应的战术，所述technique字段包括attack_id和name两个子字段，分别为敌手攻击技术在att&ck攻击行为知识库与模型中对应的技术编号和名称，所述platform字段为执行敌手攻击技术的操作系统，其中包括command和parsers子字段，所述command字段为敌手攻击技术在相应操作系统上的具体编码实现，所述parsers字段的功能是解析敌手攻击技术执行后的结果数据。
16.下面所示为发现战术中识别活跃用户账户技术的编码实现实例，该技术可以在linux和windows操作系统上执行，执行后的结果由parsers字段解析后显示：id：c0da588f-79f0-4263-8998-7496b1a40596name：identify active userdescription：find user running agenttactic：discoverytechnique：
ꢀꢀꢀ
attack_id：t1033
ꢀꢀꢀ
name：system owner/user discoveryplatforms：
ꢀꢀ
linux：
ꢀꢀꢀꢀ
sh：
ꢀꢀꢀꢀꢀꢀ
command：whoami
ꢀꢀꢀꢀꢀꢀ
parsers：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
plugins.stockpile.app.parsers.basic:
‑ꢀꢀ
source：host.user.name
‑ꢀꢀ
source：domain.user.namewindows：
ꢀꢀ
psh：command：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
senv：usernameparsers：
ꢀꢀꢀꢀꢀꢀꢀꢀ
plugins.stockpile.app.parsers.basic：
‑ꢀꢀꢀ
source：host.user.name
‑ꢀꢀ
source：domain.user.namecmd：command：echo
ꢀꢀ
%username%parsers：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
plugins.stockpile.app.parsers.basic：
‑ꢀꢀ
source：host.user.name
‑ꢀꢀ
source：domain.user.namesenv：usernamewz步骤2：红队测试过程建模：所述红队测试过程建模为马尔可夫决策过程，由五元组定义，所述表示攻击者在红队测试过程中所处的状态，例如攻击者在目标主机上拥有普通用户权限或者攻击者窃取了目标主机数据等状态，所述表示攻击者所拥有的攻击动作（即敌手攻击技术）的集合，所述表示奖励值，指攻击者执行攻击动作后获得的奖励，所述为状态转移函数，指攻击者执行某个攻击动作后可能的状态分布，所述代表用于计算整个过程累计奖励收益的折扣因子；按照att&ck攻击行为知识库与模型进行红队测试，其本质是设计并实施一个红队计划，计划由一系列att&ck敌手攻击战术（tactic）构成，敌手攻击战术则由具体的att&ck敌手攻击技术实现，具体敌手攻击技术称为攻击动作。对于任意具体的计划和动作，有以下定义式：其中n为构成某个计划所需要的攻击动作个数，。对于每个动作，拥有两个必要的属性：（1）为执行动作必须为真的一组前置条件；（2）为在执行动作后将成立的一组后置条件。
17.结合马尔可夫决策模型，在时间步，状态下，执行动作，将转移到下一个状态，其中为动作的前置条件，为动作的后置条件，如果状态对攻击计划有正向推动作用，则攻击者会获得奖励；反之攻击者则会获得惩罚。在后
续的训练中，奖励和惩罚会使处于特定状态的攻击者偏向于选择对攻击计划有推动作用的动作，而避免对攻击计划无意义的动作。
18.举例说明，攻击者在无目标主机控制权的状态下，执行漏洞利用动作，达到拥有目标主机user用户控制权的状态，获得正向奖励，然后执行权限提升动作，达到拥有目标主机root用户控制权的状态，获得正向奖励。显然动作只有在状态下，才能到达状态，获得奖励，所以状态为动作的前置条件，状态为动作的后置条件，且动作对此攻击计划有推动作用，所以获得奖励；如果在状态下，攻击者选择执行动作，显然状态只能继续保持在，动作对攻击计划没有推动作用，所以攻击者将会获得惩罚。
19.步骤3：攻击者建模：所述攻击者模型由知识、能力和策略3部分构成，下列以窃取目标主机敏感数据为攻击目标的红队测试过程为实施例进行说明：所述攻击者的知识，定义为攻击者对于给定测试环境状态的了解，与攻击者在红队测试中所处的状态相对应，可以用谓词来进行描述：initialzed(x)表示攻击者对主机x进行信息收集等初始化操作；exploited(x,e)表示攻击者尝试利用漏洞e对主机x进行漏洞利用；socialengineered(x)表示攻击者尝试利用社会工程学攻击（如鱼叉式网络钓鱼）对主机x进行初始访问攻击；hasfoothold(x)表示攻击者在主机x上拥有立足点（user用户权限）；escalated(x)表示攻击者在主机x上拥有提升的立足点（root用户权限）；hostenumerated(x)表示攻击者在主机x上执行所有本地文件发现；exfiltrated(x)表示攻击者从主机x上成功窃取文件。
20.所述攻击者的能力（即攻击者采用的攻击动作）模拟了攻击测试生命周期中的各个阶段，每个能力都是根据att&ck攻击行为知识库与模型中的战术和技术进行设计的。每个能力都具有一组前置条件和后置条件，这些前置条件在攻击者能力执行前必须为真，而后置条件将在攻击者能力执行后为真。如下列出每个能力与其在att&ck中相对应的战术：scan(x)表示对主机x进行端口扫描、目录扫描和漏洞扫描等。此能力与att&ck中的侦察战术对应，这里设定前置条件为在收集信息阶段进行扫描，后期不需要再次重复扫描，后置条件是获得扫描结果。
21.runexploit(x)表示利用漏洞e对主机x进行漏洞利用。此能力与att&ck中的初始访问战术对应，前置条件是主机x容易受到漏洞e攻击，后置条件是攻击者将在主机x上立足。
22.socialengineering(x)表示对主机x的用户进行社会工程学攻击。此能力与att&ck中的初始访问战术对应，前置条件是主机x的用户容易受到引诱，后置条件是攻击者将在主机x上立足。
23.escalate(x)表示提升主机x上的立足点权限。此能力与att&ck中的权限提升战术对应，前置条件是攻击者必须在主机x上拥有低特权立足点，后置条件是攻击者将在主机x上拥有可提升的立足点。
24.enumeratehost(x)表示攻击者在主机x上收集信息。此功能与att&ck中的发现和
收集战术对应，前置条件是攻击者必须在主机x上拥有升级的立足点，后置条件是攻击者将获得主机x上的有效网络流，并有资格从主机x上窃取文件。
25.exfiltrate(x)表示从主机x上窃取敏感数据。此能力与att&ck中的渗出战术对应，前置条件是攻击者在主机x上拥有立足点，后置条件是主机x上的敏感数据将被窃取。
26.基于计划的策略表示攻击者如何在给定场景下选择攻击动作，将攻击动作链接在一起并执行，以实现攻击目标。基于计划的攻击者策略如下所示：(1)攻击者评估当前在测试环境中的状态，攻击动作集合和攻击目标；(2)攻击者基于强化学习算法构建攻击计划；(3)系统选择当前最优的攻击计划并执行其攻击动作；(4)如果达成攻击目标，则整个策略结束；(5)否则，移除该最优攻击计划，重新回到步骤(3)。
27.步骤4：构建红队攻击计划：攻击者在给定的输入条件下（输入条件包括攻击者知识，能力以及攻击目标），基于强化学习算法构建攻击计划，接着选择最优攻击计划作为输出，然后与测试场景进行交互以达到攻击目标，攻击计划构建模型如图4所示。
28.步骤5：选择当前最优攻击计划并执行：根据所述的红队测试场景和目标，强化学习决策方案可能会构建不止一种攻击计划：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式（1）和式（2）为攻击计划的评估标准，式（1）表示攻击计划由构成该攻击计划的一系列攻击技术（即强化学习中的动作属性）组成，n表示攻击技术的个数；式（2）中表示攻击计划的评分函数，是设计者为每个独立的动作分配的一个动作得分数值，是高度可定制的，其核心是马尔可夫决策过程中的动作偏好映射，而价值()主要用于衡量在不同状态下采取相同动作，获得的后置条件价值的差异。例如，分别在user与root用户权限状态下执行窃取数据动作后，目标主机被窃取数据的价值显然是不同的，一般地，root用户权限下窃取数据的价值大于user用户权限下窃取数据的价值，价值也是高度可定制的。
29.本发明给出了红队测试计划生成方法，这种方法将红队测试过程建模为马尔可夫决策过程，根据红队测试场景、任务和目标，利用强化学习q-learning算法来自动化地构建红队攻击计划，从而代替网络安全专家进行攻击计划的决策和构建过程，减少红队测试的时间和人力成本。

技术特征：
1.一种基于强化学习的红队测试计划生成方法，其特征在于：包括以下步骤，步骤1、敌手攻击行为模拟；敌手攻击行为模拟是将敌手攻击技术进行编程化和脚本化，从而为红队测试计划提供基础数据集；敌手攻击行为是构成红队测试计划的基本组件；根据att&ck攻击行为知识库与模型获知敌手攻击行为包括敌手攻击战术和敌手攻击技术，敌手攻击战术为红队测试提供行动纲领，敌手攻击技术是敌手攻击战术的具体实现和实施；步骤2、红队测试过程建模；所述红队测试过程建模为马尔可夫决策过程，由五元组定义，所述表示攻击者在红队测试过程中所处的状态，所述表示攻击者所拥有的敌手攻击技术的集合，所述表示奖励值，指攻击者执行攻击动作后获得的奖励，所述为状态转移函数，指攻击者执行某个攻击动作后可能的状态分布，所述代表用于计算整个过程累计奖励收益的折扣因子；步骤3、攻击者建模；所述攻击者由3个部分构成：知识、能力、策略；知识，定义攻击者对于给定红队环境状态的了解；能力，即攻击者执行的攻击动作，模拟了红队测试生命周期中的各个阶段，每个能力都是根据att&ck攻击行为知识库与模型中的敌手攻击战术和敌手攻击技术进行设计；策略，表示攻击者如何在给定红队测试场景下选择攻击动作，将攻击动作链接在一起并执行，以实现攻击目标；步骤4、构建红队攻击计划；攻击者将知识、能力和红队测试目标作为输入，采用基于价值的q-learning强化学习算法来构建红队攻击计划；步骤5、选择当前最优攻击计划并执行；攻击者从当前构建的攻击计划中选择最优的攻击计划，然后执行该计划；最优的攻击计划最适合当前红队测试环境、测试任务和测试目标的攻击计划。2.如权利要求1所述的一种基于强化学习的红队测试计划生成方法，其特征具体的为：根据敌手攻击技术字段对敌手攻击技术进行编码，具体的为：id字段是敌手攻击技术的唯一标识，name字段是敌手攻击技术进行编码后的名称，description字段是敌手攻击技术的功能描述，tactic字段是敌手攻击技术在att&ck攻击行为知识库与模型中对应的战术，technique字段包括attack_id和name两个子字段，分别为敌手攻击技术在att&ck攻击行为知识库与模型中对应的技术编号和名称，platform字段为执行敌手攻击技术的操作系统，其中包括command和parsers子字段，command字段为敌手攻击技术在相应操作系统上的具体编码实现，parsers字段的功能是解析敌手攻击技术执行后的结果数据。3.如权利要求2所述的一种基于强化学习的红队测试计划生成方法，其特征在于：按照att&ck攻击行为知识库与模型通过红队计划进行红队测试，红队计划由att&ck敌手攻击战术（tactic）构成，敌手攻击战术则由att&ck敌手攻击技术实现，具体敌手攻击技术称为攻击动作，对于任意具体的计划和动作，有以下定义式：
其中n为构成某个计划所需要的攻击动作个数，；对于每个动作，拥有两个必要的属性：（1）为执行动作必须为真的一组前置条件；（2）为在执行动作后将成立的一组后置条件。4.如权利要求3所述的一种基于强化学习的红队测试计划生成方法，其特征在于：结合马尔可夫决策模型，在时间步，状态下执行动作，将转移到下一个状态，其中为动作的前置条件，为动作的后置条件，如果状态对攻击计划有正向推动作用，则攻击者会获得奖励；反之攻击者则会获得惩罚；在后续的训练中，奖励和惩罚会使处于某个状态的攻击者偏向于选择对攻击计划有推动作用的动作，而避免对攻击计划无意义的动作。5.如权利要求4所述的一种基于强化学习的红队测试计划生成方法，其特征在于：根据红队测试场景和目标，强化学习决策方案构建攻击计划；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式（1）和式（2）为攻击计划的评估标准，式（1）表示攻击计划由构成该攻击计划的一系列攻击技术组成，为强化学习中的动作属性，n表示攻击技术的个数；式（2）中表示攻击计划的评分函数，是设计者为每个独立的动作分配的一个动作得分数值，是高度可定制的，其核心是马尔可夫决策过程中的动作偏好映射，而价值()主要用于衡量在不同状态下采取相同动作，获得的后置条件价值的差异。6.如权利要求1所述的一种基于强化学习的红队测试计划生成方法，其特征在于：基于强化学习的红队测试计划生成方法还包括，信息收集模块：用于对目标主机进行攻击面和情报信息收集，用于分析和生成目标主机存在的漏洞信息，用于将攻击面和情报信息、漏洞信息传送至攻击计划决策模块；所述漏洞信息包括系统漏洞和web应用漏洞；信息收集模块还包括确定红队测试场景和目标；敌手攻击行为模拟模块：用于接收信息收集模块传送的攻击面和情报信息、漏洞信息，用于对漏洞信息进行验证并利用漏洞对目标主机进行攻击，获取目标主机的访问权，用于将att&ck攻击行为知识库与模型中的敌手攻击技术编程化实现；攻击计划决策模块：用于接收信息收集模块传送的红队测试目标，用于将敌手攻击技术和红队测试目标作为攻击计划决策模块的输入，用于根据基于价值的强化学习算法来构建红队测试攻击计划；攻击计划评估模块：用于接收攻击计划决策模块构建的攻击计划，用于根据攻击计划评估模块的评分算法评估当前攻击计划中的最优攻击计划，用于将最优攻击计划传递给攻击计划执行模块；攻击计划执行模块：用于接收攻击计划评估模块传送的最优攻击计划，用于执行最优攻击计划；
测试报告分析模块：用于根据攻击计划执行模块的输出数据生成红队测试报告，用于分析红队测试报告。

技术总结
本发明公开了一种基于强化学习的红队测试计划生成方法，首先基于ATT&CK攻击行为知识库与模型对敌手攻击技术进行编码模拟；然后将红队测试过程建模为马尔可夫决策过程，以及对攻击者模型进行建模；接着攻击者利用输入数据基于强化学习算法构建红队测试攻击计划；最后攻击者根据评估标准选择最优攻击计划并执行，本发明提供的一种基于强化学习的红队测试计划生成方法，能够有效的提高红队测试的稳定性和效率，降低人工红队测试的经济成本、时间成本和人力成本。本和人力成本。本和人力成本。

技术研发人员：李赛飞王震闫连山姚涛蒲桂东
受保护的技术使用者：艾迪恩（山东）科技有限公司西南交通大学烟台新一代信息技术研究院
技术研发日：2022.07.01
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-9966.html

专利

最新回复(0)