本技术涉及电子自动化,特别是涉及一种基于强化学习的与非图优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、在电子设计自动化中,逻辑综合的过程包括逻辑转换,逻辑优化和工艺映射,逻辑优化是将逻辑表达式转化为“最佳实现 ”,在复杂程度、面积、延迟等参数上综合考虑最优,即针对现有的逻辑表达进行化简,其中针对与非图的优化是逻辑优化过程的必要步骤。目前对与非图进行优化通常是通过人工对其进行优化。然而,基于人工经验进行优化,存在耗时耗力进而导致效率低下的问题。
2、因此,目前对与非图优化的方法存在优化效率低的缺陷。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高优化效率的基于强化学习的与非图优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种基于强化学习的与非图优化方法,所述方法包括:
3、获取待优化的与非图,提取所述与非图对应嵌入特征;
4、将所述嵌入特征输入经训练的强化学习模型,由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具,确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法,根据各个所述目标预设与非图优化算法输出优化序列;所述强化学习模型在预设强化学习框架中基于与非图样本和所述预设逻辑优化工具训练得到;
5、根据所述优化序列中的各个目标预设与非图优化算法,对所述与非图进行优化。
6、在其中一个实施例中,所述方法还包括:
7、根据所述预设逻辑优化工具,构建预设强化学习框架;所述预设逻辑优化工具中包括多个预设与非图优化算法;
8、获取待训练的强化学习模型、与非图样本以及所述与非图样本对应的优化序列样本,提取所述与非图样本对应的嵌入特征样本;
9、在所述预设强化学习框架内,将所述嵌入特征样本输入所述强化学习模型,由所述强化学习模型基于所述嵌入特征样本确定所述与非图样本对应的当前状态;
10、根据所述当前状态,从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本;
11、执行所述预设与非图优化算法样本,得到所述与非图样本对应的新的当前状态;
12、返回根据所述当前状态,从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本的步骤,直至满足预设预测结束条件时,根据各个所述预设与非图优化算法样本输出优化序列预测信息;
13、将所述优化序列预测信息和所述优化序列样本输入预设损失函数,根据所述预设损失函数的输出值,调整所述强化学习模型的模型参数,直至满足预设训练结束条件时,得到经训练的所述强化学习模型。
14、在其中一个实施例中,所述根据所述当前状态,从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本,包括:
15、针对所述预设逻辑优化工具中的每个预设与非图优化算法,获取所述预设与非图优化算法在所述当前状态下对应的模拟执行结果;
16、根据所述当前状态和所述模拟执行结果,确定所述预设与非图优化算法对应的动作概率;
17、根据各个所述预设与非图优化算法中所述动作概率最大的预设与非图优化算法,得到所述当前状态对应的预设与非图优化算法样本。
18、在其中一个实施例中,所述将所述嵌入特征输入经训练的强化学习模型,由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具,确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法,根据各个所述目标预设与非图优化算法输出优化序列,包括:
19、基于所述嵌入特征确定所述与非图对应的当前状态;
20、根据所述当前状态,从所述预设逻辑优化工具中确定对应的目标预设与非图优化算法;
21、执行对应的所述目标预设与非图优化算法,得到所述与非图对应的新的当前状态;
22、返回根据所述当前状态,从所述预设逻辑优化工具中确定对应的目标预设与非图优化算法的步骤,直至满足预设预测结束条件时,根据各个所述目标预设与非图优化算法输出所述优化序列。
23、在其中一个实施例中,所述根据所述优化序列中的各个目标预设与非图优化算法,对所述与非图进行优化,包括:
24、将所述优化序列中的首个目标预设与非图优化算法作为当前待执行算法;
25、根据所述当前待执行算法对待优化的所述与非图进行优化,得到新的待优化的与非图;
26、获取所述优化序列中所述当前待执行算法对应的下一个目标预设与非图优化算法,作为新的当前待执行算法;
27、返回根据所述当前待执行算法对待优化的所述与非图进行优化的步骤,直至所述优化序列中的各个所述目标预设与非图优化算法均执行完毕,得到优化完成的所述与非图。
28、在其中一个实施例中,所述提取所述与非图对应嵌入特征,包括:
29、获取所述与非图对应的图嵌入特征;
30、根据所述与非图中的各个节点,提取节点嵌入特征;
31、根据所述图嵌入特征和所述节点嵌入特征,得到所述与非图对应的嵌入特征。
32、第二方面,本技术提供了一种基于强化学习的与非图优化装置,所述装置包括:
33、获取模块,用于获取待优化的与非图,提取所述与非图对应嵌入特征;
34、预测模块,用于将所述嵌入特征输入经训练的强化学习模型,由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具,确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法,根据各个所述目标预设与非图优化算法输出优化序列;所述强化学习模型在预设强化学习框架中基于与非图样本和所述预设逻辑优化工具训练得到;
35、优化模块,用于根据所述优化序列中的各个目标预设与非图优化算法,对所述与非图进行优化。
36、第三方面,本技术提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
37、第四方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
38、第五方面,本技术提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
39、上述基于强化学习的与非图优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过强化学习模型根据待优化的与非图的嵌入特征和预设逻辑优化工具,确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法,输出各个目标预设与非图优化算法对应的优化序列,基于优化序列中各个优化算法,对与非图进行优化。相较于传统的基于人工经验进行优化,本方案通过利用强化学习框架和逻辑优化工具训练强化学习模型,利用训练好的强化学习模型对与非图的嵌入特征进行预测学习,识别特征对应的多个状态和各个状态对应的优化算法,基于模型输出的各个优化算法对与非图进行优化,提高了对与非图优化的效率。
1.一种基于强化学习的与非图优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前状态,从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述嵌入特征输入经训练的强化学习模型,由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具,确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法,根据各个所述目标预设与非图优化算法输出优化序列,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述优化序列中的各个目标预设与非图优化算法,对所述与非图进行优化,包括:
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述提取所述与非图对应嵌入特征,包括:
7.一种基于强化学习的与非图优化装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
