本发明涉及工业控制与优化,具体为一种基于ppo算法的干燥机群调度方法。
背景技术:
1、干燥作业是工业生产制造中不可缺少的技术之一,其目的是使产品降低水分活性,以减缓产品恶化速度并保持质量。在食品生产、化工领域等行业中,干燥作业占据了全球能源消耗的很大比例。据统计,在发达国家中,工业总能耗的9-25%用于干燥机的运行。因此,降低干燥机的生产成本,特别是电费支出,一直是研究的热点方向。
2、目前,国内外学者在干燥机节省电费方面已经取得了一定的研究成果。例如,在食品干燥中,采用持续补充可再生能源技术,减少使用化石能源及其衍生物产生的热能和电能;喷雾干燥机利用排气热量回收技术,回收产生的低至中温度废热,有效提高了喷雾干燥机的能量效率。文献研究了喷雾干燥机的热回收系统,将排气与进料空气直接混合,使干燥机的能量消耗减少了14%。对于纺织品的干燥,通过数学建模,实现工艺设计和能源成本的最小化。例如,有文献构建了一种用于服饰干燥的半经验模型,涵盖了最后恒速期和下降速期。
3、然而,上述研究主要集中在单台干燥机的节能优化上,对于干燥机群的调度优化研究仍然较少。单台干燥机的优化方法虽然能够降低一定的电费支出,但在实际工业生产中,干燥机通常是成群使用的,需要考虑多台干燥机之间的协调和调度问题。此外,现有的优化方法多基于线性规划、模拟退火等启发式算法,虽然能够快速提供调度方案,但难以保证全局最优解。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于ppo算法的干燥机群调度方法,解决了如何通过优化干燥机群调度以降低电费支出和提高生产效率的问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:一种基于ppo算法的干燥机群调度方法,包括以下步骤:
3、s1、将干燥机群的工作状态和罐体状态建模为马尔可夫决策过程;
4、s2、定义状态空间、动作空间和奖励函数;
5、s3、使用ppo算法训练策略网络和价值网络,以优化干燥机群的调度。
6、优选的,所述s1步骤具体包括以下步骤:
7、s1.1、构建罐体状态表,记录每个罐体是否完成再生作业,以及是否可以进行干燥作业;
8、s1.2、构建干燥机群工作状态表,记录每个罐体当前的工作状态。
9、优选的,所述s1.2步骤重每个罐体当前的工作状态包括干燥作业、再生作业和待机状态。
10、优选的,所述s2步骤具体包括以下步骤:
11、s2.1、定义状态空间,包括罐体状态表和干燥机群工作状态表;
12、s2.2、定义动作空间,包括每个罐体在每个时间步可以选择的动作;
13、s2.3、设计奖励函数,包括动作奖励函数、时间奖励函数和合作奖励函数。
14、优选的,所述s3步骤具体包括以下步骤:
15、s3.1、初始化策略网络、价值网络和环境;
16、s3.2、根据罐体状态表和干燥机群工作状态表,筛选罐体能够执行的动作;
17、s3.3、干燥机群执行动作并更新环境;
18、s3.4、判断是否到达设定工作时间,如果到达设定工作时间,则计算优势函数;
19、s3.5、判断是否达到迭代次数,如果未达到,根据公式更新策略网络和价值网络;
20、s3.6、判断是否达到总训练次数,如果达到则筛选最优策略;否则,返回步骤s3.1。
21、优选的,所述s2.3步骤中奖励函数设计为如下所示:
22、其中动作奖励函数为:
23、
24、优选的,所述s3.4步骤中优势函数的公式为:
25、其中γ表示折扣因子,λ表示优势函数折扣因子,γ和λ都是用于平衡当前奖励和未来奖励的重要程度,t表示当前时间步,t表示最终时间步,δt表示为时间步t的优势函数估计,如下所示:
26、δt=rt+γ*v(st+1)-v(st),其中rt表示t时刻获得的奖励,v(st+1)表示st+1的状态值估计,v(st)表示st的状态值估计。
27、优选的,所述s3.5步骤中采用目标函数更新策略网络参数,其中目标函数为:
28、其中πθ表示新的策略网络的决策,表示旧的策略网络的决策,πθ和的比值称作新旧策略比。
29、本发明提供了一种基于ppo算法的干燥机群调度方法。具备以下有益效果:
30、1、本发明通过优化干燥机群的调度,将再生作业安排在电费较低的低谷时段,从而大幅降低总电费支出,并且采用深度强化学习中的ppo算法,结合马尔可夫决策过程模型,通过不断与环境交互和学习,使得智能体能够自主优化调度策略,提高调度效率。
31、2、本发明基于电价的波动和生产需求,灵活调整再生作业的时间段,不依赖于干燥机的具体结构和干燥对象,具有广泛的适用性,并且在优化调度的同时,确保一定数量的罐体在每个时刻进行干燥作业,满足工厂的生产需求,不影响生产任务的正常进行。
32、3、本发明通过智能化的调度优化方法,减少了对人工调度的依赖,提高了系统的自动化程度,降低了人工成本和出错率。
1.一种基于ppo算法的干燥机群调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s1步骤具体包括以下步骤:
3.根据权利要求2所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s1.2步骤重每个罐体当前的工作状态包括干燥作业、再生作业和待机状态。
4.根据权利要求1所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s2步骤具体包括以下步骤:
5.根据权利要求1所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s3步骤具体包括以下步骤:
6.根据权利要求4所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s2.3步骤中奖励函数设计为如下所示:
7.根据权利要求5所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s3.4步骤中优势函数的公式为:
8.根据权利要求5所述的一种基于ppo算法的干燥机群调度方法,其特征在于,所述s3.5步骤中采用目标函数更新策略网络参数,其中目标函数为:
