本发明涉及车间智能调度,尤其是涉及一种基于数字孪生的生产车间多agv动态调度方法。
背景技术:
1、目前,很多生产车间都具有多台agv在各工序间运输物料,例如太阳能电池片生产车间具有大规模、强动态、高复杂性的特点。车间有几百甚至上千台agv在各工序间运输电池片。此外,每个加工阶段的物料释放时间、两个工序之间的运输时间具有不确定性。传统的agv调度方法求解时间长,优化效果差,无法满足动态调度的要求,从而造成运输效率低,运输成本高的问题。近年来,具有双向映射、动态交互、实时连接特征的数字孪生技术可以实现车间状态的全面感知,为动态调度奠定了基础,因此,如何提供一种基于数字孪生的生产车间多agv动态调度方法,能够实现多agv的动态调度,提高运输效率,降低运输成本,已经成为本领域技术人员致力于研究的方向。
技术实现思路
1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于数字孪生的生产车间多agv动态调度方法,能够实现多agv的动态调度,提高运输效率,降低运输成本。
2、本发明的目的可以通过以下技术方案来实现:一种基于数字孪生的生产车间多agv动态调度方法,其特征在于,包括以下步骤:
3、s1、根据物理生产车间构建虚拟生产车间,并在虚拟生产车间中仿真物理生产车间的生产过程以获取agv调度的样本数据;
4、s2、构建agv调度的马尔科夫调度决策模型;
5、s3、基于所述样本数据利用sac算法对所述马尔科夫调度决策模型进行训练;
6、s4、根据当前物理生产车间状态和马尔科夫调度决策模型生成agv调度结果,并将agv调度结果发送至所述虚拟生产车间进行仿真,所述虚拟生产车间根据仿真结果生成调度指令,并将所述调度指令发送至所述物理生产车间,所述物理生产车间在执行所述调度指令后生成agv调度的样本数据,并返回步骤s3,直至达到终止条件。
7、在其中的一些实施例中,所述步骤s2中,所述马尔科夫调度决策模型包括状态模型、动作模型和回报模型。
8、在其中的一些实施例中,在步骤s2中,从agv状态、下料口状态、上料口状态和机器状态四个方面建立所述状态模型;
9、所述agv状态包括agv的实时位置、agv的待完成任务数量、agv的预估空闲时间;
10、所述下料口状态包括待运输批次数、当前调度时刻是否有新增任务;
11、所述上料口状态为待加工批次数;
12、所述机器状态为机器上当前物料的加工进度。
13、在其中的一些实施例中,在步骤s2中,所述动作模型为选择调度规则的动作模型;所述调度规则包括:
14、最近空闲agv优先nin规则;
15、最少运输任务数空闲agv优先mtti规则;
16、最大等待时间空闲agv优先mwt规则;
17、最小利用率空闲agv优先mut规则;
18、最多电量空闲agv优先mpt规则。
19、在其中的一些实施例中,在步骤s2中,所述回报模型为加工设备下料口的物料平均等待运输时间的相反数,所述回报模型的计算公式如下:
20、
21、其中,nn表示从时间t-1到时间t要运输的新增任务数,tas_kn表示agvk到达运输任务起始位置的时刻,tre_kn表示taskn被分配给agvk的时刻。xkn是0-1变量,如果agvk运输taskn,则xkn=1,否则xkn=0。
22、在其中的一些实施例中,所述sac算法包括:
23、s31、初始化critic、actor和目标critic的神经网络参数;
24、s32、初始化经验回放池;
25、s33、判断是否到达终止条件:如果是,输出actor的调度决策网络模型,如果否,则基于当前的车间状态和策略选择动作,并且执行动作,计算获得奖励,观察下一调度时刻车间状态;
26、s34、将包括当前时刻车间状态、动作、回报、下一调度决策时刻车间状态的样本数据存入经验回放池;
27、s35、将下一调度决策时刻车间状态赋值给当前时刻车间状态;
28、s36、判断是否满足训练条件:如果不满足,则转到s33,如果满足则随机从经验回放池中选取batchsize个样本,更新critic、actor和目标critic网络参数和熵正则项系数;
29、s37、转到s33。
30、在其中的一些实施例中,在步骤s4中,根据当前物理生产车间状态和马尔科夫调度决策模型生成agv调度结果的步骤具体包括:
31、s41、每隔一定时间获取物理生产车间状态;
32、s42、判断是否有新增任务,如果有新增任务,则利用马尔科夫调度决策模型根据当前物理生产车间状态输出调度规则,如果没有新增任务,则转到s41;
33、s43、根据调度规则生成对应新增任务的agv调度结果。
34、在其中的一些实施例中,在所述步骤s4中,基于虚实交互机制进行所述物理生产车间和所述虚拟生产车间之间的数据传输;
35、所述虚实交互机制为将物理生产车间的状态实时映射到虚拟生产车间,以及将虚拟生产车间相应的调度指令传递给物理生产车间,指导物理生产车间运行。
36、在其中的一些实施例中,所述生产车间为电池片生产车间。
37、与现有技术相比,本发明至少具有以下优点或有益效果之一:
38、一、本发明公开的基于数字孪生的生产车间多agv动态调度方法,实现了数字孪生、调度决策模型学习机制和在线应用机制的协同,可以在虚拟生产车间提前训练调度决策模型,并在物理生产车间初始运行时实现高效调度,并实现了虚实协同,增强了调度决策的能力。
39、二、本发明公开的基于数字孪生的生产车间多agv动态调度方法,考虑agv状态、下料口状态、上料口的状态和机床状态,以五种调度规则作为动作,设置物料的平均等待时间作为回报,设计了基于马尔科夫调度决策的多agv动态调度方法,提高了运输效率,降低了运输成本。
40、三、本发明公开的基于数字孪生的生产车间多agv动态调度方法,利用sac算法对所述马尔科夫调度决策模型进行训练,该算法加快了调度决策模型的学习速度和增强了学习的稳定性,提高了调度决策模型的最终性能。
41、四、本发明能够实现大规模、强动态、高复杂环境下多agv的实时调度,增强车间物流运输的鲁棒性,降低车间物流成本,提高车间物流效率。
1.一种基于数字孪生的生产车间多agv动态调度方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于,所述步骤s2中,所述马尔科夫调度决策模型包括状态模型、动作模型和回报模型。
3.根据权利要求2所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于;在步骤s2中,从agv状态、下料口状态、上料口状态和机器状态四个方面建立所述状态模型;
4.根据权利要求2所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于:在步骤s2中,所述动作模型为选择调度规则的动作模型;所述调度规则包括:
5.根据权利要求1所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于:在步骤s2中,所述回报模型为加工设备下料口的物料平均等待运输时间的相反数,所述回报模型的计算公式如下:
6.根据权利要求1所述的基基于数字孪生的生产车间多agv动态调度方法,其特征在于:所述sac算法包括:
7.根据权利要求1所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于:在步骤s4中,根据当前物理生产车间状态和马尔科夫调度决策模型生成agv调度结果的步骤具体包括:
8.根据权利要求1所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于:在所述步骤s4中,基于虚实交互机制进行所述物理生产车间和所述虚拟生产车间之间的数据传输;
9.根据权利要求1所述的基于数字孪生的生产车间多agv动态调度方法,其特征在于:所述生产车间为电池片生产车间。
