本发明涉及车间调度领域,利用分层强化学习理论处理多目标分布式柔性作业车间调度问题,具体地说是一种基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法。
背景技术:
1、企业规模的不断扩大使得分布式车间生产模式成为常态,同时也造成车间调度问题的复杂度大大增加。传统的单车间调度方法在处理分布式车间调度问题上存在一定的局限性,单车间调度方法是为了优化单个车间内的生产排程和资源利用而设计的,通常只能考虑本车间内的任务和资源情况,无法及时获取其他车间的真实状态和需求,这导致无法实现整体最优的资源分配和作业排程;传统单车间调度方法无法有效处理存在的各种不同的约束条件,如订单优先级、生产能力差异、物料依赖等,为了克服这些问题,需要设计和应用适合分布式车间调度的新方法和算法。
技术实现思路
1、本发明的目的在于提出一种基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,以解决分布式柔性作业车间调度问题,满足实际生产需求。
2、为实现上述目的,本发明提供以下技术方案:
3、一种基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,包括以下步骤
4、s1、采用上、中、下三层结构将分布式柔性作业车间调度问题进行简化,分别设计工序选择智能体、工厂选择智能体和机器选择智能体并对应三层结构;
5、s2、确定上、中、下三层结构中各自利用的深度强化学习算法,以训练所述工序选择智能体、所述工厂选择智能体和所述机器选择智能体;
6、s3、所述工件选择智能体根据当前时刻工件状态在动作空间中选择调度规则输出待优化工件的工序,作为所述工厂选择智能体和所述机器选择智能体的优化目标,得到下一时刻的工件状态并基于前后状态的变化根据奖励函数得到奖励rtu,将存放在经验回放池用于训练上层深度强化学习算法;
7、s4、所述工厂选择智能体判断当前时刻待优化工序对应的工件是否已分配工厂,若未分配,所述工厂选择智能体根据当前时刻各工厂的状态选择调度规则为工件选择工厂,得到下一时刻的各工厂状态和奖励rtm,收集待所有工序调度完成后进行重调度,对rtm进行修正后将存放在经验回放池用于训练中层深度强化学习算法;若已分配,则跳过工厂选择智能体,直接交给机器选择智能体处理;
8、s5、设置与工厂数量相同的所述机器选择智能体,分别解决各工厂的调度问题,指定的所述机器选择智能体根据当前时刻对应工厂状态选择调度规则为工件工序指定加工机器,得到下一时刻的工厂状态和奖励rtd,将存放在经验回放池用于训练下层深度强化学习算法。
9、所述工序选择智能体的状态空间包括:工件的平均完成率、完成率标准差、估计延迟率和实际延迟率;动作空间包括:选择完成程度低的工件工序、选择紧迫程度高的工件工序、选择剩余加工时间长的工件工序。
10、工厂选择智能体的状态空间包括:所有工厂机器平均利用率、利用率标准差;动作空间包括:选择工件加工时间最短的工厂、选择机器平均利用率最低的工厂、选择当前空闲的工厂。
11、机器选择智能体的状态空间包括:工厂机器平均利用率、利用率标准差;动作空间包括:选择工序加工时间最短的机器、选择利用率最低的机器、选择工厂中空闲的机器。
12、上、中、下三层结构的深度强化学习算法相同,利用ddqn算法,使用一套神经网络qw的输出选取价值最大的动作但在使用该动作的价值时,用另一套神经网络计算该动作的价值,从而避免动作最终使用的值不会存在很大的过高估计问题,优化目标为:
13、
14、其中,rt代表智能体从状态st转移到st+1的奖励,a代表智能体执行的动作,代表神经网络在状态st+1和动作下得到的q值,γ代表折扣率,done代表当前回合是否完成;
15、为使算法稳定,目标网络并不会每一步都更新,而训练网络qw在训练中的每一步都会更新,目标网络的参数每隔c步才会与训练网络同步一次;
16、损失函数采用均方差损失函数,如下所示;
17、l(w)=e[(yt-qw(st,a))2] (2)
18、其中,yt代表优化目标,qw(st,a)代表神经网络qw在状态st+1和动作a下得到的q值。
19、上、中、下三层结构的深度强化学习中的搜索策略为:
20、为了平衡开发(最大化当前时刻期望收益)和探索(从长远角度最大化总收益)二者之间的关系,选择ε贪婪策略,在开始阶段或者在训练初期,设置较高的ε值,以便更全面地了解环境和获得更多的经验;随着动作选择次数的增加,智能体逐渐获得了足够的经验和对环境的了解,此时逐渐减小ε的值,利用已知的最优动作来获取最大的长期回报,ε定义如下:
21、ε=max{0.1,ε-0.0001×n} (3)
22、其中n为智能体当前执行动作选择的次数。
23、上、中、下三层结构的深度强化学习中采用经验回放,通过设置经验回放池,将从环境中采样得到的<当前状态,动作,奖励,下一状态>存入该池中,当训练深度学习算法时,从中随机采样若干数据进行训练,提高样本利用效率。
24、与现有技术相比,本发明有益效果如下:
25、本发明采用的分层强化学习方法能够分解复杂问题,将整个问题分解为多个子任务,使问题更易于理解和解决,分布式车间调度问题通常具有较大的规模和复杂性,涉及多个车间、资源和约束条件,分层强化学习可以通过逐层分解,每个子任务可以被独立地建模和优化,降低了问题的复杂性。
26、本发明具有良好的可扩展性,可以适应不同规模和复杂程度的分布式车间调度问题;允许在各个层次上进行快速决策和调整,从而提高了系统的响应速度和灵活性;可以在不同的决策层次上对各个目标进行优化,从而实现多目标的最优解。
1.一种基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,包括以下步骤
2.根据权利要求1所述的基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,所述工序选择智能体的状态空间包括:工件的平均完成率、完成率标准差、估计延迟率和实际延迟率;动作空间包括:选择完成程度低的工件工序、选择紧迫程度高的工件工序、选择剩余加工时间长的工件工序。
3.根据权利要求1所述的基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,工厂选择智能体的状态空间包括:所有工厂机器平均利用率、利用率标准差;动作空间包括:选择工件加工时间最短的工厂、选择机器平均利用率最低的工厂、选择当前空闲的工厂。
4.根据权利要求1所述的基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,机器选择智能体的状态空间包括:工厂机器平均利用率、利用率标准差;动作空间包括:选择工序加工时间最短的机器、选择利用率最低的机器、选择工厂中空闲的机器。
5.根据权利要求1所述的基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,上、中、下三层结构的深度强化学习算法相同,利用ddqn算法,使用一套神经网络qw的输出选取价值最大的动作但在使用该动作的价值时,用另一套神经网络计算该动作的价值,从而避免动作最终使用的值不会存在很大的过高估计问题,优化目标为:
6.根据权利要求1所述的基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,上、中、下三层结构的深度强化学习中的搜索策略为:
7.根据权利要求1所述的基于分层选择式深度强化学习的多目标分布式柔性作业车间调度方法,其特征在于,上、中、下三层结构的深度强化学习中采用经验回放,通过设置经验回放池,将从环境中采样得到的<当前状态,动作,奖励,下一状态>存入该池中,当训练深度学习算法时,从中随机采样若干数据进行训练,提高样本利用效率。