本技术涉及复杂系统的维修与备件管理,特别涉及一种高铁轮对维修与备件管理的协同优化方法及装置。
背景技术:
1、轮对是高铁列车的关键组成部分,其直接与轨道接触,承担支撑和推进列车的重要任务。一列高铁列车由8至16节车厢构成,每节高铁车厢由四个轮组支撑,每个轮组包括两个轮子。这些轮子是与铁路轨道主要接触的界面,长时间的互动使轮子逐渐磨损甚至故障。轮子的维护必须遵循严格的几何形状和公差标准,以确保运行的安全与效率,且同一轴、同一车厢乃至整列高铁列车中轮子的直径均需遵守特定的公差限制,该要求使得轮子的精确镟修或更换成为确保列车安全与功能性的必要措施。
2、随着时间的推移,轮对系统中的各个组件会逐渐退化。铁路公司通过传感器定期收集的数据实施检查和维修活动,动态地进行维修与库存决策。一旦轮子状态不佳,就会进行相应的镟修或更换,以确保其功能完备,若轮径不达标,则必须进行轮对更换,这就要求动车所储备足够数量的备件以便及时更换;然而,备件的过度储备将导致库存成本的增加,而备件不足则可能导致高昂的缺货成本;平衡备件的数量是降低总成本的关键,轮对维修与备件管理协同优化的目标是通过检查轮对直径和轮缘厚度,确定镟修与更换的最佳策略,在降低系统维修与备件管理联合成本的同时确保高铁列车的可靠性需求。
3、目前,中国的高速列车维护模式主要是周期性维护,轮对每运行200000公里进行一次重新加工,这种周期性维护策略可能导致资源的过度使用和浪费。因此,采用新兴的深度强化学习技术,通过与环境的交互学习并适应变化,可以优化维修策略,实现维修策略的动态调整,最小化成本并实现可靠性保障。现有的实现动态高效低成本的高铁轮对维修策略还存在以下挑战:
4、1、铁路轮对维修策略更多为固定的定周期维修策略,而非根据设备状态动态调整,过维修较为严重,造成大量的成本和资源浪费。
5、2、现有的高铁轮对维修策略没有与系统可靠性相关联,轮对间的结构关联性考虑不足,这可能给高铁的安全驾驶带来潜在风险。
6、3、轮对维修策略的制定未充分考虑动车所内轮对备件库存的影响。在制定轮对维修策略时,考虑轮对维修与备件管理的综合成本,可以进一步实现车辆运维成本的整体性降低。
7、4、当前的轮对维修优化模型求解算法存在求解效率低,求解能力受限,可解决的问题规模小的问题,对于管理多个高铁列车的动车所而言存在很大的应用局限性。
8、综上所述,现有高铁轮对维修策略未充分考虑动车所内轮对备件库存的影响和轮对间的结构关联性,且过维修较为严重,求解算法的效率较低,应用局限性较大,亟待解决。
技术实现思路
1、本技术提供一种高铁轮对维修与备件管理的协同优化方法及装置,以解决现有高铁轮对维修策略未充分考虑动车所内轮对备件库存的影响和轮对间的结构关联性,且维修成本较高,轮对维修优化模型求解算法的效率较低等问题。
2、本技术第一方面实施例提供一种高铁轮对维修与备件管理的协同优化方法,包括以下步骤:构建高铁轮对的退化及镟修行为模型,并根据所述退化及镟修行为模型确定第(t+1)次决策节点的再镟修增益,以通过所述再镟修增益得到所述第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式,其中,t为正整数;基于所述退化及镟修行为模型、所述车轮轮径和轮缘厚度的数学表达式,构建所述高铁轮对的更换与备件管理行为模型,以根据所述更换与备件管理行为模型确定动态库存控制策略;基于所述动态库存控制策略,构建mdp五元组模型,并根据所述mdp五元组模型和预设的安全约束集建立cmdp模型,且利用预设的执行器-评价器策略梯度架构和约束策略优化算法求解所述cmdp模型,以得到满足预设优化要求的高铁轮对维修与备件管理的协同优化结果。
3、可选地,在本技术的一个实施例中,所述根据所述退化及镟修行为模型确定第(t+1)次决策节点的再镟修增益,以通过所述再镟修增益得到所述第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式,包括:确定所述高铁车轮的车轮轮径下界和轮缘厚度下界;获取所述高铁车轮在第t次决策节点的实际车轮轮径和实际轮缘厚度;基于所述实际车轮轮径和所述实际轮缘厚度,计算所述第(t+1)次决策节点的车轮轮径和轮缘厚度,并根据所述车轮轮径下界、所述轮缘厚度下界、所述第(t+1)次决策节点的车轮轮径和轮缘厚度判断所述高铁车轮是否满足预设故障风险条件;如果所述高铁车轮满足所述预设故障风险条件,则通过所述退化及镟修行为模型计算所述第(t+1)次决策节点的再镟修增益;根据所述再镟修增益和预设的非线性回归函数得到所述第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式。
4、可选地,在本技术的一个实施例中,所述根据所述更换与备件管理行为模型确定动态库存控制策略,包括:确定所述高铁车轮在所述第t次决策节点的库存水平和更换车轮数量;基于所述更换与备件管理行为模型、预设分段线性函数、所述第t次决策节点的库存水平和更换车轮数量,计算所述第(t+1)次决策节点的备件库存水平;根据所述第(t+1)次决策节点的备件库存水平判断所述高铁车轮是否满足预设缺货条件,并在所述高铁车轮满足所述预设缺货条件的情况下,确定所述第t次决策节点订购的备件数量,以利用所述订购的备件数量更新所述第(t+1)次决策节点的备件库存水平。
5、可选地,在本技术的一个实施例中,所述基于所述动态库存控制策略,构建mdp五元组模型,包括:计算所述第t次决策节点的车轮轮径向量和轮缘厚度向量,并基于所述第t次决策节点的库存水平、所述车轮轮径向量和所述轮缘厚度向量,确定所述mdp五元组模型的状态空间;确定所述高铁车轮在所述第t次决策节点的车轮维修行为和备件订购数量行为,以根据所述车轮维修行为和所述备件订购数量行为建立所述mdp五元组模型的行为空间;根据所述状态空间和所述行为空间确定所述mdp五元组模型的转移模型;计算所述高铁车轮的车轮镞修成本、更换成本、单位缺货成本、库存成本和订货启动成本,以通过所述车轮镞修成本、所述更换成本、所述单位缺货成本、所述库存成本和所述订货启动成本确定所述mdp五元组模型的奖励函数;根据所述状态空间、所述行为空间、所述转移模型和所述奖励函数构建所述mdp五元组模型。
6、可选地,在本技术的一个实施例中,所述根据所述mdp五元组模型和预设的安全约束集建立cmdp模型,且利用预设的执行器-评价器策略梯度架构和约束策略优化算法求解所述cmdp模型,以得到满足预设优化要求的高铁轮对维修与备件管理的协同优化结果,包括:基于所述状态空间、所述行为空间和所述奖励函数,确定所述安全约束集,以根据所述mdp五元组模型和所述安全约束集构建所述cmdp模型;对目标高铁列车的同一车厢的相邻高铁车轮进行轮径差异检测,以得到轮径差异结果,并根据所述轮径差异结果建立额外安全约束;基于所述额外安全约束,获取期望折扣回报,并根据所述期望折扣回报和所述目标高铁列车的预设安全阈值确定所述cmdp模型的可靠性约束;通过所述执行器-评价器策略梯度架构对所述cmdp模型进行参数化,并基于参数化后的cmdp模型,且结合预设的信赖域策略优化算法、约束化策略更新规则和约束策略优化算法,计算在所述可靠性约束下的协同优化结果。
7、本技术第二方面实施例提供一种高铁轮对维修与备件管理的协同优化装置,包括:第一构建模块,用于构建高铁轮对的退化及镟修行为模型,并根据所述退化及镟修行为模型确定第(t+1)次决策节点的再镟修增益,以通过所述再镟修增益得到所述第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式,其中,t为正整数;第二构建模块,用于基于所述退化及镟修行为模型、所述车轮轮径和轮缘厚度的数学表达式,构建所述高铁轮对的更换与备件管理行为模型,以根据所述更换与备件管理行为模型确定动态库存控制策略;求解模块,用于基于所述动态库存控制策略,构建mdp五元组模型,并根据所述mdp五元组模型和预设的安全约束集建立cmdp模型,且利用预设的执行器-评价器策略梯度架构和约束策略优化算法求解所述cmdp模型,以得到满足预设优化要求的高铁轮对维修与备件管理的协同优化结果。
8、可选地,在本技术的一个实施例中,所述第一构建模块包括:第一确定单元,用于确定所述高铁车轮的车轮轮径下界和轮缘厚度下界;第一获取单元,用于获取所述高铁车轮在第t次决策节点的实际车轮轮径和实际轮缘厚度;第一判断单元,用于基于所述实际车轮轮径和所述实际轮缘厚度,计算所述第(t+1)次决策节点的车轮轮径和轮缘厚度,并根据所述车轮轮径下界、所述轮缘厚度下界、所述第(t+1)次决策节点的车轮轮径和轮缘厚度判断所述高铁车轮是否满足预设故障风险条件;第一计算单元,用于如果所述高铁车轮满足所述预设故障风险条件,则通过所述退化及镟修行为模型计算所述第(t+1)次决策节点的再镟修增益;第二计算单元,用于根据所述再镟修增益和预设的非线性回归函数得到所述第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式。
9、可选地,在本技术的一个实施例中,所述第二构建模块包括:第二确定单元,用于确定所述高铁车轮在所述第t次决策节点的库存水平和更换车轮数量;第三计算单元,用于基于所述更换与备件管理行为模型、预设分段线性函数、所述第t次决策节点的库存水平和更换车轮数量,计算所述第(t+1)次决策节点的备件库存水平;第二判断单元,用于根据所述第(t+1)次决策节点的备件库存水平判断所述高铁车轮是否满足预设缺货条件,并在所述高铁车轮满足所述预设缺货条件的情况下,确定所述第t次决策节点订购的备件数量,以利用所述订购的备件数量更新所述第(t+1)次决策节点的备件库存水平。
10、可选地,在本技术的一个实施例中,所述求解模块包括:第四计算单元,用于计算所述第t次决策节点的车轮轮径向量和轮缘厚度向量,并基于所述第t次决策节点的库存水平、所述车轮轮径向量和所述轮缘厚度向量,确定所述mdp五元组模型的状态空间;建立单元,用于确定所述高铁车轮在所述第t次决策节点的车轮维修行为和备件订购数量行为,以根据所述车轮维修行为和所述备件订购数量行为建立所述mdp五元组模型的行为空间;第三确定单元,用于根据所述状态空间和所述行为空间确定所述mdp五元组模型的转移模型;第五计算单元,用于计算所述高铁车轮的车轮镞修成本、更换成本、单位缺货成本、库存成本和订货启动成本,以通过所述车轮镞修成本、所述更换成本、所述单位缺货成本、所述库存成本和所述订货启动成本确定所述mdp五元组模型的奖励函数;第一建模单元,用于根据所述状态空间、所述行为空间、所述转移模型和所述奖励函数构建所述mdp五元组模型。
11、可选地,在本技术的一个实施例中,所述求解模块还包括:第二建模单元,用于基于所述状态空间、所述行为空间和所述奖励函数,确定所述安全约束集,以根据所述mdp五元组模型和所述安全约束集构建所述cmdp模型;检测单元,用于对目标高铁列车的同一车厢的相邻高铁车轮进行轮径差异检测,以得到轮径差异结果,并根据所述轮径差异结果建立额外安全约束;第二获取单元,用于基于所述额外安全约束,获取期望折扣回报,并根据所述期望折扣回报和所述目标高铁列车的预设安全阈值确定所述cmdp模型的可靠性约束;参数化单元,用于通过所述执行器-评价器策略梯度架构对所述cmdp模型进行参数化,并基于参数化后的cmdp模型,且结合预设的信赖域策略优化算法、约束化策略更新规则和约束策略优化算法,计算在所述可靠性约束下的协同优化结果。
12、本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的高铁轮对维修与备件管理的协同优化方法。
13、本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的高铁轮对维修与备件管理的协同优化方法。
14、本技术第五方面实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被执行,以用于实现上述的高铁轮对维修与备件管理的协同优化方法。
15、由此,本技术的实施例具有以下有益效果:
16、本技术的实施例可通过构建高铁轮对的退化及镟修行为模型,并根据退化及镟修行为模型确定第(t+1)次决策节点的再镟修增益,以通过再镟修增益得到第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式,其中,t为正整数;基于退化及镟修行为模型、车轮轮径和轮缘厚度的数学表达式,构建高铁轮对的更换与备件管理行为模型,以根据更换与备件管理行为模型确定动态库存控制策略;基于动态库存控制策略,构建mdp五元组模型,并根据mdp五元组模型和预设的安全约束集建立cmdp模型,且利用预设的执行器-评价器策略梯度架构和约束策略优化算法求解cmdp模型,以得到满足预设优化要求的高铁轮对维修与备件管理的协同优化结果。本技术能够显著提高系统的运行效率,减少因故障或缺货导致的停机时间,确保系统能够持续稳定运行;此外,本技术通过合理的协同优化策略,有助于降低库存成本,避免了资源浪费,同时提高了应对突发故障的能力。由此,解决了现有高铁轮对维修策略未充分考虑动车所内轮对备件库存的影响和轮对间的结构关联性,且维修成本较高,轮对维修优化模型求解算法的效率较低等问题。
17、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
1.一种高铁轮对维修与备件管理的协同优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述根据所述退化及镟修行为模型确定第(t+1)次决策节点的再镟修增益,以通过所述再镟修增益得到所述第(t+1)次决策节点镟修后的车轮轮径和轮缘厚度的数学表达式,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述更换与备件管理行为模型确定动态库存控制策略,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述动态库存控制策略,构建mdp五元组模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述mdp五元组模型和预设的安全约束集建立cmdp模型,且利用预设的执行器-评价器策略梯度架构和约束策略优化算法求解所述cmdp模型,以得到满足预设优化要求的高铁轮对维修与备件管理的协同优化结果,包括:
6.一种高铁轮对维修与备件管理的协同优化装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述第一构建模块包括:
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5中任一项所述的高铁轮对维修与备件管理的协同优化方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5中任一项所述的高铁轮对维修与备件管理的协同优化方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被执行,以用于实现如权利要求1-5中任一项所述的高铁轮对维修与备件管理的协同优化方法。