一种基于深度强化学习的不规则裁片自动排样方法

专利2024-06-30  57



1.本发明属于计算机图形学领域的一种不规则裁片自动排样方法,具体是一种基于深度强化学习的不规则裁片自动排样方法。


背景技术:

2.二维不规则裁片排样问题在于如何求解出合适的不规则裁片排样顺序,高质量的排样顺序能够显著提升最终布局方案的排样利用率。不规则裁片排样顺序优化问题具有庞大的解空间,因此难以设计出针对性的最优算法。目前不规则裁片排样顺序优化方法主要分为两类:一类是基于数学模型构建排样过程,并结合几何原理求解出合适的排样顺序;另一类是基于智能优化算法进行迭代优化,从而求解出合适的排样顺序。
3.针对小规模或者具有特定几何特征的排样问题,精确的数学模型能够求解出最佳的不规则裁片排样顺序。alvarez-valdes等人提出一种基于混合整数公式的分支定界算法,能够适用于不超过12个裁片的排样问题。cherri等人提出了一种新型混合整数二次约束规划模型,能够允许裁片自由旋转,并结合凸化分解法与对称破坏约束,在求解小规模排样问题时展现出极佳的性能。toledo等人提出了一种基于栅格表示法的混合整数模型,能够解决较大规模的排样问题,但对不规则裁片的摆放位置存在一定限制。李锦瑞提出了一种混合整数规划模型对裁片的摆放约束进行了限制,在改进的遗传算法框架下求解对应模型,并在迭代优化过程中添加约束,有效提升了算法的计算性能。
4.随着不规则裁片数目的增加,其解空间将爆炸式增长,精确数学模型便无法展现出较好的求解性能,其适用范围存在一定限制。因此针对中大规模的排样问题,元启发式算法及其混合算法通常被视为是一种有效的解决方案。梁利东等人提出了一种基于免疫遗传算法的排样顺序优化方法,有效提高了算法整体的搜索速度,同时增大了搜索范围,对比标准遗传算法所获得的布局方案,矩形板材的排样利用率得到了明显的提升。周子琳结合重心nfp与边适应度的混合定位规则,针对遗传算法局部搜索性能表现较差而过早陷入局部最优的问题,混合了禁忌搜索算法对排样顺序优化问题的解空间进行了更有效的搜索。pinheiro等人以及amaro等人提出了利用随机键遗传算法来迭代优化不规则裁片的排样顺序与摆法旋转角度,并结合并行计算原理提升算法的优化效果。mundim等人在此基础上利用偏随机键遗传算法对交叉变异机制进行了完善,同时对不规则裁片的定位规则进行约束以减小搜索空间,并结合临界栅格图加速不规则裁片之间的碰撞检测,获得了更高质量的布局方案。
5.上述学者在处理不规则裁片排样顺序优化问题时,因为该类问题的解空间规模庞大,往往利用启发式算法或元启发式算法搜索最优解。常见的有遗传算法、蚁群算法、模拟退火算法以及一些混合智能优化算法,这类算法能够通过迭代优化求解出可行的不规则裁片排样顺序,但由于算法自身的特性在迭代过程中容易陷入局部最优。并且此类算法在迭代过程中会呈现出一定的随机性,求解出的排样结果往往难以复现,其求解性能表现不够稳定,这也导致了其在实际工程中的应用性大大降低。


技术实现要素:

6.鉴于上述现有技术中存在的问题,本发明提出了一种基于深度强化学习的不规则裁片自动排样方法。
7.本发明包括以下步骤:
8.s1:对每批中各个原始不规则裁片分别进行预处理,获得对应预处理后的不规则裁片,再按照面积对当前批预处理后的不规则裁片进行降序排列,获得当前批预处理后的不规则裁片的初始排样顺序;
9.s2:求解并获得当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形;
10.s3:基于当前批预处理后的不规则裁片的初始排样顺序,根据当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形对当前批预处理后的不规则裁片进行矩形板材上的排样,获得初始排样结果以及矩形板材的初始长度;
11.s4:根据当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形,利用深度循环q学习网络模型对初始排样结果进行迭代优化排样,不断缩减矩形板材的长度,直至排样时间超出规定时间,输出最终排样结果。
12.所述s1中,首先对每批中各个原始不规则裁片分别进行点集约减,获得对应的点集约减后的不规则裁片;
13.接着对各个点集约减后的不规则裁片进行轮廓外扩,获得对应的轮廓外扩后的不规则裁片,将轮廓外扩后的不规则裁片作为预处理后的不规则裁片。
14.所述s3具体为:
15.s31:按照初始排样顺序从当前批预处理后的不规则裁片中依次选择待摆放裁片,根据每个待摆放裁片与已摆放裁片两两之间的临界多边形以及当前待摆放裁片对于矩形板材的内靠接矩形计算当前待摆放裁片的待摆放位置评估参数s,基于待摆放位置评估参数s选择当前待摆放裁片在矩形板材上的最优摆放位置,直至已摆放裁片大于预设已摆放裁片阈值;
16.s32:按照初始排样顺序,继续从当前批预处理后的不规则裁片中选择待摆放裁片,选择a2个待摆放裁片并记为局部搜索候选集,计算局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s,然后摆放当前局部搜索候选集中最优的待摆放位置评估参数s对应的待摆放裁片;继续按照初始排样顺序选择下一个待摆放裁片并放入局部搜索候选集中,计算当前局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s,然后摆放当前局部搜索候选集中最优的待摆放位置评估参数s对应的待摆放裁片,直至没有下一个待摆放裁片;
17.s33:按照当前局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s的降序依次摆放当前局部搜索候选集中的各个待摆放裁片,直至排样结束,生成初始排样结果以及矩形板材的初始长度。
18.所述待摆放裁片的待摆放位置评估参数s的计算公式如下:
19.s=f+w+p
[0020][0021][0022][0023]
其中,f表示待摆放裁片对应摆放位置的贴合适应度,w表示待摆放裁片的等待次数参数,p表示待摆放裁片的性能提升参数;l表示矩形板材的理想使用长度,u表示矩形板材已使用长度,k表示贴合适应度选择参数,f1表示贴合参数,s1表示当前待摆放裁片与已摆放裁片各自对应的预处理后的不规则裁片之间的相交面积,s2表示待摆放裁片对应的预处理后的不规则裁片超出矩形板材的面积,s3表示待摆放裁片与对应的预处理后的不规则裁片之间的面积差值;f2表示位置参数;x表示待摆放裁片在矩形板材中摆放后对应的预处理后的不规则裁片中的最大横坐标值。
[0024]
所述s31中,待摆放裁片的性能提升参数p为0;
[0025]
s32中,待摆放裁片的性能提升参数p通过以下方法进行设置:
[0026]
每轮摆放中,记录局部搜索候选集中各个待摆放裁片对应摆放位置的贴合适应度;如果下一轮摆放中,局部搜索候选集中当前待摆放裁片对应摆放位置的贴合适应度f'
new
高于历史贴合适应度f'
old
,则当前待摆放裁片的性能提升参数p满足p=(f'
new-f'
old
)/f'
old
,并更新当前待摆放裁片对应摆放位置的贴合适应度,如果贴合适应度一直没有提升,则当前待摆放裁片的性能提升参数p为0。
[0027]
所述s4具体为:
[0028]
s41:将初始排样布局作为初始迭代排样结果,将初始迭代排样结果下的排样顺序记为初始待排裁片集合;
[0029]
s42:以概率ε从当前待排裁片集合中随机选择待排裁片,或者以概率1-ε从当前待排裁片集合中选择使得最大q值的待排裁片,再计算选择的待排裁片的收益值,由当前待排裁片集合、选择的待排裁片以及对应的收益值组成一个裁片转移序列并编号,然后将选择的待排裁片从当前待排裁片集合中去除并更新待排裁片集合;
[0030]
s43:重复s42,直至当前待排裁片集合为空集,获得初始待排裁片集合中各个待排裁片对应的裁片转移序列,将各个待排裁片对应的裁片转移序列按照编号排序后,获得当前轮迭代排样结果并更新迭代排样结果以及待排裁片集合;
[0031]
s44:重复多次s42-s43,获得多轮迭代排样结果;
[0032]
s45:随机抽取k轮迭代排样结果后输入到深度循环q学习网络模型中进行训练,其中每轮迭代排样结果下,每个裁片转移序列中的待排裁片集合作为网络模型的输入,根据各个裁片转移序列的收益值计算获得当前待排裁片集合下选择的待排裁片的q值并作为网络模型的优化目标q’,获得训练好的网络模型;
[0033]
s46:将初始待排裁片集合输入到训练好的网络模型中,训练好的网络模型输出初始待排裁片集合中选择各个待排裁片的q值,将q值最大的待排裁片作为最优待摆放裁片,根据最优待摆放裁片对应摆放位置的贴合适应度f确定出当前最优待摆放裁片的摆放位置
并在矩形板材的初始长度上进行摆放,接着将已摆放的待排裁片从初始待排裁片集合中去除并更新待排裁片集合;
[0034]
s47:将更新后的待排裁片集合作为初始待排裁片集合,重复s46,直至更新后的待排裁片集合为空集;
[0035]
s48:若在矩形板材的初始长度下能成功排下,则排样成功,获得优化排样结果和当前优化排样结果下的矩形板材长度;否则排样失败,则重复s46-s47进行重新排样;
[0036]
s49:若初始待排裁片集合输入到训练好的网络模型后的总排样时间小于预设排样时间,则将根据当前优化排样结果更新初始待排裁片集合以及矩形板材的初始长度,再重复s46-s48进行排样优化,否则将矩形板材长度最短的优化排样结果作为最终排样结果并输出。
[0037]
所述待排裁片的q值以及对应的收益值的计算公式如下:
[0038]qπ
(s,a)=e
π
[r(t)|s0=s,a0=a]
[0039][0040][0041][0042]
其中,q
π
(s,a)表示在当前迭代排样结果π下的当前待排裁片集合s和选择的待排裁片a对应的q值;e
π
[r(t)|s0=s,a0=a]表示求当s0=s,a0=a的情况下在初始排样结果π下总收益值r(t)的数学期望操作,s0表示初始待排裁片集合,a0表示初始待排裁片,γ表示折算因子,t表示当前待排裁片集合s中的待排裁片总数;r(t)表示总收益值,r
t
表示当前待排裁片集合s中第t个待排裁片的收益值,s表示初始待排裁片集合s中所有待排裁片面积之和,s
now
表示摆放成功的裁片的总面积,s
last
表示摆放失败后剩余裁片的总面积,q表示布尔变量,当当前待排裁片集合s中第t个待排裁片摆放成功时q为真,摆放失败时q为假;l表示矩形板材的初始长度,l表示矩形板材的理想使用长度,ε表示矩形板材的初始长度与理想使用长度的比值。
[0043]
本发明的有益效果为:
[0044]
首先对每批原始不规则裁片进行预处理,获得对应预处理后的不规则裁片,再按照面积进行降序排列,获得初始排样顺序;接着求解并获得当前批的临界多边形以及内靠接矩形;再基于当前批裁片的初始排样顺序,对当前批预处理后的不规则裁片进行排样,获得初始排样结果以及矩形板材的初始长度;然后对不规则裁片排样决策过程中的行为特点进行分析,基于强化学习将排样过程简化为排样序列决策过程,并完成建模。针对二维不规则裁片排样问题这类具有大规模状态及动作空间的复杂决策任务,设计了一种针对不规则裁片排样决策过程的drqn模型与对应训练算法,本文所设计的自动排样方法具有高效性和稳定性。
[0045]
本发明为实际生产中的排样任务提供了有效的解决方案,极大地提高了生产效率
并且节省了生产成本。
附图说明
[0046]
图1为本发明的算法结构图。
[0047]
图2为不规则裁片初始布局方案求解流程图。
[0048]
图3为不规则裁片迭代优化排样流程图。
[0049]
图4为drqn模型的训练流程图。
[0050]
图5为针对不规则裁片排样决策过程的drqn模型网络结构图。
[0051]
图6为albano最终布局方案图。
[0052]
图7为blaz最终布局方案图。
[0053]
图8为dagli最终布局方案图。
[0054]
图9为mao最终布局方案图。
[0055]
图10为shapes0最终布局方案图。
[0056]
图11为shapes1最终布局方案图。
[0057]
图12为shirts最终布局方案图。
[0058]
图13为marques最终布局方案图。
[0059]
图14为swim最终布局方案图。
[0060]
图15为trousers最终布局方案图。
具体实施方式
[0061]
以下结合附图和和具体实施例来对本发明作进一步详细说明。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰和改变。
[0062]
如图1所示,包括以下步骤:
[0063]
s1:对每批中各个原始不规则裁片分别进行预处理,获得对应预处理后的不规则裁片,以满足生产需求同时降低自动排样方法整体的计算复杂度,再按照面积对当前批预处理后的不规则裁片进行降序排列,获得当前批预处理后的不规则裁片的初始排样顺序;
[0064]
s1中,首先对每批中各个原始不规则裁片分别进行点集约减,具体为依次遍历每个原始不规则裁片的所有顶点,判断每个顶点的两条边长是否均小于预设边长阈值,若均小于预设边长阈值则继续判断删减该顶点后的裁片轮廓是否完全覆盖删减该顶点前的裁片轮廓,即删减该顶点后的裁片面积大于删减该顶点前的裁片面积,若是则成功删减该顶点,否则复原该顶点;获得对应的点集约减后的不规则裁片;
[0065]
接着对各个点集约减后的不规则裁片进行轮廓外扩,对每个点集约减后的不规则裁片的各边做预设距离的平行线,每组相邻边对应的两条平行线的交点作为外扩轮廓的一个新顶点,各个新顶点构成的新轮廓作为该点集约减后的不规则裁片对应的轮廓外扩后的不规则裁片,获得对应的轮廓外扩后的不规则裁片,将轮廓外扩后的不规则裁片作为预处理后的不规则裁片。
[0066]
s2:求解并获得当前批中每两个预处理后的不规则裁片之间的临界多边形nfp以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形ifr,以加快定位过程;
[0067]
s2具体为:
[0068]
s21:求解每两个预处理后的不规则裁片之间的临界多边形nfp,具体地:给定两个不规则裁片,其中第一个预处理后的不规则裁片a为固定裁片,第二个预处理后的不规则裁片b为移动裁片,首先将第一个预处理后的不规则裁片a中纵向坐标值最小的顶点与第二个预处理后的不规则裁片b中纵向坐标值最大的顶点重合,选取合适的参考点,参考点可以是任意点,但要求参考点跟随第二个预处理后的不规则裁片b移动并且始终保持与第二个裁片b的相对位置;然后根据当前两个预处理后的不规则裁片的相对位置情况,在保证在移动过程中第一预处理后的不规则裁片a与第二预处理后的不规则裁片b始终处于正好接触的情况但不相交的情况下,确定第二预处理后的不规则裁片b的移动方向;然后计算出在当前两个预处理后的不规则裁片在始终接触且不相交的情况下第二个预处理后的不规则裁片b在对应移动方向上的碰撞距离,从而获取到第二预处理后的不规则裁片的新位置;重复上述过程直至移动多边形b回到起始位置,在此过程中参考点的运动轨迹即所求nfp;
[0069]
s22:求解各个预处理后的不规则裁片对于矩形板材的内靠接矩形,具体地:首先遍历每个预处理后的不规则裁片的所有顶点,记录当前预处理后的不规则裁片所有顶点中x轴坐标最大值与最小值以及y轴坐标最大值与最小值,x轴坐标的最大差值为当前预处理后的不规则裁片宽度,y轴坐标的最大差值为当前预处理后的不规则裁片高度;矩形板材宽度减去当前预处理后的不规则裁片宽度即为ifr宽度,矩形板材高度减去当前预处理后的裁片高度即为ifr高度,由此可以确定当前预处理后的不规则裁片的ifr轮廓;再根据参考点的位置即可求解出对应的ifr。
[0070]
s3:矩形板材的宽度固定,假定矩形板材长度足够大,基于当前批预处理后的不规则裁片的初始排样顺序,根据当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形对当前批预处理后的不规则裁片进行矩形板材上的排样,获得初始排样结果以及矩形板材的初始长度;实际过程中是将矩形板材的长度设置为当前批原始不规则裁片的理想使用长度的5倍,当前批原始不规则裁片的理想使用长度通过各个原始不规则裁片的面积之和除以矩形板材的固定宽度计算获得,此时对应的最差排样利用率为20%,绝大部分裁片样本都能排样成功。
[0071]
如图2所示,s3具体为:
[0072]
s31:按照初始排样顺序从当前批预处理后的不规则裁片中依次选择待摆放裁片,根据每个待摆放裁片与已摆放裁片两两之间的临界多边形以及当前待摆放裁片对于矩形板材的内靠接矩形计算当前待摆放裁片的待摆放位置评估参数s,基于待摆放位置评估参数s选择当前待摆放裁片在矩形板材上的最优摆放位置,直至已摆放裁片大于预设已摆放裁片阈值a1,则执行s32,预设已摆放裁片阈值a1表示局部搜索中设定开始局部搜索时已摆放裁片的数目,记为局部搜索启动阈值;
[0073]
待摆放裁片的待摆放位置评估参数s的计算公式如下:
[0074]
s=f+w+p
[0075][0076]
[0077][0078]
其中,f表示待摆放裁片对应摆放位置的贴合适应度,w表示待摆放裁片的等待次数参数,等待次数参数w表示当前待摆放裁片已参与比较的次数与已摆放裁片个数的比值,即裁片被挑选进候选集中等待摆放的次数与已摆放裁片个数的比值,取值范围在0至1;p表示待摆放裁片的性能提升参数;l表示矩形板材的理想使用长度,u表示矩形板材已使用长度,k表示贴合适应度选择参数,为常数。f1表示贴合参数,s1表示当前待摆放裁片与已摆放裁片各自对应的预处理后的不规则裁片之间的相交面积,s2表示待摆放裁片对应的预处理后的不规则裁片超出矩形板材的面积,s3表示待摆放裁片与对应的预处理后的不规则裁片之间的面积差值,为正数;f2表示位置参数;x表示待摆放裁片在矩形板材中摆放后对应的预处理后的不规则裁片中的最大横坐标值。
[0079]
s31中,待摆放裁片的性能提升参数p为0;
[0080]
s32中,待摆放裁片的性能提升参数p通过以下方法进行设置:
[0081]
待摆放裁片的性能提升参数p表示当前待摆放裁片在每轮摆放中,需要记录竞争失败的裁片所得到的最高贴合适应度值(记为f')。每轮摆放中,记录局部搜索候选集中各个待摆放裁片对应摆放位置的贴合适应度;如果下一轮摆放中,局部搜索候选集中当前待摆放裁片对应摆放位置的贴合适应度f'
new
高于历史贴合适应度f'
old
,则当前待摆放裁片的性能提升参数p满足p=(f'
new-f'
old
)/f'
old
,并更新当前待摆放裁片对应摆放位置的贴合适应度,如果贴合适应度一直没有提升,则当前待摆放裁片的性能提升参数p为0。
[0082]
s32:按照初始排样顺序,继续从当前批预处理后的不规则裁片中选择待摆放裁片,选择a2个待摆放裁片并记为局部搜索候选集,阈值a2表示局部搜索候选集中待摆放裁片的数目,记为局部搜索候选集容量;计算局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s,然后摆放当前局部搜索候选集中最优的待摆放位置评估参数s对应的待摆放裁片,并删除当前局部搜索候选集中摆放后的待摆放裁片;继续按照初始排样顺序选择下一个待摆放裁片并放入局部搜索候选集中,计算当前局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s,然后摆放当前局部搜索候选集中最优的待摆放位置评估参数s对应的待摆放裁片,直至没有下一个待摆放裁片;
[0083]
s33:按照当前局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s的降序依次摆放当前局部搜索候选集中的各个待摆放裁片,直至排样结束,生成初始排样布局以及矩形板材的初始长度。
[0084]
s4:根据当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形,利用深度循环q学习网络模型对初始排样结果进行迭代优化排样,不断缩减矩形板材的长度,直至排样时间超出规定时间,输出最终排样结果。
[0085]
如图3、图4和图5所示,s4具体为:
[0086]
s41:将初始排样布局作为初始迭代排样结果,将初始迭代排样结果下的排样顺序记为初始待排裁片集合;
[0087]
s42:以概率ε从当前待排裁片集合中随机选择待排裁片,或者以概率1-ε从当前待排裁片集合中选择使得最大q值的待排裁片并摆放,根据选择的待排裁片对应摆放位置的
[0102]
其中,q(sj,aj;θ)表示在第j次摆放裁片下,当待摆放集合为sj,选择摆放裁片aj,网络结构参数为θ下的网络输出q值。
[0103]
s46:将初始待排裁片集合输入到训练好的网络模型中,训练好的网络模型输出初始待排裁片集合中选择各个待排裁片的q值,将q值最大的待排裁片作为最优待摆放裁片,根据最优待摆放裁片对应摆放位置的贴合适应度f确定出当前最优待摆放裁片的摆放位置并在矩形板材的初始长度上进行摆放,接着将已摆放的待排裁片从初始待排裁片集合中去除并更新待排裁片集合;
[0104]
s47:将更新后的待排裁片集合作为初始待排裁片集合,重复s46,直至更新后的待排裁片集合为空集;
[0105]
s48:若在矩形板材的初始长度下能成功排下,则排样成功,获得优化排样结果和当前优化排样结果下的矩形板材长度,当前优化排样结果下的矩形板材长度小于矩形板材的初始长度;否则排样失败,则矩形板材的初始长度保持不变,重复s46-s47进行重新排样;
[0106]
s49:若初始待排裁片集合输入到训练好的网络模型后的总排样时间小于预设排样时间,则将根据当前优化排样结果更新初始待排裁片集合以及矩形板材的初始长度,再重复s46-s48进行排样优化,否则将矩形板材长度最短的优化排样结果作为最终排样结果并输出。
[0107]
本发明的实施例通过对esicup提供的10组国际通用的排样基准用例进行求解,并将算法在各基准用例下获得的排样结果与现有的三种有效自动排样算法的排样结果进行比较:配对精准放置算法(pepa),遗传算法与禁忌搜索算法的混合智能算法(gats),以及偏随机键遗传算法(brkga)。
[0108]
具体drqn模型超参数取值如表1所示;
[0109]
表1:drqn模型超参数表
[0110][0111]
排样基准用例实验使用本章提出的不规则裁片自动排样算法对各基准用例进行10次独立计算,记录下每次独立计算下算法的排样结果,用η

表示排样结果中的最优利用率,用表示排样结果的平均利用率。排样基准用例的规模并不相同,因此对不同排样基准用例设定了不同的排样规定时间,算法平均运行时间记为t,单位为秒(s),四种算法排样结
果的最优利用率与排样时间对比如表2所示,其中四种算法在各基准用例下对比后的最优利用率用粗体加下划线标明;排样结果的平均利用率对比如表3所示,同样用粗体加下划线标明对比后的最优平均利用率。本发明获得的不规则裁片最终布局方案如图7至图15所示。
[0112]
表2:四种算法排样结果的最优利用率与排样时间对比表
[0113][0114]
表3:排样结果的平均利用率对比表
[0115][0116]
综上实施例可知,本发明提出的自动排样算法能够获得高质量的不规则裁片排样布局方案,具有应用于实际生产的价值,同时证明了drqn模型的高效性与稳定性。尤其针对大批量定制生产,需要尽可能地获得更高排样利用率的排样布局方案以缩减生产成本,往往可以容忍更高的排样时间,此时drqn模型下的自动排样算法将更具有竞争力。至此说明本发明在实际生产环境的适用性,对于提高缝纫车间的生产效率,缩减生产成本具有重大意义。
[0117]
上述具体实施例仅例式性说明本发明的原理与其功效,并非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,凡在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍
应由本发明的权利要求所涵盖。

技术特征:
1.一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,包括以下步骤:s1:对每批中各个原始不规则裁片分别进行预处理,获得对应预处理后的不规则裁片,再按照面积对当前批预处理后的不规则裁片进行降序排列,获得当前批预处理后的不规则裁片的初始排样顺序;s2:求解并获得当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形;s3:基于当前批预处理后的不规则裁片的初始排样顺序,根据当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形对当前批预处理后的不规则裁片进行矩形板材上的排样,获得初始排样结果以及矩形板材的初始长度;s4:根据当前批中每两个预处理后的不规则裁片之间的临界多边形以及各个预处理后的不规则裁片对于矩形板材的内靠接矩形,利用深度循环q学习网络模型对初始排样结果进行迭代优化排样,不断缩减矩形板材的长度,直至排样时间超出规定时间,输出最终排样结果。2.根据权利要求1所述的一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,所述s1中,首先对每批中各个原始不规则裁片分别进行点集约减,获得对应的点集约减后的不规则裁片;接着对各个点集约减后的不规则裁片进行轮廓外扩,获得对应的轮廓外扩后的不规则裁片,将轮廓外扩后的不规则裁片作为预处理后的不规则裁片。3.根据权利要求1所述的一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,所述s3具体为:s31:按照初始排样顺序从当前批预处理后的不规则裁片中依次选择待摆放裁片,根据每个待摆放裁片与已摆放裁片两两之间的临界多边形以及当前待摆放裁片对于矩形板材的内靠接矩形计算当前待摆放裁片的待摆放位置评估参数s,基于待摆放位置评估参数s选择当前待摆放裁片在矩形板材上的最优摆放位置,直至已摆放裁片大于预设已摆放裁片阈值;s32:按照初始排样顺序,继续从当前批预处理后的不规则裁片中选择待摆放裁片,选择a2个待摆放裁片并记为局部搜索候选集,计算局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s,然后摆放当前局部搜索候选集中最优的待摆放位置评估参数s对应的待摆放裁片;继续按照初始排样顺序选择下一个待摆放裁片并放入局部搜索候选集中,计算当前局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s,然后摆放当前局部搜索候选集中最优的待摆放位置评估参数s对应的待摆放裁片,直至没有下一个待摆放裁片;s33:按照当前局部搜索候选集中各个待摆放裁片的待摆放位置评估参数s的降序依次摆放当前局部搜索候选集中的各个待摆放裁片,直至排样结束,生成初始排样结果以及矩形板材的初始长度。4.根据权利要求3所述的一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,所述待摆放裁片的待摆放位置评估参数s的计算公式如下:s=f+w+p
其中,f表示待摆放裁片对应摆放位置的贴合适应度,w表示待摆放裁片的等待次数参数,p表示待摆放裁片的性能提升参数;l表示矩形板材的理想使用长度,u表示矩形板材已使用长度,k表示贴合适应度选择参数,f1表示贴合参数,s1表示当前待摆放裁片与已摆放裁片各自对应的预处理后的不规则裁片之间的相交面积,s2表示待摆放裁片对应的预处理后的不规则裁片超出矩形板材的面积,s3表示待摆放裁片与对应的预处理后的不规则裁片之间的面积差值;f2表示位置参数;x表示待摆放裁片在矩形板材中摆放后对应的预处理后的不规则裁片中的最大横坐标值。5.根据权利要求4所述的一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,所述s31中,待摆放裁片的性能提升参数p为0;s32中,待摆放裁片的性能提升参数p通过以下方法进行设置:每轮摆放中,记录局部搜索候选集中各个待摆放裁片对应摆放位置的贴合适应度;如果下一轮摆放中,局部搜索候选集中当前待摆放裁片对应摆放位置的贴合适应度f'
new
高于历史贴合适应度f'
old
,则当前待摆放裁片的性能提升参数p满足p=(f'
new-f'
old
)/f'
old
,并更新当前待摆放裁片对应摆放位置的贴合适应度,如果贴合适应度一直没有提升,则当前待摆放裁片的性能提升参数p为0。6.根据权利要求1所述的一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,所述s4具体为:s41:将初始排样布局作为初始迭代排样结果,将初始迭代排样结果下的排样顺序记为初始待排裁片集合;s42:以概率ε从当前待排裁片集合中随机选择待排裁片,或者以概率1-ε从当前待排裁片集合中选择使得最大q值的待排裁片,再计算选择的待排裁片的收益值,由当前待排裁片集合、选择的待排裁片以及对应的收益值组成一个裁片转移序列并编号,然后将选择的待排裁片从当前待排裁片集合中去除并更新待排裁片集合;s43:重复s42,直至当前待排裁片集合为空集,获得初始待排裁片集合中各个待排裁片对应的裁片转移序列,将各个待排裁片对应的裁片转移序列按照编号排序后,获得当前轮迭代排样结果并更新迭代排样结果以及待排裁片集合;s44:重复多次s42-s43,获得多轮迭代排样结果;s45:随机抽取k轮迭代排样结果后输入到深度循环q学习网络模型中进行训练,其中每轮迭代排样结果下,每个裁片转移序列中的待排裁片集合作为网络模型的输入,根据各个裁片转移序列的收益值计算获得当前待排裁片集合下选择的待排裁片的q值并作为网络模型的优化目标q’,获得训练好的网络模型;s46:将初始待排裁片集合输入到训练好的网络模型中,训练好的网络模型输出初始待
排裁片集合中选择各个待排裁片的q值,将q值最大的待排裁片作为最优待摆放裁片,根据最优待摆放裁片对应摆放位置的贴合适应度f确定出当前最优待摆放裁片的摆放位置并在矩形板材的初始长度上进行摆放,接着将已摆放的待排裁片从初始待排裁片集合中去除并更新待排裁片集合;s47:将更新后的待排裁片集合作为初始待排裁片集合,重复s46,直至更新后的待排裁片集合为空集;s48:若在矩形板材的初始长度下能成功排下,则排样成功,获得优化排样结果和当前优化排样结果下的矩形板材长度;否则排样失败,则重复s46-s47进行重新排样;s49:若初始待排裁片集合输入到训练好的网络模型后的总排样时间小于预设排样时间,则将根据当前优化排样结果更新初始待排裁片集合以及矩形板材的初始长度,再重复s46-s48进行排样优化,否则将矩形板材长度最短的优化排样结果作为最终排样结果并输出。7.根据权利要求6所述的一种基于深度强化学习的不规则裁片自动排样方法,其特征在于,所述待排裁片的q值以及对应的收益值的计算公式如下:q
π
(s,a)=e
π
[r(t)|s0=s,a0=a]=a]=a]其中,q
π
(s,a)表示在当前迭代排样结果π下的当前待排裁片集合s和选择的待排裁片a对应的q值;e
π
[r(t)|s0=s,a0=a]表示求当s0=s,a0=a的情况下在初始排样结果π下总收益值r(t)的数学期望操作,s0表示初始待排裁片集合,a0表示初始待排裁片,γ表示折算因子,t表示当前待排裁片集合s中的待排裁片总数;r(t)表示总收益值,r
t
表示当前待排裁片集合s中第t个待排裁片的收益值,s表示初始待排裁片集合s中所有待排裁片面积之和,s
now
表示摆放成功的裁片的总面积,s
last
表示摆放失败后剩余裁片的总面积,q表示布尔变量,当当前待排裁片集合s中第t个待排裁片摆放成功时q为真,摆放失败时q为假;l表示矩形板材的初始长度,l表示矩形板材的理想使用长度,ε表示矩形板材的初始长度与理想使用长度的比值。

技术总结
本发明公开了一种基于深度强化学习的不规则裁片自动排样方法。包括:首先对每批原始不规则裁片进行预处理,获得对应预处理后的不规则裁片,再按照面积进行降序排列,获得初始排样顺序;接着求解并获得当前批的临界多边形以及内靠接矩形;再基于当前批裁片的初始排样顺序,对当前批预处理后的不规则裁片进行排样,获得初始排样结果以及矩形板材的初始长度;最后利用深度循环Q学习网络模型对初始排样结果进行迭代优化排样,不断缩减矩形板材的长度,直至排样时间超出规定时间,输出最终排样结果。本发明针对二维不规则裁片排样这类具有大规模状态及动作空间的复杂决策任务,实现不规则裁片自动排样,在实际生产环境中具有高效性和稳定性。效性和稳定性。效性和稳定性。


技术研发人员:冯毅雄 钟锐锐 洪兆溪 胡炳涛 张志峰 谭建荣
受保护的技术使用者:浙江大学
技术研发日:2022.06.22
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8426.html

最新回复(0)