机器学习装置、数值控制系统、设定装置、数值控制装置以及机器学习方法与流程

专利2023-02-28  107



1.本发明涉及机器学习装置、数值控制系统、设定装置、数值控制装置以及机器学习方法。


背景技术:

2.开孔、攻丝、镗削、车削循环等固定循环中1次的切入量及切削速度,由操作员以工件、工具的材质、形状为主要因素通过反复进行试验加工等根据经验来确定。
3.关于这一点,已知如下技术:基于包含加工条件数据、切削条件数据、加工结果数据、工具数据的状态变量,通过聚类分析来制作群组(cluster),将制作的群组用作学习完成模型,并根据新输入的加工条件、切削条件以及加工结果来判定适当的工具,在能保持所判定的工具群组中指定的良好结果的范围内,判定切削速度的最大值。例如,参照专利文献1。
4.现有技术文献
5.专利文献
6.专利文献1:日本特开2019-188558号公报


技术实现要素:

7.发明要解决的课题
8.例如,在多产品、可变数量生产的现场,频繁产生以下等情况:(1)将某加工程序重复使用到其他机械中、(2)制作稍微修正了某加工程序的形式而得的其他加工程序来进行加工、(3)变更工件的材质来对某加工程序进行加工。
9.在这样的情况下,操作员没有足够的时间根据经验来对每个加工程序进行优化。因此,有时不得不在没有充分优化加工程序、切削条件的情况下进行加工。这种情况下,例如无论进行怎样的变更,为了安全地进行加工,有时都过度地降低切削速度。由此,可以想到存在循环时间降低,生产效率下降的情况。
10.因此,期望在不增加操作员的时间和精力的情况下对加工程序进行优化。
11.用于解决课题的手段
12.(1)本公开的机器学习装置的一方式,其对根据加工程序使机床动作的数值控制装置进行机器学习,所述机器学习装置具有:状态信息取得部,通过所述数值控制装置执行至少设定了1次的切入量和切削速度的所述加工程序,使所述机床进行切削加工,由此,所述状态信息取得部取得包含所述1次的切入量和所述切削速度的状态信息;行为信息输出部,其输出行为信息,该行为信息包含所述状态信息所包含的所述1次的切入量和所述切削速度的调整信息;回报计算部,其取得判定信息,并根据取得的所述判定信息输出与规定的条件对应的强化学习中的回报值,其中,所述判定信息是至少与如下信息相关的信息:所述切削加工中施加于工具的压力强度、施加于所述工具的所述压力的波形形状、以及加工所
需的时间;以及价值函数更新部,其根据所述回报值、所述状态信息以及所述行为信息来更新价值函数。
13.(2)本公开的设定装置的一方式,根据预先设定的阈值选择从(1)的机器学习装置取得的行为中的某个行为,将选择出的所述行为设定给所述加工程序。
14.(3)本公开的数值控制系统的一方式,其具有:(1)的机器学习装置;(2)的设定装置;数值控制装置,其执行由所述设定装置设定的所述加工程序。
15.(3)本公开的数值控制装置的一方式,其包含(1)的机器学习装置和(2)的设定装置,该数值控制装置执行由所述设定装置设定的所述加工程序。
16.(4)本公开的数值控制方法的一方式是机器学习装置的机器学习方法,该机器学习装置对根据加工程序使机床动作的数值控制装置进行机器学习,通过所述数值控制装置执行至少设定了1次的切入量和切削速度的所述加工程序,使所述机床进行切削加工,由此,取得包含所述1次的切入量和所述切削速度的状态信息,输出行为信息,该行为信息包含所述状态信息所包含的所述1次的切入量和所述切削速度的调整信息,取得判定信息,并根据取得的所述判定信息输出与规定的条件对应的强化学习中的回报值,其中,所述判定信息是至少与如下信息相关的信息:所述切削加工中施加于工具的压力强度、施加于所述工具的所述压力的波形形状、以及加工所需的时间,根据所述回报值、所述状态信息以及所述行为信息来更新价值函数。
17.发明效果
18.根据一方式,能够在不增加操作员的时间和精力的情况下,对加工程序进行优化。
附图说明
19.图1是表示第一实施方式的数值控制系统的功能结构例的功能框图。
20.图2是表示机器学习装置的功能结构例的功能框图。
21.图3是表示第一实施方式中q学习时的机器学习装置的动作的流程图。
22.图4是对图3中步骤s16所示的回报计算处理的详细处理内容进行说明的流程图。
23.图5是表示最优行为信息输出部生成最优行为信息时的动作的流程图。
24.图6是表示第二实施方式的数值控制系统的功能结构例的功能框图。
25.图7是表示机器学习装置的功能结构例的功能框图。
26.图8是表示第二实施方式中q学习时的机器学习装置的动作的流程图。
27.图9是表示数值控制系统的结构的一例的图。
28.图10是表示数值控制系统的结构的一例的图。
具体实施方式
29.以下,使用附图对本公开的第一实施方式进行说明。在此,例示如下情况:作为加工程序包含开孔、攻丝等1个固定循环,按加工程序即每加工1个工件时进行学习。
30.由此,可以将在该固定循环中设定的1次的切入量和切削速度确定为针对该加工程序的行为。
31.《第一实施方式》
32.图1是表示第一实施方式的数值控制系统的功能结构例的功能框图。
33.如图1所示,数值控制系统1具有机床10以及机器学习装置20。
34.机床10以及机器学习装置20可以经由未图示的连接接口相互直接连接。另外,机床10以及机器学习装置20也可以经由lan(local area network:局域网)、因特网等未图示的网络相互连接。该情况下,机床10以及机器学习装置20具有通过该连接来相互进行通信的未图示的通信部。此外,如后所述,数值控制装置101可以包含在机床10中,也可以是与机床10不同的装置。另外,数值控制装置101还可以包含机器学习装置20。
35.机床10对于本领域技术人员而言是公知的机床,包含数值控制装置101。机床10根据来自数值控制装置101的动作指令进行动作。
36.数值控制装置101对于本领域技术人员而言是公知的数值控制装置,包含设定装置111。数值控制装置101根据从cad/cam装置等外部装置(未图示)取得的加工程序生成动作指令,将生成的动作指令发送到机床10。由此,数值控制装置101控制机床10的动作。并且,数值控制装置101可以在控制机床10的动作期间,以预先设定的采样时间等规定的时间间隔从机床10取得机床10所包含的未图示的主轴的主轴电动机以及未图示的进给轴的伺服电动机等电动机的转速、电动机电流值以及转矩。
37.另外,数值控制装置101也可以从机床10取得由机床10所包含的未图示的温度传感器等传感器测定出的电动机温度、机械温度以及周围温度等温度。另外,数值控制装置101还可以从机床10取得由机床10所包含的未图示的压力传感器等传感器测定出的、对安装于未图示的主轴的工具施加的轴向以及旋转方向的压力。另外,数值控制装置101也可以取得由机床10所包含的未图示的循环计数器等测定出的机床10进行了规定的切削加工时的该加工所需的时间。
38.此外,在本实施方式中,如上所述,加工程序仅包含1个固定循环,因此,加工所需的时间与循环时间相同。
39.另外,数值控制装置101例如可以将安装于机床10的主轴(未图示)的工具材质、工具形状、工具直径、工具长度、剩余工具寿命、加工对象工件的材质、工具目录的切削条件等输出到后述的机器学习装置20。另外,数值控制装置101可以将从机床10取得的主轴转速、电动机电流值、机械温度、周围温度、施加于工具的压力强度(轴向以及旋转方向)、施加于工具的压力的波形形状(轴向以及旋转方向)、施加于进给轴的转矩强度、施加于进给轴的转矩的波形形状、施加于主轴的转矩强度、施加于主轴的转矩的波形形状以及加工所需的时间输出到后述的机器学习装置20。
40.此外,数值控制装置101例如可以在数值控制装置101所包含的hdd(hard disk drive:硬盘驱动器)等未图示的存储部中存储对安装于机床10的主轴(未图示)的所有工具进行管理的工具管理表(未图示)。并且,数值控制装置101可以根据在加工程序中设定的工具编号等,从工具管理表(未图示)取得工具材质、工具形状、工具直径、工具长度、剩余工具寿命。在此,剩余工具寿命例如可以根据从目录所记载的对应表求出的耐用时间而得到并视为工具寿命,根据加工每1个工件的使用时间来进行求出。并且,工具管理表(未图示)的剩余工具寿命也可以通过求出的值来更新。
41.另外,数值控制装置101例如可以经由数值控制装置101所包含的键盘、触摸面板等输入装置(未图示),通过操作员的输入操作,来取得加工对象工件的材质、工具目录的切削条件等。
42.另外,施加于工具的压力的波形形状是施加于工具的压力的时间序列数据。另外,施加于进给轴的转矩的波形形状是施加于进给轴的转矩的时间序列数据。另外,施加于主轴的转矩的波形形状是主轴的转矩的时间序列数据。
43.设定装置111根据预先设定的阈值来选择从后述的机器学习装置20取得的行为中的某一行为,并将选择出的行为设定给加工程序。
44.具体而言,设定装置111例如将在机床10中正使用的工具的剩余工具寿命与预先设定的阈值(例如,10%)进行比较,由此,在剩余工具寿命比阈值大的情况下选择使加工时间优先的行为,在剩余工具寿命为阈值以下的情况下选择使工具寿命优先的行为。设定装置111将选择出的行为设定给加工程序。
45.此外,设定装置111可以由具有cpu等运算处理装置的数值控制装置101等计算机构成。
46.另外,设定装置111可以是与数值控制装置101不同的装置。
47.《机器学习装置20》
48.机器学习装置20是对通过数值控制装置101执行加工程序来使机床10动作时的每个工件的1次的切入量以及切削速度进行强化学习的装置。
49.在进行机器学习装置20所包含的各功能块的说明之前,首先对作为强化学习例示的q学习的基本结构进行说明。其中,强化学习不限于q学习。智能体(相当于本实施方式中的机器学习装置20)观测环境(相当于本实施方式中的机床10和数值控制装置101)的状态,选择某个行为,根据选择出的行为环境发生变化。随着环境的变化,给予某种回报,根据给予的回报,智能体学习更好的行为选择。
50.监督学习表示完全的正确答案,而强化学习中的回报大多是基于环境的部分变化的片段值。因此,智能体学习使得到将来的得到的回报合计为最大。
51.这样,在强化学习中通过学习行为,在行为给予环境的相互作用基础上学习适当的行为,即学习用于使将来获得的回报为最大的要学习的方法。这表示在本实施方式中,能够获得例如在多产品、可变数量生产的现场,在不增加操作员的时间和精力的情况下,对加工程序的固定循环进行优化这样的、影响未来的行为。
52.在此,作为强化学习可以使用任意的学习方法,在以下的说明中,以在某种环境状态s下,使用q学习(q-learning)的情况为例进行说明,所述q学习是学习选择行为a的价值函数q(s、a)的方法。
53.q学习以在某种状态s时从能够取得的行为a中将价值函数q(s、a)的值最高的行为a选择为最佳行为为目的。
54.但是,在最初开始q学习的时间点,对于状态s与行为a的组合来说,完全不知晓价值函数q(s、a)的正确值。因此,智能体在某种状态s下选择各种行为a,针对当时的行为a,根据给予的回报,选择更好的行为,由此,继续学习正确的价值函数q(s、a)。
55.此外,想要使将来获得的回报的合计最大化,因此,目标是最终成为q(s、a)=e[σ(γ
t
)r
t
]。在此,e[]表示期待值,t表示时刻、γ表示后述的称为折扣率的参数,r
t
表示时刻t的回报,σ是时刻t的合计。该式中的期待值是按最佳行为状态发生变化时的期望值。但是在q学习的过程中,由于不知道最佳行为,因此通过进行各种行为,一边探索一边进行强化学习。这样的价值函数q(s、a)的更新式例如可以通过如下的数学公式1来表示。
[0056]
【数学式1】
[0057][0058]
在上述的数学公式1中,s
t
表示时刻t的环境状态,a
t
表示时刻t的行为。通过行为a
t
,状态变化为s
t+1
。r
t+1
表示通过该状态的变化而得到的回报。另外,带有max的项是:在状态s
t+1
下,将γ乘以选择出当时知道的q值最高的行为a时的q值而得的。在此,γ是0<γ≤1的参数,称为折扣率。另外,α是学习系数,设α的范围为0<α≤1。
[0059]
上述的数学公式1表示如下方法:根据试行a
t
的结果而反馈回来的回报r
t+1
,更新状态s
t
下的行为a
t
的价值函数q(s
t
、a
t
)。
[0060]
该更新式表示了:若行为a
t
导致的下一状态s
t+1
下的最佳行为的价值max
a q(s
t+1
、a)比状态s
t
下的行为a
t
的价值函数q(s
t
、a
t
)大,则增大q(s
t
、a
t
),反之如果小,则减小q(s
t
、a
t
)。即,使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中,尽管该差因折扣率γ和回报r
t+1
的存在形式而变化,但基本上是某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。
[0061]
在此,q学习存在如下方法:制作针对所有状态行为对(s、a)的q(s、a)的表,来进行学习。但是,有时为了求出所有状态行为对的q(s、a)的值状态数会过多,使得q学习收敛需要较多的时间。
[0062]
因此,可以利用公知的称为dqn(deep q-network)的技术。具体而言,可以使用适当的神经网络来构成价值函数q,调整神经网络的参数,由此,通过适当的神经网络来近似价值函数q来计算价值函数q(s、a)的值。通过利用dqn,能够缩短q学习收敛所需的时间。此外,关于dqn,例如在以下的非专利文献中有详细的记载。
[0063]
《非专利文献》
[0064]“human-level control through deep reinforcement learning”,volodymyr mnih1著[online],[平成29年1月17日检索],因特网〈url:http://files.davidqiu.com/research/nature14236.pdf〉
[0065]
机器学习装置20进行以上说明的q学习。具体而言,机器学习装置20学习如下价值q:将与机床10中设定的工具以及工件相关的信息、在固定循环中设定的1次的切入量以及切削速度、通过执行该加工程序而从机床10取得的测定值作为状态s,将与该状态s有关的该固定循环中设定的1次的切入量以及切削速度的设定、变更,选择为针对状态s的行为a。在此,作为与工具以及工件相关的信息,例示工具材质、工具形状、工具直径、工具长度、剩余工具寿命、加工对象工件的材质、工具目录的切削条件等。另外,作为从机床10取得的测定值,例示主轴转速、电动机电流值、机械温度、周围温度等。
[0066]
机器学习装置20观测状态信息(状态数据)s,决定行为a,该状态信息包含与机床10中设定的工具以及工件相关的信息、在固定循环中设定的1次的切入量以及切削速度、通过执行该加工程序而从机床10取得的测定值。机器学习装置20每当进行行为a时返回回报。机器学习装置20试错地探索最佳的行为a,以使将来的回报合计为最大。由此,机器学习装置20可以针对状态s,选择最佳的行为a(即“1次的切入量”以及“切削速度”),该状态s包含与机床10中设定的工具以及工件相关的信息、在固定循环中设定的1次的切入量以及切削速度、通过执行该加工程序而从机床10取得的测定值。
[0067]
图2是表示机器学习装置20的功能结构例的功能框图。
[0068]
为了进行上述的强化学习,如图2所示,机器学习装置20具有:状态信息取得部201、学习部202、行为信息输出部203、价值函数存储部204、最优行为信息输出部205以及控制部206。学习部202具有:回报计算部221、价值函数更新部222以及行为信息生成部223。控制部206控制状态信息取得部201、学习部202、行为信息输出部203以及最优行为信息输出部205的动作。
[0069]
状态信息取得部201从数值控制装置101取得状态数据s作为机床10的状态,该状态数据s包含与机床10中设定的工具和工件相关的信息、在固定循环中设定的1次的切入量和切削速度、通过执行该加工程序而从机床10取得的测定值。该状态数据s相当于q学习中的环境状态s。
[0070]
状态信息取得部201将取得的状态数据s输出到学习部202。
[0071]
此外,状态信息取得部201可以将取得的状态数据s存储在机器学习装置20所包含的未图示的存储部中。此时,后述的学习部202可以从机器学习装置20的存储部(未图示)读入状态数据s。
[0072]
另外,状态信息取得部201还取得用于计算进行q学习的回报的判定信息。具体而言,将通过执行状态信息s有关的加工程序而从机床10取得的、施加于工具的压力强度(轴向以及旋转方向)、施加于工具的压力的波形形状(轴向以及旋转方向)、施加于进给轴的转矩的强度、施加于进给轴的转矩的波形形状、施加于主轴的转矩的强度、施加于主轴的转矩的波形形状、以及执行该加工程序时的加工所需的时间作为用于计算进行q学习的回报的判定信息。
[0073]
学习部202是在某状态数据(环境状态)s下学习选择某行为a时的价值函数q(s、a)的部分。具体而言,学习部202具有:回报计算部221、价值函数更新部222以及行为信息生成部223。
[0074]
此外,学习部202判断是否继续学习。例如能够根据从开始机器学习起的试行次数是否达到最大试行次数、或者从开始机器学习起的经过时间是否超过规定时间(或为规定时间以上)来判断是否继续学习。
[0075]
回报计算部221根据判定信息来计算在某状态s下选择了行为a时的回报。可以根据判定信息所包含的多个评价项目来计算回报。在本实施方式中,例如,根据(1)施加于工具、进给轴、主轴的压力(转矩)的强度、(2)施加于工具、进给轴、主轴的压力(转矩)的波形形状、(3)加工所需的时间的项目来计算回报。
[0076]
因此,对(1)施加于工具、进给轴、主轴的压力(转矩)的强度的项目、(2)施加于工具、进给轴、主轴的压力(转矩)的波形形状的项目、以及(3)加工所需的时间的项目中的计算回报进行说明。
[0077]
关于(1)施加于工具、进给轴、主轴的压力(转矩)的强度的项目的回报
[0078]
将通过行为a而从状态s迁移到状态s’时的状态s以及状态s’下的施加于工具、进给轴、主轴的压力(转矩)的强度值分别设为值p
t
(s)、pf(s)、pm(s)、以及值p
t
(s’)、pf(s’)、pm(s’)。
[0079]
回报计算部221如以下方式计算基于施加于工具、进给轴、主轴的压力(转矩)的强度的回报。
[0080]
在值p
t
(s’)<值p
t
(s)、且值pf(s’)<值pf(s)、且值pm(s’)<值pm(s)的情况下,将
回报r
p
设为正值。
[0081]
在状态s’的值p
t
(s’)、pf(s’)、pm(s’)中的至少1个比状态s的值p
t
(s)、pf(s)、pm(s)大的情况下,将回报r
p
设为负值。
[0082]
此外,关于负值和正值,例如可以是预先设定的一定值(例如,第一负值和第一正值)。
[0083]
关于(2)施加于工具、进给轴、主轴的压力(转矩)的波形形状的项目的回报
[0084]
将通过行为a而从状态s迁移到状态s’时的状态s’下的施加于工具、进给轴、主轴的压力(转矩)的波形形状设为wf
t
(s’)、wff(s’)、wfm(s’)。
[0085]
回报计算部221如以下方式计算基于施加于工具、进给轴、主轴的压力(转矩)的波形形状的回报。
[0086]
在施加于工具、进给轴、主轴的压力(转矩)的波形形状wf
t
(s’)、wff(s’)、wfm(s’)中的至少1个与表示工具被损坏的预兆的波形、或者工具的寿命更急剧减少的波形相似的情况下,将回报rw设为负值。
[0087]
在施加于工具、进给轴、主轴的压力(转矩)的波形形状wf
t
(s’)、wff(s’)、wfm(s’)全部与表示工具被损坏的预兆的波形、以及工具的寿命更急剧减少的波形不相似的情况下,将回报rw设为正值。
[0088]
此外,表示工具被损坏的预兆的波形、以及工具的寿命更急剧减少的波形的数据可以针对每个工具预先取得,并存储在机器学习装置20的存储部(未图示)中。
[0089]
另外,关于负值以及正值,例如可以是预先设定的一定值(例如,第二负值以及第二正值)。
[0090]
关于(3)加工所需的时间的回报
[0091]
将通过行为a而从状态s迁移到状态s’时的状态s以及状态s’下的加工所需的时间的值分别设为值t(s)以及值t(s’)。
[0092]
回报计算部221如以下方式计算基于加工所需的时间的回报。
[0093]
在值t(s’)>值t(s)的情况下,将回报rc设为负值。
[0094]
在值t(s’)=值t(s)的情况下,将回报rc设为零。
[0095]
在值t(s’)<值t(s)的情况下,将回报rc设为正值。
[0096]
此外,关于负值及正值,例如可以是预先设定的一定值(例如,第三负值及第三正值。
[0097]
回报计算部221作为使加工所需的时间优先的机器学习和使工具的寿命优先的机器学习中的回报,可以使用数学公式2分别计算回报r,该回报r是按使加工所需的时间优先的机器学习以及使工具的寿命优先的机器学习分别对按上述的项目计算出的回报r
p
、rw、rc进行加权相加而得到的。
[0098]
【数学式2】
[0099]
r=aw·rp
+bw·rw
+cw·
rc[0100]
此外,系数aw、bw、cw表示权重系数。
[0101]
另外,回报计算部221在使加工所需的时间优先的机器学习时的回报r(以下,也称为“回报r
cycle”)的计算中,例如与使工具的寿命优先的机器学习相比,可以将数学公式2的系数cw的值设为较大的值,也可以将第三负值以及第三正值的绝对值设为较大的值。
[0102]
另外,回报计算部221在使工具的寿命优先的机器学习时的回报r(以下,也称为“回报r
tool”)的计算中,例如与使加工所需的时间优先的机器学习相比,可以将数学公式2的系数bw的值设为较大的值,也可以将第二负值以及第二正值的绝对值设为较大的值。
[0103]
以下,只要没有特别说明,则使加工所需的时间优先的机器学习也称为“加工时间优先模式下的机器学习”。另外,只要没有特别说明,则使工具的寿命优先的机器学习也称为“工具寿命优先模式下的机器学习”。
[0104]
价值函数更新部222在加工时间优先模式下的机器学习时,根据状态s、行为a、将行为a应用于状态s的情况下的状态s’、以及如上述那样计算出的回报r
cycle
的值进行加工时间优先模式下的q学习,由此,更新价值函数存储部204存储的价值函数q
cycle
。另外,价值函数更新部222在工具寿命优先模式下的机器学习时,根据状态s、行为a、将行为a应用于状态s的情况下的状态s’、以及如上所述计算出的回报r
tool
的值进行工具寿命优先模式下的q学习,由此,更新价值函数存储部204存储的价值函数q
tool

[0105]
加工时间优先模式的价值函数q
cycle
以及工具寿命优先模式的价值函数q
tool
的更新可以通过在线学习来进行,也可以通过批量学习来进行,还可以通过小批量学习来进行。
[0106]
在线学习是如下学习方法:通过将某种行为a应用于当前状态s,每当状态s向新状态s’转移时,立即进行价值函数q的更新。另外,批量学习是如下学习方法:通过重复将某种行为a应用于当前状态s,状态s向新状态s’转移,由此收集学习用的数据,使用收集到的所有学习用数据,来进行价值函数q的更新。进而,小批量学习是在线学习与批量学习中间的学习方法,是每当积攒了某种程度学习用数据时进行价值函数q的更新的学习方法。
[0107]
行为信息生成部223针对当前的状态s,选择q学习的过程中的行为a。行为信息生成部223在与加工时间优先模式或者工具寿命优先模式对应的q学习的过程中,为了进行修正在固定循环中设定的1次的切入量以及切削速度的动作(相当于q学习中的行为a),生成行为信息a,将生成的行为信息a输出给行为信息输出部203。
[0108]
更具体而言,行为信息生成部223可以按加工时间优先模式以及工具寿命优先模式,使行为a所包含的1次的切入量以及切削速度相对于状态s所包含的在固定循环中设定的1次的切入量以及切削速度递增地增加或者减少。
[0109]
在本实施方式中,例如表示交替进行加工时间优先模式下的机器学习和工具寿命优先模式下的机器学习的情况。此外,该情况下,可以随机地使用后述的贪婪法、ε贪婪法等公知的方法来进行机器学习,以便不偏向任意一种模式。另外,如后所述,也可以分别进行加工时间优先模式下的机器学习和工具寿命优先模式下的机器学习。
[0110]
行为信息生成部223可以通过加工时间优先模式或者工具寿命优先模式下的机器学习,根据行为a调整加工程序的1次的切入量以及切削速度,在迁移到状态s’时,根据工具、进给轴、主轴的力(转矩)的状态(是否减少)、工具、进给轴、主轴的力(转矩)的波形形状的状态(是否相似)、以及加工时间的状态(增减或者维持),选择针对状态s’的行为a’的加工程序的1次的切入量以及切削速度。
[0111]
例如,可以采取如下策略:在加工时间优先模式下的机器学习时,在因1次的切入量和/或切削速度的增加使得回报r
cycle
增加,且所有工具、进给轴、主轴的力(转矩)减少、所有工具、进给轴、主轴的力(转矩)的波形形状不相似、以及加工所需的时间减少的情况下,作为针对状态s’的行为a’,例如选择使1次的切入量和/或切削速度递增地增加等缩短加工
所需时间这样的行为a’。
[0112]
或者,可以采取如下策略:在加工时间优先模式下的机器学习时,在因1次的切入量和/或切削速度的增加使得回报r
cycle
减少的情况下,作为针对状态s’的行为a’,例如选择将1次的切入量和/或切削速度返回到前1个等缩短加工所需时间这样的行为a’。
[0113]
另外,可以采取如下策略:在工具寿命优先模式下的机器学习时,在因1次的切入量和/或切削速度的减少使得回报r
tool
增加,且所有工具、进给轴、主轴的力(转矩)减少、所有工具、进给轴、主轴的力(转矩)的波形形状不相似、以及加工所需的时间增减或维持的情况下,作为针对状态s’的行为a’,例如选择使1次的切入量和/或切削速度递增地减少等使工具寿命的减少延迟这样的行为a’。
[0114]
或者,可以采取如下策略:在工具寿命优先模式下的机器学习时,在因切入量和/或切削速度的减少使得回报r
tool
减少的情况下,作为针对状态s’的行为a’,例如选择使切入量和/或切削速度返回到前1个等使工具寿命的减少延迟这样的行为a’。
[0115]
另外,行为信息生成部223也可以采取如下策略:通过在当前推定的行为a的价值中选择价值函数q(s、a)最高的行为a的贪婪法,或者用某个较小的概率ε随机选择行为a’,除此之外选择价值函数q(s、a)最高的行为a的ε贪婪法这样的众所周知的方法,来选择行为a。
[0116]
行为信息输出部203将从学习部202输出的行为信息a输出给数值控制装置101。行为信息输出部203例如可以将作为行为信息的更新后的1次的切入量和切削速度的值输出到数值控制装置101。由此,数值控制装置101根据接收到的更新后的1次的切入量以及切削速度的值,更新在固定循环中设定的1次的切入量以及切削速度。并且,数值控制装置101根据更新后的在固定循环中设定的1次的切入量和切削速度生成动作指令,根据生成的动作指令使机床10进行切削加工。
[0117]
此外,行为信息输出部203可以将作为行为信息的、根据更新后的1次的切入量以及切削速度的值进行了更新的加工程序输出给数值控制装置101。
[0118]
价值函数存储部204是存储加工时间优先模式的价值函数q
cycle
以及工具寿命优先模式的价值函数q
tool
的存储装置。价值函数q
cycle
、q
tool
分别例如可以按状态s、行为a作为表(以下,也称为“行为价值表”)来储存。存储在价值函数存储部204中的价值函数q
cycle
、q
tool
由价值函数更新部222更新。
[0119]
最优行为信息输出部205根据通过价值函数更新部222进行q学习而更新的价值函数q
cycle
或价值函数q
tool
,生成用于使数值控制装置101进行价值函数的值为最大的动作的行为信息a(以下,也称为“最优行为信息”)。
[0120]
更具体而言,最优行为信息输出部205取得价值函数存储部204存储的加工时间优先模式的价值函数q
cycle
以及工具寿命优先模式的价值函数q
tool
。该价值函数q
cycle
、q
tool
是如上所述通过价值函数更新部222进行q学习而更新的函数。并且,最优行为信息输出部205生成基于取得的加工时间优先模式的价值函数q
cycle
的行为信息和基于取得的加工时间优先模式的价值函数q
tool
的行为信息,将生成的各行为信息输出给数值控制装置101。在该最优行为信息中,与行为信息输出部203在q学习的过程中输出的行为信息同样地,包含表示更新后的1次的切入量以及切削速度的值的信息。
[0121]
以上,对机器学习装置20所包含的功能块进行了说明。
[0122]
为了实现这些功能块,机器学习装置20具有cpu等运算处理装置。另外,机器学习装置20还具有储存了应用软件、os(operating system:操作系统)等各种控制用程序的hdd等辅助存储装置、用于储存运算处理装置执行程序时暂时需要的数据的ram这样的主存储装置。
[0123]
并且,在机器学习装置20中,运算处理装置从辅助存储装置读入应用软件、os,一边使读入的应用软件、os在主存储装置中展开,一边进行基于这些应用软件、os的运算处理。另外,根据该运算结果,控制机器学习装置20具有的各种硬件。由此,实现本实施方式的功能块。即,本实施方式能够通过硬件和软件协作来实现。
[0124]
关于机器学习装置20,由于伴随机器学习的运算量增多,因此例如利用在个人计算机搭载gpu(graphics processing units:图形处理器),称为gpgpu(general-purpose computing on graphics processing units:通用图形处理器)的技术,在将gpu用于伴随机器学习的运算处理时能够进行高速处理。并且,为了进行更高速的处理,可以使用多台搭载了这样的gpu的计算机来构筑计算机集群,通过该计算机集群所包含的多个计算机来进行并列处理。
[0125]
接着,参照图3的流程图对本实施方式中的q学习时的机器学习装置20的动作进行说明。
[0126]
图3是表示第一实施方式中的q学习时的机器学习装置20的动作的流程图。
[0127]
在步骤s11中,控制部206将试行次数设为初始设定,即“1”,指示状态信息取得部201取得状态信息。
[0128]
在步骤s12中,状态信息取得部201从数值控制装置101取得最初的状态数据。将取得的状态数据输出到行为信息生成部223。如上所述,该状态数据(状态信息)是相当于q学习中状态s的信息,包含步骤s12时间点的、1次的切入量、切削速度、工具材质、工具形状、工具直径、工具长度、剩余工具寿命、加工对象工件的材质、工具目录的切削条件、主轴转速、电动机电流值、机械温度以及周围温度。此外,最初开始q学习的时间点的状态数据预先由操作员生成。
[0129]
在步骤s13中,行为信息生成部223通过加工时间优先模式或者工具寿命优先模式下的机器学习,生成加工时间优先模式以及工具寿命优先模式的新的行为信息a,将生成的加工时间优先模式以及工具寿命优先模式的新的行为信息a经由行为信息输出部203输出给数值控制装置101。数值控制装置101根据接收到的加工时间优先模式以及工具寿命优先模式的行为信息a中的、由设定装置111选择出的行为信息a,执行更新了在固定循环中设定的1次的切入量以及切削速度的加工程序。数值控制装置101根据更新后的加工程序生成动作指令,根据生成的动作指令使机床10进行切削加工。
[0130]
在步骤s14中,状态信息取得部201从数值控制装置101取得与新的状态s’相当的状态数据。在此,新的状态数据包含1次的切入量、切削速度、工具材质、工具形状、工具直径、工具长度、剩余工具寿命、加工对象工件的材质、工具目录的切削条件、主轴转速、电动机电流值、机械温度以及周围温度。状态信息取得部201对学习部202输出所取得的状态数据。
[0131]
在步骤s15中,状态信息取得部201取得针对新的状态s’的判定信息。在此,在判定信息中包含在步骤s13中执行更新后的加工程序而从机床10取得的、施加于工具的压力强
度(轴向以及旋转方向)、施加于工具的压力的波形形状(轴向以及旋转方向)、施加于进给轴的转矩的强度、施加于进给轴的转矩的波形形状、施加于主轴的转矩的强度、施加于主轴的转矩的波形形状、以及执行更新后的加工程序时的加工所需的时间。将取得的判定信息输出到学习部202。
[0132]
在步骤s16中,回报计算部221根据取得的判定信息进行回报计算处理,分别计算加工时间优先模式的回报r
cycle
以及工具寿命优先模式的回报r
tool
。此外,回报计算处理的详细流程在后面描述。
[0133]
在步骤s17中,价值函数更新部222根据计算出的回报r
cycle
和回报r
tool
,分别更新价值函数存储部204存储的价值函数q
cycle
和价值函数q
tool

[0134]
在步骤s18中,控制部206判断从开始机器学习起的试行次数是否达到了最大试行次数。预先设定最大试行次数。若未达到最大试行次数,则在步骤s19中对试行次数进行计数,返回到步骤s13。反复进行步骤s13到步骤s19的处理,直到达到最大试行次数为止。
[0135]
此外,图3的流程在试行次数达到了最大试行次数时使处理结束,但也可以将从开始机器学习起对步骤s13至步骤s19的处理有关的时间进行累积而得的时间超过了预先设定的最大经过时间(或者为预先设定的最大经过时间以上)作为条件来结束处理。
[0136]
另外,步骤s17例示了在线更新,但也可以代替在线更新而置换为批量更新或者小批量更新。
[0137]
图4是对图3中步骤s16所示的回报计算处理的详细处理内容进行说明的流程图。
[0138]
在步骤s61中,回报计算部221判定状态s’的判定信息所包含的施加于工具、进给轴、主轴的压力(转矩)的强度的值p
t
(s’)、pf(s’)、pm(s’)是否全部比状态s的判定信息所包含的施加于工具、进给轴、主轴的压力(转矩)的强度的值p
t
(s)、pf(s)、pm(s)小,即弱。在状态s’的施加于工具、进给轴、主轴的压力(转矩)的强度的值p
t
(s’)、pf(s’)、pm(s’)全部比状态s弱的情况下,处理前进到步骤s62。另外,在状态s’的施加于工具、进给轴、主轴的压力(转矩)的强度的值p
t
(s’)、pf(s’)、pm(s’)中的至少1个比状态s强的情况下,处理前进到步骤s63。
[0139]
在步骤s62中,回报计算部221将回报r
p
设为负值。
[0140]
在步骤s63中,回报计算部221将回报r
p
设为正值。
[0141]
在步骤s64中,回报计算部221判定状态s’的判定信息所包含的施加于工具、进给轴、主轴的压力(转矩)的波形形状wf
t
(s’)、wff(s’)、wfm(s’)是否全部与表示工具被损坏的预兆的波形、或者工具寿命进一步减少的波形相似。在状态s’的施加于工具、进给轴、主轴的压力(转矩)的波形形状wf
t
(s’)、wff(s’)、wfm(s’)全部不相似的情况下,处理前进到步骤s66。另外,在状态s’的施加于工具、进给轴、主轴的压力(转矩)的波形形状wf
t
(s’)、wff(s’)、wfm(s’)中的至少1个相似的情况下,处理前进到步骤s65。
[0142]
在步骤s65中,回报计算部221将回报rw设为负值。
[0143]
在步骤s66中,回报计算部221将回报rw设为正值。
[0144]
在步骤s67中,回报计算部221判定状态s’的判定信息所包含的加工所需的时间的值t(s’)与状态s的判定信息所包含的加工所需的时间的值t(s)相比是增加、是减少还是维持。在状态s’的加工所需的时间的值t(s’)与状态s相比增加的情况下,处理前进到步骤s68。另外,在状态s’的加工所需的时间的值t(s’)与状态s相比减少的情况下,处理前进到
步骤s70。另外,在维持了状态s’的加工所需的时间的值t(s’)的情况下,处理前进到步骤s69。
[0145]
在步骤s68中,回报计算部221将回报rc设为负值。
[0146]
在步骤s69中,回报计算部221将回报rc设为零。
[0147]
在步骤s70中,回报计算部221将回报rc设为正值。
[0148]
在步骤s71中,回报计算部221使用计算出的回报r
p
、rw、rc和数学公式2,分别计算加工时间优先模式的回报r
cycle
以及工具寿命优先模式的回报r
tool
。由此,回报计算处理的流程结束,处理前进到步骤s17。
[0149]
以上,通过参照图3以及图4说明的动作,在本实施方式中,可以生成在多产品、可变数量生产等现场,在不增加操作员的时间和精力的情况下,对加工程序的固定循环进行优化的价值函数q
cycle
、q
tool

[0150]
接着,参照图5的流程图,对最优行为信息输出部205生成最优行为信息时的动作进行说明。
[0151]
在步骤s21中,最优行为信息输出部205取得价值函数存储部204存储的加工时间优先模式的价值函数q
cycle
、以及工具寿命优先模式的价值函数q
tool

[0152]
在步骤s22中,最优行为信息输出部205根据取得的价值函数q
cycle
以及价值函数q
tool
,分别生成加工时间优先模式以及工具寿命优先模式的最优行为信息,将生成的加工时间优先模式以及工具寿命优先模式的最优行为信息输出给数值控制装置101。
[0153]
如上所述,数值控制装置101执行根据由设定装置111选择出的加工时间优先模式或工具寿命优先模式下的行为而更新了在固定循环中设定的1次的切入量及切削速度的加工程序,由此,能够在多产品、可变数量生产等现场,在不增加操作员的时间和精力的情况下,对加工程序进行优化。由此,数值控制装置101能够使加工所需的时间(即,循环时间)优先来进行加工,或使工具寿命优先来进行加工。
[0154]
另外,数值控制装置101不需要由操作员设定1次的切入量以及切削速度的自变量,能够削减制作加工程序的时间和精力。
[0155]
以上,对第一实施方式进行了说明。
[0156]
《第二实施方式》
[0157]
接着,对第二实施方式进行说明。在第二实施方式中,机器学习装置20a除了第一实施方式的功能以外,还具有如下功能:针对包含2个以上的多个(例如n个)固定循环的加工程序,每当执行各固定循环(例如,第i个固定循环)时,停止加工程序,计算第i个固定循环的状态s(i)、行为a(i)、判定信息(i)、回报r(i)以及针对状态s’(i)的行为a’(i),更新第i个固定循环中的1次的切入量以及切削速度。此外,n为2以上的整数,i为1至n的整数。
[0158]
由此,可以将在第i个固定循环中设定的1次的切入量以及切削速度确定为针对第i个固定循环的行为。以下,也将第i个固定循环称为“固定循环(i)”(1≤i≤n)。
[0159]
以下,对第二实施方式进行说明。
[0160]
《第二实施方式》
[0161]
图6是表示第二实施方式的数值控制系统的功能结构例的功能框图。此外,对具有与图1的数值控制系统1的要素一样功能的要素标注相同的符号,省略详细的说明。
[0162]
如图6所示,第二实施方式的数值控制系统1具有机床10以及机器学习装置20a。
[0163]
机床10与第一实施方式的情况一样,对于本领域技术人员而言是公知的机床,包含数值控制装置101a。机床10根据来自数值控制装置101a的动作指令进行动作。
[0164]
数值控制装置101a与第一实施方式的情况一样,对于本领域技术人员而言是公知的数值控制装置,根据从cad/cam装置等外部装置(未图示)取得的加工程序生成动作指令,将生成的动作指令发送到机床10。由此,数值控制装置101a控制机床10的动作。
[0165]
此外,第二实施方式的数值控制装置101a例如在执行加工程序的情况下,每当加工程序所包含的开孔、攻丝等n个固定循环(i)分别完成时,停止加工程序,将与该固定循环中对机床10设定的工具以及工件有关的信息、在该固定循环(i)中设定的1次的切入量以及切削速度、通过执行加工程序而从机床10取得的测定值输出到机器学习装置20a。
[0166]
此外,设定装置111具有与第一实施方式中的设定装置111同等的功能。
[0167]
《机器学习装置20a》
[0168]
机器学习装置20a是对通过数值控制装置101a执行加工程序来使机床10动作时的、加工程序所包含的n个固定循环中每一个固定循环的1次的切入量以及切削速度进行强化学习的装置。
[0169]
图7是表示机器学习装置20a的功能结构例的功能框图。
[0170]
如图7所示,机器学习装置20a具有:状态信息取得部201a、学习部202a、行为信息输出部203a、价值函数存储部204a、最优行为信息输出部205a以及控制部206。学习部202a具有:回报计算部221a、价值函数更新部222a以及行为信息生成部223a。
[0171]
此外,控制部206具有与第一实施方式中的控制部206同等的功能。
[0172]
状态信息取得部201a作为机床10的状态,在每次执行加工程序所包含的n个固定循环的每一个固定循环时,从数值控制装置101取得状态数据s,该状态数据s包含与机床10中设定的工具和工件相关的信息、在各固定循环(i)(1≤i≤n)中设定的1次的切入量和切削速度、以及通过执行该加工程序而从机床10取得的测定值。
[0173]
状态信息取得部201a将按固定循环(i)取得的状态数据s(i)输出到学习部202a。
[0174]
此外,状态信息取得部201a可以将按固定循环(i)取得的状态数据s(i)存储在机器学习装置20a所包含的未图示的存储部中。该情况下,后述的学习部202a可以从机器学习装置20a的存储部(未图示)读入每个固定循环(i)的状态数据s(i)。
[0175]
另外,状态信息取得部201a还按固定循环(i)取得用于计算进行q学习的回报的判定信息。具体而言,将通过分别执行状态信息s(i)有关的加工程序所包含的固定循环(i)而从机床10取得的、施加于工具的压力强度(轴向以及旋转方向)、施加于工具的压力的波形形状(轴向以及旋转方向)、施加于进给轴的转矩的强度、施加于进给轴的转矩的波形形状、施加于主轴的转矩的强度、施加于主轴的转矩的波形形状、以及执行该固定循环(i)时的加工所需的时间作为用于计算进行q学习的回报的判定信息。
[0176]
学习部202a是在各固定循环(i)中,学习在某状态数据(环境状态)s(i)下选择某行为a(i)时的价值函数q(s(i)、a(i))的部分。具体而言,学习部202a具有:回报计算部221a、价值函数更新部222a以及行为信息生成部223a。
[0177]
此外,学习部202a与第一实施方式的学习部202同样地判断是否继续学习。例如可以根据从开始机器学习起的加工程序的试行次数是否达到最大试行次数、或者从开始机器学习起的经过时间是否超过规定时间(或为规定时间以上)来判断是否继续学习。
[0178]
回报计算部221a在各固定循环(i)中,根据各固定循环(i)的判定信息来计算在某状态s(i)下选择了行为a(i)时的回报。此外,在各固定循环(i)中计算的回报与第一实施方式的情况同样地,根据(1)施加于工具、进给轴、主轴的压力(转矩)的强度、(2)施加于工具、进给轴、主轴的压力(转矩)的波形形状、(3)加工所需的时间的项目来计算。即,例如与第一实施方式的回报r
p
、rw、rc同样地计算固定循环(i)中的各项目的回报r
p
(i)、rw(i)、rc(i)。
[0179]
并且,回报计算部221a可以与第一实施方式的回报计算部221同样地,使用各项目的回报r
p
(i)、rw(i)、rc(i)和数学公式2来计算固定循环(i)中的加工时间优先模式的回报r
cycle
(i)、以及加工寿命优先模式的回报r
tool
(i)。
[0180]
价值函数更新部222a与第一实施方式的价值函数更新部222同样地,在加工时间优先模式下的机器学习时,根据固定循环(i)中的状态s(i)、行为a(i)、将行为a(i)应用于状态s(i)的情况下的状态s’(i)、以及如上述那样计算出的回报r
cycle
(i)的值进行q学习,由此,更新价值函数存储部204a存储的固定循环(i)的价值函数q
cycle_i
。另外,价值函数更新部222a在工具寿命优先模式下的机器学习时,根据固定循环(i)中的状态s(i)、行为a(i)、将行为a(i)应用于状态s(i)的情况下的状态s’(i)、以及如上所述计算出的回报r
tool
(i)的值进行q学习,由此,更新价值函数存储部204a存储的价值函数q
tool_i

[0181]
行为信息生成部223a与第一实施方式的行为信息生成部223同样地,针对固定循环(i)中的当前状态s(i),选择q学习的过程中的行为a(i)。行为信息生成部223a在与加工时间优先模式或者工具寿命优先模式对应的q学习的过程中,为了进行修正第i个固定循环的1次的切入量以及切削速度的动作(相当于q学习中的行为a),生成第i个固定循环的行为信息a,将生成的第i个固定循环的行为信息a输出给行为信息输出部203a。
[0182]
行为信息输出部203a与第一实施方式的行为信息输出部203同样地,将从学习部202a输出的每个固定循环(i)的行为信息a(i)输出给数值控制装置101a。行为信息输出部203a例如可以将作为每个固定循环(i)的行为信息的、更新后的1次的切入量以及切削速度的值输出到数值控制装置101a。由此,数值控制装置101a根据接收到的更新后的1次的切入量以及切削速度的值,更新加工程序所包含的n个固定循环(i)的每一个。并且,数值控制装置101a根据包含更新后的固定循环(i)的加工程序生成动作指令,根据生成的动作指令使机床10进行切削加工。
[0183]
此外,行为信息输出部203a可以将作为每个固定循环(i)的行为信息的、根据更新后的1次的切入量以及切削速度的值更新了各固定循环(i)的加工程序输出到数值控制装置101a。
[0184]
价值函数存储部204a是存储每个固定循环(i)的加工时间优先模式的价值函数q
cycle_i
以及工具寿命优先模式的价值函数q
tool_i
的存储装置。此外,价值函数q
cycle_i
(1≤i≤n)的集合与价值函数q
cycle
的关系、以及价值函数q
tool_i
(1≤i≤n)的集合与价值函数q
tool
的关系如数学公式3所示。
[0185]
【数学式3】
[0186]
[0187][0188]
存储在价值函数存储部204a中的每个固定循环(i)的价值函数q
cycle_i
、q
tool_i
由价值函数更新部222更新。
[0189]
最优行为信息输出部205a与第一实施方式的最优行为信息输出部205同样地,根据通过价值函数更新部222a进行q学习而更新的加工时间优先模式的价值函数q
cycle
或工具寿命优先模式的价值函数q
tool
,生成用于使数值控制装置101a进行价值函数的值为最大的动作的固定循环(i)中的行为信息(最优行为信息)a。
[0190]
更具体而言,最优行为信息输出部205a取得价值函数存储部204存储的加工时间优先模式的价值函数q
cycle
以及工具寿命优先模式的价值函数q
tool
。并且,最优行为信息输出部205a生成基于取得的加工时间优先模式的价值函数q
cycle
的固定循环(i)中的行为信息和基于取得的加工时间优先模式的价值函数q
tool
的固定循环(i)中的行为信息,将生成的固定循环(i)中的各行为信息输出给数值控制装置101a。在该最优行为信息中,与行为信息输出部203a在q学习的过程中输出的行为信息同样地,包含表示更新后的1次的切入量以及切削速度的值的信息。
[0191]
以上,对机器学习装置20a所包含的功能块进行了说明。
[0192]
接着,参照图8的流程图对本实施方式中的q学习时的机器学习装置20a的动作进行说明。
[0193]
图8是表示第二实施方式中的q学习时的机器学习装置20a的动作的流程图。此外,对图8的流程图中的与图3所示的步骤一样的处理标注相同的步骤编号,省略详细的说明。
[0194]
在步骤s11a中,控制部206将加工程序的试行次数j设为初始设定,即“1”,指示状态信息取得部201a取得状态信息。
[0195]
在步骤s11b中,控制部206将i初始化为“1”。
[0196]
在步骤s12a中,状态信息取得部201a从数值控制装置101a取得固定循环(i)的状态数据s(i)。取得的状态数据s(i)输出到行为信息生成部223a。如上所述,该状态数据(状态信息)s(i)是相当于q学习中的固定循环(i)中的状态s(i)的信息,包含步骤s12a时间点的、1次的切入量、切削速度、工具材质、工具形状、工具直径、工具长度、剩余工具寿命、加工对象工件的材质、工具目录的切削条件、主轴转速、电动机电流值、机械温度以及周围温度。此外,最初开始q学习的时间点的状态数据预先由操作员生成。
[0197]
在步骤s13a中,行为信息生成部223a通过加工时间优先模式或者工具寿命优先模式下的机器学习,生成加工时间优先模式以及工具寿命优先模式的固定循环(i)中的新的行为信息a(i),将生成的加工时间优先模式以及工具寿命优先模式的新的行为信息a(i)经由行为信息输出部203a输出给数值控制装置101a。数值控制装置101a根据接收到的加工时间优先模式以及工具寿命优先模式的行为信息a(i)中的、由设定装置111选择出的行为信息a(i),执行更新了在固定循环(i)中设定的1次的切入量以及切削速度的加工程序。数值控制装置101a根据更新后的固定循环(i)生成动作指令,根据生成的动作指令使机床10进行切削加工。并且,数值控制装置101a在完成固定循环(i)时,停止加工程序。
[0198]
在步骤s14中,状态信息取得部201a进行与第一实施方式中的步骤s14一样的处理,取得从数值控制装置101a取得的固定循环(i)中新的状态数据s’(i)。
[0199]
在步骤s15中,状态信息取得部201a进行与第一实施方式中的步骤s15一样的处理,取得针对固定循环(i)中新的状态s’(i)的判定信息。将取得的判定信息输出到学习部202a。
[0200]
在步骤s16中,回报计算部221a进行与第一实施方式中的步骤s16一样的处理,根据取得的判定信息进行图4的回报计算处理,分别计算加工时间优先模式的固定循环(i)的回报r
cycle
(i)以及工具寿命优先模式的固定循环(i)的回报r
tool
(i)。
[0201]
在步骤s17中,价值函数更新部222a进行与第一实施方式中的步骤s17一样的处理,根据计算出的固定循环(i)的回报r
cycle
(i)以及回报r
tool
(i),分别更新价值函数存储部204a存储的固定循环(i)的加工时间优先模式的价值函数q
cycle_i
以及工具寿命优先模式的价值函数q
tool_i

[0202]
在步骤s17a中,控制部206判定i是否比n小。在i比n小的情况下,处理前进到步骤s17b。另一方面,在i为n以上的情况下,处理前进到步骤s18。
[0203]
在步骤s17b中,控制部206使i增加“1”。处理返回到步骤s12a。
[0204]
在步骤s18中,控制部206进行与第一实施方式中的步骤s18一样的处理,判断从开始机器学习起的加工程序的试行次数j是否达到了最大试行次数。若未达到最大试行次数,则在步骤s19中将试行次数j加“1”,返回到步骤s11b。反复进行步骤s11b到步骤s19的处理,直到达到最大试行次数为止。
[0205]
此外,图8的流程在加工程序的试行次数j达到最大试行次数时使处理结束,但也可以将从开始机器学习起累计步骤s11b至步骤s19的处理有关的时间而得到的时间超过预先设定的最大经过时间(或者为最大经过时间以上)作为条件来结束处理。
[0206]
另外,步骤s17例示了在线更新,但也可以代替在线更新而置换为批量更新或者小批量更新。
[0207]
以上,通过参照图8说明的动作,在本实施方式中,能够生成在多产品、可变数量生产等现场,在不增加操作员的时间和精力的情况下,对加工程序的固定循环进行优化的价值函数q
cycle
、q
tool

[0208]
此外,关于最优行为信息输出部205a生成最优行为信息时的动作,除了按固定循环(i)生成最优行为信息这一点以外,与图5的流程图一样,省略说明。
[0209]
如上所述,数值控制装置101a执行根据由设定装置111选择出的每个固定循环(i)的加工时间优先模式或工具寿命优先模式下的行为而更新了在固定循环(i)中设定的1次的切入量及切削速度的加工程序,由此,能够在多产品、可变数量生产等现场,在不增加操作员的时间和精力的情况下,对加工程序进行优化。由此,数值控制装置101可以使加工所需的时间(即,循环时间)优先来进行加工,或使工具寿命优先来进行加工。
[0210]
另外,数值控制装置101a不需要由操作员设定1次的切入量以及切削速度的自变量,能够削减制作加工程序的时间和精力。
[0211]
以上,对第二实施方式进行了说明。
[0212]
以上,对第一实施方式以及第二实施方式进行了说明,但数值控制装置101、101a以及机器学习装置20、20a并不限定于上述的实施方式,包含能够实现目的的范围内的变形、改良等。
[0213]
《变形例1》
[0214]
在上述的第一实施方式以及第二实施方式中,机器学习装置20、20a交替地进行加工时间优先模式和工具寿命优先模式下的机器学习,但并不限定于此。例如,机器学习装置20、20a也可以分别进行加工时间优先模式下的机器学习和工具寿命优先模式下的机器学习。
[0215]
《变形例2》
[0216]
另外,例如在上述的第一实施方式以及第二实施方式中,设定装置111根据在机床10中正使用的工具的剩余工具寿命与预先设定的阈值的比较,选择了加工时间优先模式下的行为、或者工具寿命优先模式下的行为,但并不限定于此。
[0217]
例如,在工具的剩余工具寿命为5%、剩余加工部件数为3个、以及每加工一次的工具寿命减少量为0.1%的情况下,对剩余加工部件数为3个的工件进行加工后的剩余工具寿命为4.7%,不会成为0%。因此,即使剩余工具寿命为阈值以下,即使对剩余加工部件数的工件进行加工也不会成为0%,该情况下,设定装置111也可以选择加工时间优先模式下的行为。
[0218]
由此,即使在剩余工具寿命少的情况下,只要剩余工具寿命相对于剩余加工部件数有剩余,就可以不降低加工所需的时间(循环时间)地进行加工。
[0219]
《变形例3》
[0220]
另外,例如在上述的第一实施方式以及第二实施方式中,例示了机器学习装置20、20a为与数值控制装置101、101a不同的装置,但数值控制装置101、101a也可以具有机器学习装置20、20a的一部分或者全部的功能。
[0221]
或者,例如可以是服务器具有机器学习装置20的状态信息取得部201、学习部202、行为信息输出部203、价值函数存储部204、最优行为信息输出部205以及控制部206、或者机器学习装置20a的状态信息取得部201a、学习部202a、行为信息输出部203a、价值函数存储部204a、最优行为信息输出部205a以及控制部206的一部分或者全部。另外,也可以在云上利用虚拟服务器功能等来实现机器学习装置20、20a的各功能。
[0222]
并且,机器学习装置20、20a也可以是将机器学习装置20、20a的各功能适当分散到多个服务器的分散处理系统。
[0223]
《变形例4》
[0224]
另外,例如在上述的第一实施方式以及第二实施方式中,在控制系统1中,1个机床10与1个机器学习装置20、20a能够通信地连接,但并不限定于此。例如图9所示,控制系统1可以具有m个机床10a(1)-10a(m)和m个机器学习装置20b(1)-20b(m)(m是2以上的整数)。该情况下,机器学习装置20b(j)可以经由网络50能够1对1通信地与机床10a(j)连接,对机床10a(j)实施机器学习(j为1至m的整数)。
[0225]
此外,存储在机器学习装置20b(j)的价值函数存储部204(204a)中的价值函数q
cycle
、q
tool
(q
cycle_i
、q
tool_i
)可以与其他机器学习装置20b(k)之间进行共享(k为1至m的整数,k≠j)。如果在机器学习装置20b(1)-20b(m)中共享价值函数q
cycle
、q
tool
(q
cycle_i
、q
tool_i
),则能够在各机器学习装置20b中分散地进行强化学习,能够提高强化学习的效率。
[0226]
此外,机床10a(1)-10a(m)的每一个与图1或图6的机床10对应。另外,机器学习装置20b(1)-20b(m)的每一个与图1的机器学习装置20或图6的机器学习装置20a对应。
[0227]
另外,如图10所示,服务器60可以作为机器学习装置20(20a)进行动作,经由网络
50与m个机床10a(1)-10a(m)能够通信地连接,对机床10a(1)-10a(m)的每一个实施机器学习。
[0228]
此外,第一实施方式以及第二实施方式中的数值控制装置101、101a以及机器学习装置20、20a所包含的各功能能够通过硬件、软件或者它们的组合来分别实现。在此,通过软件实现是指通过计算机读入程序并执行来实现。
[0229]
数值控制装置101、101a以及机器学习装置20、20a所包含的各结构部可以通过包含电子电路等的硬件、软件或者它们的组合来实现。在通过软件来实现的情况下,构成该软件的程序安装于计算机。另外,这些程序可以记录于可移动介质而发布给用户,也可以通过经由网络下载到用户的计算机来发布。另外,在由硬件构成的情况下,例如能够由asic(application specific integrated circuit:专用集成电路)、门阵列、fpga(field programmable gate array:现场可编程门阵列)、cpld(complex programmable logic device:复杂可编程逻辑器件)等集成电路(ic)构成上述装置所包含的各结构部的功能的一部分或全部。
[0230]
能够使用各种类型的非暂时性的计算机可读介质(non-transitory computer readable medium)来储存程序,并提供给计算机。非暂时性的计算机可读介质包含各种类型的有实体的记录介质(tangible storage medium)。非暂时性的计算机可读介质的例子包含磁记录介质(例如,软盘、磁带、硬盘驱动器)、光磁记录介质(例如,光磁盘)、cd-rom(read only memory:只读存储器)、cd-r、cd-r/w、半导体存储器(例如掩模rom、prom(programmable rom:可编程rom)、eprom(erasable prom:可擦除prom)、闪存rom、ram)。另外,也可以通过各种类型的暂时性的计算机可读介质(transitory computer readable medium)将程序提供给计算机。暂时性的计算机可读介质的例子包含电信号、光信号和电磁波。暂时性的计算机可读介质能够经由电线以及光纤等有线通信路径或者无线通信路径将程序提供给计算机。
[0231]
此外,描述在记录介质中记录的程序的步骤,当然包含按该顺序呈时间顺序进行的处理,也包含未必呈时间顺序进行的处理、以及并列地或者单独地执行的处理。
[0232]
换言之,本公开的机器学习装置、设定装置、数值控制系统、数值控制装置以及机器学习方法可以采取具有如下结构的各种实施方式。
[0233]
(1)本公开的机器学习装置20,对根据加工程序使机床10动作的数值控制装置101进行机器学习,其具有:状态信息取得部201,通过数值控制装置101执行至少设定了1次的切入量和切削速度的加工程序,使机床10进行切削加工,由此,状态信息取得部201取得包含1次的切入量和切削速度的状态信息;行为信息输出部203,其输出行为信息,该行为信息包含状态信息所包含的1次的切入量和切削速度的调整信息;回报计算部221,其取得判定信息,并根据取得的判定信息输出与规定的条件对应的强化学习中的回报值,其中,判定信息是至少与如下信息相关的信息:切削加工中施加于工具的压力强度、施加于工具的压力的波形形状、以及加工所需的时间;价值函数更新部222,其根据回报值、状态信息以及行为信息来更新价值函数q。
[0234]
根据该机器学习装置20,可以在不增加操作员的时间和精力的情况下,对加工程序进行优化。
[0235]
(2)在(1)所记载的机器学习装置20中,也可以是,规定的条件是使加工时间优先
的条件和使工具的寿命优先的条件中的任一个条件,回报计算部221在使加工时间优先的条件下输出回报r
cycle
,在使工具的寿命优先的条件下输出回报r
tool
,在使加工时间优先的条件下,价值函数更新部222根据回报r
cycle
、状态信息以及行为信息来更新价值函数q
cycle
,在使工具的寿命优先的条件下,价值函数更新部222根据回报r
tool
、状态信息以及行为信息来更新价值函数q
tool

[0236]
由此,可以在不增加操作员的时间和精力的情况下,生成用于对加工程序的固定循环进行优化的价值函数q
cycle
、q
tool

[0237]
(3)在(2)所记载的机器学习装置20、20a中,也可以是,在每次执行加工程序时,或者每次执行加工程序所包含的多个固定循环的各个固定循环时,进行机器学习。
[0238]
由此,可以按工件加工、按固定循环来对加工程序进行优化。
[0239]
(4)在(2)或者(3)所记载的机器学习装置20、20a中,也可以是,机器学习装置还具有:最优行为信息输出部205、205a,其输出根据回报r
cycle
更新后的价值函数q
cycle
的值为最大的行为信息、以及根据回报r
tool
更新后的价值函数q
tool
的值为最大的行为信息。
[0240]
由此,机器学习装置20、20a可以根据工具状态对加工程序进行优化。
[0241]
(5)在(1)所记载的机器学习装置20中,也可以是,在判定信息所包含的加工所需的时间比上次的加工所需的时间减少的情况下,回报计算部221将回报r
cycle
、r
tool
设为正值,在加工所需的时间比上次的加工所需的时间增加的情况下,回报计算部221将回报r
cycle
、r
tool
设为负值。
[0242]
由此,机器学习装置20可以根据加工所需的时间对加工程序进行优化。
[0243]
(6)在(1)所记载的机器学习装置20中,也可以是,在判定信息所包含的施加于工具的压力的波形形状至少与表示工具被损坏的预兆的波形形状以及表示工具的寿命急剧减少的波形形状不相似的情况下,回报计算部221将回报r
cycle
、r
tool
设为正值,在施加于工具的压力的波形形状至少与表示工具被损坏的预兆的波形形状或者表示工具的寿命急剧减少的波形形状相似的情况下,回报计算部221将回报r
cycle
、r
tool
设为负值。
[0244]
由此,机器学习装置20可以在考虑加工安全的同时对加工程序进行优化。
[0245]
(7)在(1)~(6)中任一项所记载的机器学习装置20、20a中,也可以是,设置机器学习的最大试行次数来进行机器学习。
[0246]
由此,机器学习装置20、20a可以避免长时间进行机器学习。
[0247]
(8)本公开的设定装置111,根据预先设定的阈值选择从(1)~(7)中任一项所记载的机器学习装置取得的行为中的某个行为,将选择出的行为设定给加工程序。
[0248]
根据该设定装置111,可以获得与(1)~(7)同样的效果。
[0249]
(9)本公开的数值控制系统1,具有:(1)~(7)中任一项所记载的机器学习装置20、20a;(8)所记载的设定装置111;数值控制装置101、101a,其执行由设定装置111设定的加工程序。
[0250]
根据该数值控制系统1,可以获得与(1)~(7)同样的效果。
[0251]
(10)本公开的数值控制装置101、101a,包含:(1)~(7)中任一项所记载的机器学习装置20、20a;(8)所记载的设定装置111,数值控制装置执行由设定装置111设定的加工程序。
[0252]
根据该数值控制装置101、101a,可以获得与(1)~(7)同样的效果。
[0253]
(11)本公开的数值控制方法是机器学习装置20、20a的机器学习方法,机器学习装置20、20a对根据加工程序使机床10动作的数值控制装置101、101a进行机器学习,通过数值控制装置101、101a执行至少设定了1次的切入量和切削速度的加工程序,使机床10进行切削加工,由此,取得包含1次的切入量和切削速度的状态信息;输出行为信息,该行为信息包含状态信息所包含的1次的切入量和切削速度的调整信息;取得判定信息,并根据取得的判定信息输出与规定的条件对应的强化学习中的回报值,其中,判定信息是至少与如下信息相关的信息:切削加工中施加于工具的压力强度、施加于工具的压力的波形形状、以及加工所需的时间;根据回报值、状态信息以及行为信息来更新价值函数q。
[0254]
根据该数值控制方法,可以获得与(1)同样的效果。
[0255]
符号说明
[0256]
1 数值控制系统
[0257]
10 机床
[0258]
101、101a 数值控制装置
[0259]
111 设定装置
[0260]
20、20a 机器学习装置
[0261]
201、201a 状态信息取得部
[0262]
202、202a 学习部
[0263]
221、221a 回报计算部
[0264]
222、222a 价值函数更新部
[0265]
223、223a 行为信息生成部
[0266]
203、203a 行为信息输出部
[0267]
204、204a 价值函数存储部
[0268]
205、205a 最优行为信息输出部
[0269]
206 控制部。

技术特征:
1.一种机器学习装置,其对根据加工程序使机床动作的数值控制装置进行机器学习,其特征在于,所述机器学习装置具有:状态信息取得部,通过所述数值控制装置执行至少设定了1次的切入量和切削速度的所述加工程序,使所述机床进行切削加工,由此,所述状态信息取得部取得包含所述1次的切入量和所述切削速度的状态信息;行为信息输出部,其输出行为信息,该行为信息包含所述状态信息所包含的所述1次的切入量和所述切削速度的调整信息;回报计算部,其取得判定信息,并根据取得的所述判定信息输出与规定的条件对应的强化学习中的回报值,其中,所述判定信息是至少与如下信息相关的信息:所述切削加工中施加于工具的压力强度、施加于所述工具的所述压力的波形形状、以及加工所需的时间;以及价值函数更新部,其根据所述回报值、所述状态信息以及所述行为信息来更新价值函数。2.根据权利要求1所述的机器学习装置,其特征在于,所述规定的条件是使加工时间优先的条件和使所述工具的寿命优先的条件中的任一个条件,所述回报计算部在使所述加工时间优先的条件下输出第一回报值,在使所述工具的寿命优先的条件下输出第二回报值,在使所述加工时间优先的条件下,所述价值函数更新部根据所述第一回报值、所述状态信息以及所述行为信息来更新第一价值函数,在使所述工具的寿命优先的条件下,所述价值函数更新部根据所述第二回报值、所述状态信息以及所述行为信息来更新第二价值函数。3.根据权利要求2所述的机器学习装置,其特征在于,在每次执行所述加工程序时,或者每次执行所述加工程序所包含的多个固定循环的各个固定循环时,进行所述机器学习。4.根据权利要求2或3所述的机器学习装置,其特征在于,所述机器学习装置还具有:最优行为信息输出部,其输出根据所述第一回报值更新后的所述第一价值函数的值为最大的第一行为信息、以及根据所述第二回报值更新后的所述第二价值函数的值为最大的第二行为信息。5.根据权利要求1所述的机器学习装置,其特征在于,在所述判定信息所包含的所述加工所需的时间比上次的加工所需的时间减少的情况下,所述回报计算部将所述回报值设为正值,在所述加工所需的时间比上次的加工所需的时间增加的情况下,所述回报计算部将所述回报值设为负值。6.根据权利要求1所述的机器学习装置,其特征在于,在所述判定信息所包含的施加于所述工具的压力的波形形状至少与表示所述工具被损坏的预兆的波形形状以及表示所述工具的寿命急剧减少的波形形状不相似的情况下,所述回报计算部将所述回报值设为正值,在施加于所述工具的压力的波形形状至少与表示所述工具被损坏的预兆的波形形状或者表示所述工具的寿命急剧减少的波形形状相似的情况下,所述回报计算部将所述回报值设为负值。
7.根据权利要求1~6中任一项所述的机器学习装置,其特征在于,设置所述机器学习的最大试行次数来进行所述机器学习。8.一种设定装置,其特征在于,根据预先设定的阈值选择从权利要求1~7中任一项所述的机器学习装置取得的行为中的某个行为,将选择出的所述行为设定给所述加工程序。9.一种数值控制系统,其特征在于,具有:权利要求1~7中任一项所述的机器学习装置;权利要求8所述的设定装置;以及数值控制装置,其执行由所述设定装置设定的所述加工程序。10.一种数值控制装置,其特征在于,所述数值控制装置包含:权利要求1~7中任一项所述的机器学习装置;以及权利要求8所述的设定装置,该数值控制装置执行由所述设定装置设定的所述加工程序。11.一种机器学习装置的机器学习方法,该机器学习装置对根据加工程序使机床动作的数值控制装置进行机器学习,其特征在于,通过所述数值控制装置执行至少设定了1次的切入量和切削速度的所述加工程序,使所述机床进行切削加工,由此,取得包含所述1次的切入量和所述切削速度的状态信息,输出行为信息,该行为信息包含所述状态信息所包含的所述1次的切入量和所述切削速度的调整信息,取得判定信息,并根据取得的所述判定信息输出与规定的条件对应的强化学习中的回报值,其中,所述判定信息是至少与如下信息相关的信息:所述切削加工中施加于工具的压力强度、施加于所述工具的所述压力的波形形状、以及加工所需的时间,根据所述回报值、所述状态信息以及所述行为信息来更新价值函数。

技术总结
在不增加操作员的时间和精力的情况下,对加工程序进行优化。机器学习装置对根据加工程序使机床动作的数值控制装置进行机器学习,其具有:状态信息取得部,通过执行至少设定了1次的切入量和切削速度的加工程序,使机床进行切削加工,由此,取得包含1次的切入量和切削速度的状态信息;行为信息输出部,其输出行为信息,该行为信息包含状态信息所包含的1次的切入量和切削速度的调整信息;回报计算部,其取得判定信息,并根据取得的判定信息输出与规定的条件对应的强化学习中的回报值,其中,判定信息是至少与如下信息相关的信息:切削加工中施加于工具的压力强度、施加于工具的压力的波形形状、以及加工所需的时间的信息;价值函数更新部,其根据回报值、状态信息以及行为信息来更新价值函数。新价值函数。新价值函数。


技术研发人员:铃木佳之
受保护的技术使用者:发那科株式会社
技术研发日:2021.03.10
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1478.html

最新回复(0)