空调控制的学习装置以及推理装置的制作方法

专利2024-11-28 117

1.本公开涉及空调控制的学习装置以及推理装置。

背景技术：

2.以往，公知有一种使空调对象的空间的舒适性提高的空调控制。例如，在日本特开平5－256493号公报(专利文献1)中公开了一种通过基于风速传感器等的空调控制来使用温热环境指数pmv(predicted mean vote)值将空调区域稳定地维持为舒适的结构。
3.专利文献1：日本特开平5－256493号公报
4.一般，对于工厂内的空调控制而言，执行恒定或与作业人员的感性对应的基于手动的控制的情况很多。另外，专利文献1的温热环境指数pmv(predicted meanvote)值是作为一般解决方案的舒适性，与作业人员的生产率的相关性不明。在专利文献1中，未考虑使工厂的作业人员的生产率提高。

技术实现要素：

5.本公开是为了解决上述那样的课题而完成的，其目的在于，使工厂的作业人员的生产率提高。
6.本公开的一个方面所涉及的学习装置学习包括至少1个设备的工厂的空调系统的控制。学习装置具备第1数据取得部和模型生成部。第1数据取得部取得学习用数据，该学习用数据包括表示至少1个设备以及空调系统的状态的第1参数和与空调系统的空调的强度相关的第2参数。模型生成部使用学习用数据生成根据第1参数来推理第2参数的学习完毕模型。第1参数包括在至少1个设备的各个进行作业的作业人员的识别信息、由至少1个设备生产的产品的品种、至少1个设备的识别信息、产品的节拍时间(tact time)、与产品的质量相关的信息、以及与取得了第1参数的时刻相关的信息。
7.本公开的另一方面所涉及的推理装置输出包括至少1个设备的工厂的空调系统的控制。推理装置具备数据取得部和推理部。数据取得部取得表示至少1个设备以及空调系统的状态的第1参数。推理部使用根据第1参数推理与空调系统的空调的强度相关的第2参数的学习完毕模型来根据由数据取得部取得的第1参数输出第2参数。第1参数包括在至少1个设备的各个进行作业的作业人员的识别信息、由至少1个设备生产的产品的品种、至少1个设备的识别信息、产品的节拍时间、与产品的质量相关的信息、以及与取得了第1参数的时刻相关的信息。
8.根据本公开所涉及的学习装置以及推理装置，通过第1参数包括在至少1个设备的各个进行作业的作业人员的识别信息、由至少1个设备生产的产品的品种、至少1个设备的识别信息、产品的节拍时间、与产品的质量相关的信息、以及与取得了第1参数的时刻相关的信息，能够使工厂的作业人员的生产率提高。
附图说明
9.图1是表示具备实施方式所涉及的学习装置以及推理装置的管理服务器、以及由管理服务器控制的空调系统及工厂的构成的一个例子的框图。
10.图2是表示作业时间、设备的识别信息、品种、作业人员的识别信息、预料最佳温度、以及空调强度的一个例子的图。
11.图3是表示图1的学习装置的构成的框图。
12.图4是表示图3的学习装置的学习处理的流程图。
13.图5是表示图1的推理装置的构成的框图。
14.图6是表示图5的推理装置的推理处理的流程图。
15.图7是表示图1的信息处理系统的硬件结构的框图。
具体实施方式
16.以下，参照附图对本公开的实施方式详细地进行说明。其中，在附图中对相同或者相当部分标注相同的附图标记，原则上不重复其说明。
17.图1是表示具备实施方式所涉及的学习装置100以及推理装置200的管理服务器10、以及由管理服务器10控制的空调系统20及工厂30的构成的一个例子的框图。图2是表示作业时间、设备的识别信息、品种、作业人员的识别信息、预料最佳温度、以及空调强度的一个例子的图。参照图1以及图2，工厂30包括设备eq1、eq2、eq3。工件wrk按照设备eq1～eq3的顺序经由作业工序而作为产品prd被出厂。在设备eq1～eq3中，作业人员op1、op2、op3在进行作业。
18.管理服务器10包括信息处理系统11和数据收集/处理系统12。信息处理系统11包括学习装置100和推理装置200。管理服务器10通过无线通信从温湿度传感器sn1、sn2、sn3分别取得设备eq1的温度以及湿度、设备eq2的温度以及湿度、以及设备eq3的温度以及湿度。管理服务器10通过有线通信经由空调控制器23从温湿度传感器sn10取得室外机21的温度以及湿度。管理服务器10通过有线通信经由数据收集/处理系统12从温湿度传感器sn11取得室内机22的温度以及湿度。管理服务器10取得生产现场的空调控制推断参数prm1(第1参数)。空调控制推断参数prm1包括在设备eq1～eq3的各个进行作业的作业人员op1～op3的识别信息、由设备eq1～eq3生产的产品prd的品种、设备eq1～eq3的识别信息、产品prd的节拍时间、与产品prd的质量相关的信息、以及与取得了空调控制推断参数prm1的时刻相关的信息。与产品prd的质量相关的信息例如包括在检查工序中进行的质量检查的结果或与成品率相关的信息。空调控制推断参数prm1也可以包括作业人员op1～op3各自在作业中的图像。
19.空调系统20包括室外机21、室内机22以及空调控制器23。室外机21被配置于工厂30的外部。室内机22以及空调控制器23被配置于工厂30内。室外机21包括风扇、压缩机以及热交换器。室内机22包括风扇、热交换器以及膨胀阀。空调控制器23包括恒温器。空调控制器23接受来自管理服务器10的空调强度控制参数prm2(第2参数)，来控制室外机21以及室内机22。空调强度控制参数prm2包括恒温器的接通/断开、压缩机的旋转频率、风扇的风力、制冷剂的蒸发温度以及制冷剂的冷凝温度。
20.图3是表示图1的学习装置100的构成的框图。如图3所示，学习装置100具备数据取
得部110(第1数据取得部)和模型生成部120。数据取得部110取得空调控制推断参数prm1以及空调强度控制参数prm2作为学习用数据。
21.模型生成部120使用包括空调控制推断参数prm1以及空调强度控制参数prm2的学习用数据来学习空调强度控制。即，模型生成部120生成根据空调控制推断参数prm1来推理空调强度控制参数prm2的学习完毕模型。对于模型生成部120所使用的学习算法而言，能够使用有教导学习、无教导学习或强化学习等公知的算法。以下，作为一个例子，对应用了强化学习(reinforcement learning)的情况进行说明。在强化学习中，某个环境内的智能体(行动主体)观测当前的状态(环境的参数)，决定应该采取的行动。环境因智能体的行动而动态变化，根据环境的变化来向智能体给予回报。智能体重复上述内容，学习通过一系列的行动可获得回报最多的行动方针。作为强化学习的代表性手法，公知有q学习(q-learning)或者td学习(td-learning)。例如，在q学习的情况下，如以下的式(1)那样表示行动价值函数q(s
t
，a
t
)的一般的更新式。
22.[式1]
[0023][0024]
在式(1)中，s
t
表示时刻t的环境的状态，a
t
表示时刻t的行动。状态因行动a
t
而从s
t
变为s
t+1
。r
t+1
表示因状态的变化而获得的回报，γ表示折扣率，α表示学习系数。其中，γ是0＜γ≤1的范围，α为0＜α≤1的范围。空调强度控制参数prm2成为行动a
t
，生产现场的空调控制推断参数prm1成为状态s
t
。智能体一边重复式(1)所示的行动价值函数q(s，a
t
)的更新，一边学习时刻t的状态s
t
下的最佳的行动a
t
。
[0025]
在时刻t+1的行动价值q(评价值)最高的行动a的q值大于在时刻t执行了的行动a的行动价值q的情况下，由式(1)表示的更新式增大行动价值q。在相反的情况下，该更新式减小行动价值q。换言之，以使时刻t的行动a的行动价值q接近时刻t+1的最佳的行动价值的方式更新行动价值函数q(s，a)。由此，某个环境下的最佳的行动价值依次传播为其以前的环境下的行动价值。
[0026]
如上述那样，在通过强化学习生成学习完毕模型的情况下，模型生成部120具备回报计算部121和函数更新部122。回报计算部121使用空调控制推断参数prm1以及空调强度控制参数prm2来计算回报。回报计算部121根据生产率的增减来计算回报r，该生产率表示每单位时间在工厂30中实际生产出的产品prd的数量(例如个/小时)。具体而言，回报计算部121根据工厂30的生产率与作业人员op1～op3各自的独立的基准生产率的合计的偏离程度、或工厂30的生产率与和基准节拍时间对应的基准生产率的偏离程度来计算回报r。例如，在工厂30的生产率比上次增加的情况下，使回报r增大(例如给予“1”的回报)，另一方面，在工厂30的生产率比上次减少的情况下，减少回报r(例如给予“－1”的回报)。
[0027]
函数更新部122根据由回报计算部121计算的回报来更新用于决定空调强度控制参数prm2的函数，并输出至学习完毕模型存储部140。例如在q学习的情况下，可使用式(1)所表示的行动价值函数q(s
t
，a
t
)作为用于计算空调强度控制参数prm2的函数。
[0028]
学习装置100反复执行以上那样的学习。学习完毕模型存储部140存储被函数更新部122更新了的行动价值函数q(s
t
，a
t
)亦即学习完毕模型。
[0029]
图4是表示图3的学习装置100的学习处理的流程图。以下将步骤简称为s。如图4所
示，在s101中，数据取得部110取得空调控制推断参数prm1以及空调强度控制参数prm2作为学习用数据。具体而言，数据取得部110对作业人员op1～op3各自的识别信息赋予该作业人员正进行作业的设备的识别信息、与该作业人员对应的基准节拍时间以及作业时间，对温度以及湿度赋予测定该温度以及湿度的位置信息以及时间信息。
[0030]
在s102中，模型生成部120使用空调控制推断参数prm1以及空调强度控制参数prm2来计算回报。具体而言，回报计算部121取得空调控制推断参数prm1以及空调强度控制参数prm2，基于作为预先决定的回报基准的基准生产率与实际的工厂30的生产率的偏离程度来判断是使与空调强度控制参数prm2对应的回报增加(s103)还是使回报减少(s104)。在实际的工厂30的生产率大于基准生产率的情况下，在s103中，回报计算部121使回报增大。另一方面，在实际的工厂30的生产率小于基准生产率的情况下，在s104中，回报计算部121使回报减少。
[0031]
此外，作为回报基准，也可以使用在产品prd的成品率大于基准成品率的情况下使回报增加、在产品prd的成品率小于基准成品率的情况下使回报减少这一基准。其结果是，能够使产品prd的质量提高。
[0032]
在s105中，函数更新部122使用由回报计算部121计算出的回报以及式(1)来更新学习完毕模型存储部140存储的行动价值函数q(s
t
，a
t
)。
[0033]
学习装置100反复执行以上的s101～s105的步骤，存储所生成的行动价值函数q(s
t
，a
t
)作为学习完毕模型。此外，在学习装置100中，构成为将学习完毕模型存储到设置于学习装置100的外部的学习完毕模型存储部140，但也可以将学习完毕模型存储部140形成于学习装置100的内部。
[0034]
图5是表示图1的推理装置200的构成的框图。推理装置200包括数据取得部210和推理部220。数据取得部210取得空调控制推断参数prm1。推理部220利用存储在学习完毕模型存储部140的学习完毕模型来推理空调强度控制参数prm2。即，通过向学习完毕模型输入数据取得部210所取得的生产现场的空调控制推断参数prm1，能够推理适于生产现场的空调控制推断参数prm1的空调强度控制参数prm2。此外，在实施方式中，对使用由图3的模型生成部120学习获得的学习完毕模型来推理空调强度控制参数prm2的结构进行了说明，但也可以使用在其他环境下学习得到的学习完毕模型来输出空调强度控制参数。
[0035]
图6是表示图5的推理装置200的推理处理的流程图。如图6所示，在s201中，数据取得部210取得生产现场的空调控制推断参数prm1。在s202中，推理部220向存储于学习完毕模型存储部140的学习完毕模型输入生产现场的空调控制推断参数prm1，获得空调强度控制参数prm2，在s203中将空调强度控制参数prm2输出至空调系统20。在s204中，空调系统20使用从推理装置200输出的空调强度控制参数prm2来实施空调控制，该空调控制成为在不久的将来使所预测的生产率变化量增加的强度。由此，对于现有的通过一律使用温度设定的空调控制无法避免的取决于人、设备、开支项目以及时间而发生的生产率变动这一课题，能够实施使所推断的不久的将来的生产率提高的空调控制，维持稳定且高的生产率。
[0036]
此外，在本实施方式中，对推理部使用的学习算法应用了强化学习的情况进行了说明，但学习算法并不局限于强化学习。关于学习算法，除了能够应用强化学习以外，还能够应用有教导学习、无教导学习或者半有教导学习等。
[0037]
另外，作为在模型生成部120使用的学习算法，还能够使用学习特征量本身的提取
的深度学习(deep learning)，可以按照其他公知的方法例如神经网络、遗传编程、功能逻辑编程、或支持向量机等来执行机器学习。
[0038]
此外，学习装置100以及推理装置200例如可以是经由网络与空调系统20连接的与空调系统20独立的装置。另外，学习装置100以及推理装置200也可以内置于空调系统20。并且，学习装置100以及推理装置200也可以存在于云服务器上。
[0039]
另外，也可以不直接取得每个作业人员的数据，而从年龄、熟练度以及性别(例如20多岁的新人的男性)多个观点设定作业人员的人物形象(persona)，通过设定每个人物形象的作业人员模型来简化作业人员数据。同样，也可以通过将工厂、设备、生产线预先准备为多个模型来简化空调控制推断参数prm1的数据结构。
[0040]
另外，模型生成部120可以使用从多个空调系统20取得的学习用数据来学习空调强度控制。其中，模型生成部120可以从在相同的区域使用的多个空调系统20取得学习用数据，也可以利用从在不同的区域独立动作的多个空调系统20收集的学习用数据来学习空调强度控制。另外，还能够在中途将收集学习用数据的空调系统20追加至学习对象、或从学习对象中除去。并且，可以将关于某个空调系统20学习了空调强度控制的学习装置100应用至与其不同的空调系统20，关于该不同的预空调系统重新学习空调强度控制来进行更新。
[0041]
图7是表示图1的信息处理系统11的硬件结构的框图。如图7所示，信息处理系统11包括处理电路51、存储器52(存储部)以及输入输出部53。处理电路51包括执行被储存于存储器52的程序的cpu(central processing unit)。处理电路51也可以包括gpu(graphics processing unit)。信息处理系统11的功能可通过软件、固件、或者软件与固件的组合来实现。软件或固件被记述为程序，储存于存储器52。处理电路51读出存储于存储器52的程序并执行。其中，cpu亦被称为中央处理装置、处理装置、运算装置、微处理器、微型计算机、处理器、或dsp(digital signal processor)。
[0042]
存储器52包括非易失性或者易失性的半导体存储器(例如ram(random access memory)、rom(read only memory)、闪存、eprom(erasable programmable read only memory)、或eeprom(electrically erasable programmable read only memory))、以及磁盘、软盘、光盘、压缩盘(compact disc)、迷你碟(mini disc)或dvd(digital versatile disc)。在存储器52例如保存学习完毕模型、空调程序以及机器学习程序。
[0043]
输入输出部53接受来自用户的操作，并且将处理结果输出给用户。输入输出部53例如包括鼠标、键盘、触摸面板、显示器以及扬声器。
[0044]
以上，根据实施方式所涉及的学习装置以及推理装置，能够使工厂的作业人员的生产率提高。
[0045]
应该认为本次公开的实施方式在全部的点上都是例示而非限制性的。本公开的范围不由上述的说明而由技术方案示出，意在包括与技术方案等效的意思以及范围内的全部的变更。
[0046]
附图标记说明：
[0047]
10
…
管理服务器；11
…
信息处理系统；12
…
数据收集/处理系统；20
…
空调系统；21
…
室外机；22
…
室内机；23
…
空调控制器；30
…
工厂；51
…
处理电路；52
…
存储器；53
…
输入输出部；100
…
学习装置；110、210
…
数据取得部；120
…
模型生成部；121
…
回报计算部；122
…
函数更新部；140
…
学习完毕模型存储部；200
…
推理装置；220
…
推理部；eq1～eq3
…
设备；op1～op3
…
作业人员；prd
…
产品；sn1～sn3、sn10、sn11
…
温湿度传感器；wrk
…
工件。

技术特征：
1.一种学习装置，学习包括至少1个设备的工厂的空调系统的控制，所述学习装置的特征在于，具备：第1数据取得部，取得学习用数据，该学习用数据包括表示所述至少1个设备以及所述空调系统的状态的第1参数和与所述空调系统的空调的强度相关的第2参数；和模型生成部，使用所述学习用数据生成根据所述第1参数来推理所述第2参数的学习完毕模型，所述第1参数包括在所述至少1个设备的各个进行作业的作业人员的识别信息、由所述至少1个设备生产的产品的品种、所述至少1个设备的识别信息、所述产品的节拍时间、与所述产品的质量相关的信息、以及与取得了所述第1参数的时刻相关的信息。2.根据权利要求1所述的学习装置，其特征在于，所述第1参数包括所述作业人员在作业中的图像。3.根据权利要求1或2所述的学习装置，其特征在于，所述学习完毕模型包括将所述第1参数与所述第2参数的评价值建立了关联的函数。4.根据权利要求3所述的学习装置，其特征在于，所述模型生成部根据按照所述第2参数被控制了的所述空调系统涉及的空调之下的所述工厂内的生产率与基准生产率的偏离程度来更新所述第2参数的评价值。5.根据权利要求3所述的学习装置，其特征在于，所述模型生成部根据在按照所述第2参数被控制了的所述空调系统涉及的空调之下生产出的所述产品的成品率的变化来更新所述第2参数的评价值。6.一种推理装置，其特征在于，具备：第2数据取得部，取得所述第1参数；和推理部，使用由权利要求1～5中任一项所述的学习装置生成的所述学习完毕模型来根据由所述第2数据取得部取得的所述第1参数输出所述第2参数。7.一种推理装置，输出包括至少1个设备的工厂的空调系统的控制，所述推理装置的特征在于，具备：数据取得部，取得表示所述至少1个设备以及所述空调系统的状态的第1参数；和推理部，使用根据所述第1参数推理与所述空调系统的空调的强度相关的第2参数的学习完毕模型来根据由所述数据取得部取得的所述第1参数输出所述第2参数，所述第1参数包括在所述至少1个设备的各个进行作业的作业人员的识别信息、由所述至少1个设备生产的产品的品种、所述至少1个设备的识别信息、所述产品的节拍时间、与所述产品的质量相关的信息、以及与取得了所述第1参数的时刻相关的信息。8.根据权利要求7所述的推理装置，其特征在于，所述第1参数包括所述作业人员在作业中的图像。9.根据权利要求7或8所述的推理装置，其特征在于，所述学习完毕模型包括将所述第1参数与所述第2参数的评价值建立了关联的函数。

技术总结
学习装置(100)学习包括至少1个设备的工厂的空调系统的控制。学习装置(100)具备第1数据取得部(110)和模型生成部(120)。第1数据取得部(110)取得学习用数据，该学习用数据包括表示至少1个设备以及空调系统的状态的第1参数(Prm1)和与空调系统的空调的强度相关的第2参数(Prm2)。模型生成部(120)使用学习用数据生成根据第1参数(Prm1)来推理第2参数(Prm2)的学习完毕模型。第1参数(Prm1)包括在至少1个设备的各个进行作业的作业人员的识别信息、由至少1个设备生产的产品的品种、至少1个设备的识别信息、产品的节拍时间、与产品的质量相关的信息、以及与取得了第1参数的时刻相关的信息。息。息。

技术研发人员：京屋贵则
受保护的技术使用者：三菱电机株式会社
技术研发日：2020.03.27
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-10554.html

专利

最新回复(0)