信息处理装置、信息处理方法以及计算机可读的存储介质与流程

专利2024-12-18 47

信息处理装置、信息处理方法以及计算机可读的存储介质
1.本技术是国际申请日为2020年9月25日、国际申请号为pct/jp2020/036328、发明名称为“解析装置、解析方法以及解析程序”的pct申请的进入国家阶段日为2021年4月13日、申请号为2020800056759的中国国家阶段申请的分案申请，其全部内容结合于此以作为参考。
技术领域
2.本发明涉及信息处理装置、信息处理方法以及计算机可读的存储介质。

背景技术：

3.近年来，不断尝试在各种问题中应用所谓的人工智能。例如，在下述专利文献1中，记载了以用于解决各种现实情况中的问题为目的的模型选择装置。
4.在先技术文献
5.专利文献
6.专利文献1：日本特开2019-220063号公报

技术实现要素：

7.发明所要解决的技术问题
8.但是，用于进行学习模型的学习处理的算法已知有多种，如果不根据问题适当地选择学习处理的算法，则有时无法充分地发挥学习模型的性能。通常是根据设定学习模型的人的经验对规定的问题使用规定的算法，不存在进行所选择的算法是否适当的性能评价的方法。
9.因此，本发明提供预测以多个算法进行了学习处理时的学习模型的性能的解析装置、解析方法以及解析程序。
10.用于解决课题的技术方案
11.本发明的一方式涉及的解析装置具备：学习部，使用多个算法，以缩小针对规定的问题设定的第一损失函数的值的方式分别进行规定的学习模型的机器学习；计算部，根据所述机器学习，针对每个算法计算表示第一损失函数的全局形状的第一形状信息和学习模型的性能；获取部，使用多个算法中的至少任意一个由学习部执行使针对新问题设定的第二损失函数的值变小这样的机器学习，获取表示由计算部算出的第二损失函数的全局形状的第二形状信息；以及预测部，使用通过将第一形状信息和学习模型的性能作为学习数据的监督学习而生成的预测模型，根据第二形状信息，针对多个算法分别预测以减小第二损失函数的值的方式执行学习模型的机器学习时的学习模型的性能。
12.根据本方式，可以通过使用多个算法中的至少一个算法执行学习模型的机器学习，从而预测使用其他算法执行学习模型的机器学习时得到的学习模型的性能。
13.根据本发明，能够提供预测利用多个算法进行了学习处理时的学习模型的性能的解析装置、解析方法以及解析程序。
adversarial networks：生成对抗网络)、wavenet、bert(bidirectional encoder representations from transformers：)、word2vec、随机森林、支持向量机、逻辑回归、梯度提升决策树以及主成分分析等中的任意一个，包括其他可应用于学习的模型。
34.另外，学习模型包含对已有的已学习模型进行剪枝(pruning)、量化(quantization)、蒸馏(distillation)或者转移(transfer)而得到的模型。此外，这些只不过是一例，学习部11也可以针对这些以外的问题进行学习模型的机器学习。
35.另外，多个算法是进行学习模型12a的机器学习的算法，在学习模型12a包含神经网络的情况下，可以是通过误差反向传播法对神经网络的参数进行更新、优化的算法。多个算法包括随机梯度下降法(stochastic gradient descent：sgd)、动量sgd、adagrad、rmsprop、adadelta以及adam等。另外，多个算法包括通过量子门方式或量子退火方式的量子计算机更新学习模型12a的参数的算法。例如，在通过由多个弱学习器组合而成的一个强学习器构成学习模型12a的情况下，可以使用hartmut neven,vasil s.denchev,geordie rose,william g.macready,"qboost:large scale classifier trainingwith adiabatic quantum optimization”,proceedings of the asian conference on machine learning,pmlr 25:333-348,2012.中记载的算法。另外，也可以使用jacob biamonte,peter wittek,nicola pancotti,patrick rebentrost,nathan wiebe and seth lloyd,“quantum machine learning”,nature volume 549,pages 195-202,2017.中记载的算法。另外，多个算法包括xgboost、lightgbm、装袋(bagging)(并行学习的算法)、提升(将之前的弱学习器的学习结果反映到下一个学习数据中的算法)以及堆叠(在两个阶段中积累学习的算法)。另外，多个算法包括下述参考文献1中记载的“自适应批量搜索”的算法。
36.(参考文献1)：“gpu
の
計算能力
を
最大限活用
する
組合
せ
最適化問題
の
新解法～1兆探索/秒
を
超
えるアダプティブ
·
バルク
·
サーチ
(最大限度有效利用gpu的计算能力的组合优化问题的新解法～超过1兆搜索/秒的自适应批量搜索)”、[online]、[2020年8月25日检索]、《https://www.hiroshima-u.ac.jp/news/59579》
[0037]
此外，这些只不过是一例，多个算法也可以包含这些以外的算法。另外，量子计算机可以是由超导线路构成量子位元的计算机、由离子阱构成量子位元的计算机、由量子点构成量子位元的计算机、或者由光路构成量子位元的计算机，硬件构成是任意的。进而，多个算法也可以包含通过量子计算机和古典计算机的混合型计算机更新学习模型12a的参数的算法。
[0038]
计算部12根据机器学习，针对每个算法计算表示第一损失函数的全局形状的第一形状信息和学习模型12a的性能。
[0039]
针对规定的问题所设定的第一损失函数可以是与学习模型12a的输出和标签数据相关的平方误差函数、或者交叉熵函数。在将学习模型12a所包含的多个参数表示为θ时，第一损失函数表示为与多个参数θ相关的函数l(θ)。在本说明书中，将函数l(θ)的值称为表示第一损失函数的全局形状的第一形状信息。例如，计算部12根据学习模型12a的机器学习，记录相对于参数θ的函数l(θ)的值，并计算表示第一损失函数的全局形状的第一形状信息l(θ)。
[0040]
另外，学习模型12a的性能例如可以用f值表示、或者用f值/(学习处理的计算时间)表示、或者用第一损失函数的值表示。此外，f值是在将精确率(precision)表示为p、将
召回率(recal1)表示为r时通过2pr/(p+r)算出的值。另外，学习模型12a的性能也可以使用例如me(平均误差)、mae(平均绝对误差)、rmse(均方根误差)、mpe(平均百分比误差)、mape(平均绝对百分比误差)、rmspe(均方根百分比误差)、roc(receiver operating characteristic：接受者操作特征)曲线以及auc(area under the curve：曲线下面积)、gini norm、kolmogorov-smirnov或者precision/recall等表示。计算部12根据学习模型12a的机器学习，计算以f值等表示的学习模型12a的性能。
[0041]
学习部11也可以针对学习模型12a的参数设定多个初始值，并使用多个算法以使第一损失函数的值变小的方式单独执行或者并行执行规定的学习模型12a的机器学习。在并行执行的情况下，计算部12根据机器学习，针对每个算法并行地计算第一形状信息和学习模型12a的性能。
[0042]
针对学习模型12a的参数设定多个初始值的理由是，通过使用多个初始值执行学习模型12a的机器学习，能够减小与损失函数的极小值对应的参数被选择的可能性。由此，可以提高能够选择全局最佳的与损失函数的最小值对应的参数的概率。另外，在针对多个初始值分别并行执行学习模型12a的机器学习的情况下，能够更高速地求出全局最优解。
[0043]
获取部13使用多个算法中的至少任意一个由学习部11执行使针对新问题所设定的第二损失函数的值变小这样的机器学习，获取表示由计算部12算出的第二损失函数的全局形状的第二形状信息。在此，新问题包括针对图像数据、序列数据以及文本数据中的至少任意一个进行分类、生成以及优化中的至少任意一个的问题。另外，第二损失函数可以是与学习模型12a的输出和标签数据相关的平方误差函数、或者交叉熵函数，第二形状信息可以是与多个参数θ相关的第二损失函数的函数形式l(θ)。
[0044]
预测部14使用通过将第一形状信息及学习模型12a的性能作为学习数据的监督学习而生成的预测模型14a。另外，预测部14使用该预测模型14a并根据第二形状信息，针对多个算法分别预测以减小第二损失函数的值的方式执行了学习模型12a的机器学习时的学习模型12a的性能。例如，预测部14通过向预测模型14a输入规定算法的第二形状信息，从而针对包括其他算法的多个算法分别输出执行了机器学习时的学习模型12a的性能。
[0045]
当针对新问题，通过试错来决定使用哪个算法能够适当地发挥学习模型12a的性能时，有时算法的选定需要时间。根据本实施方式涉及的解析装置10，可以通过使用多个算法中的至少一个算法执行学习模型12a的机器学习，从而预测使用其他算法执行学习模型12a的机器学习时得到的学习模型12a的性能。因此，在提出了新问题的情况下，能够迅速地决定应该使用哪个算法，从而能够适当地发挥学习模型12a的性能。
[0046]
学习部11也可以使用包含一个或多个超参数的多个算法减小第一损失函数的值，使用多个最优化算法将一个或多个超参数最优化，从而分别进行规定的学习模型12a的机器学习。该情况下，计算部12根据机器学习，按照多个最优化算法计算表示第一损失函数的全局形状的第一形状信息和学习模型12a的性能。在此，超参数在例如算法为sgd的情况下包含学习系数。关于其他的算法，也同样地设定学习系数、动量系数这样的高参数。另外，多个最优化算法例如包括随机搜索、贝叶斯优化、cma-es、坐标下降法、内尔德-米德(nelder-mead)法、粒子群优化以及遗传算法等。学习部11在针对多个算法使用将一个或多个参数优化的最优化算法的情况下，预测执行了学习模型12a的机器学习时的学习模型12a的性能。由此，不仅能够预测应选择多个算法中的哪一个，还能够预测应使用怎样的超参数的优化
法，从而能够缩短超参数调整所需的时间。
[0047]
存储部15存储包含第一形状信息及学习模型12a的性能的学习数据15a。学习数据15a包含：表示通过某一算法执行了学习模型12a的机器学习时的损失函数的全局形状的第一形状信息、和作为该机器学习的结果而得到的学习模型12a的性能。
[0048]
生成部16通过使用了学习数据15a的监督学习生成预测模型14a。预测模型14a例如是由神经网络构成，并将表示针对新问题设定的第二损失函数的全局形状的第二形状信息作为输入，预测使用多个算法以使针对新问题设定的第二损失函数的值变小的方式执行了学习模型12a的机器学习时的学习模型12a的性能。
[0049]
图2是表示本实施方式涉及的解析装置10的物理构成的一例的图。解析装置10具有相当于运算部的cpu(central processing unit：中央处理器)10a、相当于存储部的ram(random access memory：随机存取存储器)10b、相当于存储部的rom(read only memory：只读存储器)10c、通信部10d、输入部10e以及显示部10f。这些各构成通过总线以能够相互进行数据收发的方式连接。此外，在本例中，对解析装置10由一台计算机构成的情况进行说明，但解析装置10也可以将多个计算机或多个运算部组合而实现。另外，图2所示的构成是一个例子，解析装置10可以具有这些以外的构成，也可以不具有这些构成中的一部分。
[0050]
cpul0a是进行与存储于ram10b或rom10c中的程序的执行相关的控制或数据的运算、加工的控制部。cpu10a是执行程序(解析程序)的运算部，该程序(解析程序)是针对多个算法分别预测使用多个算法以使针对新问题设定的第二损失函数的值减小的方式执行了学习模型的机器学习时的学习模型的性能的程序。cpu10a从输入部10e和通信部10d接收各种数据，并将数据的运算结果显示在显示部10f中、或者存储在ram10b中。
[0051]
ram10b是存储部中能够改写数据的部分，例如可以由半导体存储元件构成。ram10b可以存储cpu10a执行的程序、包含针对规定的问题所设定的损失函数的全局形状和学习模型的性能的学习数据等的数据。此外，这些为例示，ram10b中也可以存储这些以外的数据，还可以不存储这些中的一部分。
[0052]
rom10c是存储部中能够读出数据的部分，例如可以由半导体存储元件构成。rom10c例如可以存储解析程序、不改写的数据。
[0053]
通信部10d是连接解析装置10与其他设备的接口。通信部10d可以与因特网等的通信网络连接。
[0054]
输入部10e受理用户的数据输入，例如可以包括键盘和触摸面板。
[0055]
显示部10f视觉性地显示cpu10a的运算结果，例如可以由lcd(liquid crystal display：液晶显示器)构成。
[0056]
显示部10f显示运算结果有助于xai(explainable ai：可解释的ai)。显示部10f例如可以显示损失函数的全局形状。
[0057]
解析程序可以存储在ram10b或rom10c等计算机可读的存储介质中进行提供，也可以经由通过通信部10d连接的通信网络进行提供。在解析装置10中，通过由cpu10a执行解析程序，从而实现使用图1所说明的各种动作。此外，这些物理构成为例示，并非一定是独立的构成。例如，解析装置10也可以具备cpu10a与ram10b或rom10c一体化的lsi(large-scale integration：大规模集成电路)。另外，解析装置10也可以具备gpu(graphical processing unit：图形处理器)、asic(application specific integrated circuit：专用集成电路)。
[0058]
图3是表示通过本实施方式涉及的解析装置10进行了学习处理的学习模型的性能的一例的图。在该图中，示出使用sgd、动量sgd(momentum sgd)、adagrad、rmsprop、adadelta、adam、量子门方式以及量子退火方式等的算法，并分别通过随机搜索(random search)、贝叶斯优化(bayesian optimization)、cma-es、坐标下降法(coordinate search)以及内尔德-米德法(nelder-mead)对一个或多个参数进行了优化时的学习模型的性能。例如，a1～a5是表示使用sgd作为算法，并通过随机搜索、贝叶斯优化、cma-es、坐标下降法或者内尔德-米德法对一个或多个超参数进行了优化时的学习模型的性能的数值。另外，b1～b5、c1～c5、d1～d5、e1～e5、f1～f5、g1～g5以及h1～h5同样是表示学习模型的性能的数值。
[0059]
图4是表示通过本实施方式涉及的解析装置10算出的形状信息的一例的图。在该图中，为了简便，作为学习模型的参数而示出了θ1和θ2，并示出了损失函数的值l(θ)。如该图所示，损失函数的全局形状包含多个极小值点，最小值点有时很难探索。本实施方式涉及的解析装置10将这样的损失函数的全局形状作为学习模型和学习算法的特征量，根据损失函数的全局形状预测使用多个算法进行了学习模型的学习处理时的学习模型的性能。
[0060]
图5是表示通过本实施方式涉及的解析装置10算出的学习数据的一例的图。该图中针对sgd、动量sgd(momentum sgd)、adagrad、rmsprop、adadelta、adam、量子门方式以及量子退火方式等的算法，示出了第一形状信息和学习模型的性能。例如，la(θ)表示使用sgd作为算法时的第一形状信息，sa是表示使用sgd作为算法时的学习模型的性能的数值。同样，lb(θ)、lc(θ)、ld(θ)、le(θ)、lf(θ)、lg(θ)以及lh(θ)是表示使用adagrad、rmsprop、adadelta、adam、量子门方式或者量子退火方式作为算法时的第一形状信息。另外，sb、sc、sd、se、sf、sg以及sh是表示使用adagrad、rmsprop、adadelta、adam、量子门方式或者量子退火方式作为算法时的学习模型的性能的数值。此外，如图3所示，学习模型的性能也可以按照超参数的最优化算法进行计算，将它们作为学习数据。
[0061]
图6是表示通过本实施方式涉及的解析装置10执行的预测处理的一例的流程图。首先，解析装置10从其他的信息处理装置受理规定的问题及规定的学习模型的指定(s10)。规定的问题及规定的学习模型的指定可以由用户输入。
[0062]
接着，解析装置10针对学习模型的参数设定多个初始值(s11)，并使用包含一个或多个超参数的多个算法减小第一损失函数的值，使用多个最优化算法对一个或多个超参数进行优化，从而分别并行执行规定的学习模型的机器学习(s12)。
[0063]
另外，解析装置10根据机器学习，针对每个算法并行地计算表示第一损失函数的全局形状的第一形状信息和学习模型的性能(s13)。而且，解析装置10将第一形状信息及学习模型的性能作为学习数据存储在存储部15中(s14)。
[0064]
然后，解析装置10从其他的信息处理装置受理新问题的指定(s15)。新问题的指定可以由用户输入。
[0065]
解析装置10使用多个算法中的至少任意一个由学习部11执行使针对新问题所设定的第二损失函数的值变小这样的机器学习，获取表示由计算部12算出的第二损失函数的全局形状的第二形状信息(s16)。然后，解析装置10使用预测模型并根据第二形状信息，针对多个算法分别预测以减小第二损失函数的值的方式执行了学习模型的机器学习时的学习模型的性能(s17)。
[0066]
图7是表示通过本实施方式涉及的解析装置10执行的预测模型生成处理的一例的流程图。首先，解析装置10获取包含第一形状信息和学习模型的性能的学习数据(s20)。此外，学习数据也可以经由因特网等的通信网络从外部存储装置获取。
[0067]
然后，解析装置10通过使用了学习数据的监督学习生成预测模型，该预测模型用于根据第二形状信息，针对多个算法分别预测以减小第二损失函数的值的方式执行了学习模型的机器学习时的学习模型的性能(s21)。而且，解析装置10将所生成的预测模型加以存储。
[0068]
图8是表示通过本实施方式涉及的解析装置10进行了学习处理的学习模型的性能的图。在该图中，示出了使用层次聚类、非层次聚类、主题模型、自组织映射、关联分析、协同过滤、典型相关分析、量子门方式以及量子退火方式等的无监督学习对学习数据进行分类，并应用与分类对应的预处理算法，分别通过随机搜索(random search)、贝叶斯优化(bayesian optimization)、cma-es、坐标下降法(coordinate search)以及内尔德-米德法(nelder-mead)对一个或多个超参数进行了优化时的学习模型的性能。g1～g5是表示作为无监督学习使用分层型聚类，并通过随机搜索、贝叶斯优化、cma-es、坐标下降法或者内尔德-米德法对分层型聚类中包含的一个或多个超参数进行了优化时的学习模型的性能的数值。另外，g6～g45同样是表示学习模型的性能的数值。
[0069]
学习部11使用包含一个或多个超参数的多个预处理算法进行机器学习中使用的学习数据的预处理，使用多个算法减小第一损失函数的值，使用多个最优化算法对一个或多个超参数进行优化，针对规定的学习模型分别进行使用了预处理后的学习数据的机器学习。然后，计算部12根据使用了预处理后的学习数据的机器学习，按照多个预处理算法计算表示第一损失函数的全局形状的第一形状信息和学习模型的性能。
[0070]
多个预处理算法可以包括缺失值处理、离群值的对应、连续值的离散化、数据操作、降维、独热矢量化、数据扩展、特征工程以及分箱。多个预处理算法包括使用无监督学习对学习数据进行分类，并进行与分类相应的预处理的算法。即，多个预处理算法包括使用层次聚类、非层次聚类、主题模型、自组织映射、关联分析、协同过滤、典型相关分析、量子门方式以及量子退火方式等的无监督学习对学习数据进行分类，根据分类进行缺失值处理、解释变量的优化、独热矢量化以及分箱中的至少任意一个的算法。
[0071]
图9是表示通过本实施方式涉及的解析装置10显示的超参数调整画面的图。在该图中，显示有用于调整学习算法的超参数的滑动条和用于调整预处理算法的超参数的滑动条，并以纵轴数值表示学习算法的种类，横轴数值表示预处理算法的种类的方式示出了(l-损失函数)的值的热图。在此，l是损失函数的最大值。此外，(l-损失函数)的值是表示学习模型的性能的值的一例，解析装置10也可以代替损失函数的值的热图而显示表示学习模型的性能的f值或f值/(学习处理的计算时间)的热图。
[0072]
解析装置10以能够调整的方式显示多个算法所包含的一个或多个超参数、和多个预处理算法所包含的一个或多个超参数，并针对多个算法及多个预处理算法分别显示学习模型的性能。解析装置10的用户通过在调整学习算法的超参数和预处理算法的超参数的同时，确认通过热图所示的损失函数的值最小的点(最大似然点)，并选择与该点对应的学习算法及预处理算法，从而能够高效地从多个学习算法及多个预处理算法中选择最佳的算法。
[0073]
图10是通过本实施方式涉及的解析装置10执行的预测处理的流程图。首先，解析装置10受理学习算法的超参数的指定和预处理算法的超参数的指定(s30)。
[0074]
然后，解析装置10使用无监督学习对学习数据进行分类(s31)。然后，解析装置10使用包含一个或多个超参数的多个预处理算法进行机器学习中使用的学习数据的预处理，使用多个算法减小第一损失函数的值，使用多个最优化算法对一个或多个超参数进行优化，针对规定的学习模型分别进行使用了预处理后的学习数据的机器学习(s32)。
[0075]
解析装置10根据使用了预处理后的学习数据的机器学习，按照多个预处理算法计算表示第一损失函数的全局形状的第一形状信息和学习模型的性能(s33)。然后，解析装置10将第一形状信息及学习模型的性能作为学习数据加以存储(s34)。
[0076]
然后，解析装置10受理新问题的指定(s35)。然后，解析装置10使用多个预处理算法中的至少任意一个由学习部执行使针对新问题所设定的第二损失函数的值变小这样的机器学习，获取表示由计算部算出的第二损失函数的全局形状的第二形状信息(s36)。
[0077]
最后，解析装置10使用预测模型并根据第二形状信息，针对多个预处理算法分别预测以使第二损失函数的值变小的方式执行了学习模型的机器学习时的学习模型的性能(s37)。
[0078]
以上说明的实施方式是为了便于理解本发明，并非用于限定解释本发明。实施方式所具备的各要素及其配置、材料、条件、形状及尺寸等不限定于例示内容，能够适当地变更。另外，能够将不同的实施方式中示出的构成彼此部分地置换或组合。
[0079]
[第二实施方式]
[0080]
在第二实施方式中，主要对与第一实施方式不同的点进行说明，适当地省略与第一实施方式实质上相同的内容进行说明。此外，在第二实施方式中，可以应用第一实施方式中已说明的各种构成。
[0081]
图11是表示第二实施方式涉及的解析装置20的功能块的图。第二实施方式涉及的解析装置20具备学习部21、计算部22、获取部23、推测部24、存储部25以及推测模型生成部26。第二实施方式涉及的解析装置20取代第一实施方式涉及的解析装置10所具备的预测部14而具备推测部24，取代第一实施方式涉及的生成部16而具备推测模型生成部26。此外，第二实施方式涉及的解析装置20所具备的学习部21、计算部22、获取部23以及存储部25的功能也可以至少具有第一实施方式涉及的解析装置10所具备的对应功能部的功能。
[0082]
第二实施方式涉及的算法例如是强化学习算法。学习部21使用多个最优化算法对多个强化学习算法分别包含的一个或多个超参数进行优化，并使用包含被优化的一个或多个超参数的多个强化学习算法分别进行规定的学习模型的机器学习。
[0083]
具体而言，学习部21使用多个强化学习算法，根据针对规定问题设定的训练数据进行规定的学习模型的机器学习。在本实施方式中，学习部21例如将股价的价格变动数据用作训练数据，以使代理所能得到的报酬最大化的方式进行学习模型的机器学习。此外，在机器学习中，除了价格变动数据之外，例如也可以使用各种新闻和社交数据(例如，与品牌的评判相关的信息等)等。在本实施方式中，强化学习中的代理的行动例如是股票的买卖交易(具体为股票的买入、卖出、持仓等)，报酬是股票的买卖交易带来的利益，报酬的最大化相当于收益率的最大化。此时，学习部21可以以规定时间为单位，例如以1μs为单位进行学习模型的机器学习。
learning agent)、决斗循环q学习代理(duel recurrent q-learning agent)、双重决斗循环q学习代理(double duel recurrent q-learning agent)、演员-评论家代理(actor-critic agent)、演员-评论家决斗代理(actor-critic duel agent)、演员-评论家循环代理(actor-critic recurrent agent)、演员-评论家决斗循环代理(actor-critic duel recurrent agent)、好奇心q学习代理(curiosity q-learning agent)、循环好奇心q学习代理(recurrent curiosity q-learning agent)、决斗好奇心q学习代理(duel curiosity q-learning agent)、神经进化代理(neuro-evolution agent)、利用新颖性搜索的神经进化代理(neuro-evolution with novelty search agent)、abcd策略代理(abcd strategy agent)、深度进化策略(deep evolution strategy)等的强化学习算法。另外，在本实施方式中，对于各个强化学习算法，通过随机搜索(random search)、贝叶斯优化(bayesian optimization)、cma-es、坐标下降法(coordinate search)以及内尔德-米德法(nelder-mead)的最优化算法优化一个或多个超参数。
[0093]
图13所示的g1～g120是确定强化学习算法和最优化算法的组合的编号。在本实施方式中，通过计算部22针对利用g1～g120的强化策略构建的各个学习模型计算性能。性能的计算可以是基于测试数据的评价(例如得到的收益率)。由此，能够选择最佳的强化策略、即能够构建评价最高的学习模型的强化策略。
[0094]
在本实施方式的例子中，解析装置20可以针对品牌彼此不同的多个价格变动数据分别确定最佳的强化策略，并将与价格变动数据及最佳的强化策略相关的信息与多个识别编号分别相关联地加以存储。与多个识别编号分别对应的数据例如可以是价格变动数据、品牌(例如株式会社a)、价格变动数据的期间(例如1月1日～4月30日)、训练数据的期间(例如1月1日～2月28日)、最佳的强化战略(例如g1)、测试数据的期间(例如3月1日～4月30日)以及收益率(例如12％)等。在此，收益率是用测试数据评价最佳的强化策略时得到的收益率，也可以是irr(内部收益率)。在此，根据与多个识别编号分别对应的信息提取的训练数据及最佳的强化策略成为用于生成后述的推测模型的学习数据。
[0095]
图14是表示推测模型生成部26生成的推测模型的一例的图。如图14所示，推测模型由包括输入层31、隐藏层32以及输出层33的神经网络构成。推测模型生成部26将训练数据和最佳的强化策略作为学习数据进行监督学习，生成推测模型。具体而言，推测模型生成部26将训练数据输入至输入层31中，并以从输出层33输出最佳的强化策略的方式进行加权参数的学习。此时，推测模型生成部26除了训练数据之外，也可以将与价格变动数据相关的各种数据(例如品牌等)作为附加信息输入至输入层31。
[0096]
当向所生成的推测模型的输入层31输入针对新问题设定的价格变动数据(以及附带信息)时，从输出层33输出与新问题相应的强化策略。例如，作为最适于新问题的强化策略可以输出图13所示的g11的强化策略。在此，解析装置20也可以使用softmax函数，将图12所示的120个组合按照与性能(例如收益率)相应的顺序(例如按收益率)显示于解析装置20所具备的显示部中。由此，能够选择例如与品牌等相应的适当的强化策略，构建收益率高的学习模型。
[0097]
图15是表示通过本实施方式涉及的解析装置20执行的推测处理的一例的流程图。首先，解析装置20从其他的信息处理装置受理规定的问题及规定的学习模型的指定(s40)。规定的问题及规定的学习模型的指定可以由用户输入。
[0098]
接着，解析装置20针对学习模型的参数设定多个初始值(s41)。接着，解析装置20使用多个最优化算法对多个强化学习算法分别包含的一个或多个超参数进行优化，根据针对规定的问题设定的训练数据，并使用包含优化后的一个或多个超参数的多个强化学习算法分别单独执行或者并行执行学习模型的机器学习(s42)。
[0099]
另外，解析装置20根据机器学习，针对每个强化学习算法和最优化算法单独或者并行地计算学习模型的性能(s43)。然后，解析装置20将针对规定的问题设定的训练数据以及强化学习算法和最优化算法的组合作为学习数据存储在存储部25中(s44)。
[0100]
然后，解析装置20从其他的信息处理装置受理新问题的指定(s45)。新问题的指定可以由用户输入。接着，解析装置20获取针对新问题设定的设定数据(s46)。
[0101]
然后，解析装置20使用通过后述推测模型生成处理生成的推测模型，并根据针对新问题设定的设定数据，推测与新问题相应的强化学习算法和最优化算法的组合(s47)。
[0102]
图16是表示通过本实施方式涉及的解析装置20执行的推测模型生成处理的一例的流程图。首先，解析装置20获取学习数据，该学习数据包括针对规定的问题设定的训练数据以及强化学习算法和最优化算法的组合(s50)。此外，学习数据也可以经由因特网等的通信网络从外部存储装置获取。
[0103]
然后，解析装置20通过使用了学习数据的监督学习，生成推测与新问题对应的强化学习算法和最优化算法的组合的推测模型(s51)。然后，解析装置20将所生成的推测模型加以存储(s52)。
[0104]
现有技术中，提出了构建学习模型的各种算法和优化该算法中包含的超参数优化的各种最优化算法。然而，算法和最优化算法的组合有多个，难以选择适当的组合。根据本实施方式，针对每个算法和最优化算法而评价通过机器学习构建的学习模型的性能。因此，能够简便地选择更适当的算法和最优化算法的组合。
[0105]
此外，在本实施方式中，对算法为强化学习算法的情况进行了说明，但算法并不限定于此，也可以是监督学习和无监督学习等的各种机器学习中使用的算法。即，根据本发明的技术，能够计算各种算法以及最优化算法各自的学习模型的性能。
[0106]
另外，在第二实施方式中，可以应用第一实施方式中说明的各种构成。例如，可以实施第一实施方式中说明的预处理。由此，自动执行预处理、强化学习以及超参数的优化等各种处理，能够通过本发明的算法执行股票的买卖交易。
[0107]
[应用例]
[0108]
在以下的第一～第三应用例中，对上述实施方式的应用例进行说明。
[0109]
在以下的应用例中，主要设想使用第二实施方式涉及的解析装置20来进行说明。
[0110]
[第一应用例]
[0111]
在第二实施方式中，使用由强化学习中的代理进行股票的买卖交易的例子进行了说明。强化学习并不限定于此，本发明的技术能够应用于各种强化学习中。例如，强化学习的代理也可以是通过自动驾驶行驶的自动驾驶车。该情况下，例如可以设定为将(mad+fde)/2的得分作为指标，该得分越小则代理越能获得更多的报酬。该情况下，算法例如可以包括social lstm、social gan、mx-lstm、social force、sr-lstm、red、ind-tf以及amenet等。此外，这些算法记载于下述文献中。
[0112]
(social lstm)a.alahi,k.goel,v.ramanathan,a.robicquet,l.fei-fei,
arxiv:2006.09902(2020).
[0126]
[第三应用例]
[0127]
另外，在下述参考文献3中，记载了从自主移动机器人推测从曲面镜中看到的人的技术。在参考文献3中，采用基于fcn-8sat-once的网络。该网络由两个网络构成，其中一个网络是进行语义分割的分类网络，另一个网络是进行深度图像预测的回归网络。分类网络和回归网络均使用预先学习完毕的vgg16模型的fc7层之前的层对权重进行初始化。尤其是pool5层之前的层被当作特征量提取器。但是，由于回归网络的输入是使三通道彩色图像ireal和将从传感器取得的深度图像dreal转换得到的三通道深度图像dcolor的两个连接而成的六通道图像，因而仅convl_l层复制权重而使其与六通道对应。
[0128]
(参考文献3)内海佑斗、北川晋吾、矢野倉伊織、岡田慧、稲葉雅幸：cnn
による
深度予測
に
基
づく
鏡
を
活用
した
死角
の
物体知覚、人工知能学会全国大会論文集、第33回全国大会(2019)(内海佑斗、北川晋吾、矢野仓伊织、冈田慧、稻叶雅幸：有效利用基于cnn深度预测的镜子的死角物体感知、人工智能学会全国大会论文集、第33次全国大会(2019))
[0129]
但是，在参考文献3的记载中，超参数的优化和学习模型的选定并非自动化，因而认为推测精度不够充分。另外，机器人为了随时检测人等对象(其他还有自行车或汽车等)，还要求更快地执行处理。根据本发明的技术，超参数的优化的调整和适当的学习模型的选定为自动化，因而能够提高推测的精度和速度。
[0130]
[第四应用例]
[0131]
在第四应用例中，对于解析装置并行地执行推断适当的算法组合的处理(以下也称为“推断处理”)和对算法的组合进行全搜索的处理(以下也称为“全搜索处理”)的例子进行说明。
[0132]
在第四应用例中，可以通过进行使用了上述预处理算法的学习数据的预处理、使用了最优化算法的超参数的优化以及使用了强化学习算法的机器学习而生成学习模型。另外，在第四应用例中，将预处理算法、最优化算法以及强化学习算法的组合简称为算法的组合。另外，解析装置可以如第二实施方式中所说明那样，例如使用训练数据而计算关于算法的组合的每一个的性能。进而，解析装置可以将第二实施方式中已说明的各种方法应用于算法的组合，生成用于推测与新问题对应的算法的组合的推测模型。此时，可以将训练数据、算法的组合以及性能作为学习数据而生成推测模型。
[0133]
在第四应用例中，解析装置可以从例如与网络连接的外部装置获取数据，以第一时间为单位追加或更新学习数据(例如股价的价格变动数据等)，以第一时间为单位利用规定的学习模型进行动作(例如股票交易等)。此时，解析装置能够以第二时间为单位执行推断处理，进而以第三时间为单位执行全搜索处理。在此，第一时间比第二时间短，第二时间比第三时间短。第一时间、第二时间以及第三时间并无特别限定，在第四应用例中，对于分别为1μs、1分钟以及1小时等的例子进行说明。
[0134]
全搜索处理是：使用算法的组合的每一个，并通过基于所取得的学习数据的机器学习而生成学习模型，对各个算法的组合的性能进行评价，更新使各个算法的组合与性能相对应的实绩数据的处理。这里，假设使用在第二时间的期间取得的数据评价所有算法的组合的性能需要第三时间。因此，使用600万的数据，1小时更新一次实绩数据。通过参照更新后的实绩数据，能够确定最适当的算法的组合，实绩数据的至少一部分成为用于生成推
algorithms,arxiv preprint arxiv:1208.3719,2013.
[0147]
(参考文献5)b.komer,j.bergstra and c.eliasmith,hyperopt-sklearn:automatic hyperparameter configuration for scikit-learn,in proc.of the 13th python in science conf.:pages 34-40,2014.
[0148]
(参考文献)m.feurer,a.klein,k.eggensperger,j.springenberg,m.blum and f.hutter,efficient and robust automated machine learning,nips,2015.
[0149]
(参考文献7)r.s.olson,n.bartley,r.j.urbanowicz and j.h.moore,evaluation of a tree-based pipeline optimization tool for automating data science,arxiv preprint arxiv:1603.06212,2016.
[0150]
另外，解析装置可以根据通过这些参考文献中记载的进行预处理的预处理的算法(具体为这些参考文献中这些基于学习数据的预处理算法、最优化算法以及算法之前的算法)生成的数据，使用预处理算法、最优化算法以及算法的组合生成学习模型。进而，解析装置可以针对这些算法的组合的每一个计算性能。
[0151]
通过对实施了预处理的预处理的学习数据进行预处理，并进行超参数的优化，以及生成使用算法的学习模型，有望能够生成通用性更高的ai即agi(artificial general intelligence：通用ai)。即，有望能够实现例如利用脑电波数据或图像数据等的所有学习数据的ai。
[0152]
附图标记说明
[0153]
10，20
…
解析装置、10a
…
cpu、10b
…
ram、10c
…
rom、10d
…
通信部、10e
…
输入部、10f
…
显示部、11，21
…
学习部、12，22
…
计算部、12a，22a
…
学习模型、13，23
…
获取部、14
…
预测部、14a
…
预测模型、24
…
推测部、24a
…
推测模型、15，25
…
存储部、15a，25a
…
学习数据、16
…
生成部、26
…
推测模型生成部。

技术特征：
1.一种信息处理装置，其具备：学习部，使用多个算法，以缩小针对规定的问题设定的第一损失函数的值的方式分别进行规定的学习模型的机器学习；计算部，根据所述机器学习，针对每个算法计算表示所述第一损失函数的全局形状的第一形状信息和所述学习模型的性能；获取部，使用所述多个算法中的至少任意一个，由所述学习部执行使针对新问题设定的第二损失函数的值变小这样的机器学习，获取表示由所述计算部算出的所述第二损失函数的全局形状的第二形状信息；以及生成部，通过将所述第一形状信息和所述学习模型的性能作为学习数据的监督学习，根据所述第二形状信息，生成针对所述多个算法分别预测以减小所述第二损失函数的值的方式执行所述学习模型的机器学习时的所述学习模型的性能的预测模型。2.一种信息处理方法，通过信息处理装置所具备的处理器执行下述步骤：使用多个算法，以缩小针对规定的问题设定的第一损失函数的值的方式分别进行规定的学习模型的机器学习；根据所述机器学习，针对每个算法计算表示所述第一损失函数的全局形状的第一形状信息和所述学习模型的性能；使用所述多个算法中的至少任意一个执行使针对新问题设定的第二损失函数的值变小这样的机器学习，获取表示所述第二损失函数的全局形状的第二形状信息；以及通过将所述第一形状信息和所述学习模型的性能作为学习数据的监督学习，根据所述第二形状信息，生成针对所述多个算法分别预测以减小所述第二损失函数的值的方式执行所述学习模型的机器学习时的所述学习模型的性能的预测模型。3.一种计算机可读的存储介质，存储使信息处理装置所具备的处理器执行下述步骤的程序：使用多个算法，以缩小针对规定的问题设定的第一损失函数的值的方式分别进行规定的学习模型的机器学习；根据所述机器学习，针对每个算法计算表示所述第一损失函数的全局形状的第一形状信息和所述学习模型的性能；使用所述多个算法中的至少任意一个执行使针对新问题设定的第二损失函数的值变小这样的机器学习，获取表示所述第二损失函数的全局形状的第二形状信息；以及通过将所述第一形状信息和所述学习模型的性能作为学习数据的监督学习，根据所述第二形状信息，生成针对所述多个算法分别预测以减小所述第二损失函数的值的方式执行所述学习模型的机器学习时的所述学习模型的性能的预测模型。

技术总结
本发明提供信息处理装置、信息处理方法以及计算机可读的存储介质。信息处理装置，使用多个算法，以缩小针对规定的问题设定的第一损失函数的值的方式分别进行规定的学习模型的机器学习；根据机器学习，针对每个算法计算表示第一损失函数的全局形状的第一形状信息和学习模型的性能；使用多个算法中的至少任意一个，由学习部执行使针对新问题设定的第二损失函数的值变小这样的机器学习，获取表示由计算部算出的第二损失函数的全局形状的第二形状信息；通过将第一形状信息和学习模型的性能作为学习数据的监督学习，根据第二形状信息，生成针对多个算法分别预测以减小第二损失函数的值的方式执行学习模型的机器学习时的学习模型的性能的预测模型。模型的性能的预测模型。模型的性能的预测模型。

技术研发人员：洼田望
受保护的技术使用者：洼田望
技术研发日：2020.09.25
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-10993.html

专利

最新回复(0)