模型训练方法、游戏寻路方法、装置、设备及存储介质与流程

专利2023-04-09 146

1.本技术涉及游戏技术领域，具体而言，涉及一种模型训练方法、游戏寻路方法、装置、设备及存储介质。

背景技术：

2.在很多游戏中，虚拟角色的寻路起着举足轻重的作用，为了模仿玩家行走的真实体验，虚拟角色会选择最近路线达到目的地，期间会避开高山或者湖水，绕过箱子或者树林，直到到达所选定的目的地。
3.目前，往往需要将游戏地图建模成图结构，即将游戏地图划分为若干个多边形，针对建模好的图结构，调用寻路算法如a-star算法来寻找最优路线，其中，图结构的正式表达式是g＝(v，e)，v是代表顶点的集合，e和v是一种二元关系，可以理解为边，比如有条边从顶点u到顶点v结束,那么e可以用(u,v)来表示这条边。
4.然而，上述寻路算法只适用于一个类二维的连通平面，若应用三维场景，寻路成功率可能大打折扣，并且虚拟角色只能在多边形的边上行走，路线较单一。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种模型训练方法、游戏寻路方法、装置、设备及存储介质，以解决现有技术中寻路成功率低，路线单一问题。
6.第一方面，本技术实施例提供了一种模型训练方法，包括：
7.获取游戏场景中处于寻路状态的虚拟角色的状态信息；
8.采用预设的初始模型，对所述状态信息进行处理，得到下一动作信息，所述下一动作信息包括：所述虚拟角色到预设目标点待执行的下一动作的信息、所述虚拟角色的下一移动方向、游戏镜头的下一移动信息；
9.根据所述状态信息，确定所述虚拟角色到所述预设目标点的奖励参数；
10.根据所述下一动作信息和所述奖励参数，对所述初始模型进行强化学习训练，得到所述初始模型对应的寻路模型。
11.在一可选的实施方式中，所述根据所述下一动作信息和所述奖励参数，对所述初始模型进行强化学习训练，得到所述初始模型对应的寻路模型，包括：
12.获取所述虚拟角色执行所述下一动作后的下一状态信息；
13.根据所述奖励参数，更新所述初始模型的参数；
14.采用更新后的初始模型对所述下一状态信息进行处理，并根据所述下一状态信息，重新确定所述虚拟角色到所述预设目标点的奖励参数，直至达到预设迭代停止条件；
15.根据达到所述预设迭代停止条件时最大奖励参数对应的模型参数，确定所述寻路模型。
16.在一可选的实施方式中，所述预设迭代停止条件包括：所述虚拟角色到达预设目标点、迭代超时、所述奖励参数达到预设条件；
17.所述根据达到所述预设迭代停止条件时最大奖励参数对应的模型参数，确定所述寻路模型，包括：
18.根据达到所述预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定所述寻路模型。
19.在一可选的实施方式中，所述状态信息包括：自身状态信息和动作状态信息；
20.所述根据所述状态信息，确定所述虚拟角色到所述预设目标点的奖励参数，包括：
21.根据所述自身状态信息和所述动作状态信息，确定所述虚拟角色到所述预设目标点的初始奖励参数；
22.根据所述初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定所述奖励参数。
23.在一可选的实施方式中，所述自身状态信息包括：所述虚拟角色的血量信息、所述虚拟角色的位置信息，所述动作状态信息包括：所述虚拟角色的动作信息、所述游戏镜头的移动信息；
24.所述根据所述自身状态信息和所述动作状态信息，确定所述虚拟角色到所述预设目标点的初始奖励参数，包括：
25.根据所述虚拟角色的位置信息，确定所述虚拟角色的基础奖励参数；
26.根据所述虚拟角色的血量信息、所述虚拟角色的动作信息以及所述游戏镜头的移动信息，确定所述虚拟角色的行为奖励参数；
27.根据所述基础奖励参数和所述行为奖励参数，得到所述初始奖励参数。
28.在一可选的实施方式中，所述根据所述虚拟角色的位置信息，确定所述虚拟角色的基础奖励参数，包括：
29.根据所述预设目标点与所述虚拟角色在当前帧的相对位置，和所述预设目标点与所述虚拟角色在历史帧的相对位置，确定所述虚拟角色的距离奖励参数；
30.根据所述虚拟角色在所述当前帧的位置和所述虚拟角色在所述历史帧的位置，确定所述虚拟角色的位置惩罚参数；
31.根据所述距离奖励参数和所述位置惩罚参数，确定基础奖励参数。
32.在一可选的实施方式中，所述根据所述距离奖励参数和所述位置惩罚参数，确定基础奖励参数，包括：
33.若所述虚拟角色在所述当前帧的位置为所述预设目标点，则根据所述距离奖励参数、所述位置惩罚参数以及预设到达奖励参数，确定所述基础奖励参数；
34.若所述虚拟角色在所述当前帧的位置不是所述预设目标点，且当前时间超出所述预设目标点的预设到达时间，则根据所述距离奖励参数、所述位置惩罚参数以及预设未到达惩罚参数，确定所述基础奖励参数。
35.在一可选的实施方式中，所述根据所述虚拟角色的血量信息、所述虚拟角色的动作信息以及所述游戏镜头的移动信息，确定所述虚拟角色的行为奖励参数，包括：
36.根据所述虚拟角色在当前帧的血量信息，以及所述虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；
37.若所述动作信息指示所述当前帧中所述虚拟角色执行的动作为预设动作，则根据所述游戏镜头的移动信息，判断所述当前帧中所述虚拟角色的视角与所述预设目标点是否
偏离预设角度；
38.若所述当前帧中所述虚拟角色的视角与所述预设目标点偏离预设角度，则根据所述血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定所述行为奖励参数。
39.在一可选的实施方式中，所述状态信息包括：自身状态信息、动作状态信息以及所处地形环境的环境状态信息；
40.所述自身状态信息包括：所述虚拟角色的血量信息、所述虚拟角色的位置信息、所述虚拟角色的朝向信息、所述游戏镜头的朝向信息、所述虚拟角色到所述预设目标点的连线方向、动作状态指示信息、预设动作是否命中的指示信息、可用动作信息中的至少一种；
41.所述动作状态信息包括：所述虚拟角色的移动方向、所述虚拟角色的动作信息、所述游戏镜头的移动信息；
42.所述环境状态信息包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。
43.在一可选的实施方式中，所述环境状态信息包括：所述深度图；所述获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
44.以所述虚拟角色为发射点，向所述游戏场景中所述虚拟角色的视野范围发射雷达射线；
45.若所述雷达射线触碰到所述视野范围内的障碍物，则根据所述视野范围内的障碍物与所述虚拟角色的距离，确定障碍物所在位置的深度值；
46.根据所述深度值得到所述深度图。
47.在一可选的实施方式中，所述环境状态信息包括：所述探窗雷达信息；所述获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
48.以所述虚拟角色的预设高度处为发射点，向所述游戏场景中的预设范围发射雷达射线；
49.若所述雷达射线触碰到所述预设范围内的障碍物，则确定所述虚拟角色位于所述预设范围内的障碍物对应的虚拟空间内。
50.第二方面，本技术实施例还提供了一种游戏寻路方法，包括：
51.获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；
52.采用第一方面任一项训练得到的寻路模型对所述初始状态信息进行处理，得到所述任意虚拟角色的目标动作信息，所述目标动作信息包括：所述任意虚拟角色到目标点待执行的目标动作的信息、所述任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；
53.根据所述游戏镜头的目标移动信息，调整游戏场景对应的显示画面；
54.控制所述任意虚拟角色向着所述目标移动方向进行移动，并根据所述待执行的目标动作的信息执行所述目标动作。
55.第三方面，本技术实施例还提供了一种模型训练装置，包括：
56.获取模块，用于获取游戏场景中处于寻路状态的虚拟角色的状态信息；
57.处理模块，用于采用预设的初始模型，对所述状态信息进行处理，得到下一动作信息，所述下一动作信息包括：所述虚拟角色到预设目标点待执行的下一动作的信息、所述虚拟角色的下一移动方向、游戏镜头的下一移动信息；
58.确定模块，用于根据所述状态信息，确定所述虚拟角色到所述预设目标点的奖励
参数；
59.所述处理模块，还用于根据所述下一动作信息和所述奖励参数，对所述初始模型进行强化学习训练，得到所述初始模型对应的寻路模型。
60.在一可选的实施方式中，所述处理模块，具体用于：
61.获取所述虚拟角色执行所述下一动作后的下一状态信息；
62.根据所述奖励参数，更新所述初始模型的参数；
63.采用更新后的初始模型对所述下一状态信息进行处理，并根据所述下一状态信息，重新确定所述虚拟角色到所述预设目标点的奖励参数，直至达到预设迭代停止条件；
64.根据达到所述预设迭代停止条件时最大奖励参数对应的模型参数，确定所述寻路模型。
65.在一可选的实施方式中，所述预设迭代停止条件包括：所述虚拟角色到达预设目标点、迭代超时、所述奖励参数达到预设条件；
66.所述处理模块，具体用于：
67.根据达到所述预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定所述寻路模型。
68.在一可选的实施方式中，所述状态信息包括：自身状态信息和动作状态信息；
69.所述确定模块，具体用于：
70.根据所述自身状态信息和所述动作状态信息，确定所述虚拟角色到所述预设目标点的初始奖励参数；
71.根据所述初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定所述奖励参数。
72.在一可选的实施方式中，所述自身状态信息包括：所述虚拟角色的血量信息、所述虚拟角色的位置信息，所述动作状态信息包括：所述虚拟角色的动作信息、所述游戏镜头的移动信息；
73.所述确定模块，具体用于：
74.根据所述虚拟角色的位置信息，确定所述虚拟角色的基础奖励参数；
75.根据所述虚拟角色的血量信息、所述虚拟角色的动作信息以及所述游戏镜头的移动信息，确定所述虚拟角色的行为奖励参数；
76.根据所述基础奖励参数和所述行为奖励参数，得到所述初始奖励参数。
77.在一可选的实施方式中，所述确定模块，具体用于：
78.根据所述预设目标点与所述虚拟角色在当前帧的相对位置，和所述预设目标点与所述虚拟角色在历史帧的相对位置，确定所述虚拟角色的距离奖励参数；
79.根据所述虚拟角色在所述当前帧的位置和所述虚拟角色在所述历史帧的位置，确定所述虚拟角色的位置惩罚参数；
80.根据所述距离奖励参数和所述位置惩罚参数，确定基础奖励参数。
81.在一可选的实施方式中，所述确定模块，具体用于：
82.若所述虚拟角色在所述当前帧的位置为所述预设目标点，则根据所述距离奖励参数、所述位置惩罚参数以及预设到达奖励参数，确定所述基础奖励参数；
83.若所述虚拟角色在所述当前帧的位置不是所述预设目标点，且当前时间超出所述
预设目标点的预设到达时间，则根据所述距离奖励参数、所述位置惩罚参数以及预设未到达惩罚参数，确定所述基础奖励参数。
84.在一可选的实施方式中，所述确定模块，具体用于：
85.根据所述虚拟角色在当前帧的血量信息，以及所述虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；
86.若所述动作信息指示所述当前帧中所述虚拟角色执行的动作为预设动作，则根据所述游戏镜头的移动信息，判断所述当前帧中所述虚拟角色的视角与所述预设目标点是否偏离预设角度；
87.若所述当前帧中所述虚拟角色的视角与所述预设目标点偏离预设角度，则根据所述血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定所述行为奖励参数。
88.在一可选的实施方式中，所述状态信息包括：自身状态信息、动作状态信息以及所处地形环境的环境状态信息；
89.所述自身状态信息包括：所述虚拟角色的血量信息、所述虚拟角色的位置信息、所述虚拟角色的朝向信息、所述游戏镜头的朝向信息、所述虚拟角色到所述预设目标点的连线方向、动作状态指示信息、预设动作是否命中的指示信息、可用动作信息中的至少一种；
90.所述动作状态信息包括：所述虚拟角色的移动方向、所述虚拟角色的动作信息、所述游戏镜头的移动信息；
91.所述环境状态信息包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。
92.在一可选的实施方式中，所述环境状态信息包括：所述深度图；所述获取模块，具体用于：
93.以所述虚拟角色为发射点，向所述游戏场景中所述虚拟角色的视野范围发射雷达射线；
94.若所述雷达射线触碰到所述视野范围内的障碍物，则根据所述视野范围内的障碍物与所述虚拟角色的距离，确定障碍物所在位置的深度值；
95.根据所述深度值得到所述深度图。
96.在一可选的实施方式中，所述环境状态信息包括：所述探窗雷达信息；所述获取模块，具体用于：
97.以所述虚拟角色的预设高度处为发射点，向所述游戏场景中的预设范围发射雷达射线；
98.若所述雷达射线触碰到所述预设范围内的障碍物，则确定所述虚拟角色位于所述预设范围内的障碍物对应的虚拟空间内。
99.第四方面，本技术实施例还提供了一种游戏寻路装置，包括：
100.获取模块，用于获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；
101.处理模块，用于采用第一方面任一项训练得到的寻路模型对所述初始状态信息进行处理，得到所述任意虚拟角色的目标动作信息，所述目标动作信息包括：所述任意虚拟角色到目标点待执行的目标动作的信息、所述任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；
102.所述处理模块，还用于根据所述游戏镜头的目标移动信息，调整游戏场景对应的
显示画面；
103.所述处理模块，还用于控制所述任意虚拟角色向着所述目标移动方向进行移动，并根据所述待执行的目标动作的信息执行所述目标动作。
104.第五方面，本技术实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的模型训练方法、或者第二方面所述的游戏寻路方法。
105.第四方面，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行第一方面任一项所述的模型训练方法、或者第二方面所述的游戏寻路方法。
106.本技术提供了一种模型训练方法、游戏寻路方法、装置、设备及存储介质，模型训练方法包括：获取游戏场景中处于寻路状态的虚拟角色的状态信息，采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息，根据状态信息，确定虚拟角色到预设目标点的奖励参数，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
107.为使本技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
108.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
109.图1为本技术实施例提供的模型训练方法的流程示意图一；
110.图2为本技术实施例提供的模型训练方法的流程示意图二；
111.图3为本技术实施例提供的一种初始模型的结构示意图；
112.图4为本技术实施例提供的模型训练方法的流程示意图三；
113.图5为本技术实施例提供的模型训练方法的流程示意图四；
114.图6为本技术实施例提供的模型训练方法的流程示意图五；
115.图7为本技术实施例提供的雷达射线的示意图一；
116.图8为本技术实施例提供的模型训练方法的流程示意图六；
117.图9为本技术实施例提供的雷达射线的示意图二；
118.图10为本技术实施例提供的游戏寻路方法的流程示意图；
119.图11为本技术实施例提供的模型训练装置的结构示意图；
120.图12为本技术实施例提供的游戏寻路装置的结构示意图；
121.图13为本技术实施例提供的电子设备的结构示意图。
具体实施方式
122.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
123.目前，通常要把游戏地图建模成图结构，然后针对建模好的图结构，调用寻路算法如a-star算法来寻找最优路线，在a-star算法中，如果以g(n)表示从起点到任意顶点n的实际距离，h(n)表示任意顶点n到目标顶点的估算距离，那么a-star算法的估算函数为：
124.f(n)＝g(n)+h(n)
125.这个公式遵循以下特性：
126.如果g(n)为0，即只计算任意顶点n到目标的评估函数h(n)，而不计算起点到顶点n的距离，则算法转化为使用贪心策略的最良优先搜索，速度最快，但可能得不出最优解。
127.如果h(n)不大于顶点n到目标顶点的实际距离，则一定可以求出最优解，而且h(n)越小，需要计算的节点越多，算法效率越低，常见的评估函数有——欧几里得距离、曼哈顿距离、切比雪夫距离。
128.如果h(n)为0，即只需求出起点到任意顶点n的最短路径g(n)，而不计算任何评估函数h(n)，则转化为最短路问题问题，即dijkstra算法，此时需要计算最多的顶点。
129.实际使用中，通常取h(n)为两节点间的曼哈顿距离，这样估价函数f(n)会或多或少的受距离估计值h(n)的制约，节点距目标点近，h值小，f值相对就小，能保证最短路的搜索向终点的方向进行，效果明显优于dijkstra算法的毫无方向的向四周搜索。
130.然而，上述寻路算法存在以下缺陷：
131.(1)上述寻路算法只适用于一个类二维的连通平面，若应用三维场景，寻路成功率可能大打折扣，并且虚拟角色只能在多边形的边上行走，而不会到达多边形的内部，路线较单一。
132.(2)在大型复杂3d场景中，划分的图结构可能并不连通，而诸如a-star等寻路算法只能在连通图中进行寻路，在多张不连通的图中无法使用，即具有一定局限性。
133.(4)上述寻路算法并没有考虑虚拟角色要使用什么动作到达目标点，关于这部分就只能人为加一些规则实现，比如节点之间没有高低差，就走路过去，如果存在高低差就跳跃前进，如果游戏中动作系统比较复杂，就会导致规则不但很难写得尽善尽美，增加了人工成本，而且虚拟角色也可能不利用快速移动动作找到真正的最快到达路径，即寻路效率低下。
134.基于此，本技术提供了一种模型训练方法、游戏寻路方法，采用深度强化学习算法训练得到一种通用的寻路模型，通过奖励参数训练得到寻路模型，采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动，寻路效率高且降低了人工成本。
135.下面结合几个具体实施例对本技术提供的模型训练方法进行说明。
136.图1为本技术实施例提供的模型训练方法的流程示意图一，本实施例的执行主体为电子设备，例如，手机、平板电脑、笔记本电脑、游戏机、服务器等具备数据处理能力的设备。
137.如图1所示，该方法包括：
138.s101、获取游戏场景中处于寻路状态的虚拟角色的状态信息。
139.虚拟角色的状态信息可以包括：虚拟角色的自身状态信息、动作状态信息以及虚拟角色所处地形环境的环境状态信息。
140.自身状态信息可以包括：虚拟角色的血量信息、虚拟角色的位置信息、虚拟角色的朝向信息、游戏镜头的朝向信息、游戏镜头的朝向、虚拟角色到预设目标点的连线方向、动作状态指示信息、预设道具是否命中的指示信息、可用动作信息中的至少一种。这样，在模型训练时，使用虚拟角色的自身状态信息作为一种考虑因素，从而提高寻路模型的准确度，更好地帮助虚拟角色更好地进行动作决策。
141.其中，动作状态指示信息用于指示虚拟角色是否处于预设动作状态中，例如，是否处于攀爬状态中、是否处于疾跑状态中、是否处于跳跃状态中，预设道具是否命中的指示信息用于指示虚拟角色在使用预设道具时是否命中，预设道具例如可以为钩锁，可用动作信息用于指示虚拟角色可用的动作，例如，攀爬、疾跑、跳跃等。
142.游戏镜头可以是虚拟摄像机的镜头，通过虚拟摄像机拍摄游戏场景得到游戏画面，游戏镜头的朝向用于决定图形用户界面所显示的游戏画面，针对同一游戏场景，对于游戏镜头的不同朝向，图形用户界面所显示的游戏画面不同。
143.表1为本技术实施例提供的自身状态信息，如表1所示，其中，虚拟角色的位置信息包括：预设目标点与虚拟角色的相对位置，虚拟角色的自身状态信息由指定长度的向量组成，以长度为26的向量为例，虚拟角色的自身状态信息可以包括：虚拟角色血量、预设目标点相对于虚拟角色的坐标(即预设目标点与虚拟角色的相对位置)、虚拟角色的朝向、游戏镜头的朝向、虚拟角色到预设目标点的连线方向、时间信息、是否处于攀爬状态、是否处于疾跑状态、是否处于跳跃状态、钩锁是否可以命中、可用动作信息，对应的状态长度分别是1、3、3、3、3、1、1、1、1、1、8。需要说明的是，自身状态信息中各向量长度可以根据实际需求设置，本技术不作具体限定。
[0144][0145]
表1
[0146]
需要说明的是，自身状态信息可以分为两类，即虚拟角色在当前帧的自身状态信息和在历史帧的自身状态信息，虚拟角色在当前帧的自身状态信息包括：当前帧中虚拟角色的血量信息、当前帧中虚拟角色的位置信息、当前帧中虚拟角色的朝向信息、当前帧中游戏镜头的朝向信息、当前帧中虚拟角色到预设目标点的连线方向、当前帧中动作状态指示信息、当前帧中预设动作是否命中的指示信息、当前帧中可用动作信息中的至少一种；虚拟角色在历史帧的自身状态信息包括：历史帧中虚拟角色的血量信息、历史帧中虚拟角色的位置信息、历史帧中虚拟角色的朝向信息、历史帧中游戏镜头的朝向信息、历史帧中虚拟角色到预设目标点的连线方向、历史帧中动作状态指示信息、历史帧中预设动作是否命中的指示信息、历史帧中可用动作信息中的至少一种。
[0147]
动作状态信息可以包括：虚拟角色的移动方向、虚拟角色的动作信息、游戏镜头的移动信息，其中，游戏镜头的移动信息包括：游戏镜头的水平移动方向(包括向左移动和向右移动)和游戏镜头的竖直移动方向(包括向上移动和向下移动)。
[0148]
需要说明的是，动作状态信息可以分为两类，即虚拟角色在当前帧的动作状态信息和在历史帧的动作状态信息，虚拟角色在当前帧的动作状态信息包括：当前帧中虚拟角色的移动方向、当前帧中虚拟角色的动作信息、当前帧中游戏镜头的移动信息；虚拟角色在历史帧的动作状态信息包括：历史帧中虚拟角色的移动方向、历史帧中虚拟角色的动作信息、历史帧中游戏镜头的移动信息。
[0149]
表2为本技术实施例提供的动作信息，如表2所示，以当前帧为待执行动作的上一帧，历史帧为当前帧之前9帧为例，在各帧中，虚拟角色分别对应有一个位置，位置信息长度可以为3维，动作信息可以使用one-hot表示，长度可以为27维。这样，若虚拟角色在同一个历史位置卡住，后续可以通过奖励的方式进行反馈，以防止虚拟角色在同一个位置卡住。
[0150][0151]
表2
[0152]
其中，虚拟角色的移动方向、虚拟角色的动作信息、游戏镜头的水平移动方向、游戏镜头的竖直移动方向，这四种动作为离散动作，在进行决策时这四种动作同时执行，构成了虚拟角色的整个动作空间。
[0153]
其中，虚拟角色的移动方向包括不动(即呆)和向周围八个方向移动，游戏镜头的水平移动方向使游戏镜头向左或右以及快速移动，游戏镜头的竖直移动方向使游戏镜头向上或下以及快速移动，虚拟角色执行的动作包括疾跑、跳跃、滑铲、钩锁、蓄力滑步等。
[0154]
表3为本技术实施例提供的动作状态信息，如表3所示，虚拟角色的移动方向包括：不动、前、右前、右、右下、下、左下、左、左上，对应的特征长度分别是0、1、2、3、4、5、6、7、8；游戏镜头的水平移动方向包括：不动、左、向左快速移动、右、向右快速移动，对应的特征长度分别是0、1、2、3、4；游戏镜头的竖直移动方向包括：不动、上、向上快速移动、下、向下快速移动，对应的特征长度分别是0、1、2、3、4；虚拟角色执行的动作包括：呆、疾跑、跳跃、滑铲、闪避、钩锁、蓄力滑步，对应的特征长度分别是：1、2、3、4、5、6、7。
[0155][0156]
表3
[0157]
环境状态信息可以包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。其中，深度图用于指示虚拟角色所处环境的障碍物与该虚拟角色的距离，探窗雷达信
息用于指示虚拟角色所处环境是否存在窗户，即虚拟角色是否在房间内，有害机关位置信息用于指示虚拟角色所处环境存在的有害机关的位置，有害机关可以为不小心触碰会有副作用的机关，如中毒等，这样，在模型训练时，使用深度图、探窗雷达信息作为虚拟角色对环境感知的建模，提高寻路模型的准确度，为了让虚拟角色学会不触碰有害机关，将有害机关信息作为一种考虑因素，更好地帮助虚拟角色更好地进行动作决策。
[0158]
表4为本技术实施例提供的有害机关位置信息，如表4所示，虚拟角色所处环境的有害机关位置信息由10*8的矩阵组成，每一行代表一个机关的信息，最多可以描述周围十个有害机关。有害机关位置信息包括：有害机关与虚拟角色的相对距离、有害机关与虚拟角色的相对位置、有害机关与虚拟角色的相对方向，其中，对应的长度分别是1、3、3，其中，在该示例中，还可以采用长度为1的特征来表示机关是否存在。
[0159][0160]
表4
[0161]
需要说明的是，环境状态信息可以分为两类，即当前帧的环境状态信息和历史帧的环境状态信息，当前帧的环境状态信息包括：当前帧中深度图、当前帧中弹窗探窗雷达信息以及当前帧中有害机关位置信息中的至少一种；历史帧的环境状态信息包括：历史帧中深度图、历史帧中弹窗探窗雷达信息以及历史帧中有害机关位置信息中的至少一种。
[0162]
s102、采用预设的初始模型，对状态信息进行处理，得到下一动作信息。
[0163]
将状态信息输入到预设的初始模型进行处理，得到下一动作信息，其中，下一动作信息可以包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息，游戏镜头的下一移动信息为虚拟角色执行下一动作时游戏镜头的移动方向，包括水平移动方向和竖直移动方向。
[0164]
s103、根据状态信息，确定虚拟角色到预设目标点的奖励参数。
[0165]
其中，预设目标点可以为游戏场景中虚拟角色的寻路终点。
[0166]
虚拟角色到预设目标点的奖励参数可以为虚拟角色从当前位置到预设目标点按照预设状态所对应的奖励参数，也即，若该状态信息指示虚拟角色符合预设状态，则确定虚拟角色到预设目标点的奖励参数为预设状态对应的奖励参数；若该状态信息指示虚拟角色符合不预设状态，则确定虚拟角色到预设目标点的奖励参数为预设状态对应的惩罚参数。
[0167]
s104、根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。
[0168]
将状态信息作为初始模型的输入，经初始模型推理得到下一动作信息，获取虚拟角色执行下一动作后的下一状态信息，然后可以采用预设算法(如ppo、v-trace、dqn)更新
初始模型的参数，将下一状态信息作为更新后的初始模型的输入，采用更新后的初始模型对下一状态信息进行推理，循环该过程，在该过程中不断收集状态信息、下一动作信息、奖励参数的三元组，直至奖励参数达到最大，根据将最大奖励参数对应的模型参数，得到寻路模型。
[0169]
其中，下一状态信息包括：下一自身状态信息、下一动作状态信息以及下一所处地形环境的环境状态信息，具体与上述状态信息类似，在此不再赘述。
[0170]
在本实施例的模型训练方法中，获取游戏场景中处于寻路状态的虚拟角色的状态信息，采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息，根据状态信息，确定虚拟角色到预设目标点的奖励参数，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0171]
图2为本技术实施例提供的模型训练方法的流程示意图二，如图2所示，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型，包括：
[0172]
s201、获取虚拟角色执行下一动作后的下一状态信息。
[0173]
经初始模型推理得到下一动作信息之后，可以控制虚拟角色执行下一动作，并获取虚拟角色执行下一动作后的下一状态信息，其中，下一状态信息包括：下一自身状态信息、下一动作状态信息以及下一所处地形环境的环境状态信息，具体与上述状态信息类似，在此不再赘述。
[0174]
s202、根据奖励参数，更新初始模型的参数。
[0175]
s203、采用更新后的初始模型对下一状态信息进行处理，并根据下一状态信息，重新确定虚拟角色到预设目标点的奖励参数，直至达到预设迭代停止条件。
[0176]
将奖励参数作为模型训练的损失函数，根据奖励参数，可以采用预设算法(如ppo、v-trace、dqn)更新初始模型的参数，并将下一状态信息、下一动作信息作为更新后的初始模型的输入，经更新后的初始模型对下一状态信息进行推理，并根据下一状态信息，重新确定虚拟角色到预设目标点的奖励参数，直至达到预设迭代停止条件，其中，预设迭代停止条件可以包括虚拟角色到达预设目标点、迭代超时、奖励参数达到预设条件，其中，奖励参数达到预设条件可以为奖励参数达到最大值，迭代超时为预设的针对寻路模型训练过程的迭代时间的上限。
[0177]
s204、根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型。
[0178]
其中，最大奖励参数为达到预设迭代停止条件之前确定的奖励参数中的最大值，在初始模型的基础上，将达到预设迭代停止条件时最大奖励参数对应的模型参数，作为寻路模型的模型参数，也即，寻路模型的模型参数为达到预设迭代停止条件时最大奖励参数对应的模型参数。
[0179]
在一可选的实施方式中，根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型，包括：
[0180]
根据达到预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定寻路模型。
[0181]
若预设迭代停止条件中的至少一个条件达到，则确定达到预设迭代停止条件，将达到预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数作为寻路模型的模型参数。
[0182]
作为一种示例，状态信息包括：虚拟角色的自身状态信息、动作状态信息以及虚拟角色所处地形环境的环境状态信息，环境状态信息包括：深度图、探窗雷达信息、有害机关位置信息。初始模型的网络结构采用多头输入多头输出的结构，并且对于每个输入头都有专门的子网络来处理，图3为本技术实施例提供的一种初始模型的结构示意图，如图3所示，自身状态信息和探窗雷达信息分别采用全连接层处理，深度图采用图像处理领域中的残差网络(resnet)处理，有害机关位置信息和动作状态信息分别采用自注意力机制(self-attention)网络处理。
[0183]
其中，全连接层分别用于提取自身状态信息的特征、探测雷达信息的特征，残差网络用于提取深度图的特征，自注意力机制网络分别用于提取有害机关位置信息的特征、动作状态信息的特征。
[0184]
各输入头处理完毕后将提取的输出特征进行拼接，再采用一个全连接层统一处理，分别连接到四个输出头，四个输出头用于输出四个部分的动作，包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一水平移动方向、游戏镜头的下一竖直移动方向。
[0185]
在本实施例的模型训练方法中，获取虚拟角色执行下一动作后的下一状态信息，根据奖励参数，更新初始模型的参数，采用更新后的初始模型对下一状态信息进行处理，并根据下一状态信息，重新确定虚拟角色到预设目标点的奖励参数，直至达到预设迭代停止条件，根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型。通过奖励参数进行强化学习训练，使得模型在训练过程中学习最大奖励参数对应的执行策略，使得训练得到的寻路模型的寻路成功率高，并且采用寻路模型确定虚拟角色的待执行动作和移动方向，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0186]
在一可选的实施方式中，虚拟角色的状态信息包括：自身状态信息和动作状态信息，下面结合图4进行说明。
[0187]
图4为本技术实施例提供的模型训练方法的流程示意图三，如图4所示，根据状态信息，确定虚拟角色到预设目标点的奖励参数，包括：
[0188]
s301、根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数。
[0189]
其中，虚拟角色的状态信息包括：自身状态信息和动作状态信息，若自身状态信息指示虚拟角色符合预设自身状态，且动作状态信息指示虚拟角色符合预设动作状态，则确定虚拟角色到预设目标点的初始奖励参数为预设自身状态对应的奖励参数和预设动作状态对应的奖励参数；若自身状态信息指示虚拟角色符合预设状态，且动作状态信息指示虚拟角色不符合预设动作状态，则确定虚拟角色到预设目标点的奖励参数为预设状态对应的奖励参数，或者预设自身状态对应的奖励参数与预设动作状态对应的惩罚参数的差值；若自身状态信息指示虚拟角色符合预设状态，且动作状态信息指示虚拟角色符合预设动作状
态，则确定虚拟角色到预设目标点的奖励参数为预设动作状态对应的奖励参数，或者预设自身状态对应的惩罚参数与预设动作状态对应的奖励参数的差值，若自身状态信息指示虚拟角色不符合预设自身状态，且动作状态信息指示虚拟角色符合预设动作状态，则确定虚拟角色到预设目标点的奖励参数为预设自身状态对应的惩罚参数与预设动作状态对应的惩罚参数的和值。
[0190]
s302、根据初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定奖励参数。
[0191]
模型迭代次数对应的迭代惩罚参数为时间相关惩罚，为的是鼓励虚拟角色快速到达预设目标点，每做一次迭代，即虚拟角色每移动一次，都会有对应的惩罚，因此，将初始奖励参数和模型迭代次数对应的迭代惩罚参数的差值作为虚拟角色到预设目标点的奖励参数。
[0192]
其中，模型迭代次数越少，对应的迭代惩罚参数越小，模型迭代次数越大，对应的迭代惩罚参数越大，也即，第一次模型迭代的迭代惩罚参数小于第二次模型迭代的迭代惩罚参数，关于模型迭代次数和迭代惩罚参数的具体对应关系，本实施例不做具体限定。
[0193]
在一可选的实施方式中，自身状态信息包括：虚拟角色的位置信息和虚拟角色的血量信息，动作状态信息包括：虚拟角色的动作信息和游戏镜头的移动信息。下面结合图4进行说明。
[0194]
图5为本技术实施例提供的模型训练方法的流程示意图四，如图5所示，根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数，包括：
[0195]
s401、根据虚拟角色的位置信息，确定虚拟角色的基础奖励参数。
[0196]
虚拟角色的位置信息包括：预设目标点与虚拟角色在当前帧的相对位置，和预设目标点与虚拟角色在历史帧的相对位置。
[0197]
根据预设目标点与虚拟角色在当前帧的相对位置，和预设目标点与虚拟角色在历史帧的相对位置，可以确定距离奖励参数，其中，历史帧例如可以为当前帧的上一帧。
[0198]
在一种可能实施中，根据预设目标点与虚拟角色在当前帧的相对位置，可以计算当前帧中预设目标点与虚拟角色的距离，根据预设目标点与虚拟角色在历史帧的相对位置，可以计算历史帧中预设目标点与虚拟角色的距离，若当前帧中预设目标点与虚拟角色的距离小于历史帧中预设目标点与虚拟角色的距离，说明虚拟角色在向预设目标点移动，为鼓励虚拟角色向预设目标点靠近，则可以获取虚拟角色的距离奖励参数，其中，距离奖励参数为预设的鼓励虚拟角色向预设目标点靠近的奖励参数。
[0199]
其中，虚拟角色的位置信息还包括：虚拟角色在当前帧的位置和虚拟角色在历史帧的位置。
[0200]
若虚拟角色在当前帧的位置和虚拟角色在历史帧的位置在预设范围内，例如在连续两帧都在3m内范围移动，说明虚拟角色在该范围内卡住，为避免虚拟角色在寻路过程中在某个地方卡住，则给对应的惩罚，即确定虚拟角色的位置惩罚参数，其中，位置惩罚参数为预设的避免虚拟角色在某个地方卡住的惩罚参数。
[0201]
然后根据距离奖励参数和位置惩罚参数，确定基础奖励参数，也即，将距离奖励参数和位置惩罚参数的差值作为基础奖励参数，在一可选的实施方式中，根据距离奖励参数和位置惩罚参数，确定基础奖励参数，包括：
[0202]
若虚拟角色在当前帧的位置为预设目标点，则根据距离奖励参数、位置惩罚参数
以及预设到达奖励参数，确定虚拟角色的基础奖励参数；
[0203]
若虚拟角色在当前帧的位置不是预设目标点，且当前时间超出预设目标点的预设到达时间，则根据距离奖励参数、位置惩罚参数以及预设未到达惩罚参数，确定基础奖励参数。
[0204]
在一种情况下，若虚拟角色在当前帧的位置为预设目标点，说明虚拟角色到达预设目标点，则给对应的到达奖励，即预设到达奖励，例如100，然后根据距离奖励参数和预设到达奖励参数的和值，与位置惩罚参数的差值，确定为虚拟角色的基础奖励参数。
[0205]
其中，预设目标点的预设到达时间为预设的预设目标点的到达时间，若虚拟角色在当前帧的位置不是预设目标点，且当前时间超出预设目标点的预设到达时间，说明虚拟角色在规定时间内未到达预设目标点，则给对应的惩罚，即预设未到达惩罚，例如-100，然后根据位置惩罚参数和预设未到达惩罚参数的和值，与距离奖励参数的差值，确定为虚拟角色的基础奖励参数。
[0206]
s402、根据虚拟角色的血量信息、虚拟角色的动作信息以及游戏镜头的移动信息，确定虚拟角色的行为奖励参数。
[0207]
其中，虚拟角色的动作信息为虚拟角色在当前帧执行的动作的信息，虚拟角色的行为奖励参数为虚拟角色向着预设目标点移动的过程中所执行的动作对应的奖励参数。
[0208]
虚拟角色的血量信息包括：虚拟角色在当前帧的血量信息和虚拟角色在历史帧的血量信息。
[0209]
在一可选的实施方式中，步骤s402可以包括：
[0210]
根据虚拟角色在当前帧的血量信息，以及虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；若动作信息指示虚拟角色在当前帧中执行的动作为预设动作，则根据游戏镜头的移动信息，判断当前帧中虚拟角色的视角与预设目标点是否偏离预设角度；若当前帧中虚拟角色的视角与预设目标点偏离预设角度，则根据血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定行为奖励参数。
[0211]
其中，游戏镜头的移动信息可以为当前帧中游戏镜头的移动信息，虚拟角色的动作信息可以为当前帧中虚拟角色的动作信息。
[0212]
由于游戏场景中可能存在有害机关导致虚拟角色掉血，为避免虚拟角色触碰这些有害机关，若虚拟角色在当前帧的血量信息大于在历史帧的血量信息，则可以给对应的血量惩罚参数，也即，若虚拟角色在当前帧的血量信息大于在历史帧的血量信息，则获取虚拟角色的血量惩罚参数，其中，血量惩罚参数为预设的鼓励虚拟角色避免触碰有害机关的惩罚参数。
[0213]
为鼓励虚拟角色执行预设动作，例如蓄力滑步动作、使用钩锁，若动作信息指示当前帧中虚拟角色执行的动作为预设动作，则给对应的奖励参数，即获取预设动作奖励参数，例如，蓄力滑步位移超过6米，则给蓄力滑步对应的奖励参数，使用钩锁超过12米，则给使用钩锁对应的奖励参数。
[0214]
为鼓励虚拟角色快速学会调整视角，避免虚拟角色的视角一直看向天空或者地面，根据游戏镜头的移动信息，可以判断当前帧中虚拟角色的视角与预设目标点是否偏离预设角度，若当前帧中虚拟角色的视角与预设目标点偏离预设角度，则给予对应的惩罚参数，即视角偏离惩罚参数，并将血量惩罚参数和视角偏离惩罚参数的和值，与预设动作奖励
参数的差值作为虚拟角色的行为奖励参数。
[0215]
其中，游戏镜头的移动信息包括：游戏镜头的水平移动方向、游戏镜头的竖直移动方向，也即，根据游戏镜头的移动信息可以确定当前帧中虚拟角色的视角方向，然后根据该视角方向确定虚拟角色与预设目标点的角度，若该角度偏离预设角度，说明虚拟角色没有看向预设目标点，则给予对应视角偏离惩罚。
[0216]
s403、根据基础奖励参数和行为奖励参数，得到初始奖励参数。
[0217]
将基础奖励参数和行为奖励参数的和值确定为虚拟角色的奖励参数。
[0218]
作为一种示例，虚拟角色的奖励参数r
t
如下：
[0219][0220]
basic reward为基础奖励参数，shaping rewarding为行为奖励参数，为距离奖励参数，为预设到达奖励参数，为血量惩罚参数，为使用钩锁对应的奖励参数，为蓄力滑步对应的奖励参数，为视角偏离惩罚参数，为位置惩罚参数，为迭代惩罚参数，其中，血量惩罚参数、视角偏离惩罚参数以及迭代惩罚参数在该公式中为负值。
[0221]
在一可选的实施方式中，环境状态信息包括：深度图，下面结合图6对获取游戏中处于寻路状态的虚拟角色的状态信息进行说明。
[0222]
图6为本技术实施例提供的模型训练方法的流程示意图五，如图6所示，获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
[0223]
s501、以虚拟角色为发射点，向游戏场景中虚拟角色的视野范围发射雷达射线。
[0224]
s502、若雷达射线触碰到视野范围内的障碍物，则根据视野范围内的障碍物与虚拟角色的距离，确定障碍物所在位置的深度值。
[0225]
s503、根据深度值得到深度图。
[0226]
以虚拟角色为发射点，向游戏场景中虚拟角色的视野范围发射雷达射线，其中该方案应用于游戏引擎中，该游戏引擎提供有雷达射线触发控件，通过点击雷达射线触发控件以向游戏场景中虚拟角色的视野范围发射雷达射线。
[0227]
若雷达射线触碰到视野范围内的障碍物，则根据视野范围内的障碍物与虚拟角色的距离，确定障碍物所在位置的深度值，然后根据障碍物所在的位置的深度值，得到深度图，也即，深度图中的深度值为障碍物所在的位置的深度值。
[0228]
图7为本技术实施例提供的雷达射线的示意图一，如图7所示，在游戏场景中从虚拟角色的视角出发，向视野范围发射若干条件雷达射线。
[0229]
在一可选的实施方式中，环境状态信息包括：探窗雷达信息，下面结合图8对获取游戏场景中处于寻路状态的虚拟角色的状态信息进行说明。
[0230]
图8为本技术实施例提供的模型训练方法的流程示意图六，如图8所示，获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
[0231]
s601、以虚拟角色的预设高度处为发射点，向游戏场景中的预设范围发射雷达射线。
[0232]
s602、若雷达射线触碰到预设范围内的障碍物，则确定虚拟角色位于预设范围内的障碍物对应的虚拟空间内。
[0233]
预设高度可以为游戏场景中障碍物的下边缘与水平地面的高度，障碍物例如可以为窗户、门，预设高度可以到达预设角色的腰部，则以虚拟角色的腰部为发射点。
[0234]
其中该方案应用于游戏引擎中，该游戏引擎提供有雷达射线触发控件，通过点击雷达射线触发控件以向游戏场景中虚拟角色的预设范围发射雷达射线，其中，虚拟角色的预设范围可以为以虚拟角色为中心的四周的范围，若雷达射线触碰到预设范围内的障碍物，则确定虚拟角色位于预设范围内的障碍物对应的虚拟空间内，窗户对应的房间内。
[0235]
图9为本技术实施例提供的雷达射线的示意图二，如图9所示，在游戏场景中以虚拟角色上窗户的下边缘与水平地面的高度处为发射点，向游戏场景中的预设范围发射若干条件雷达射线。
[0236]
图10为本技术实施例提供的游戏寻路方法的流程示意图，本实施例的执行主体为电子设备，例如，手机、平板电脑、笔记本电脑、游戏机、服务器等具备数据处理能力的设备。
[0237]
如图10所示，该方法包括：
[0238]
s801、获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息。
[0239]
其中，任意虚拟角色可以为游戏场景中处于寻路状态的任意虚拟人物、虚拟动物。
[0240]
初始状态信息可以包括：任意虚拟角色的自身状态信息、动作状态信息以及任意虚拟角色所处地形环境的环境状态信息。
[0241]
该动作状态信息可以包括：任意虚拟角色的动作信息、任意虚拟角色的移动方向、游戏镜头的移动信息，其中，任意虚拟角色的动作信息为任意虚拟角色所执行的动作的信息，游戏镜头的移动信息包括：游戏镜头的水平移动方向、游戏镜头的竖直移动方向。
[0242]
s802、采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息。
[0243]
该寻路模型为上述模型训练方法训练得到的模型，将初始状态信息输入到训练得到的寻路模型，经寻路模型对初始状态信息进行处理，输出任意虚拟角色的目标动作信息，目标动作信息包括：任意虚拟角色到目标点待执行的目标动作的信息、虚拟角色的目标移动方向、游戏镜头的目标移动信息，目标移动信息为任意虚拟角色执行目标动作时游戏镜头的移动方向，可以为水平移动方向或者竖直移动方向。
[0244]
其中，目标移动方向为任意虚拟角色的下一个移动方向，目标动作为任意虚拟角色的下一个执行动作，目标移动信息为游戏镜头的下一个移动信息，目标点为游戏场景中任意虚拟角色的寻路终点。
[0245]
s803、根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面。
[0246]
s804、控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。
[0247]
确定任意虚拟角色在游戏场景中的目标动作信息之后，根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面，控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作，其中，显示画面为游戏镜头所控制的，不同的移动信息对应不同的显示画面。
[0248]
在本实施例的游戏寻路方法中，获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息，采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息，目标动作信息包括：虚拟角色到目标点待执行的目标动作的信息、虚拟角色
的目标移动方向、游戏镜头的目标移动信息，根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面，控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0249]
图11为本技术实施例提供的模型训练装置的结构示意图，如图11所示，该装置包括：
[0250]
获取模块801，用于获取游戏场景中处于寻路状态的虚拟角色的状态信息；
[0251]
处理模块802，用于采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息；
[0252]
确定模块803，用于根据状态信息，确定虚拟角色到预设目标点的奖励参数；
[0253]
处理模块802，还用于根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。
[0254]
在一可选的实施方式中，处理模块802，具体用于：
[0255]
获取虚拟角色执行下一动作后的下一状态信息；
[0256]
根据奖励参数，更新初始模型的参数；
[0257]
采用更新后的初始模型对下一状态信息进行处理，并根据下一状态信息，重新确定虚拟角色到预设目标点的奖励参数，直至达到预设迭代停止条件；
[0258]
根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型。
[0259]
在一可选的实施方式中，预设迭代停止条件包括：虚拟角色到达预设目标点、迭代超时、奖励参数达到预设条件；
[0260]
处理模块802，具体用于：
[0261]
根据达到预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定寻路模型。
[0262]
在一可选的实施方式中，状态信息包括：自身状态信息和动作状态信息；
[0263]
确定模块803，具体用于：
[0264]
根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数；
[0265]
根据初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定奖励参数。
[0266]
在一可选的实施方式中，自身状态信息包括：虚拟角色的血量信息、虚拟角色的位置信息，动作状态信息包括：虚拟角色的动作信息、游戏镜头的移动信息；
[0267]
确定模块803，具体用于：
[0268]
根据虚拟角色的位置信息，确定虚拟角色的基础奖励参数；
[0269]
根据虚拟角色的血量信息、虚拟角色的动作信息以及游戏镜头的移动信息，确定虚拟角色的行为奖励参数；
[0270]
根据基础奖励参数和行为奖励参数，得到初始奖励参数。
[0271]
在一可选的实施方式中，确定模块803，具体用于：
[0272]
根据预设目标点与虚拟角色在当前帧的相对位置，和预设目标点与虚拟角色在历史帧的相对位置，确定虚拟角色的距离奖励参数；
[0273]
根据虚拟角色在当前帧的位置和虚拟角色在历史帧的位置，确定虚拟角色的位置惩罚参数；
[0274]
根据距离奖励参数和位置惩罚参数，确定基础奖励参数。
[0275]
在一可选的实施方式中，确定模块803，具体用于：
[0276]
若虚拟角色在当前帧的位置为预设目标点，则根据距离奖励参数、位置惩罚参数以及预设到达奖励参数，确定基础奖励参数；
[0277]
若虚拟角色在当前帧的位置不是预设目标点，且当前时间超出预设目标点的预设到达时间，则根据距离奖励参数、位置惩罚参数以及预设未到达惩罚参数，确定基础奖励参数。
[0278]
在一可选的实施方式中，确定模块803，具体用于：
[0279]
根据虚拟角色在当前帧的血量信息，以及虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；
[0280]
若动作信息指示当前帧中虚拟角色执行的动作为预设动作，则根据游戏镜头的移动信息，判断当前帧中虚拟角色的视角与预设目标点是否偏离预设角度；
[0281]
若当前帧中虚拟角色的视角与预设目标点偏离预设角度，则根据血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定行为奖励参数。
[0282]
在一可选的实施方式中，状态信息包括：自身状态信息、动作状态信息以及所处地形环境的环境状态信息；
[0283]
自身状态信息包括：虚拟角色的血量信息、虚拟角色的位置信息、虚拟角色的朝向信息、游戏镜头的朝向信息、虚拟角色到预设目标点的连线方向、动作状态指示信息、预设动作是否命中的指示信息、可用动作信息中的至少一种；
[0284]
动作状态信息包括：虚拟角色的移动方向、虚拟角色的动作信息、游戏镜头的移动信息；
[0285]
环境状态信息包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。
[0286]
在一可选的实施方式中，环境状态信息包括：深度图；获取模块701，具体用于：
[0287]
以虚拟角色为发射点，向游戏场景中虚拟角色的视野范围发射雷达射线；
[0288]
若雷达射线触碰到视野范围内的障碍物，则根据视野范围内的障碍物与虚拟角色的距离，确定障碍物所在位置的深度值；
[0289]
根据深度值得到深度图。
[0290]
在一可选的实施方式中，环境状态信息包括：探窗雷达信息；获取模块801，具体用于：
[0291]
以虚拟角色的预设高度处为发射点，向游戏场景中的预设范围发射雷达射线；
[0292]
若雷达射线触碰到预设范围内的障碍物，则确定虚拟角色位于预设范围内的障碍物对应的虚拟空间内。
[0293]
在本实施例的模型训练装置中，获取模块用于获取游戏场景中处于寻路状态的虚拟角色的状态信息，处理模块用于采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息，确定模块用于根据状态信息，确定虚拟角色到预设目标点的奖励参数，处理模块还用于根据下一动作信息和奖励参数，对初始模型进行强
化学习训练，得到初始模型对应的寻路模型。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0294]
图12为本技术实施例提供的游戏寻路装置的结构示意图，如图12所示，该装置包括：
[0295]
获取模块901，用于获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；
[0296]
处理模块902，用于采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息，目标动作信息包括：任意虚拟角色到目标点待执行的目标动作的信息、任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；
[0297]
处理模块902，还用于根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面；
[0298]
处理模块902，还用于控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。
[0299]
在本实施例的游戏寻路装置中，获取模块用于获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息，处理模块用于采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息，目标动作信息包括：任意虚拟角色到目标点待执行的目标动作的信息、任意虚拟角色的目标移动方向、游戏镜头的目标移动信息，处理模块还用于根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面，处理模块还用于控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0300]
图13为本技术实施例提供的电子设备的结构示意图，如图13所示，该设备包括：处理器1001、存储器1002和总线1003，存储器1002存储有处理器1001可执行的机器可读指令，当电子设备运行时，处理器1001与存储器1002之间通过总线1003通信，处理器1001执行机器可读指令，以执行如下模型训练方法或者游戏寻路方法：
[0301]
其中，模型训练方法包括如下步骤：
[0302]
获取游戏场景中处于寻路状态的虚拟角色的状态信息；
[0303]
采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息；
[0304]
根据状态信息，确定虚拟角色到预设目标点的奖励参数；
[0305]
根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。
[0306]
在一可选的实施方式中，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型，包括：
[0307]
获取虚拟角色执行下一动作后的下一状态信息；
[0308]
根据奖励参数，更新初始模型的参数；
[0309]
采用更新后的初始模型对下一状态信息进行处理，并根据下一状态信息，重新确
定虚拟角色到预设目标点的奖励参数，直至达到预设迭代停止条件；
[0310]
根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型。
[0311]
在一可选的实施方式中，预设迭代停止条件包括：虚拟角色到达预设目标点、迭代超时、奖励参数达到预设条件；
[0312]
根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型，包括：
[0313]
根据达到预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定寻路模型。
[0314]
在一可选的实施方式中，状态信息包括：自身状态信息和动作状态信息；
[0315]
根据状态信息，确定虚拟角色到预设目标点的奖励参数，包括：
[0316]
根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数；
[0317]
根据初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定奖励参数。
[0318]
在一可选的实施方式中，自身状态信息包括：虚拟角色的血量信息、虚拟角色的位置信息，动作状态信息包括：虚拟角色的动作信息、游戏镜头的移动信息；
[0319]
根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数，包括：
[0320]
根据虚拟角色的位置信息，确定虚拟角色的基础奖励参数；
[0321]
根据虚拟角色的血量信息、虚拟角色的动作信息以及游戏镜头的移动信息，确定虚拟角色的行为奖励参数；
[0322]
根据基础奖励参数和行为奖励参数，得到初始奖励参数。
[0323]
在一可选的实施方式中，根据虚拟角色的位置信息，确定虚拟角色的基础奖励参数，包括：
[0324]
根据预设目标点与虚拟角色在当前帧的相对位置，和预设目标点与虚拟角色在历史帧的相对位置，确定虚拟角色的距离奖励参数；
[0325]
根据虚拟角色在当前帧的位置和虚拟角色在历史帧的位置，确定虚拟角色的位置惩罚参数；
[0326]
根据距离奖励参数和位置惩罚参数，确定基础奖励参数。
[0327]
在一可选的实施方式中，根据距离奖励参数和位置惩罚参数，确定基础奖励参数，包括：
[0328]
若虚拟角色在当前帧的位置为预设目标点，则根据距离奖励参数、位置惩罚参数以及预设到达奖励参数，确定基础奖励参数；
[0329]
若虚拟角色在当前帧的位置不是预设目标点，且当前时间超出预设目标点的预设到达时间，则根据距离奖励参数、位置惩罚参数以及预设未到达惩罚参数，确定基础奖励参数。
[0330]
在一可选的实施方式中，根据虚拟角色的血量信息、虚拟角色的动作信息以及游戏镜头的移动信息，确定虚拟角色的行为奖励参数，包括：
[0331]
根据虚拟角色在当前帧的血量信息，以及虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；
[0332]
若动作信息指示当前帧中虚拟角色执行的动作为预设动作，则根据游戏镜头的移动信息，判断当前帧中虚拟角色的视角与预设目标点是否偏离预设角度；
[0333]
若当前帧中虚拟角色的视角与预设目标点偏离预设角度，则根据血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定行为奖励参数。
[0334]
在一可选的实施方式中，状态信息包括：自身状态信息、动作状态信息以及所处地形环境的环境状态信息；
[0335]
自身状态信息包括：虚拟角色的血量信息、虚拟角色的位置信息、虚拟角色的朝向信息、游戏镜头的朝向信息、虚拟角色到预设目标点的连线方向、动作状态指示信息、预设动作是否命中的指示信息、可用动作信息中的至少一种；
[0336]
动作状态信息包括：虚拟角色的移动方向、虚拟角色的动作信息、游戏镜头的移动信息；
[0337]
环境状态信息包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。
[0338]
在一可选的实施方式中，环境状态信息包括：深度图；获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
[0339]
以虚拟角色为发射点，向游戏场景中虚拟角色的视野范围发射雷达射线；
[0340]
若雷达射线触碰到视野范围内的障碍物，则根据视野范围内的障碍物与虚拟角色的距离，确定障碍物所在位置的深度值；
[0341]
根据深度值得到深度图。
[0342]
在一可选的实施方式中，环境状态信息包括：探窗雷达信息；获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
[0343]
以虚拟角色的预设高度处为发射点，向游戏场景中的预设范围发射雷达射线；
[0344]
若雷达射线触碰到预设范围内的障碍物，则确定虚拟角色位于预设范围内的障碍物对应的虚拟空间内。
[0345]
通过上述方式，获取游戏场景中处于寻路状态的虚拟角色的状态信息，采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息，根据状态信息，确定虚拟角色到预设目标点的奖励参数，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0346]
其中，游戏寻路方法包括如下步骤：
[0347]
获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；
[0348]
采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息，目标动作信息包括：任意虚拟角色到目标点待执行的目标动作的信息、任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；
[0349]
根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面；
[0350]
控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。
[0351]
通过上述方式，获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息，
采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息，目标动作信息包括：虚拟角色到目标点待执行的目标动作的信息、虚拟角色的目标移动方向、游戏镜头的目标移动信息，根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面，控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。
[0352]
本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行，处理器执行如下模型训练方法或者游戏寻路方法：
[0353]
其中，模型训练方法包括如下步骤：
[0354]
获取游戏场景中处于寻路状态的虚拟角色的状态信息；
[0355]
采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息；
[0356]
根据状态信息，确定虚拟角色到预设目标点的奖励参数；
[0357]
根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。
[0358]
在一可选的实施方式中，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型，包括：
[0359]
获取虚拟角色执行下一动作后的下一状态信息；
[0360]
根据奖励参数，更新初始模型的参数；
[0361]
采用更新后的初始模型对下一状态信息进行处理，并根据下一状态信息，重新确定虚拟角色到预设目标点的奖励参数，直至达到预设迭代停止条件；
[0362]
根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型。
[0363]
在一可选的实施方式中，预设迭代停止条件包括：虚拟角色到达预设目标点、迭代超时、奖励参数达到预设条件；
[0364]
根据达到预设迭代停止条件时最大奖励参数对应的模型参数，确定寻路模型，包括：
[0365]
根据达到预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定寻路模型。
[0366]
在一可选的实施方式中，状态信息包括：自身状态信息和动作状态信息；
[0367]
根据状态信息，确定虚拟角色到预设目标点的奖励参数，包括：
[0368]
根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数；
[0369]
根据初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定奖励参数。
[0370]
在一可选的实施方式中，自身状态信息包括：虚拟角色的血量信息、虚拟角色的位置信息，动作状态信息包括：虚拟角色的动作信息、游戏镜头的移动信息；
[0371]
根据自身状态信息和动作状态信息，确定虚拟角色到预设目标点的初始奖励参数，包括：
[0372]
根据虚拟角色的位置信息，确定虚拟角色的基础奖励参数；
[0373]
根据虚拟角色的血量信息、虚拟角色的动作信息以及游戏镜头的移动信息，确定虚拟角色的行为奖励参数；
[0374]
根据基础奖励参数和行为奖励参数，得到初始奖励参数。
[0375]
在一可选的实施方式中，根据虚拟角色的位置信息，确定虚拟角色的基础奖励参数，包括：
[0376]
根据预设目标点与虚拟角色在当前帧的相对位置，和预设目标点与虚拟角色在历史帧的相对位置，确定虚拟角色的距离奖励参数；
[0377]
根据虚拟角色在当前帧的位置和虚拟角色在历史帧的位置，确定虚拟角色的位置惩罚参数；
[0378]
根据距离奖励参数和位置惩罚参数，确定基础奖励参数。
[0379]
在一可选的实施方式中，根据距离奖励参数和位置惩罚参数，确定基础奖励参数，包括：
[0380]
若虚拟角色在当前帧的位置为预设目标点，则根据距离奖励参数、位置惩罚参数以及预设到达奖励参数，确定基础奖励参数；
[0381]
若虚拟角色在当前帧的位置不是预设目标点，且当前时间超出预设目标点的预设到达时间，则根据距离奖励参数、位置惩罚参数以及预设未到达惩罚参数，确定基础奖励参数。
[0382]
在一可选的实施方式中，根据虚拟角色的血量信息、虚拟角色的动作信息以及游戏镜头的移动信息，确定虚拟角色的行为奖励参数，包括：
[0383]
根据虚拟角色在当前帧的血量信息，以及虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；
[0384]
若动作信息指示当前帧中虚拟角色执行的动作为预设动作，则根据游戏镜头的移动信息，判断当前帧中虚拟角色的视角与预设目标点是否偏离预设角度；
[0385]
若当前帧中虚拟角色的视角与预设目标点偏离预设角度，则根据血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定行为奖励参数。
[0386]
在一可选的实施方式中，状态信息包括：自身状态信息、动作状态信息以及所处地形环境的环境状态信息；
[0387]
自身状态信息包括：虚拟角色的血量信息、虚拟角色的位置信息、虚拟角色的朝向信息、游戏镜头的朝向信息、虚拟角色到预设目标点的连线方向、动作状态指示信息、预设动作是否命中的指示信息、可用动作信息中的至少一种；
[0388]
动作状态信息包括：虚拟角色的移动方向、虚拟角色的动作信息、游戏镜头的移动信息；
[0389]
环境状态信息包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。
[0390]
在一可选的实施方式中，环境状态信息包括：深度图；获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
[0391]
以虚拟角色为发射点，向游戏场景中虚拟角色的视野范围发射雷达射线；
[0392]
若雷达射线触碰到视野范围内的障碍物，则根据视野范围内的障碍物与虚拟角色的距离，确定障碍物所在位置的深度值；
[0393]
根据深度值得到深度图。
[0394]
在一可选的实施方式中，环境状态信息包括：探窗雷达信息；获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
[0395]
以虚拟角色的预设高度处为发射点，向游戏场景中的预设范围发射雷达射线；
[0396]
若雷达射线触碰到预设范围内的障碍物，则确定虚拟角色位于预设范围内的障碍物对应的虚拟空间内。
[0397]
其中，游戏寻路方法包括如下步骤：
[0398]
获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；
[0399]
采用训练得到的寻路模型对初始状态信息进行处理，得到任意虚拟角色的目标动作信息，目标动作信息包括：任意虚拟角色到目标点待执行的目标动作的信息、任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；
[0400]
根据游戏镜头的目标移动信息，调整游戏场景对应的显示画面；
[0401]
控制任意虚拟角色向着目标移动方向进行移动，并根据待执行的目标动作的信息执行目标动作。
[0402]
在本技术实施例中，该计算机程序被处理器运行时还可以执行其它机器可读指令，以执行如实施例中其它的方法，关于具体执行的方法步骤和原理参见实施例的说明，在此不再详细赘述。
[0403]
在本技术所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0404]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0405]
另外，在本技术提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0406]
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0407]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0408]
最后应说明的是：以上实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进
行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围。都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

技术特征：
1.一种模型训练方法，其特征在于，包括：获取游戏场景中处于寻路状态的虚拟角色的状态信息；采用预设的初始模型，对所述状态信息进行处理，得到下一动作信息，所述下一动作信息包括：所述虚拟角色到预设目标点待执行的下一动作的信息、所述虚拟角色的下一移动方向、游戏镜头的下一移动信息；根据所述状态信息，确定所述虚拟角色到所述预设目标点的奖励参数；根据所述下一动作信息和所述奖励参数，对所述初始模型进行强化学习训练，得到所述初始模型对应的寻路模型。2.根据权利要求1所述的方法，其特征在于，所述根据所述下一动作信息和所述奖励参数，对所述初始模型进行强化学习训练，得到所述初始模型对应的寻路模型，包括：获取所述虚拟角色执行所述下一动作后的下一状态信息；根据所述奖励参数，更新所述初始模型的参数；采用更新后的初始模型对所述下一状态信息进行处理，并根据所述下一状态信息，重新确定所述虚拟角色到所述预设目标点的奖励参数，直至达到预设迭代停止条件；根据达到所述预设迭代停止条件时最大奖励参数对应的模型参数，确定所述寻路模型。3.根据权利要求2所述的方法，其特征在于，所述预设迭代停止条件包括：所述虚拟角色到达预设目标点、迭代超时、所述奖励参数达到预设条件；所述根据达到所述预设迭代停止条件时最大奖励参数对应的模型参数，确定所述寻路模型，包括：根据达到所述预设迭代停止条件中至少一个条件时的最大奖励参数对应的模型参数，确定所述寻路模型。4.根据权利要求1所述的方法，其特征在于，所述状态信息包括：自身状态信息和动作状态信息；所述根据所述状态信息，确定所述虚拟角色到所述预设目标点的奖励参数，包括：根据所述自身状态信息和所述动作状态信息，确定所述虚拟角色到所述预设目标点的初始奖励参数；根据所述初始奖励参数和模型迭代次数对应的迭代惩罚参数，确定所述奖励参数。5.根据权利要求4所述的方法，其特征在于，所述自身状态信息包括：所述虚拟角色的血量信息、所述虚拟角色的位置信息，所述动作状态信息包括：所述虚拟角色的动作信息、所述游戏镜头的移动信息；所述根据所述自身状态信息和所述动作状态信息，确定所述虚拟角色到所述预设目标点的初始奖励参数，包括：根据所述虚拟角色的位置信息，确定所述虚拟角色的基础奖励参数；根据所述虚拟角色的血量信息、所述虚拟角色的动作信息以及所述游戏镜头的移动信息，确定所述虚拟角色的行为奖励参数；根据所述基础奖励参数和所述行为奖励参数，得到所述初始奖励参数。6.根据权利要求5所述的方法，其特征在于，所述根据所述虚拟角色的位置信息，确定所述虚拟角色的基础奖励参数，包括：
根据所述预设目标点与所述虚拟角色在当前帧的相对位置，和所述预设目标点与所述虚拟角色在历史帧的相对位置，确定所述虚拟角色的距离奖励参数；根据所述虚拟角色在所述当前帧的位置和所述虚拟角色在所述历史帧的位置，确定所述虚拟角色的位置惩罚参数；根据所述距离奖励参数和所述位置惩罚参数，确定基础奖励参数。7.根据权利要求6所述的方法，其特征在于，所述根据所述距离奖励参数和所述位置惩罚参数，确定基础奖励参数，包括：若所述虚拟角色在所述当前帧的位置为所述预设目标点，则根据所述距离奖励参数、所述位置惩罚参数以及预设到达奖励参数，确定所述基础奖励参数；若所述虚拟角色在所述当前帧的位置不是所述预设目标点，且当前时间超出所述预设目标点的预设到达时间，则根据所述距离奖励参数、所述位置惩罚参数以及预设未到达惩罚参数，确定所述基础奖励参数。8.根据权利要求5所述的方法，其特征在于，所述根据所述虚拟角色的血量信息、所述虚拟角色的动作信息以及所述游戏镜头的移动信息，确定所述虚拟角色的行为奖励参数，包括：根据所述虚拟角色在当前帧的血量信息，以及所述虚拟角色在历史帧的血量信息，确定虚拟角色的血量惩罚参数；若所述动作信息指示所述当前帧中所述虚拟角色执行的动作为预设动作，则根据所述游戏镜头的移动信息，判断所述当前帧中所述虚拟角色的视角与所述预设目标点是否偏离预设角度；若所述当前帧中所述虚拟角色的视角与所述预设目标点偏离预设角度，则根据所述血量惩罚参数、预设动作奖励参数以及预设视角偏离惩罚，确定所述行为奖励参数。9.根据权利要求1所述的方法，其特征在于，所述状态信息包括：自身状态信息、动作状态信息以及所处地形环境的环境状态信息；所述自身状态信息包括：所述虚拟角色的血量信息、所述虚拟角色的位置信息、所述虚拟角色的朝向信息、所述游戏镜头的朝向信息、所述虚拟角色到所述预设目标点的连线方向、动作状态指示信息、预设动作是否命中的指示信息、可用动作信息中的至少一种；所述动作状态信息包括：所述虚拟角色的移动方向、所述虚拟角色的动作信息、所述游戏镜头的移动信息；所述环境状态信息包括：深度图、探窗雷达信息以及有害机关位置信息中的至少一种。10.根据权利要求9所述的方法，其特征在于，所述环境状态信息包括：所述深度图；所述获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：以所述虚拟角色为发射点，向所述游戏场景中所述虚拟角色的视野范围发射雷达射线；若所述雷达射线触碰到所述视野范围内的障碍物，则根据所述视野范围内的障碍物与所述虚拟角色的距离，确定障碍物所在位置的深度值；根据所述深度值得到所述深度图。11.根据权利要求9所述的方法，其特征在于，所述环境状态信息包括：所述探窗雷达信息；所述获取游戏场景中处于寻路状态的虚拟角色的状态信息，包括：
以所述虚拟角色的预设高度处为发射点，向所述游戏场景中的预设范围发射雷达射线；若所述雷达射线触碰到所述预设范围内的障碍物，则确定所述虚拟角色位于所述预设范围内的障碍物对应的虚拟空间内。12.一种游戏寻路方法，其特征在于，包括：获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；采用权利要求1-11任一项训练得到的寻路模型对所述初始状态信息进行处理，得到所述任意虚拟角色的目标动作信息，所述目标动作信息包括：所述任意虚拟角色到目标点待执行的目标动作的信息、所述任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；根据所述游戏镜头的目标移动信息，调整游戏场景对应的显示画面；控制所述任意虚拟角色向着所述目标移动方向进行移动，并根据所述待执行的目标动作的信息执行所述目标动作。13.一种模型训练装置，其特征在于，包括：获取模块，用于获取游戏场景中处于寻路状态的虚拟角色的状态信息；处理模块，用于采用预设的初始模型，对所述状态信息进行处理，得到下一动作信息，所述下一动作信息包括：所述虚拟角色到预设目标点待执行的下一动作的信息、所述虚拟角色的下一移动方向、游戏镜头的下一移动信息；确定模块，用于根据所述状态信息，确定所述虚拟角色到所述预设目标点的奖励参数；所述处理模块，还用于根据所述下一动作信息和所述奖励参数，对所述初始模型进行强化学习训练，得到所述初始模型对应的寻路模型。14.一种游戏寻路装置，其特征在于，包括：获取模块，用于获取游戏场景中处于寻路状态的任意虚拟角色的初始状态信息；处理模块，用于采用权利要求1-11任一项训练得到的寻路模型对所述初始状态信息进行处理，得到所述任意虚拟角色的目标动作信息，所述目标动作信息包括：所述任意虚拟角色到目标点待执行的目标动作的信息、所述任意虚拟角色的目标移动方向、游戏镜头的目标移动信息；所述处理模块，还用于根据所述游戏镜头的目标移动信息，调整游戏场景对应的显示画面；所述处理模块，还用于控制所述任意虚拟角色向着所述目标移动方向进行移动，并根据所述待执行的目标动作的信息执行所述目标动作。15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行权利要求1至11任一项所述的模型训练方法、或者权利要求12所述的游戏寻路方法。16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行权利要求1至11任一项所述的模型训练方法、或者权利要求12所述的游戏寻路方法。

技术总结
本申请提供了一种模型训练方法、游戏寻路方法、装置、设备及存储介质，模型训练方法包括：获取游戏场景中处于寻路状态的虚拟角色的状态信息，采用预设的初始模型，对状态信息进行处理，得到下一动作信息，下一动作信息包括：虚拟角色到预设目标点待执行的下一动作的信息、虚拟角色的下一移动方向、游戏镜头的下一移动信息，根据状态信息，确定虚拟角色到预设目标点的奖励参数，根据下一动作信息和奖励参数，对初始模型进行强化学习训练，得到初始模型对应的寻路模型。采用寻路模型确定虚拟角色的待执行动作和移动方向，寻路成功率高，路线不单一，使虚拟角色行为更加拟人，并且还可以自动控制游戏镜头移动。自动控制游戏镜头移动。自动控制游戏镜头移动。

技术研发人员：刘贺王蒙关凯范长杰胡志鹏
受保护的技术使用者：网易(杭州)网络有限公司
技术研发日：2022.07.20
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-2276.html

专利

最新回复(0)