本公开涉及机器学习,具体地,涉及一种大语言模型的请求处理方法、装置、介质、设备及产品。
背景技术:
1、大语言模型(large language model,llm)在各种自然语言任务中能够提供卓越的性能。然而,由于大语言模型的巨大规模,其推理速度一般比较缓慢且计算成本昂贵。因此,如何提高大语言模型的资源利用率成为亟需解决的技术问题。
技术实现思路
1、提供该
技术实现要素:
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、第一方面,本公开提供一种大语言模型的请求处理方法,包括:
3、获取发送至大语言模型的服务请求;
4、通过部署于第一图形处理器的大语言模型,对所述服务请求进行预填充处理,获得所述服务请求对应的预填充结果,并将所述预填充结果发送至第二图形处理器;
5、通过部署于所述第二图形处理器的大语言模型,对所述预填充结果进行解码处理,获得所述服务请求对应的推理结果。
6、第二方面,本公开提供一种大语言模型的请求处理装置,包括:
7、获取模块,被配置为获取发送至大语言模型的服务请求;
8、第一处理模块,被配置为通过部署于第一图形处理器的大语言模型,对所述服务请求进行预填充处理,获得所述服务请求对应的预填充结果,并将所述预填充结果发送至第二图形处理器;
9、第二处理模块,被配置为通过部署于所述第二图形处理器的大语言模型,对所述预填充结果进行解码处理,获得所述服务请求对应的推理结果。
10、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理装置执行时实现第一方面所述的方法的步骤。
11、第四方面,本公开提供一种电子设备,包括:
12、存储装置,其上存储有计算机程序;
13、处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述的方法的步骤。
14、第五方面,本公开提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。
15、基于上述技术方案,通过获取发送至大语言模型的服务请求,并通过部署于第一图形处理器的大语言模型,对服务请求进行预填充处理,获得服务请求对应的预填充结果,并将预填充结果发送至第二图形处理器,以及通过部署于第二图形处理器的大语言模型,对预填充结果进行解码处理,获得服务请求对应的推理结果,可以将大语言模型的预填充阶段与解码阶段进行解耦,从而提高gpu资源的利用率以及提高大语言模型的服务吞吐量。
16、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种大语言模型的请求处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述通过部署于所述第二图形处理器的大语言模型,对所述预填充结果进行解码处理,获得所述服务请求对应的推理结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取发送至大语言模型的服务请求,包括:
5.根据权利要求4所述的方法,其特征在于,所述调度器用于根据各所述第一图形处理器的空闲状态,将所述服务请求分发至对应的第一图形处理器。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述大语言模型的请求处理方法由电子设备执行,所述电子设备包括多个图形处理器,所述多个图形处理器中的所述第二图形处理器与所述第一图形处理器之间的数量比例为预设比例。
7.一种大语言模型的请求处理装置,其特征在于,包括:
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理装置执行时实现权利要求1-6中任一项所述的方法的步骤。
9.一种电子设备,其特征在于,包括:
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法的步骤。