一种基于transformer的人工智能模型、系统及装置的制作方法

专利2025-06-14 38

本方案涉及数据处理及人工智能领域，尤其涉及一种能够使用cpu进行运算的改进的transformer的人工智能模型。

背景技术：

1、目前，市面上有大量生成式的语言大模型,例如gpt、llama等模型，这些大模型的训练过程涉及大量的运算和存储资源，需要大规模的计算才能得到良好的模型效果。训练过程需要千上万的集成gpu等硬件设备以及电力、空间等资源，这些资源消耗会导致较高的成本和浪费。

2、对于普通用户而言，开发这样的大型对话生成模型需要较高的技术门槛和专业知识，以及高额的资源费用，就连普通的公司都难以自行开发和使用。

技术实现思路

1、为此，需要提供一种能够简便化小型化的人工智能模型的技术方案，可以将人工智能学习模型改造得更加适宜低算力的设备运行。

2、为实现上述目的，发明人提供了一种基于transformer的人工智能模型，包括：transformer解码器，所述transformer解码器包括若干层的第一处理层和若干层的第二处理层，所述第一处理层包括多头自注意力层和第一位置感知前馈网络层；所述第二处理层包括掩码多头自注意力层、多头注意力层和第二位置感知前馈网络层，所述第一处理层的输出接入所述多头注意力层的输入；所述transformer解码器的输出端用于连接gpt2生成器，所述gpt2生成器包括第一归一化层、第二多头自注意力层、全连接层、线性层和softmax层；所述gpt2生成器的输出为概率输出。

3、本申请的一些实施例中，所述gpt2生成器使用rmsnorm归一化函数、所述gpt2生成器的激活函数为swiglu。

4、本申请的另一些实施例中，还包括位置编码器，所述位置编码器设置于所述transformer解码器的输入端。

5、本申请的一些实施例中，还包括文本纠错模块、文章编写辅助模块、上下文联系模块、图文生成模块。

6、本申请的具体实施例中，所述文本纠错模块用于采用文本纠错任务提示词和文本错误的样本为输入，以修改后正确文本的目标样本为输出进行微调训练。

7、本申请的具体实施例中，所述文章编写辅助模块用于接收用户编写需求，解析所述用户编写需求，生成辅助文章。

8、本申请的具体实施例中，所述上下文联系模块用于记录用户的历史会话，当用户提出当前会话时，调用所述历史会话或调取根据历史会话中提取的联想词，再生成向用户的回复字段。

9、本申请的具体实施例中，所述图文生成模块，所述图文生成模块用于在生成文本时，对生成的文本的每个段落进行分类，爬取每个段落对应类别的图片信息，将图片信息插入到生成的文本的对应段落中，生成图文信息。

10、一种基于transformer的人工智能一种基于transformer的人工智能系统，包括如上述的人工智能模型。

11、一种基于transformer的人工智能装置，包括计算机，所述计算机内运行有上述的人工智能系统，所述装置还包括外接输入设备。

12、区别于现有技术，上述技术方案能够融合后的模型的每个神经网络层都可以独立地进行计算，因为每个神经元的输入只依赖于上一层的输出，这使得cpu充分利用多个核心进行自注意力和前馈神经网络计算，从而提高模型在cpu上的计算效率。该系统适用于各种硬件平台，使得系统更具普适性。系统支持多种自然语言处理任务。

13、上述
技术实现要素：
相关记载仅是本申请技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本申请的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解，以下结合本申请的具体实施方式及附图进行说明。

技术特征：

1.一种基于transformer的人工智能模型，其特征在于，包括：

2.根据权利要求1所述的基于transformer的人工智能模型，其特征在于，所述gpt2生成器使用rmsnorm归一化函数、所述gpt2生成器的激活函数为swiglu。

3.根据权利要求1所述的基于transformer的人工智能模型，其特征在于，还包括位置编码器，所述位置编码器设置于所述transformer解码器的输入端。

4.据权利要求1所述的基于transformer的人工智能模型，其特征在于，还包括文本纠错模块、文章编写辅助模块、上下文联系模块、图文生成模块。

5.根据权利要求4所述的基于transformer的人工智能模型，其特征在于，所述文本纠错模块用于采用文本纠错任务提示词和文本错误的样本为输入，以修改后正确文本的目标样本为输出进行微调训练。

6.根据权利要求4所述的基于transformer的人工智能模型，其特征在于，所述文章编写辅助模块用于接收用户编写需求，解析所述用户编写需求，生成辅助文章。

7.根据权利要求4所述的基于transformer的人工智能模型，其特征在于，所述上下文联系模块用于记录用户的历史会话，当用户提出当前会话时，调用所述历史会话或调取根据历史会话中提取的联想词，再生成向用户的回复字段。

8.根据权利要求4所述的基于transformer的人工智能模型，其特征在于，所述图文生成模块，所述图文生成模块用于在生成文本时，对生成的文本的每个段落进行分类，爬取每个段落对应类别的图片信息，将图片信息插入到生成的文本的对应段落中，生成图文信息。

9.一种基于transformer的人工智能系统，其特征在于，包括如权利要求1-8其中一项所述的人工智能模型。

10.一种基于transformer的人工智能装置，其特征在于，包括计算机，所述计算机内运行有如权利要求9所述的人工智能系统，所述装置还包括外接输入设备。

技术总结
本发明提供一种基于transformer的人工智能模型、系统及装置，其中模型包括transformer解码器，所述transformer解码器包括若干层的第一处理层和若干层的第二处理层，所述第一处理层包括多头自注意力层和第一位置感知前馈网络层；所述第二处理层包括掩码多头自注意力层、多头注意力层和第二位置感知前馈网络层，所述第一处理层的输出接入所述多头注意力层的输入；所述transformer解码器的输出端用于连接GPT2生成器，所述GPT2生成器包括第一归一化层、第二多头自注意力层、全连接层、线性层和softmax层。本发明能够融合后的模型的每个神经网络层都可以独立地进行计算，因而使得系统更具普适性。

技术研发人员：沈强,罗建新,王传熙
受保护的技术使用者：福建正孚软件有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-15014.html

专利

最新回复(0)