用于生成跨模态编码器的方法、电子设备、计算机程序产品与流程

专利2025-11-18 31

本公开的实施例涉及跨模态编码领域，并且更具体地，涉及用于生成跨模态编码器的方法、电子设备和计算机程序产品。

背景技术：

1、跨模态语音克隆技术是将可视化信息与语音信息相结合的技术，可以将语音特征与视频中的相结合，从而生成与视频内容相对应的语音。使用跨模态语音克隆技术，可以使用人工智能算法来学习人的语音和面部表情之间的关系，从而使得处理模型能够自动地捕捉到语音和面部表情之间的相关性。

技术实现思路

1、本公开的实施例涉及生成跨模态编码器的方法、电子设备和计算机程序产品。

2、根据本公开的第一方面，提供了用于生成跨模态编码器的方法。该方法包括提取样本视频的样本视频特征、样本音频的样本音频特征、样本文本的样本文本特征，其中样本视频、样本音频、样本文本之间的内容相关联。以及经由跨模态编码器，将样本视频特征、样本音频特征、样本文本特征相组合而生成第一跨模态样本特征，并且对样本视频特征、样本音频特征、样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征。经由跨模态编码器对扰乱的跨模态样本特征进行编码而生成第二跨模态样本特征，以及基于第一跨模态样本特征与第二跨模态样本特征，调整跨模态编码器。

3、根据本公开的第二方面，提供了用于生成跨模态编码器的电子设备，包括至少一个处理器，以及存储器，耦合至少一个处理器并且具有存储于其上的指令，指令在由至少一个处理器执行时使电子设备执行动作，动作包括提取样本视频的样本视频特征、样本音频的样本音频特征、样本文本的样本文本特征，其中样本视频、样本音频、样本文本之间的内容相关联。以及经由跨模态编码器，将样本视频特征、样本音频特征、样本文本特征相组合而生成第一跨模态样本特征，并且对样本视频特征、样本音频特征、样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征。经由跨模态编码器对扰乱的跨模态样本特征进行编码而生成第二跨模态样本特征，以及基于第一跨模态样本特征与第二跨模态样本特征，调整跨模态编码器。

4、根据本公开的第三方面，提供了一种计算机程序产品，该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令，该机器可执行指令在被执行时使机器执行本公开的第一方面中实现的方法的步骤。

技术特征：

1.一种用于生成跨模态编码器的方法，包括：

2.根据权利要求1所述的方法，对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括：

3.根据权利要求2所述的方法，其中对所述经掩蔽的多个部分进行所述异或操作包括：

4.根据权利要求1所述的方法，其中基于所述第一跨模态样本特征与所述第二跨模态样本特征，调整所述跨模态编码器包括：

5.根据权利要求1所述的方法，其中所述跨模态编码器还基于重建的样本视频特征、重建的样本音频特征、重建的样本文本特征而被调整。

6.根据权利要求5所述的方法，其中对所述样本视频特征、所述样本音频特征、所述样本文本特征进行重建包括：

7.根据权利要求1所述的方法，还包括使用所述跨模态编码器以：

8.根据权利要求7所述的方法，其中基于所述梅尔频谱图来生成所述语音包括：

9.根据权利要求7所述的方法，还包括：

10.一种电子设备，包括：

11.根据权利要求10所述的电子设备，对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括：

12.根据权利要求11所述的电子设备，其中对所述经掩蔽的多个部分进行所述异或操作包括：

13.根据权利要求10所述的电子设备，其中基于所述第一跨模态样本特征与所述第二跨模态样本特征，调整所述跨模态编码器包括：

14.根据权利要求10所述的电子设备，其中所述跨模态编码器还基于重建的样本视频特征、重建的样本音频特征、重建的样本文本特征而被调整。

15.根据权利要求14所述的电子设备，其中对所述样本视频特征、所述样本音频特征、所述样本文本特征进行重建包括：

16.根据权利要求10所述的电子设备，还包括使用所述跨模态编码器以用于：

17.根据权利要求16所述的电子设备，其中基于所述梅尔频谱图来生成所述语音包括：

18.根据权利要求16所述的电子设备，还包括：

19.一种计算机程序产品，所述计算机程序产品被有形地存储在非暂态计算机可读存储介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使计算机执行：

20.根据权利要求19所述的计算机程序产品，对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括：

技术总结
本公开实施例涉及用于生成跨模态编码器的方法。方法包括提取样本视频的样本视频特征、样本音频的样本音频特征、样本文本的样本文本特征。方法还包括经由跨模态编码器，将样本视频特征、样本音频特征、样本文本特征相组合而生成第一跨模态样本特征，对跨模态特征进行扰乱操作而生成扰乱的跨模态样本特征，经由跨模态编码器对扰乱的跨模态样本特征进行编码而生成第二跨模态样本特征，以及基于第一跨模态样本特征与第二跨模态样本特征，调整跨模态编码器。通过本方法，能够将文本转换为具有参考音频和参考视频指定所需情感的语音，并且将跨模态数据作为输入，生成的语音具有相同的声音，但具有与参考视频的不同情绪。

技术研发人员：王子嘉,倪嘉呈,刘金鹏
受保护的技术使用者：戴尔产品有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-17719.html

专利

最新回复(0)