一种多模态数据融合的情感分析系统及方法与流程

专利2025-10-19 47

本发明涉及情感识别，具体是涉及一种多模态数据融合的情感分析系统及方法。

背景技术：

1、人类对周遭事物的感知和交互是丰富多样的，是基于视觉、听觉、嗅觉、味觉和触觉等多种模式共同构成的，同样地，计算机对单模态特征的学习和研究已经不再满足现代科学的追求。随着科技的发展，人工智能领域的研究已经获得了优异的成果，并成功应用在自然语言处理、图像识别、推荐系统、目标检测等多个领域。

2、现有的情感分析系统没有对图像视频和音频进行系统化的分析，当人与人之间的交流出现敏感图像或敏感词汇时，导致情绪发生激烈变化，使人与人之间的交流变得紧张压抑，导致二者之间的关系变得恶劣。

技术实现思路

1、为解决上述技术问题，提供一种多模态数据融合的情感分析系统及方法，本技术方案解决了上述背景技术中提出的现有的情感分析系统没有对图像视频和音频进行系统化的分析，当人与人之间的交流出现敏感图像或敏感词汇时，导致情绪发生激烈变化，使人与人之间的交流变得紧张压抑，导致二者之间的关系变得恶劣的问题。

2、为达到以上目的，本发明采用的技术方案为：

3、一种多模态数据融合的情感分析方法，包括：

4、获取目标图像视频、目标音频；

5、对目标图像视频进行特征提取处理，获取图像特征相关信息，所述图像特征相关信息包括表情变化特征和表情变化特征对应的表情变化时间；

6、对目标音频进行特征提取处理，获取音频特征相关信息，所述音频特征相关信息包括音频分贝变化特征和音频分贝变化特征对应的音频分贝变化时间；

7、根据表情变化时间对音频特征相关信息进行分析处理，获取第一情感变化信息；

8、对第一情感变化信息进行修正处理，获取第一情感变化修正信息；

9、根据音频分贝变化时间对图像特征相关信息进行分析处理，获取第二情感变化信息；

10、对第二情感变化信息进行修正处理，获取第二情感变化修正信息；

11、根据第一情感变化修正信息、第二情感变化修正信息进行特征提取处理，获取特征关键信息；

12、根据特征关键信息生成情感分析文本，对测试者进行测试情感分析，获取测试图像视频和测试目标音频；

13、对测试图像视频和测试目标音频进行分析处理，确定情感分析文本的精准度。

14、优选的，所述对目标图像视频进行特征提取处理，获取图像特征相关信息具体包括如下步骤：

15、通过人脸识别算法对目标图像视频进行图像预处理，获取图像视频帧；

16、对图像视频帧进行特征提取处理，获取表情变化特征；

17、根据表情变化特征对目标图像视频进行查找处理，获取表情变化时间。

18、优选的，所述对目标音频进行特征提取处理，获取音频特征相关信息具体包括如下步骤：

19、对目标音频进行转换处理，获取目标音频对应的音频数字信号；

20、对音频数字信号进行音频预处理；

21、通过快速傅里叶变换算法将音频数字信息从时域转换至频域，在频域对音频数字信息进行滤波、降噪，通过逆傅里叶变换算法将处理后的音频数字信号从频域转换至时域，获取纯净目标音频；

22、根据纯净目标音频进行对比判断；

23、若纯净目标音频的分贝大于或小于设定阈值区间，确定情感发生变化，获取音频分贝变化特征；

24、若纯净目标音频的分贝位于设定阈值区间，确定情感未发生变化，不记录该音频分贝特征；

25、根据音频分贝变化特征对目标音频进行查找处理，获取音频分贝变化时间。

26、优选的，所述根据表情变化时间对音频特征相关信息进行分析处理，获取第一情感变化信息具体包括如下步骤：

27、对表情变化时间进行遍历处理，获取表情变化时间不连续点；

28、根据表情变化时间不连续点对表情变化时间进行数据分组处理，获取表情变化时间组；

29、根据表情变化时间组对音频特征相关信息进行时间序列查找，通过表情变化时间组的起始时间作为第一截取点，对音频特征相关信息进行音频分贝变化特征进行截取，表情变化时间组的结束时间作为第一截止点，停止对音频分贝变化特征进行截取，获取第一情感变化信息。

30、优选的，所述对第一情感变化信息进行修正处理，获取第一情感变化修正信息具体包括如下步骤：

31、对第一情感变化信息中的音频分贝变化特征进行判断处理；

32、若第一截取点的音频分贝变化特征中分贝大于或小于设定阈值区间，对音频分贝变化特征进行扩大截取，获取第一截取点前设定时间的音频分贝变化特征，若第一截取点前设定时间的音频分贝变化特征中分贝大于或小于设定阈值区间，确定由音频分贝变化引起表情变化，输出第一情感变化修正信息；

33、若第一截取点的音频分贝变化特征中分贝位于设定阈值区间，以第一截取点作为起始点对音频分贝变化特征进行遍历，获取第一截取点后设定时间的音频分贝变化特征，若第一截取点后设定时间的音频分贝变化特征中分贝大于或小于设定阈值区间，确定由表情变化引起音频分贝变化，输出第一情感变化修正信息；

34、若第一截取点后设定时间的音频分贝变化特征中分贝位于设定阈值区间，确定表情变化无法引起音频分贝变化，输出第一情感变化修正信息。

35、优选的，所述根据音频分贝变化时间对图像特征相关信息进行分析处理，获取第二情感变化信息具体包括如下步骤：

36、对音频分贝变化时间进行遍历处理，获取音频分贝变化时间不连续点；

37、根据音频分贝变化时间不连续点对音频分贝变化时间进行数据分组处理，获取音频分贝变化时间组；

38、根据音频分贝变化时间组对图像特征相关信息进行时间序列查找，通过音频分贝变化时间组的起始时间作为第二截取点，对图像特征相关信息进行表情变化特征进行截取，音频分贝变化时间组的结束时间作为第二截止点，停止对表情变化特征进行截取，获取第二情感变化信息。

39、优选的，所述对第二情感变化信息进行修正处理，获取第二情感变化修正信息具体包括如下步骤：

40、对第一情感变化修正信息和第二情感变化信息进行计算处理，获取校正第二情感变化信息；

41、其中，获取校正第二情感变化信息具体计算模型为：

42、ec＝es-(es∩ef)；

43、式中，ec为校正第二情感变化信息；ef为第一情感变化修正信息；es为第二情感变化信息；

44、对校正第二情感变化信息中表情变化特征进行判断处理；

45、若第二截取点的表情变化特征与设定表情特征之间差异值大于设定第一阈值，对表情变化特征进行扩大截取，获取第二截取点前设定时间的表情变化特征，若第二截取点前设定时间的表情变化特征与设定表情特征之间差异值大于设定第一阈值，确定由表情变化引起音频分贝变化，输出第二情感变化修正信息；

46、若第二截取点的表情变化特征与设定表情特征之间差异值小于设定第一阈值，以第二截取点作为起始点对表情变化特征进行遍历，获取第二截取点后设定时间的表情变化特征，若第二截取点后设定时间的表情变化特征与设定表情特征之间差异值大于设定第一阈值，确定由音频分贝变化引起表情变化，输出第二情感变化修正信息；

47、若第二截取点后设定时间的表情变化特征与设定表情特征之间差异值小于设定第一阈值，确定音频分贝变化无法引起表情变化，输出第二情感变化修正信息。

48、优选的，所述根据第一情感变化修正信息、第二情感变化修正信息进行特征提取处理，获取特征关键信息具体包括如下步骤：

49、对第一情感变化修正信息、第二情感变化修正信息进行音频分析，确定情感变化关键词；

50、根据情感变化关键词进行分析处理，确定特征关键信息，所述特征关键信息包括图像信息和关键词信息；

51、根据特征关键信息对第一情感变化修正信息、第二情感变化修正信息进行遍历处理，获取情感波动指数。

52、优选的，所述对测试图像视频和测试目标音频进行分析处理，确定情感分析文本的精准度具体包括如下步骤：

53、对测试图像视频和测试目标音频进行特征提取处理，获取测试表情变化特征和测试音频分贝变化特征；

54、对测试表情变化特征和测试音频分贝变化特征进行分析处理，获取测试情感波动指数；

55、对情感波动指数和测试情感波动指数进行计算处理，获取测试情感偏移量；

56、对测试情感偏移量进行判断处理；

57、若测试情感偏移量大于设定第二阈值，输出情感分析文本无法准确分析情感波动；

58、若测试情感偏移量小于或等于设定第二阈值，输出情感分析文本能够准确分析情感波动。

59、进一步的，提出一种多模态数据融合的情感分析系统，用于实现如上述的多模态数据融合的情感分析方法，包括：

60、数据存储模块，所述数据存储模块用于存储目标图像视频、目标音频；

61、图像视频特征提取模块，所述图像视频特征提取模块用于对目标图像视频进行图像预处理、特征提取，获取图像视频帧、表情变化特征、表情变化时间；

62、音频特征提取模块，所述音频特征提取模块用于对目标音频进行转换处理、音频预处理、特征提取处理，获取音频数字信号、纯净目标音频、音频分贝变化时间；

63、第一情感变化信息生成模块，所述第一情感变化信息生成模块通过表情变化时间对音频特征相关信息进行分析处理，获取第一情感变化信息；

64、第二情感变化信息生成模块，所述第二情感变化信息生成模块通过音频分贝变化时间对图像特征相关信息进行分析处理，获取第二情感变化信息生成模块；

65、修正模块，所述修正模块用于对第一情感变化信息、第二情感变化信息进行修正处理，获取第一情感变化修正信息、第二情感变化修正信息；

66、特征关键信息确定模块，所述特征关键信息确定模块用于对第一情感变化修正信息、第二情感变化修正信息进行特征提取处理，获取特征关键信息；

67、文本生成模块，所述文本生成模块根据特征关键信息生成情感分析文本；

68、测试模块，所述测试模块根据情感分析文本对测试者进行情感测试分析，获取测试图像视频和测试目标音频；

69、文本精准度测定模块，所述文本精准度测定模块根据测试图像视频和测试目标音频进行分析判断，确定情感分析文本的精准度。

70、与现有技术相比，本发明提供了一种多模态数据融合的情感分析系统及方法，具备以下有益效果：

71、本发明通过图像视频特征提取模块和音频特征提取模块对目标图像视频、目标音频进行分析，确定图像特征相关信息和音频特征相关信息，对图像特征相关信息和音频特征相关信息进行分析修正，获取敏感图像和敏感词汇，根据敏感图像和敏感词汇生成情感分析文本，根据情感分析文本对测试者进行测试，确定情感分析文本的精准性，避免了后续人与人在交流时出现敏感图像和敏感词汇，使交流紧张压抑，同时还避免了二者之间的关系变得恶劣。

技术特征：

1.一种多模态数据融合的情感分析方法，其特征在于，包括：

2.根据权利要求1所述的一种多模态数据融合的情感分析方法，其特征在于：所述对目标图像视频进行特征提取处理，获取图像特征相关信息具体包括如下步骤：

3.根据权利要求2所述的一种多模态数据融合的情感分析方法，其特征在于，所述对目标音频进行特征提取处理，获取音频特征相关信息具体包括如下步骤：

4.根据权利要求3所述的一种多模态数据融合的情感分析方法，其特征在于，所述根据表情变化时间对音频特征相关信息进行分析处理，获取第一情感变化信息具体包括如下步骤：

5.根据权利要求4所述的一种多模态数据融合的情感分析方法，其特征在于，所述对第一情感变化信息进行修正处理，获取第一情感变化修正信息具体包括如下步骤：

6.根据权利要求1所述的一种多模态数据融合的情感分析方法，其特征在于，所述根据音频分贝变化时间对图像特征相关信息进行分析处理，获取第二情感变化信息具体包括如下步骤：

7.根据权利要求1所述的一种多模态数据融合的情感分析方法，其特征在于，所述对第二情感变化信息进行修正处理，获取第二情感变化修正信息具体包括如下步骤：

8.根据权利要求1所述的一种多模态数据融合的情感分析方法，其特征在于，所述根据第一情感变化修正信息、第二情感变化修正信息进行特征提取处理，获取特征关键信息具体包括如下步骤：

9.根据权利要求1所述的一种多模态数据融合的情感分析方法，其特征在于，所述对测试图像视频和测试目标音频进行分析处理，确定情感分析文本的精准度具体包括如下步骤：

10.一种多模态数据融合的情感分析系统，用于实现如权利要求1-9任一项所述的多模态数据融合的情感分析方法，其特征在于，包括：

技术总结
本发明公开了一种多模态数据融合的情感分析系统及方法，涉及情感识别技术领域，包括对第一情感变化信息进行修正处理，获取第一情感变化修正信息；根据音频分贝变化时间对图像特征相关信息进行分析处理，获取第二情感变化信息。本发明通过图像视频特征提取模块和音频特征提取模块对目标图像视频、目标音频进行分析，确定图像特征相关信息和音频特征相关信息，对图像特征相关信息和音频特征相关信息进行分析修正，根据敏感图像和敏感词汇生成情感分析文本，根据情感分析文本对测试者进行测试，确定情感分析文本的精准性，避免了后续人与人在交流时出现敏感图像和敏感词汇，使交流紧张压抑，同时避免了二者之间的关系变得恶劣。

技术研发人员：宋海涛,曹瑾鑫,王瑞利,贾丽,王占峰,刘燕京,王资凯,张馨云,孟嘉楷,侯亚光,陈春梅,赵玲玲,杨智敏
受保护的技术使用者：内蒙古科学技术研究院
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-17022.html

专利

最新回复(0)