多模态人格分析方法、分析模型、可读存储介质及装置与流程

专利2025-11-06  36


本发明属于人工智能算法辅助,具体涉及一种多模态人格分析方法、分析模型、可读存储介质及装置。


背景技术:

1、现有的人格识别技术主要基于传统小模型,或者单一维度信息采集进行人格识别分析,比如语音、文本或者视频。在分析人格方面,从单一模态的数据分析用户的人格,会存在缺失,对用户的理解存在偏差,人格分析模型通常用于分析用户的行为、情绪、动作,然后根据分析结果生成相应的人格识别结果。此外,现有技术在使用小模型进行预测,对于心理学相关方面的心理知识理解存在局限性,部分大模型方案对于长视频理解能力存在局限以及不同模态数据的对齐融合存在缺陷,受限于大模型可接受的特征长度,对于图像编码器的分辨率受限,对于细微的动作理解能力不足。例如,在人格分析场景中,现有技术难以包含心理学相关的知识,只能从某些维度预先定义出一些阈值来获取人格分析结果。


技术实现思路

1、为了解决现有技术存在的问题,本发明提供一种多模态人格分析方法、分析模型、可读存储介质及装置,通过获取的确定的行为分析特征资料训练模型,同时针对多个模态的资料进行特征识别,从而能够自主引导用户拍摄视频并准确匹配人格分析结论。

2、本发明所采用的技术方案为:

3、第一方面,本发明公开一种多模态人格分析方法,基于多种输入资料分析用户的人格数据,

4、g100.首先,收集关于人格分析的心理学资料,对心理学资料预处理后形成行为与人格分析对应的基础对照资料集,对llm大模型以基础对照资料集进行预训练获得基础大模型;

5、g200.然后收集作为标注参照模板的若干带有人的行为的图像数据、音频数据,并分析确定图像数据和音频数据中用于反馈人的行为的特征值,将确定的特征值标注行为标签形成对应的行为识别训练资料集,对基础大模型以识别训练资料集进行训练获得人格分析模型;

6、g300.设定采集方案,所述采集方案中包含若干引导信息,通过引导信息引导采集对象拍摄行为采集视频,根据采集视频预处理获取特征值;

7、g400.由人格分析模型根据特征值确定对应的行为特征,再由人格分析模型根据行为特征匹配对应的人格分析数据生成对应的人格分析结论。

8、结合第一方面,本发明提供第一方面的第一种实施方式,所述步骤g100中,对心理学资料的预处理具体如下:

9、对若干不同记载方式的心理学资料进行整理并形成数字格式,然后对数字格式的资料进行整理归纳;

10、资料中包含有若干行为的人格分析结论,先对行为的类型进行归类确定所有行为数量,然后针对每个行为都获取至少不低于设定阈值数量的人格分析结论;

11、将同个行为的对应的所有人格分析资料进行处理,通过语义分析模型确定同个行为重复度,根据预设的重复度阈值将大于重复度阈值的人格分析结论与该行为匹配形成对应关系,以若干行为以及匹配的对应数量的人格分析结论作为基础对照资料集。

12、结合第一方面的第一种实施方式,本发明提供第一方面的第二种实施方式,所述步骤g100中,心理学资料包括具有确切行为和对应的人格分析结论的所有公开资料。

13、结合第一方面,本发明提供第一方面的第三种实施方式,所述步骤g200中,图像数据包括独立图像数据和连续时间间隔的图像流数据。

14、结合第一方面,本发明提供第一方面的第四种实施方式,所述步骤g200中,图像数据包括以设定的采集方案针对不定向人群所采集的若干图像及视频资料,还包括公开的具有人的行为的图像及视频资料。

15、结合第一方面,本发明提供第一方面的第五种实施方式,所述步骤g200中:

16、针对图像数据确定反馈人的行为的特征值的过程,首先在图像数据中分离人和环境区域,然后抓取人的躯体和脸部区域的像素点特征作为特征值;然后对每个躯体区域所呈现的姿态进行注释形成第一行为标签,对每个脸部区域的表情进行注释第二行为标签,再对环境区域进行注释第三行为标签,将每个图像数据中所获取的行为标签与特征值匹配形成行为识别训练资料集;

17、针对音频数据确定反馈人的行为的特征值的过程,首先在音频数据中分离人的声音和背景噪声,对人的声音分别通过确定内容和语调作为特征值;然后对内容进行注释形成第一行为标签,对语调的变化进行注释形成第二行为标签,对背景噪声注释行为第三行为标签,将音频数据中所获取的行为标签与特征值匹配形成行为识别训练资料集。

18、结合第一方面,本发明提供第一方面的第六种实施方式,所述步骤g300中对采集视频预处理获取特征值的具体步骤如下:

19、首先对特征值进行通过clip模型获取低分辨率视频中的语义特征,通过vitdet模型获取高分辨率视频中的图像特征,通过特征融合模型合并语义特征和图像特征,并将图像特征进行聚类并根据重要性赋予概率值,对图像特征进行降维处理;

20、然后通过imagebind的多模态融合模型提取采集视频中的音频特征,通过tokenizer将音频特征中的文本内容转换为文本特征;

21、将降维后的图像特征、音频特征以及文本特征作为特征值。

22、第二方面,本发明还提供一种分析模型,应用在上述任一项所述的多模态人格分析方法中,包括:

23、采集模块,引导用户生成采集视频的;

24、提取模块,对采集视频处理并获取到特征值;以及

25、匹配模块,根据获取的特征值匹配对应的人格分析数据。

26、第三方面,本发明还提供一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述中任一项所述的多模态人格分析方法。

27、第四方面,本发明还提供一种装置,装载有上述中的分析模型,用于提供交互界面引导用户拍摄采集视频分析用户的人格分析数据。

28、本发明的有益效果为:

29、(1)本发明通过获取到现有资料中的较多的行为人格分析资料,并处理后以获取到较多认可度的结论作为训练资料,利用llm大模型学习形成一个针对于人的行为人格分析的基础模型,相较于现有技术中依照经验判断的方法,更加的高效便捷准确,且具有一定的权威性;

30、(2)本发明通过对人的各种行为的采集标记和注释,从而获取到准确的行为识别样本进行训练,通过训练的模型能够对多种模态的输入资料进行的特征抓取,根据特征值再匹配对应的人格分析结论,方便应用在需要批量处理分析的场景中,进一步提高效率;

31、(3)本发明采用vitdet提取高分辨率图像特征,并使用特征融合模块,融合低分辨率图片的语义特征与高分辨率的图像特征,融合后的图像特征,同时具备语义信息及高分辨率图片信息,在不增加图像特征的情况下,提升大模型的高分辨率图像理解能力;

32、(4)本发明对于融合后的图片特征进行聚类,对于图片中的重要信息进行保留,对特征进行降维,减少图像特征维度,使大模型具备更长的视频理解能力。



技术特征:

1.一种多模态人格分析方法,基于多种输入资料分析用户的人格数据,其特征在于:

2.根据权利要求1所述的一种多模态人格分析方法,其特征在于:所述步骤g100中,对心理学资料的预处理具体如下:

3.根据权利要求2所述的一种多模态人格分析方法,其特征在于:所述步骤g100中,心理学资料包括具有确切行为和对应的人格分析结论的所有公开资料。

4.根据权利要求1所述的一种多模态人格分析方法,其特征在于:所述步骤g200中,图像数据包括独立图像数据和连续时间间隔的图像流数据。

5.根据权利要求1所述的一种多模态人格分析方法,其特征在于:所述步骤g200中,图像数据包括以设定的采集方案针对不定向人群所采集的若干图像及视频资料,还包括公开的具有人的行为的图像及视频资料。

6.根据权利要求1所述的一种多模态人格分析方法,其特征在于:所述步骤g200中:

7.根据权利要求1所述的一种多模态人格分析方法,其特征在于:所述步骤g300中对采集视频预处理获取特征值的具体步骤如下:

8.一种分析模型,其特征在于:应用在权利要求1-7任一项所述的多模态人格分析方法中,包括:

9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述权利要求1-7中任一项所述的多模态人格分析方法。

10.一种装置,其特征在于:装载有上述权利要求8中的分析模型,用于提供交互界面引导用户拍摄采集视频分析用户的人格分析数据。


技术总结
本发明属于人工智能算法技术领域,公开了多模态人格分析方法、分析模型、可读存储介质及装置,本发明基于视频及文本的人格分析系统,预先采集大量与人格分析的相关心理学书籍作为预训练文本数据,输入给llama大模型进行大模型预训练,赋予大模型心理学知识,让大模型理解各种人格特征有什么对应的相关表现,随后进行问答式数据集构建,将一段视频及视频中的音频转化为图片波形图及相关询问的人格问题作为输入,输出相关人格问题的答案。通过特定场景下视频人格分析,由心理专家对问题方案进行构建,并根据视频中人员表现对构建的问题进行解答,从而获取到标注的视频‑语音‑问答的标注数据,多人对同一视频及问答语料进行标注,消除主观差异性。

技术研发人员:徐涛,陈艾,张无忌
受保护的技术使用者:浙江连信科技有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-17306.html

最新回复(0)