本发明属于图像数据处理领域,具体涉及一种自动获取用于多模态图像生成模型的专业类数据集的方法。
背景技术:
::1、近年随着多模态大模型技术的突破与爆发式发展,aigc(利用多模态大模型进行内容创作)时代已逐步来临。aigc技术已经对诸多与文字、图像等强相关的领域(如文字编辑、场景美术、海报设计等)产生重大影响,彻底改变了从业者的生产方式。尤其是以扩散模型(diffusion model)为基础的多模态图像生成模型,在各个专业性较强、过程复杂、数字化程度较低,但同时与图像强相关的专业中(如建筑工程行业方案设计阶段的建筑设计、室内设计、景观设计等),有着重要的应用潜力。2、目前,虽已出现多个以开源稳定扩散模型(stable diffusion model)为基础,微调训练而成的,专门解决某些专业类任务(如服装摄影、建筑设计、人物原画等)的图像生成模型。但这些微调训练后的模型普遍存在着相同问题:如模型泛化能力不强,无法解决生产过程中专业性较强的细分任务(如针对建筑行业方案设计阶段微调训练的建筑图像生成模型,只能生成住宅、商业办公楼等常见建筑类型的参考图像,无法生成医疗建筑、观演建筑等数量较小同时专业性较强的建筑图像);模型存在多角度不统一的问题,对于相同物体不同角度的视图(如同一物体的左视图与俯视图),生成图像无法达到细节或材质的一致性;模型生成图像细部存在扭曲模糊的问题,如放大图像进行浏览发现细部的材质破碎,人体面部扭曲等情况。3、这些问题很大程度是由对基础模型进行专业类微调训练这一阶段的专业数据集数据量不足的原因造成的。因为这些专业的专业性较强,导致目前几乎所有专业类微调训练的图像数据集,都必须由该专业从业人员(如针对建筑行业方案设计阶段进行微调训练,需要由建筑设计师)人为搜集、人为筛选、人为标注的方式完成。人力成本过大,搜集效率较低的同时,人力方式搜集的数据量较少,图像的数量范围大多在几百至几千张不等。这样的数据量不足以支撑由几亿至几十亿数据训练而成的基础模型,在某一专业领域进行一次泛化性强,且改善其原有底层问题的微调训练。技术实现思路1、针对上述问题,本技术提出一种自动获取用于多模态图像生成模型的专业类数据集的方法,本技术可以自动生成用于多模态图像生成模型训练的各种专业(如建筑设计、景观设计、室内设计等专业)类数据集,本技术可以节约人力成本,提升效率,提升数据集的数据数量和质量。2、本技术所提供的技术方案为:3、第一方面,本技术提供一种自动获取用于多模态图像生成模型的专业类数据集的方法,包括:4、s1:针对特定专业,获得该专业的第一图像数据集;该第一图像数据集为针对该专业搜集的原始总图像数据集;5、s2:按照分辨率和长宽比例要求对第一图像数据集中的图像进行筛选和调整,得到第二图像数据集;利用多模态模型,对第二图像数据集中的图像进行识别和归类,得到多个类别的第一图像子数据集;6、s3:将该专业的结构化描述文档通过问答交互的形式输入第一多模态大语言模型;第一多模态大语言模型基于该专业的结构化描述文档对所需类别的第一图像子数据集中的图像进行质量评价,得到质量评价结果;根据质量评价结果,保留符合图像质量评价标准的图像,剔除不符合图像质量评价标准的图像,得到所需类别的第二图像子数据集;其中,该专业的结构化描述文档用于描述该专业的图像质量评价标准;7、s4:将该专业的标注公式范例通过问答交互的形式输入第二多模态大语言模型,第二多模态大语言模型按照标注公式范例对所需类别的第二图像子数据集中的图像进行特征标注,得到各图像对应的标注公式,由此得到所需类别的图文对子数据集;图文对子数据集中的每一个图文对包含一个图像及其对应的标注公式;将所需类别的图文对子数据集作为用于多模态图像生成模型的专业类数据集;其中,该专业的标注公式范例用于提供对该专业的图像各方面特征进行准确全面的描述的标注公式模板。8、在一些可能的实现方式中,上述s1包括:9、针对特定专业,搜集并筛选相应行业中专业性较强、图像数据量较大、图像质量较高的开源网站;通过解析网站结构,识别网站上相关的项目链接,并从项目页面中提取相关的图像链接,采用并行化下载和断点续传机制,下载该专业的相关图像,获得该专业的第一图像数据集。10、在一些可能的实现方式中,上述s2中,利用多模态模型,对第二图像数据集中的图像进行识别和归类后,使用图像识别算法检查多模态模型的分类结果,若存在可能的分类错误,则调整多模态模型的分类标准,并对可能分类错误的图像重新通过多模态模型进行分类,以调整分类结果,得到所述多个类别的第一图像子数据集。11、在一些可能的实现方式中,上述s3中问答交互,包括:12、输入判断指令令第一多模态大语言模型判断设计主体是否在图像中完整展现,若是,则继续进行后续质量评价,否则,判断该图像未达到质量要求;13、分别提供符合图像质量评价标准与不符合图像质量评价标准的两张示例图像作为样本,并描述对应的判断依据供第一多模态大语言模型参考学习;14、第一多模态大语言模型从图像中提取语义信息,通过与样本的质量评价结果进行比对,评价第一图像子数据集中图像的质量,并生成相应的质量评价结果。15、在一些可能的实现方式中,上述s3中,得到质量评价结果后,根据实际需求进行修正,根据修正后的质量评价结果,保留符合图像质量评价标准的图像,剔除不符合图像质量评价标准的图像,得到多个类别的第二图像子数据集。16、在一些可能的实现方式中,上述s4中,得到各图像对应的标注公式后,通过文本识别算法检查特征标注结果,并对标注不准确的图像重新进行标注,得到修正后的标注公式。17、在一些可能的实现方式中,上述方法还包括s5:通过图像相似度算法,自动识别并移除图文对子数据集中的重复图像,存储去重后的图文对子数据集。18、第二方面,本技术提供一种自动获取用于多模态图像生成模型的专业类数据集的装置,包括:19、图像获取模块,用于针对特定专业,获得该专业的第一图像数据集;该第一图像数据集为针对该专业搜集的原始总图像数据集;20、图像识别归类模块,用于按照分辨率和长宽比例要求对第一图像数据集中的图像进行筛选和调整,得到第二图像数据集;利用多模态模型,对第二图像数据集中的图像进行识别和归类,得到多个类别的第一图像子数据集;21、图像质量评价模块,用于将该专业的结构化描述文档通过问答交互的形式输入第一多模态大语言模型,第一多模态大语言模型基于该专业的结构化描述文档对各个第一图像子数据集中的图像进行质量评价,得到质量评价结果;根据质量评价结果,保留符合图像质量评价标准的图像,剔除不符合图像质量评价标准的图像,得到所需类别的第二图像子数据集;其中,该专业的结构化描述文档用于描述该专业的图像质量评价标准;:22、图像特征标注模块,用于将该专业的标注公式范例通过问答交互的形式输入第二多模态大语言模型,第二多模态大语言模型按照该专业的标注公式范例批量标注第二图像子数据集中图像中的各种特征,得到各图像对应的标注公式,由此得到所需类别的图文对子数据集;图文对子数据集中的每一个图文对包含一个图像及其对应的标注公式;将图文对子数据集作为用于多模态图像生成模型的专业类数据集;其中,该专业的标注公式范例用于提供对该专业图像各方面特征进行准确全面的描述的标注公式模板。23、在一些可能的实现方式中,上述装置还包括数据库驱动模块,用于通过图像相似度算法,自动识别并移除图文对子数据集中的重复图像,存储处理后的图文对子数据集。24、第三方面,本技术提供一种电子设备,包括:存储器和处理器;25、存储器,用于存储计算机程序;26、处理器,用于调用计算机程序,以执行如上的自动获取用于多模态图像生成模型的专业类数据集的方法。27、第四方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序在电子设备上运行时,使得电子设备实现如上的自动获取用于多模态图像生成模型的专业类数据集的方法。28、第五方面,本技术提供一种计算机程序产品,包括计算机程序,所述计算机程序在电子设备上运行时,使得所述电子设备实现如上所述的自动获取用于多模态图像生成模型的专业类数据集的方法。29、本技术上述第二到第五方面的具体实现方式可以参考上述第一方面的实现方式,在此不进行赘述。30、有益效果:31、本技术可将从图像搜集、图像筛选、特征标注,最后存入数据库的整套流程完全自动化。大幅节省人力成本的同时,大幅提升设计图像数据搜集与处理的效率,效率上的飞跃可使整个设计图像数据集的数量从百级、千级提升至万级、十万级甚至百万级。32、本技术的图像质量评价与图像特征标注应用了最新的大语言模型,可精确评价,并用自然语言对该专业产品图像的整体质量与视角远近、功能种类、设计风格、颜色材质等设计特征进行有专业经验的文字标注。最终标注文本的词汇准确性与丰富度都高于人力标注,有效提升了专业类图像数据集的整体质量。当前第1页12当前第1页12
技术特征:1.一种自动获取用于多模态图像生成模型的专业类数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述s1包括:
3.根据权利要求1所述的方法,其特征在于,所述s2中,利用多模态模型,对所述第二图像数据集中的图像进行识别和归类后,使用图像识别算法检查多模态模型的分类结果,若存在可能的分类错误,则调整多模态模型的分类标准,并对可能分类错误的图像重新通过多模态模型进行分类,以调整分类结果,得到所述多个类别的第一图像子数据集。
4.根据权利要求1所述的方法,其特征在于,所述s3中问答交互,包括:
5.根据权利要求1所述的方法,其特征在于,所述s4中,得到各图像对应的标注公式后,通过文本识别算法检查特征标注结果,并对标注不准确的图像重新进行标注,得到修正后的标注公式。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括s5:通过图像相似度算法,自动识别并移除所述图文对子数据集中的重复图像,存储去重后的图文对子数据集。
7.一种自动获取用于多模态图像生成模型的专业类数据集的装置,其特征在于,包括:
8.一种电子设备,其特征在于,包括:存储器和处理器;
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在电子设备上运行时,使得所述电子设备实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在电子设备上运行时,使得所述电子设备实现如权利要求1至6中任一项所述的方法。
技术总结本发明公开了一种自动获取用于多模态图像生成模型的专业类数据集的方法,包括:获得该专业的原始图像数据集;按照分辨率和长宽比例要求对原始图像数据集中的图像进行筛选和调整,得到第二图像数据集;对第二图像数据集中的图像进行分类,得到所需类别的第一图像子数据集;将该专业的结构化描述文档输入第一多模态大语言模型,对所需类别的第一图像子数据集中的图像进行质量评价,剔除不符合图像质量评价标准的图像,得到第二图像子数据集;将改专业的标注公式范例输入第二多模态大语言模型,对第二图像子数据集中的图像进行特征标注,得到包含图像及其对应标注公式的图文对子数据集。本申请可以自动生成用于多模态图像生成模型的各种专业类数据集。
技术研发人员:贺成,吴平凡,孙昱,李星亮,龚灵力,陈梓绵,胡德森,王迅,张沁
受保护的技术使用者:湖南省建筑设计院集团股份有限公司
技术研发日:技术公布日:2024/11/11