一种基于clip-forge模型的体素生成探索与编辑方法及装置

专利2025-12-07 20

本发明属于图像三维构建，尤其涉及一种基于clip-forge模型的体素生成探索与编辑方法及装置。

背景技术：

1、体素作为三维空间中的基本单元，在多个领域发挥着重要作用。在像素游戏工业领域，体素为游戏设计师和玩家提供了构建和互动游戏世界的灵活工具，允许创造复杂的环境和地形，增强游戏的可玩性和创造性。在三维成像领域，体素是实现体积渲染的关键，使专业人员能够从多角度观察和分析三维数据，应用于计算机辅助设计和制造中模型的构建与修改。科学数据与医学影像领域中，体素构成了如ct和mri扫描图像的三维像素基础，对诊断和治疗规划至关重要，同时在科学研究中，体素用于表示和分析三维空间中的数据分布，推动了对复杂现象的深入理解。这些应用展示了体素在捕捉和分析三维空间信息方面的重要价值。在三维创作领域，专业工具的复杂性往往限制了体素创作者的工作流程，使得只有具备专业技能的用户才能进行高效的模型创作。

2、专利文献cn118397198a公开了一种病理图像特征分析的三维重建方法，包括：获取每个切片层级的染色图像，进而获得各个初始三维体素块；确定染色图像中每个像素点的待分析区域的灰度分布混乱程度，确定相邻两个切片层级的染色图像内各对匹配像素点的匹配程度；根据匹配程度、各个初始三维体素块中每个切片层级的染色图像内每个像素点的灰度值，确定各个初始三维体素块的划分情况指标，进行阈值判断，获得各个最终三维体素块，进行三维模型的构建，获得肿瘤组织的重构三维模型。

3、专利文献cn118505936a公开了一种3d模型积木化智能转换和搭建系统，包括以下步骤：步骤s1：导入3d模型，获取所述3d模型的特征数据、用户设定的预设数据、以及目标积木参数；步骤s2：生成能覆盖所述3d模型的包围盒并将所述3d模型栅格化，形成若干个单元格，遍历所有单元格获取单元格的位置坐标，根据位置坐标建立每个单元格的单元格数据集；步骤s3：优化所述单元格数据集中的单元格数量，筛除不参与合并的单元格，随机打乱优化后剩余的单元格并进行合并，使得合并后的单元格特征能与所述目标积木参数对应；步骤s4：调取合并后的单元格其对应的颜色、纹理和坐标参数，渲染生成模型。

技术实现思路

1、本发明的目的在于提供一种基于clip-forge模型的体素生成探索与编辑方法及装置，该方法能增强用户对于体素模型构建过程中的控制力与创造性。

2、为了现实本发明的第一个目的，提供了如下技术方案：一种基于clip-forge模型的体素生成探索与编辑方法，包括以下步骤：

3、构建素材库，其包括素材图像以及对应的体素向量，并基于所述体素向量进行编码以及聚类，以生成对应的模型簇集合；

4、获取用户的查询文本或/和图像样本，并输入至预训练的体素生成模型中，以输出对应的体素编码，所述生成模型基于clip模型框架进行构建，其包括图像生成模块，编码模块，特征提取模块以及融合模块：

5、所述图像生成模块，根据输入文本以生成对应的图像；

6、所述编码模块，根据图像生成模块生成的图像或/和输入图像对应体素向量进行编码，以获得初始体素编码；

7、所述特征提取模块，用于提取初始体素编码中的空间特征；

8、所述融合模块，将所述空间特征与初始体素编码进行融合，以输出用于相似度匹配的体素编码；

9、基于所述体素编码与所述模型簇集合中各模型簇子集进行相似度匹配，以可视化输出匹配度最高的模型簇子集；

10、基于所述模型簇子集进行编辑与调整，以可视化输出的体素模型。

11、通过将shapenet数据库中体素数据进行编码后做降维、层次聚类处理得到可视分析视图，在此基础上提供交互式界面允许用户使用文本、图像等方式生成体素模型，并探索生成结果在数据库中相似的聚类信息，进而挖掘体素间的语义相似性。

12、具体的，所述素材库采用shapenet数据集。

13、具体的，基于体素向量中的分辨率进行编码。

14、具体的，所述编码过程中采用t-sne算法对编码结果进行降维。

15、具体的，所述聚类采用层次聚类方法进行对不同素材进行层级展示。

16、具体的，所述相似度匹配基于体素编码所对应维度空间中的位置信息，采用ward方差平方和算法来衡量体素及模型簇集合中各子集之间的距离。

17、为了实现本发明的第二个目的，提供如下技术方案：一种体素生成探索与编辑装置，通过上述的基于clip-forge模型的体素生成探索与编辑方法实现，包括输入单元，素材探索单元，调整编辑单元以及可视化单元；

18、所述输入单元，用于获取用户提供的查询文本或/和图像样本；

19、所述素材探索单元，根据输入的查询文本或/和图像样本，以匹配对应的模型簇子集；

20、所述调整编辑单元，包括框选状态、复制状态和单面增加体素状态，以对模型进行编辑和调整；

21、所述可视化单元，用于可视化展示所探索获得的模型簇子集，以及所述调整编辑单元中每一个操作结果。

22、具体的，所述调整编辑单元中每进行一次调整和编辑则需要执行一次失效体素检测，所述失效体素检测通过预构建的映射表对操作前的模型体素和待增加或删除体素的三维坐标进行匹配，以保证空间中一个坐标仅有一个体素。

23、与现有技术相比，本发明的有益效果：

24、通过体素生成探索与编辑装置，用户可以在探索模型编码语义之后手动对生成结果进行调整，调整后的结果同样可以作为后端模型输入得到编码，用户可以通过这种方式进一步探索体素空间与编码的关系，从而为用户提供一个全面、直观且功能强大的体素编辑和探索平台。

技术特征：

1.一种基于clip-forge模型的体素生成探索与编辑方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于clip-forge模型的体素生成探索与编辑方法，其特征在于，所述素材库采用shapenet数据集。

3.根据权利要求1所述的基于clip-forge模型的体素生成探索与编辑方法，其特征在于，基于体素向量中的分辨率进行编码。

4.根据权利要求1或3所述的基于clip-forge模型的体素生成探索与编辑方法，所述编码过程中采用t-sne算法对编码结果进行降维。

5.根据权利要求1所述的基于clip-forge模型的体素生成探索与编辑方法，其特征在于，所述聚类采用层次聚类方法进行对不同素材进行层级展示。

6.根据权利要求1所述的基于clip-forge模型的体素生成探索与编辑方法，其特征在于，所述相似度匹配基于体素编码所对应维度空间中的位置信息，采用ward方差平方和算法来衡量体素及模型簇集合中各子集之间的距离。

7.一种体素生成探索与编辑装置，其特征在于，通过如权利要求1~6任一项所述的基于clip-forge模型的体素生成探索与编辑方法实现，包括输入单元，素材探索单元，调整编辑单元以及可视化单元；

8.根据权利要求7所述的体素生成探索与编辑装置，其特征在于，所述调整编辑单元中每进行一次调整和编辑则需要执行一次失效体素检测，所述失效体素检测通过预构建的映射表对操作前的模型体素和待增加或删除体素的三维坐标进行匹配，以保证空间中一个坐标仅有一个体素。

技术总结
本发明公开了一种基于clip‑forge模型的体素生成探索与编辑方法，包括构建素材库，其包括素材图像以及对应的体素向量，并基于所述体素向量进行编码以及聚类，以生成对应的模型簇集合；获取用户的查询文本或/和图像样本，并输入至预训练的体素生成模型中，以输出对应的体素编码；基于所述体素编码与所述模型簇集合中各模型簇子集进行相似度匹配，以可视化输出匹配度最高的模型簇子集；基于所述模型簇子集进行编辑与调整，以可视化输出的体素模型。本发明还提供了一种体素生成探索与编辑装置。本发明提供的方法能增强用户对于体素模型构建过程中的控制力与创造性。

技术研发人员：喻晨昊,陈为,朱闽峰,张亶,潘波
受保护的技术使用者：浙江大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-18088.html

专利

最新回复(0)