本发明涉及机器人感知和控制,特别是涉及基于多模态视觉大模型的腿足式机器人感知系统及机器人。
背景技术:
1、在当今科技进步的浪潮中,机器人技术展现出了无限的发展潜力与广泛的应用领域。特别是在机器人感知技术的领域,随着人工智能、特别是计算机视觉与机器学习技术的迅猛发展,取得了突破性进展。这些技术的提升极大地增强了机器人在复杂环境中的感知与理解能力,为其在自主导航与操作方面的高级功能奠定了坚实基础。
2、尤其是在腿足式机器人领域,这些机器人受到自然界生物行走机制的启发,通过模仿昆虫或哺乳动物的步态,赋予了机器人在崎岖地表和多变环境中自如移动的独特能力。尽管腿足式机器人在探索未知地域和执行高难度任务方面表现出巨大潜力,但面对复杂环境带来的感知挑战,如精准障碍物识别和高效路径规划,仍然面临挑战。
3、当前的主流感知方案虽然整合了激光雷达、摄像头等高端传感器,仍难以在极端复杂条件下实现全面而精确的环境映射。与此同时,计算机视觉领域的目标检测与语义分割技术,在实际应用中仍面临环境复杂多变性和信号干扰的挑战,影响其输出的准确性和稳定性。
4、因此,如何进一步提升腿足式机器人的环境感知、物体识别及交互能力,成为本领域急需解决的技术问题。
技术实现思路
1、本发明为了克服上述相关技术存在的缺陷,提供基于多模态视觉大模型的腿足式机器人感知系统及机器人,可以显著提升腿足式机器人的环境感知、物体识别及交互能力。
2、根据本发明的一个方面,提供基于多模态视觉大模型的腿足式机器人感知系统,包括:
3、传感器单元,设置在腿足式机器人上,用于获取环境中的图像数据和多种感知数据;
4、目标检测单元,连接至所述传感器单元,用于基于所述图像数据对环境中的目标物体进行识别,输出目标物体增强特征图;
5、语义分割单元,连接至所述目标检测单元,用于对所述目标物体增强特征图进行轮廓分割,输出与所述图像数据尺寸相同的分割掩码;
6、感知数据处理单元,连接至所述语义分割单元,用于接收和处理传感器单元获取的多种感知数据及所述分割掩码;
7、智能控制单元,连接至所述感知数据处理单元,用于根据所述感知数据处理单元的处理结果,生成相应的控制指令。
8、在一些实施例中,所述目标检测单元,包括:
9、yolo检测器,用于从所述图像数据中提取目标物体的多尺度图像特征;
10、文本编码器,用于将文本编码为文本嵌入;
11、视觉语言路径聚合网络,分别连接至yolo检测器和文本编码器,用于利用所述图像特征和文本嵌入之间的跨模态融合来增强文本和图像的表示,输出融合了所述图像特征和文本嵌入的目标物体增强特征图。
12、在一些实施例中,所述yolo检测器包括:
13、图像编码器,选用轻量级的卷积神经网络结构,使用darknet框架作为所述网络结构的主要架构,用于接收所述图像数据,并将其转换为图像特征表示,以捕获图像中的视觉信息;
14、路径聚合网络,连接至所述图像编码器,用于基于所述图像编码器提取的图像特征,进行跨尺度和跨模态的特征融合,构建多尺度特征金字塔,从而增强所述图像编码器提取的图像特征的表示能力;
15、头部,连接至所述路径聚合网络,用于对所述路径聚合网络增强后的图像特征进行进一步处理,生成多尺度图像特征,包括目标位置、类别和嵌入信息。
16、在一些实施例中,所述文本编码器,用于从输入的文本数据中提取相应的文本嵌入,所述文本嵌入用于捕捉文本的语义信息和语法结构。
17、在一些实施例中,所述视觉语言路径聚合网络,采用自上而下和自下而上的双路径结构,利用所述图像特征和文本嵌入之间的跨模态融合来增强文本和图像的表示。
18、在一些实施例中,所述语义分割单元包括:
19、图像编码器,用于输入图像,提取图像的视觉特征,输出图像嵌入;
20、提示语编码器,用于输入提示语,将提示语转换为语义表示,输出提示语嵌入;
21、掩码解码器,分别连接至所述图像编码器和提示语编码器,用于输入所述图像嵌入和提示语嵌入,将二者结合输出所述分割掩码。
22、根据本申请的又一方面,还提供一种腿足式机器人,包括:
23、机器人机械主体,用于支撑机器人;
24、及如前述的基于多模态视觉大模型的腿足式机器人感知系统,连接至所述机器人机械主体,用于控制所述机器人机械主体运动。
25、相比现有技术,本发明的优势在于:
26、本发明构建基于多模态视觉大模型的腿足式机器人感知系统,该系统深度融合了先进的机械工程设计、多源传感器集成技术,以及优化升级的目标检测与语义分割算法,旨在构筑一个全方位、深层次的环境感知框架。这一系统不仅能够显著增强机器人在复杂环境中的感知精度与适应性,更通过多模态信息的互补与融合,提升了行动决策的智能化水平,为腿足式机器人技术的未来发展开辟了崭新的道路,树立了技术革新与应用拓展的新标杆。
1.基于多模态视觉大模型的腿足式机器人感知系统,其特征在于,包括:
2.如权利要求1所述的基于多模态视觉大模型的腿足式机器人感知系统,其特征在于,所述目标检测单元,包括:
3.如权利要求2所述的基于多模态视觉大模型的腿足式机器人感知系统,其特征在于,所述yolo检测器包括:
4.如权利要求2所述的基于多模态视觉大模型的腿足式机器人感知系统,其特征在于,所述文本编码器,用于从输入的文本数据中提取相应的文本嵌入,所述文本嵌入用于捕捉文本的语义信息和语法结构。
5.如权利要求2所述的基于多模态视觉大模型的腿足式机器人感知系统,其特征在于,所述视觉语言路径聚合网络,采用自上而下和自下而上的双路径结构,利用所述图像特征和文本嵌入之间的跨模态融合来增强文本和图像的表示。
6.如权利要求1所述的基于多模态视觉大模型的腿足式机器人感知系统,其特征在于,所述语义分割单元包括:
7.腿足式机器人,其特征在于,包括:
