编程技术分享平台

网站首页 > 技术教程 正文

3D-LLaVA:全能型3D大模型(3d模型推荐)

xnh888 2025-01-29 18:38:12 技术教程 43 ℃ 0 评论

在人工智能的浪潮中,大型语言模型(LLMs)如GPT系列已经彻底改变了我们与机器的交互方式。然而,随着技术的进步,研究人员不再满足于仅仅处理文本和2D图像,他们开始探索如何将语言模型的能力扩展到3D世界。3D视觉与语言的结合,尤其是在自动驾驶、家庭机器人和增强现实等领域,具有巨大的应用潜力。然而,现有的3D大模型(3D LMMs)在处理复杂的3D场景理解和灵活的人机交互时,仍然面临诸多挑战。

由来自澳大利亚阿德莱德大学、微软研究院等机构的研究团队提出了3D-LLaVA,一个简单但功能强大的3D大模型,旨在成为理解和与3D世界交互的智能助手。与现有的复杂模型不同,3D-LLaVA采用了极简的设计,仅以点云作为输入,并通过其核心组件——Omni Superpoint Transformer (OST),实现了视觉特征选择、视觉提示编码和3D掩码生成的多功能集成。通过统一的指令调优,3D-LLaVA在多个基准测试中取得了令人瞩目的成绩。

论文地址:3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer

以下为我对论文的解读:

1. 引言

近年来,大型语言模型(LLMs)的快速发展为人工智能领域带来了革命性的变化,语言逐渐成为通用推理和交互的接口。在此基础上,2D大型多模态模型(LMMs)应运而生,能够处理图像和文本,支持多种视觉-语言任务。随着技术的进一步扩展,3D LMMs的出现为自动驾驶、家庭机器人和增强现实等领域的应用提供了巨大的潜力。然而,如何赋予3D LMMs强大的场景理解能力和灵活的人机交互能力,仍然是一个具有挑战性的问题。

现有的3D LMMs在处理3D视觉和语言任务时,通常依赖于复杂的流程,如离线的多视角特征提取或额外的任务特定头部。这些额外的模块和预处理步骤不仅增加了部署的复杂性,还限制了模型的可访问性。此外,一个有效的3D视觉和语言助手不仅应能生成文本输出,还应能够将开放式的语言表达与3D场景中的对象进行精确的3D掩码分割。然而,现有的3D点云分割方法通常将文本嵌入与专门的分割模型对齐,而未充分利用LLMs的推理能力。

添加图片注释,不超过 140 字(可选)

为了解决这些问题,研究人员提出了3D-LLaVA,一个全能型的3D LMM,能够在保持强大性能的同时简化流程。与现有的多模型组合或离线特征提取方法不同,3D-LLaVA通过一个集成的架构,将交互式3D视觉对话和点级3D场景理解结合在一起,消除了对辅助模块和复杂步骤的需求。3D-LLaVA的核心是Omni Superpoint Transformer (OST),它不仅能够增强和投影特征,还能作为视觉特征选择器、视觉提示编码器和掩码解码器,极大地简化了模型的架构。

2. 相关工作

在3D视觉与语言领域,现有的研究主要集中在3D视觉问答(VQA)、3D密集描述和3D指代表达分割等任务上。这些任务要求模型能够理解3D场景中的对象及其空间关系,并根据语言指令生成相应的输出。然而,现有的方法通常依赖于复杂的多阶段流程,如离线的区域提议生成和特征提取,这限制了模型的灵活性和可扩展性。

近年来,随着LLMs的兴起,研究人员开始尝试将3D视觉与语言模型结合。例如,PointLLM通过将对象级点云与文本嵌入空间结合,实现了对3D形状的语言解释。3D-LLM通过引入位置嵌入和位置标记,增强了3D空间推理能力。LL3DA开发了一个Q-Former模块,用于桥接3D点云、视觉提示和语言指令。Grounded 3D-LLM通过引入参考标记和对比学习,统一了文本响应生成与3D对象定位。SegPoint尝试通过LLM统一语义分割和指代表达分割。Agent3D-Zero利用2D LMM从鸟瞰图观察3D场景,并选择信息丰富的视角进行零样本3D场景理解。Scene-LLM将多视角图像特征提升到3D空间,并通过两阶段训练方案实现3D视觉与语言的对齐。Chat-Scene通过将对象标识符纳入3D LMM,并融合离线的2D和3D实例级特征,实现了精确的对象引用和定位。

3. 方法

3D-LLaVA的整体框架如图2所示。它是一个全能型的3D LMM,能够进行3D视觉对话,灵活地与视觉和文本提示交互,并将开放式的语言描述与3D点云掩码进行关联。

添加图片注释,不超过 140 字(可选)

在本节中,研究人员首先介绍了3D场景编码器(3.1节)和Omni Superpoint Transformer(3.2节)的架构。然后,在3.3节中详细介绍了每个步骤的细节。最后,在3.4节中介绍了训练方案。

3.1 3D场景编码器

给定输入的点云数据XV∈RN×6,其中N表示点的数量,6个通道表示点的坐标{x,y,z}和颜色信息{r,g,b}。研究人员首先根据点的3D坐标将其转换为体素。然后,使用Sparse 3D U-Net作为场景编码器来提取点云特征。Sparse 3D U-Net是一种类似U-Net的架构,但由稀疏卷积层组成。为了减少点的数量,研究人员采用了基于超点的平均池化操作,将3D视觉嵌入的数量减少到数百或数千个,具体取决于3D场景的复杂性。

3.2 Omni Superpoint Transformer

Omni Superpoint Transformer (OST)的架构如图3(a)所示。与传统的分割Transformer不同,OST主要由自注意力层和前馈网络组成,而没有交叉注意力层。超点特征在OST中既作为查询,也作为源特征(键和值)。这种调整保持了OST输出嵌入与提升的2D特征之间的对应关系,便于在预训练阶段进行有效的2D到3D特征蒸馏。此外,为了引导超点查询朝向相关实体,研究人员将标准的自注意力层替换为距离自适应自注意力层,该层根据超点之间的距离引入了偏置项。

添加图片注释,不超过 140 字(可选)

OST的顶部有三个头:掩码头、分类头和对齐头。掩码头将每个查询嵌入转换为掩码预测核,然后通过点积操作生成二进制掩码预测。分类头预测分割掩码的类别,输出每个类别的logit。对齐头的输出为ZV,它将进一步用于生成LLM的视觉标记。

3.3 流程细节

视觉特征选择:尽管超点池化减少了OST的查询数量,但如果直接将其作为LLM的输入视觉标记,仍然会导致序列过长。为了解决这个问题,研究人员在获得ZV后,仅保留具有前K个对象性得分的超点。对象性得分定义为每个超点查询在前景类别中的最高得分。

添加图片注释,不超过 140 字(可选)

视觉提示编码:3D-LLaVA支持通过语言指令和视觉提示进行交互。常见的视觉提示包括点击点、边界框或二进制掩码。研究人员引入了一个无参数的视觉采样器来编码视觉提示XP,并重用OST作为视觉提示编码器,生成相应的视觉提示嵌入ZP,确保提示嵌入与视觉特征在同一空间中。

投影:在获得前K个超点视觉特征嵌入ZV和视觉提示嵌入ZP后,研究人员应用投影层WV将它们转换为语言嵌入标记HVHP。投影层由两个线性层和一个GELU激活层组成。

指令生成:研究人员在指令中使用了两种占位符:“(PC)”和“(Visual Prompt)”。除了占位符外的文本指令将被标记化为文本标记嵌入HT。在标记化后,研究人员将“(PC)”替换为视觉标记嵌入HV,将“(Visual Prompt)”替换为提示标记嵌入HP

掩码解码:当指令提示3D-LLaVA执行指代表达分割时,LLM将在其文本响应中输出一个[SEG]标记。一旦检测到该标记,研究人员提取[SEG]标记前的最后一个隐藏状态HS,并将其输入投影层WS以生成分割查询。研究人员利用冻结的OST来预测指代对象的分割掩码。

3.4 训练方案

阶段1:预训练3D场景编码器和OST

添加图片注释,不超过 140 字(可选)

研究人员采用混合监督的方式预训练Sparse 3D U-Net和OST,结合实例分割和2D到3D知识蒸馏任务。具体来说,损失函数包括多类别分类的交叉熵损失LCls、掩码预测的二元交叉熵损失和Dice损失LMask,以及知识蒸馏损失LKD

添加图片注释,不超过 140 字(可选)

阶段2:端到端指令调优 研究人员结合多个3D视觉和语言理解数据集进行指令调优,包括ScanRefer、ReferIt3D、ScanQA、SQA3D、Scan2Cap、Multi3DRefer等。指令调优阶段联合优化3D-LLaVA的文本生成和指代表达分割任务,训练目标包括文本生成的交叉熵损失Ltext和掩码预测损失Lmask

添加图片注释,不超过 140 字(可选)

4. 实验

添加图片注释,不超过 140 字(可选)

4.1 数据集和评估指标

研究人员在ScanNet数据集上进行了实验,包括1,201个训练场景和312个验证场景。在预训练阶段,使用了ScanNet200的掩码注释。指令调优阶段使用了多个数据集,包括ScanRefer、ReferIt3D、ScanQA、SQA3D等。评估指标包括CIDEr、BLEU-4、METEOR、Rouge-L等。

添加图片注释,不超过 140 字(可选)

4.2 实现细节

研究人员在ScanNet200上预训练了3D视觉编码器,并在LLaVA-1.5-7B的基础上开发了3D-LLaVA。指令调优在8个NVIDIA RTX 3090 GPU上进行,使用DeepSpeed工具包加速。研究人员采用LoRA对LLM进行微调,并在训练过程中保持LLM和视觉编码器的主体部分冻结。

4.3 与现有模型的比较

研究人员将3D-LLaVA与其他模型进行了比较,结果显示3D-LLaVA在多个基准测试中表现优异。特别是在3D指代表达分割任务中,3D-LLaVA在ScanRefer和Multi3DRefer数据集上分别取得了43.3%和42.7%的mIoU,显著优于现有模型。

4.4 消融实验

研究人员通过消融实验分析了3D-LLaVA中各个组件的影响。实验结果表明,使用OST作为视觉提示编码器、基于对象性得分选择视觉标记以及设置100个视觉标记的策略均显著提升了模型性能。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

5. 结论

3D-LLaVA通过其核心组件Omni Superpoint Transformer (OST),实现了视觉特征选择、视觉提示编码和掩码解码的多功能集成,极大地简化了3D视觉与语言模型的架构。通过广泛的实验,3D-LLaVA在多个基准测试中取得了令人瞩目的成绩。尽管3D-LLaVA在现有方法的基础上取得了显著进展,但3D数据的收集和配置仍然是开发3D LMMs的主要障碍。研究人员认为,数据收集和配置将是下一步的研究重点。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表