2025_NIPS_EA3D: Online Open-World 3D Object Extraction from Streaming Videos
EA3D 文章总结与核心内容翻译一、文章主要内容本文提出了一种名为 ExtractAnything3D(EA3D)的统一在线框架,用于开放世界的3D物体提取,实现了几何重建与整体场景理解的同步进行。该框架以流式视频为输入,无需预先构建的3D几何结构、相机姿态信息或标注数据,通过视觉语言模型(VLMs)和2D视觉基础编码器动态解析每帧图像,提取物体级知识并嵌入高斯特征图中。EA3D 核心包含三大模块:知识提取与整合:利用 VLMs 识别物体类别和物理属性,结合多级别视觉基础模型(VFMs)提取特征,构建动态更新的知识整合特征图;在线3D物体提取:通过在线视觉里程计估计相机姿态,结合在线高斯更新策略,增量式重建物体几何结构并传递知识;循环联合优化:融合当前观测与历史特征,持续更新3D物体表示,同时优化几何重建和语义理解。该框架支持多种下游任务,包括照片级真实感渲染、语义分割与实例分割、3D边界框构建、语义占用估计和3D网格生成,在 ScanNet、LERF 等基准数据集上表现出优异性能。二、创新点提出了统一的在线开放世界3D物体提取框架,无需几何或姿态先验,实现了在线重建与场景理解的同步进行;充分利用历史知识指导当前观测的3D物体提取,通过在线联合更新整合特征,兼顾高质量几何重建与高效场景理解;支持多种3D感