击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达作者:倪俊锋 | 编辑:3D视觉工坊(授权首发)你是否曾尝试用手机录一段视频或拍几张照片想把眼前的精美房间或旅行美景永久定格在 3D 世界里然而在传统技术下这往往会遭遇“视角缺失”带来的严峻挑战如果你没有全方位、无死角地拍摄重建出来的场景通常布满黑洞般的空缺或者在没拍到的地方出现奇怪的扭曲和重影。更糟糕的是当拍照角度非常稀疏时物体表面往往模糊得像打了马赛克。近日北京通用人工智能研究院联合清华大学、北京大学的研究团队在国际顶级人工智能会议 ICLR 上提出了一项名为 G4Splat 的重磅研究。其核心突破在于将视频扩散模型Video Diffusion Models的强大生成能力与精确的几何约束深度耦合。该技术不再盲目地生成像素而是以底层几何结构为导向在脑补缺失视角的图像时强制要求不同视角下的内容在三维空间中保持严密的逻辑一致性。这种方案有效缓解了传统方法对多视角数据的过度依赖显著抑制了重建过程中常见的空洞与扭曲现象实现了在极稀疏输入下对高精度三维全景场景的稳健还原。以下列出了这一突破性工作的相关资源论文链接https://arxiv.org/abs/2510.12099项目主页https://dali-jack.github.io/g4splat-web/代码仓库https://github.com/DaLi-Jack/G4Splat研究概述图1. 重建结果对比、任意数量输入视角的重建展示三维场景重建一直是计算机视觉领域的核心命题旨在通过一组照片还原出真实世界的几何结构与细节纹理。近年来以 3D 高斯泼溅3DGS为代表的技术凭借极快的渲染速度和照片级的还原效果成为了该领域的新宠。然而3DGS 极其依赖“全方位、无死角”的拍摄一旦输入视角变得稀疏模型就会在未观测区域产生严重的几何“空洞”或者出现大量破碎的浮点和扭曲无法生成连贯完整的场景。现有的尝试利用生成式先验来补全场景的方法虽然展现了一定的潜力但仍面临两大技术瓶颈一是几何失真由于缺乏可靠的结构约束生成内容往往缺乏真实的三维骨架支撑二是多视角不一致性不同视角下生成的图像难以在三维空间中逻辑自洽导致重建结果在旋转观察时出现严重的闪烁和形变。针对上述挑战G4Splat提出了一套开创性的的解决方案。不同于以往将生成模型与重建算法简单叠加的思路G4Splat 实现了精确几何引导与生成式先验的深度耦合。这种设计的核心在于赋予生成式先验一种“空间直觉”使其在底层几何结构的严密约束下进行内容补全从而在生成的“创造力”与重建的“忠实度”之间达成了精准平衡。在具体实现上G4Splat通过双重机制保障了重建的质量。首先巧妙设计的几何约束机制确保了所有生成的细节都能准确附着在合理的物理表面上显著抑制了漂浮伪影与几何形变。其次针对多视角不一致的难题G4Splat 引入了跨视角一致性强化策略通过在三维空间内执行严密的几何对齐实现了不同观测角度下的内容达成逻辑统一。这种设计不仅能高精度还原已知区域更赋予了模型准确推断“视觉盲区”的强大能力。通过这种“几何引导生成先验”的双重驱动G4Splat 打破了输入视角的限制无论是面对单张照片还是缺乏相机标定的随手拍视频都能构建出结构完整、高保真的三维世界。 下面将深入解析G4Splat的核心技术细节。关键技术图2. G4Splat的算法框架G4Splat的技术创新主要体现在以下三个关键方面全局平面对齐传统的重建方法在面对稀疏视角时往往只能得到碎片化的信息。G4Splat 引入了高效的全局平面对齐技术它能够将各个视角捕捉到的 2D 平面掩码聚合成统一的 3D 全局平面。这一过程为场景构建了一套稳健的几何基准使模型能够从宏观视角理解场景的结构布局从而为后续“视觉盲区”的精准补全提供了可靠的几何支撑。平面感知的深度提取准确的深度估计是维持 3D 场景结构一致性的关键。G4Splat 利用已对齐的全局平面作为约束线索开发了一套平面感知的深度提取机制。该机制不仅显著提升了已知观测区域的深度预测精度更重要的是它能将一致的尺度信息外推至未观测区域。通过这种方式即便是在完全缺失影像的区域G4Splat 也能推断出符合物理逻辑的深度映射确保生成的 3D 模型具备严谨的几何结构。几何引导的生成式管线这是 G4Splat 实现高保真、高一致性重建的核心架构。为了克服生成模型常见的“过度想象”与视角冲突难题我们构建了一套由几何信息引导的生成管线具体包含以下三个协同模块可靠的可见性建模基于已有的几何骨架系统能精准识别真实观测区域与缺失区域从而实现针对性的信息增强与补全。平面感知的视角选择在调用视频扩散模型进行补全时该模块利用几何引导信息来评估并锁定最佳的“待补全视角”。其核心在于优先选择空洞覆盖率最大的关键方位以最高效的覆盖范围修复大面积缺失。通过减少碎片化补全确保了生成内容在全局空间上严丝合缝、高度统一。基于平面的颜色调节针对多视角下的色彩不一致问题G4Splat 巧妙地利用全局 3D 平面来调制颜色监督信号。该策略能有效调和不同视角间的色彩矛盾显著减少因视角冲突导致的画面闪烁与重影。图3. 关键技术的可视化消融对比通过上述机制G4Splat 巧妙平衡了生成模型的“创造力”与物理场景的“忠实度”在极稀疏的视角输入下依然能还原出精细且逻辑自洽的 3D 完整场景。实验结果在涵盖室内外复杂场景的四大权威数据集Replica, ScanNet, DeepBlending, Mip-NeRF 360上的系统性评估表明G4Splat 在稀疏视角下的渲染质量与几何重建精度都实现了显著突破。逼真的新视角合成量化结果表1显示G4Splat 在 PSNR、SSIM 和 LPIPS 等核心渲染指标上全面领先。尤其是在拍摄极度稀疏的情况下传统方法往往会出现严重的图像崩坏而 G4Splat 凭借几何引导的生成先验依然能渲染出逼真的新视角图像。如图4所示G4Splat 能够准确还原复杂的纹理细节而对比方法则出现了明显的模糊和伪影。高精度的几何重建得益于全局平面对齐技术G4Splat 能够精准推断出墙角、家具背面等未观测区域的几何形状。表1数据证实G4Splat 在各项重建指标上均显著优于基线方法。如图4对比所示基线方法在输入视角盲区往往产生破碎浮点或空洞而 G4Splat 构建的几何表面更加平滑且连续。任意视角输入的鲁棒性G4Splat 展现了极强的普适性无论是基于单张照片的深度想象图5还是利用稠密视角的精细还原图6其重建性能均保持稳健。这种从极稀疏采样到密集观测场景的跨尺度覆盖能力证明了其在处理现实世界随意拍摄视频时的巨大实用价值。表1. 场景重建结果的定量对比图4. 场景重建结果的可视化对比图5. 单视角输入的重建展示图6. 密集视角输入的重建展示应用展望G4Splat 的意义不仅在于学术层面的指标突破更在于它为三维内容的低门槛生成探索出了一条可行路径。通过几何引导与生成先验的深度融合我们让 AI 像人类一样既能清楚地“看”到眼前也能准确地“想”到身后。在未来无论是让机器人通过一眼观察就熟悉陌生的房间还是让普通用户随手一拍就能生成可交互的虚拟空间G4Splat 及其背后的技术范式都将成为构建更加智能、真实的数字世界的重要基石。图7. 任意场景的重建普适性展示团队介绍研究团队由来自北京通用人工智能研究院BIGAI、清华大学和北京大学的跨学科研究者组成致力于通用人工智能领域的前沿研究。团队成员在三维场景理解、重建和生成等方面拥有丰富的研究经验。一作为清华大学博士生倪俊锋其它作者为北京大学本科生杨知非、清华大学博士生刘宇、北京大学博士生陆睿杰通讯作者为北京通用人工智能研究院研究员陈以新、北京通用人工智能研究院研究员黄思远本项目由陈以新研究员主要指导。本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。