Lift4D：在野外进行4D重建的单视图3D估计的统一

Lift4D重建场景中动态物体的完整几何形状、外观和变形，包括相机从未观察到的区域，从单个单目野外视频中获取。摘要：从单目视频重建完整的动态物体需要将直接观察的视觉线索与几何和外观的数据驱动先验相结合。之前的方法要么学习直接从视觉输入预测每帧的3D表示，要么初始化一个3D表示，该表示随后根据视频证据进行变形和细化。然而，前者受到4D训练数据稀缺的限制，而后者仅在初始重建中利用先验，并在此之后仅依赖视频监督；两者都无法很好处理大变形和遮挡的复杂野外场景。我们提出了Lift4D，一个解决这两种限制的测试时间优化框架。首先，我们改编了一个现有的单视图3D重建模型，通过因果潜变量条件生成时间上连贯的每帧预测，为可变形的3D高斯点表示提供一致的初始化。然后，我们通过一个关注遮挡的优化来“雕刻”该表示，以匹配输入视频，该优化在真实恢复可见表面细节的同时，利用视图条件的扩散先验补全未观察到的区域。我们展示了Lift4D在之前的4D重建方法上明显改善，特别是在具有严重遮挡和非刚性运动的挑战性野外序列上。重建完整的4D野外场景选择下面的场景，探索其在交互式查看器中完整的4D重建。点击并拖动以旋转；滚动以缩放。点击缩略图以切换场景。请耐心等待，因为某些场景很大。方法单视图重建先验图像到3D DiT 图像到3D DiT 图像到3D DiT 因果潜变量传播 ↓ 高斯点解码器 ↓ 每帧3D重建输入视频完整4D重建标准高斯 + 变形节点精细外观变形节点关注遮挡的外观损失修复 ← 场景深度 / 每帧3D 遮挡修复帧噪声变形的3DGS渲染 ↓ 新视图扩散先验 ↓ 新视图样本 + (−) 渲染监督从单目输入视频，图像到3D DiT通过因果潜变量传播生成时间上连贯的每帧3D重建，其中每帧的3D潜变量通过将新噪声与先前去噪的潜变量混合进行初始化，输出被解码为独立的高斯点集。我们将这些每帧预测集整合为一个单一的4D完整高斯点重建，表示为标准高斯，由两组稀疏变形节点驱动动画。第一组通过针对每帧重建几何体的重建损失（ℒ rec）来拟合每帧的输出，然后通过优化颜色以及第二组精细外观变形节点来细化外观，以便针对遮挡修复帧和渲染损失进行优化：4D重建从随机的新视图渲染并添加噪声，新的视图扩散先验去噪，并以每帧的遮挡通过每帧3D输出的修复来进行条件处理。生成的去噪新视图样本蒸馏以及可见像素上的渲染损失提供了外观监督信号（ℒ app），该信号聚合跨帧的可见细节，同时在被遮挡和未观察到的区域进行幻觉。对比实验 Lift4D在合成和野外镜头上的4D重建基线中表现优于之前的方法，提供完整的时间一致的几何形状、更清晰的外观和更准确的运动，即使在严重遮挡的情况下。