化繁为简:ZPressor如何破解3D高斯泼溅的“多视图之困”

温故智新AIGC实验室

浙江大学研究人员提出的ZPressor模块,通过引入信息瓶颈原理,高效压缩3D高斯泼溅的多视图输入,显著提升了其在新视角合成中的性能、速度与内存效率,将这项革命性技术推向更广泛的实际应用。

在增强现实(AR)和虚拟现实(VR)等前沿领域,逼真的新视角合成(Novel View Synthesis, NVS)是构建沉浸式体验的核心。近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术以其卓越的实时渲染能力和视觉质量,迅速成为NVS领域的一股颠覆性力量。这项技术告别了耗时的传统三维重建流程,转而通过对稀疏点云进行优化,直接渲染出令人惊叹的场景。然而,随着研究的深入和应用场景的拓宽,一个核心挑战逐渐浮出水面:现有前馈3DGS模型在处理密集输入视图时的可扩展性瓶颈。

技术瓶颈的突破:ZPressor的核心原理

传统3DGS依赖于“逐场景优化”,这限制了其在动态或大规模应用中的部署。前馈3DGS的出现看似解决了这一问题,它允许通过单次前向推理获取场景的三维信息,显著提升了效率。但这种进步也带来了新的“甜蜜负担”——当前的前馈3DGS模型,如DepthSplat,在面对大量、密集的输入视图时,会遭遇严重的信息过载问题1

这一现象并非偶然。深入分析现有模型架构,其症结在于编码器容量的有限性。当输入视图数量激增时,模型难以有效处理随之而来的海量数据,导致计算成本飙升,性能(如PSNR)反而显著下降。究其根本,在于场景总信息量(即所有视图特征的联合熵)中存在大量冗余信息。如何在特征提取之后,高效剔除这些不相关信息,同时保留预测能力,成为制胜的关键。例如,DepthSplat在处理36个输入视图时,性能指标会大幅降低,同时推理时间和内存占用急剧攀升,直接揭示了信息过载对模型性能和资源消耗的负面影响。

为了从理论层面理解并解决这一“信息过载”问题,浙江大学的研究人员引入了信息瓶颈(Information Bottleneck, IB)原理2。IB原理为学习紧凑型表示提供了一个坚实的理论基础:从输入(X)中提取一个压缩表示(Z),使Z尽可能地保留与目标(Y)相关的信息,同时尽可能地压缩X中与Y无关的信息。直观来说,IB原理旨在最小化“压缩分数”(Z携带关于X的信息量),同时最大化“预测分数”(Z对预测目标Y的有效信息量)。正是基于这种“化繁为简”的理论指导,研究人员提出了ZPressor——一个即插即用、且“架构无关”的轻量级模块。

ZPressor 的精妙之处在于其将复杂的信息压缩过程分解为三个逻辑清晰的步骤,打造了一个高效的“信息压缩机”:

  1. 锚点视图选择(Anchor View Selection):ZPressor首先通过“最远点采样”(farthest point sampling)方法来选择一组锚点视图。这一迭代过程基于相机位置,确保所选锚点在空间上具有多样性,并能最大限度地代表整个场景的核心信息。
  2. 支持视图归属(Support-to-Anchor Assignment):一旦锚点视图确定,每个剩余的支持视图都会根据其相机距离被分配到最近的锚点视图。这种精准的归属机制确保了支持视图中互补的场景细节能与空间上最相关的锚点视图进行分组,避免了信息分散或无序融合。
  3. 视图信息融合(Views Information Fusion):这是ZPressor实现信息压缩的关键。它采用定制化的交叉注意力(cross-attention)模块进行信息融合。具体而言,从锚点视图中提取的特征充当“查询”(query),而支持视图的特征则提供“键”(keys)和“值”(values)。通过这种方式,支持视图的信息被有效地整合到锚点视图中,不仅捕捉了两者之间的关联性,还在保持紧凑性的同时有效剔除冗余。最终,交叉注意力机制让这些互补信息“融会贯通”,形成精炼而全面的潜在表示Z。

性能飞跃与应用展望

ZPressor对前馈3DGS模型产生了变革性的影响,这一点在对DepthSplat、MVSplat和pixelSplat等经典模型在DL3DV-10K、RealEstate10K和ACID等大规模基准数据集进行的广泛实验中得到了充分验证3。在36个输入视图的场景下,ZPressor使模型性能提升了4.65dB(PSNR),推理时间减少了70%,显存占用减少了80%。更令人振奋的是,它将可输入的视图数目拓展到接近500个,这在以往是不可想象的。

ZPressor解决了现有模型在内存方面的根本性障碍。例如,此前pixelSplat在输入视图超过8个时就会因“内存溢出”(OOM)而无法运行,而ZPressor不仅使其能够成功处理至少36个视图,还在性能上带来了显著提升。在效率方面,ZPressor有助于在输入视图数量增加时,保持3D高斯数量、测试时推理延迟和峰值内存使用量的稳定,这与基线模型中这些指标呈线性增长并很快变得难以承受的趋势形成了鲜明对比。

这种可扩展性、鲁棒性和效率的提升,直接指向了ZPressor在现实世界应用中的深远影响。ZPressor的出现,使得AR/VR设备能够提供更流畅、更逼真的三维体验,同时显著降低了对昂贵硬件资源的需求,从而加速了这些技术的普及和应用。想象一下,未来的元宇宙和数字孪生场景将能够以更少的计算成本,呈现出前所未有的细节和沉浸感。

然而,ZPressor的意义远不止于3DGS领域。研究人员提出的基于信息瓶颈的“化繁为简”压缩范式,预示着一种更普遍的AI设计智慧。有理由相信,在众多存在“冗余信息”和“信息瓶颈”挑战的其他AI领域——无论是多模态数据处理、大规模传感器融合(如自动驾驶中多传感器数据整合4),还是复杂系统状态估计——ZPressor所蕴含的“信息瓶颈”智慧,都可能成为解决之道,开启一个全新的“通用信息压缩”时代。这不仅是对现有模型局限性的有效弥补,更是对未来AI系统设计理念的一次深刻启发。

References


  1. (2025/6/18)。3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%。AI TNT NEWS。检索日期2025/6/18。 ↩︎

  2. LRST(2025/6/18)。3D高斯泼溅,可输入视图量高达500,推理速度提升3倍,内存少80%。新智元。检索日期2025/6/18。 ↩︎

  3. (2025/6/18)。推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品。51CTO.COM。检索日期2025/6/18。 ↩︎

  4. (2024/12/2)。让自动驾驶’看’得更准!高斯泼溅技术如何解决深度估计难题?。腾讯云开发者社区。检索日期2025/6/18。 ↩︎