卷王上线!火山引擎LiveGS把"3D上帝视角"塞进你手机,还能“裸眼3D”?这波操作太秀了!

温故智新AIGC实验室

TL;DR:

划重点!火山引擎最近搞了个大动作,LiveGS技术让移动端也能实时看3D自由视角直播,就像你拿手机在现场看比赛一样!这不仅突破了高斯泼溅的“慢动作”瓶颈,还顺便把抖音“裸眼3D”也整明白了,简直是“未来已来”的节奏!

想象一下,你在家看球赛,不再是导演给你什么镜头,你就看什么。而是你想看哪个球员的细节,就直接把镜头怼上去,甚至360度无死角地绕着他转一圈!这听起来是不是有点像科幻电影里的“上帝视角”?别急,这不再是电影特效,而是火山引擎多媒体实验室刚刚端出来的一道“硬菜”——LiveGS技术,它成功登榜计算机图形学顶会SIGGRAPH,狠狠地给移动端自由视角视频直播(FVV)来了个“重新定义”!1

过去,这种自由视角视频一直是“元宇宙”概念里的“顶流明星”,谁都想“贴贴”,但它一直有自己的“公主病”——数据量大得惊人,算力需求更是个“无底洞”,想在咱们的小手机上流畅跑起来,简直比登天还难。这不,LiveGS来了,就像是给公主找到了“白马王子”,一出手就打破了技术壁垒,首次实现了“端到端实时FVV直播”的工程化落地,让这块“香饽饽”终于能被普罗大众在移动端“吃上”了!

告别"PPT造车":LiveGS 如何把科幻照进现实?

LiveGS能有如此“神操作”,靠的不是PPT,而是三大“杀手锏”级的技术突破。咱们一起扒一扒,这玩意儿到底怎么把那些“不可能”变成了“很普通”?

1. 实时 3D 高斯表示:告别离线优化,像“预判外挂”一样快

如果你听说过最近火得一塌糊涂的“3D高斯泼溅”(3D Gaussian Splatting)技术,就知道它有多牛:能把现实世界“还原”成无数个小光球,逼真得一塌糊涂。但问题是,传统的泼溅技术是个“慢郎中”,建模优化动辄几分钟甚至几十分钟,直播?那简直是“想太多”!1

LiveGS直接给它装了个“预判外挂”!它创新性地引入了前馈神经网络架构,结合Sobel特征自适应建模策略,就像一个眼疾手快的艺术家,对人体不同区域“区别对待”:对细节丰富的头发、衣物“精雕细琢”,用足了高斯点;而对平坦的肤色区,则“概括一下”,只保留少量高斯点。这招“差异化建模”,不仅保证了视觉保真度,还让高斯数量直接“瘦身”70%!

“A10显卡上,LiveGS能以超过30帧每秒的帧率运行,延迟控制在1秒以内。这速度,简直是‘光速打脸’那些慢悠悠的离线方案,谁还敢说实时3D是‘不可能完成的任务’?”

2. 低损耗压缩传输:带宽不再是“吞金兽”,适配你家宽带!

想象一下,一套高精度的3D数据,那数据量简直是“海啸”级别的。想把它实时传输过来,带宽成本就是个“流量刺客”,分分钟让你“破产”。LiveGS是怎么解决这个“老大难”的呢?1

它的思路是“降维打击”:把3D高斯属性(比如大小、透明度、深度)巧妙地映射到2D视频平面,然后用咱们熟悉的YUV 4:2:0格式和可变位打包(VBP)技术进行量化编码。更绝的是,它还搞了个“基于渲染重要性的比特率分配策略”——把最重要的深度和RGB信息优先编码,不那么重要的就“意思意思”。这一顿操作猛如虎,直接实现了500倍的惊人压缩率,画质损失却小到几乎可以忽略(PSNR损失低于3dB)!

“这意味着,以前需要‘专线宽带’才能传输的3D自由视角视频,现在用咱们家里的普通宽带(带宽需求低于20Mbps)就能搞定!这波操作,简直是‘魔术’,直接把门槛拉低了!”

3. 移动端渲染优化:手机“小身板”也能扛,算力消耗直降70%!

移动设备的算力,跟PC端那可是“天壤之别”。想在手机上流畅渲染复杂的3D自由视角,就像让“小马拉大车”,画面卡顿、发热掉帧那是家常便饭。LiveGS又掏出了一张“王牌”:移动端渲染优化!1

它提出了一种“基于掩码的高斯选择策略”:就像一个智能的“导演”,在手机渲染时,只把“特写镜头”里的高频区域(比如人脸、手部)全部像素高斯保留下来,保证细节清晰;而对“远景镜头”里的低频区域(比如躯干),就“偷点懒”,只保留1/3像素的高斯。这样一来,渲染的高斯数量直接减少了70%!

配合混合渲染技术,最终的结果就是:就算在你的iPhone 15上,也能实现30FPS的流畅视角旋转和缩放操作!以前只能在PC端“独享”的自由视角乐趣,现在“全民共享”了!

说到这,火山引擎多媒体实验室还顺手给抖音“点了个科技树”——“裸眼3D”直播!2 别误会,这不是传统意义上的裸眼3D电视,而是利用上述技术,通过普通的单目视频,直接实时生成带有3D深度信息的直播流。你的手机拿到手,一晃动,就能根据深度信息实时重建出3D内容,画面就像“活”过来一样,让你体验“裸眼3D”的惊喜。这波操作,简直是“黑科技”啊!

不只抖音“裸眼3D”:这技术,未来还能怎么“玩”?

LiveGS的突破可不只是算法层面的“小修小补”,它更是构建了一个从“实时采集—云端重建—压缩传输—移动端渲染”的完整技术闭环解决方案。这意味着,它不仅仅是个“技术宅”,它的应用场景,简直是“脑洞大开”!

  • 体育赛事直播: 想象一下,看篮球比赛,不再只跟着导播的镜头走。你想看库里怎么投三分?直接360度围着他转一圈,连脚尖的动作都能看得一清二楚!这“上帝视角”,简直是“沉浸式观赛”的天花板!
  • 虚拟偶像演出: 以后看虚拟爱豆的演唱会,你就是唯一的“导演”!想看她哪个角度的wink,想把焦点对准谁,统统你说了算,这追星体验,直接“封神”!
  • 远程会议与教育: 远程开会,再也不怕屏幕那头的人“魂游天外”了。演讲者的姿态、手势都能动态捕捉,你甚至能自由切换视角,那种“跨越空间”的临场感,让你感觉老板就在你面前“手舞足蹈”!
  • 电商直播: 网上买衣服,你是不是总担心图片有“照骗”?有了LiveGS,商品360度无死角地呈现在你面前,材质、剪裁、纹理,细节控也能“安心剁手”!

这不光是算法的“小修小补”,而是火山引擎直接把未来“元宇宙”的“地基”给打牢了。沉浸式互动、个性化观看体验……当技术不再是屏障,我们离真正的“赛博朋克”生活,又近了一步。

火山引擎多媒体实验室,作为字节跳动旗下的“黑科技天团”,一直致力于探索多媒体领域的前沿技术,他们家的成果,很多都被应用到了抖音、西瓜视频这些国民级产品里,而且还会把这些“黑科技”输出给企业客户,帮助大家“原地起飞”!火山引擎,作为字节跳动云和AI服务的“总出口”,也正是将这些在实践中打磨出来的增长方法和技术能力,赋能给更多企业,一起“AI转型,激发增长潜能”。

未来,还有哪些“骚操作”等着我们呢?拭目以待吧!

引用


  1. 火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播·InfoQ·(2024/6/1)·检索日期2024/6/1 ↩︎ ↩︎ ↩︎ ↩︎

  2. 火山引擎LiveGS技术:引领移动端自由视角视频直播新篇章 - 万维易源·万维易源·(未知)·检索日期2024/6/1 ↩︎