洞察 Insights

超越文本：Visual Jigsaw如何重塑多模态AI的视觉感知范式

Visual Jigsaw是MMLab@NTU提出的一种创新视觉自监督后训练框架，通过让多模态大模型玩“拼图游戏”，显著提升了其在图像、视频和3D模态下的视觉理解能力，摆脱了对昂贵标注数据的依赖。这项技术不仅预示着AI训练范式从文本中心向视觉中心的转变，更将极大赋能具身智能、自动驾驶及AR/VR等商业应用，推动AI向更深层次的物理世界认知迈进。

阅读全文