首页
洞察
早报
日报
主题探索
关于
无标注学习
洞察 Insights
超越文本:Visual Jigsaw如何重塑多模态AI的视觉感知范式
Visual Jigsaw是MMLab@NTU提出的一种创新视觉自监督后训练框架,通过让多模态大模型玩“拼图游戏”,显著提升了其在图像、视频和3D模态下的视觉理解能力,摆脱了对昂贵标注数据的依赖。这项技术不仅预示着AI训练范式从文本中心向视觉中心的转变,更将极大赋能具身智能、自动驾驶及AR/VR等商业应用,推动AI向更深层次的物理世界认知迈进。
阅读全文