洞察 Insights
超越表面智能:多模态AI“幻觉悖论”揭示的感知与推理深层张力
一项最新研究揭示了多模态推理模型在追求深度推理时,反而更容易产生“幻觉”的悖论。该研究指出,随着推理链条的加长,模型对视觉输入的关注度下降,转而过度依赖语言先验知识,导致生成内容与图像脱节。为解决此问题,研究团队提出了RH-AUC评估指标和RH-Bench数据集,以衡量模型在推理与感知间的平衡,并为未来模型的稳健性训练提供了宝贵启示。
阅读全文
洞察 Insights
弥合“想”与“做”的鸿沟:UC伯克利LeVERB框架赋能人形机器人自主决策
UC伯克利与卡内基梅隆大学的团队推出了LeVERB框架,首次成功连接了人形机器人的视觉感知与物理运动,使其能根据语言指令和环境变化,零样本地完成复杂的全身动作。该框架通过分层系统和创新的仿真基准,显著提升了宇树G1机器人的任务成功率,为具身智能的自主决策能力带来了突破性进展,并有望推动未来机器人应用。
阅读全文
洞察 Insights
具身智能浪潮下的港股叩门者:乐动机器人IPO揭示的视觉感知技术与市场竞逐
由阿里巴巴CEO吴泳铭及华为前高管投资的乐动机器人,近期正谋求在香港上市,估值超40亿港元。这家以视觉感知技术为核心的机器人公司,主要提供传感器和算法模组,并推出了割草机器人作为具身智能应用。其IPO不仅反映了中国在机器人核心技术领域的深耕,也预示着具身智能赛道资本化进程的加速。
阅读全文