洞察 Insights

超越表面智能：多模态AI“幻觉悖论”揭示的感知与推理深层张力

一项最新研究揭示了多模态推理模型在追求深度推理时，反而更容易产生“幻觉”的悖论。该研究指出，随着推理链条的加长，模型对视觉输入的关注度下降，转而过度依赖语言先验知识，导致生成内容与图像脱节。为解决此问题，研究团队提出了RH-AUC评估指标和RH-Bench数据集，以衡量模型在推理与感知间的平衡，并为未来模型的稳健性训练提供了宝贵启示。

阅读全文

洞察 Insights

弥合“想”与“做”的鸿沟：UC伯克利LeVERB框架赋能人形机器人自主决策

UC伯克利与卡内基梅隆大学的团队推出了LeVERB框架，首次成功连接了人形机器人的视觉感知与物理运动，使其能根据语言指令和环境变化，零样本地完成复杂的全身动作。该框架通过分层系统和创新的仿真基准，显著提升了宇树G1机器人的任务成功率，为具身智能的自主决策能力带来了突破性进展，并有望推动未来机器人应用。

阅读全文

洞察 Insights

具身智能浪潮下的港股叩门者：乐动机器人IPO揭示的视觉感知技术与市场竞逐

由阿里巴巴CEO吴泳铭及华为前高管投资的乐动机器人，近期正谋求在香港上市，估值超40亿港元。这家以视觉感知技术为核心的机器人公司，主要提供传感器和算法模组，并推出了割草机器人作为具身智能应用。其IPO不仅反映了中国在机器人核心技术领域的深耕，也预示着具身智能赛道资本化进程的加速。

阅读全文