TL;DR:尽管当前生成式AI模型在规模化上取得显著成功,但多模态融合的路径难以通往真正的人工通用智能(AGI)。其核心局限在于对物理世界的具身理解缺失,以及将语义和语用问题简化为语法操作。实现AGI需要一场范式革命,从拼接狭义模态转向以具身性和互动为核心,重塑智能的底层认知架构。
当前,人工智能领域正经历一场前所未有的繁荣。大型语言模型(LLMs)和多模态模型的惊人表现,让许多人相信人工通用智能(AGI)已触手可及。这些模型似乎能够捕捉人类智能的某些本质,但我们必须警惕这种“幻象”。它们并非源于对智能问题的深思熟虑,而是得益于现有硬件上高效的规模扩展。这种“规模至上主义”在特定领域取得了胜利,却在通往AGI的道路上埋下了误解的种子。特别是多模态方法,试图通过拼凑语言、视觉等多种模态来构建通用智能,但其策略在短期内注定失败,它无法带来具备感官运动推理、运动规划和社会协调能力的、人类水平的AGI。真正的AGI,其定义必须囊括解决物理现实问题的能力,例如修理汽车、解开绳结或准备食物。这需要一种与物理世界深度耦合的智能形式,而不仅仅是符号操作的集合。
“弗兰肯斯坦”的幻象:多模态AI的深层局限
当前多模态AI面临的挑战,如同一个“弗兰肯斯坦”式的智能体:各部分独立而强大,却难以形成一个拥有完整认知的统一整体。
-
技术原理与符号迷宫 大型语言模型通过预测下一个Token来学习,这种机制使其在语言任务上表现卓越,但其对世界的“理解”更可能是一套复杂的启发式规则,而非真正的物理世界模型。奥赛罗游戏的例子恰好说明了这一点:模型可以在符号层面预测棋盘状态,因为奥赛罗本身就是一种符号游戏。然而,物理世界中的任务(如扫地、洗碗)无法被完全符号化。LLMs在被问及物体大小等常识问题时,并非在进行物理模拟,而是在依赖对抽象符号行为的记忆和语法模型进行推测。正如Terry Winograd所言,将语言投射回思想模型时,我们忽视了支撑我们智能的_不言而喻的具身认知_。1
-
语义与语法之辨:假象的理解 人类的语言理解涉及语法、语义和语用三个层面。LLMs的惊人能力在于,它们可以将语义和语用问题“简化”为复杂的语法问题。例如,“冰箱在苹果里”在语法上无懈可击,但在语义上荒谬。LLMs可能通过庞大的语料库,为每个“语义正确”的构造学习特定的语法规则,从而避免出现这种“病句”。然而,这种做法并非真正理解了“世界的本质”,而只是记忆了语言中隐含的**“语法模型”**。这种表面的语言技能,可能来自与人类截然不同的认知机制,这使得我们无法以人类通用智能的代理指标来评估它们。1
-
Rich Sutton的“苦涩教训”与误读 强化学习之父Rich Sutton的“苦涩教训”指出,充分利用计算资源的方法最终将超越那些浪费计算资源的方法。许多人将其误读为“对人工智能结构做出任何假设都是错误的”。然而,Sutton的本意是鼓励AI系统自主发现更好的近似值,而非人类强制预设。讽刺的是,当前的“多模态规模最大化主义”方法,恰恰隐含地假设了模态的结构及其拼接方式,这与对“苦涩教训”的深度理解相悖。卷积神经网络对图像平移不变性的假设、Transformer注意力机制对长距离依赖的假设,以及3D高斯溅射对物理对象实体性的假设,都表明_人类的直觉和结构假设在AI SOTA发展中扮演了关键角色_。12
具身智能:通往AGI的必然之路
若要突破当前多模态AI的瓶颈,我们必须重新审视智能的本质,拥抱具身智能的范式。
-
挑战:模态的统一与概念的形成 当前的模块化多模态方法存在深刻问题:
- 人为割裂的模态:多模态设置中,模态之间深刻的联系被切断,导致概念综合更加困难。简单地将不同模态的嵌入推向相似的潜向量,极大地简化了模态间可能存在的关系。
- 分散且不一致的“意义”:所有模态的感知都被编码到同一个潜空间,但“意义”并未清晰捕捉。它依赖于模态特定的解码器来填充细节,导致“意义”在模态间分散且可能不一致。
- 缺乏新概念形成能力:模型学习的是复制人类的概念结构,而非从少数例子中形成新概念的通用能力。人类通过数十万年的演化提炼概念并代代相传,而当前模型只是在这一过程的最终结果上进行训练。
-
解决方案:互动与具身认知 真正的AGI需要将学习重新定义为一个具身和互动的过程,使不同的模态自然融合。这意味着:
- 统一的感知与行动系统:通过使用相同的感知系统处理图像、文本和视频,并使用相同的行动系统生成文本、操纵物体和导航环境,鼓励网络学习跨模态泛化的智能过程。
- 涌现的模态处理:设计一个能够自然涌现对各种模态处理方法的设置,而非预设结构。布朗大学计算机科学博士候选人Benjamin Spiegel的视觉理论心智研究便是一个例子,抽象符号可以自然地从图像分类代理之间的通信中涌现,模糊了文本和图像处理之间的界限。1
商业与哲学:AGI范式转变的深远影响
这场关于AGI路径的深刻辩论,不仅是技术层面的抉择,更是对AI产业未来发展方向、投资逻辑以及人类社会深层影响的哲学拷问。
-
产业生态重构与投资逻辑转向 当前,大规模和微调的狭义智能模型解决了大量商业用例,其商业可行性毋庸置疑。然而,一旦具身智能成为AGI的必由之路,AI产业的投资逻辑将面临深刻转向。从专注于“数据富集”的文本和图像处理,转变为解决“数据稀缺”的具身数据收集与学习。这将促使机器人技术、传感器技术以及新型交互模式的投资激增。那些能够构建真实世界交互平台和具身智能代理的公司,将成为下一轮竞争的焦点。我们或许会看到更多跨学科的融合,例如认知科学、神经科学与AI工程的深度结合,催生全新的产业生态。2
-
伦理与社会影响的深层考量 如果AI无法真正理解物理世界和人类的意图,那么其在关键决策(如自动驾驶、医疗诊断)中的应用将永远受限,其“智能”也可能只是高级的模式匹配。一个真正能够像人类一样理解世界的AGI,将从根本上改变人类与技术的关系。它不再是单纯的工具,而是能够进行复杂交互、甚至形成新概念的实体。这不仅带来巨大的机遇,也引发深远的伦理问题:我们如何确保这种具身智能的安全可控?如何避免其与人类社会价值观的冲突?“清点我们需要的函数,并确定它们应该如何被安排成一个连贯的整体”——这不仅仅是工程问题,更是关乎人类文明进程的宏大概念与哲学命题。
-
从效率到灵活性的价值重估 多模态规模最大化主义追求的是效率,它试图模仿人类智能的最终产品。但具身智能的路径,意味着可能在初期牺牲部分效率,以换取_灵活的认知能力_和_从经验中形成新概念的能力_。这种价值取向的转变,将重塑AI研究的优先级和商业化的路径。未来的AI公司可能不再以算力或数据量取胜,而是以其在构建**“学习如何学习”**的具身系统中展现出的创新性来衡量。
总之,AGI拼图中最具挑战性的数学部分——通用函数逼近器——或许已经出现。但剩下的,是如何清点我们需要的函数,并确定它们应该如何被安排成一个连贯的整体。这不再是一个纯粹的数学问题,而是一个深刻的概念问题,需要我们重新思考智能的结构,以具身性和互动为核心,才能真正抵达通用智能的彼岸。
引用
-
多模态方法无法实现AGI·The Gradient·Benjamin Spiegel(2024/7/12)·检索日期2024/7/12 ↩︎ ↩︎ ↩︎ ↩︎
-
多模态方法与AGI:规模化并非万能解药- AI资讯- 冷月清谈·Xinfinite.net·冷月清谈(2024/7/12)·检索日期2024/7/12 ↩︎ ↩︎