TL;DR:
随着大模型预训练的红利见顶,AI的下一个前沿将是构建能模拟真实世界的“世界模型”和多模态统一表征。DeepSeek R2的延期发布不仅映射了这一范式转变的挑战,更暴露了在地缘政治背景下,国产AI算力生态在性能、成本与易用性上的深层困境,预示着未来AI竞赛将是技术、资本与地缘策略的全面较量。
“预训练时代已经结束”,这个在2024年年底由深度学习先驱提出的论断,正以惊人的速度被现实所验证。长期以来,大语言模型(LLM)的突破主要依赖于“规模化法则”(Scaling Law):更大规模的数据、更大的参数量、更强的算力。通过预测下一个Token的简单任务,LLM实现了对语言世界的高效拟合,并在诸多应用中展现出惊人的“涌现能力”。然而,这种增长模式正在逼近其自然极限,而DeepSeek R2的最新动态,则成为观察这一“拐点”的绝佳窗口。
大模型预训练的“天花板”与多模态的黎明
语言作为一种离散信号,其表征相对容易被压缩和高效处理。正如《The Platonic Representation Hypothesis》一文所揭示的,多任务目标的训练引导模型走向更紧致、更高质量的解决方案空间,规模化能够推动表征收敛,逼近对真实世界的高效拟合。然而,语言终究只是现实世界的单一映射,而非其直接构建或感知。这正是LeCun等学者将LLM戏称为“随机鹦鹉”的症结所在——它们在数学上依靠高维向量进行统计拟合,而非真正意义上的语义理解或常识推理。
当前LLM面临的瓶颈是多方面的:一方面,高质量、有用的人类语言数据正在被消耗殆尽,这使得单纯依靠数据和参数的无限膨胀来获取边际递增效应变得越来越困难。另一方面,语言模型固有的局限性在于其缺乏对物理世界的直接感知和统一表征能力。人脑通过多模态信息进行高效压缩,实现对现实世界的建模和预测;而LLM则通过单一语言模态,将词句转化为向量进行模式匹配。这种根本性的差异,导致了LLM在常识、推理和对复杂物理规律的理解上存在先天缺陷。
因此,学术界和产业界的目光正从单一模态的语言预训练转向多模态统一表征。这被视为继大语言模型之后的下一个重大突破方向。其核心在于寻找一种能够高效压缩、处理并建模多种模态(如视觉、听觉、语言)信息的方法,并最终生成与真实三维空间保持一致、能完全遵循物理规律的**“世界模型”**。Richard Sutton的“苦涩的教训”也昭示,真正意义上的突破往往源于简单算法、通用规则和可执行计算的规模化,而非在现有范式上进行耗尽心力的浅层优化。这意味着,若DeepSeek R2依旧停留在语言信息符号化压缩范畴,其带来的突破性可能将低于资本和产业界的期望,成为“锦上添花的续貂之作”。
商业化瓶颈与产业期待的落差
尽管LLM在ToC和ToB领域都取得了大规模实用,并吸引了巨额投资,但其日益增长的训练成本、对高质量数据的极度依赖以及在真正“智能”层面的争议,正使其商业化前景面临新的审视。对于资本而言,他们渴望的是能够带来指数级增长和全新市场空间的“范式转移”,而非边际效益递减的增量改进。
DeepSeek作为国产大模型的代表之一,其R2模型的发布无疑牵动着产业的神经。如果其核心突破点仍在于更大参数量、更优数据配比或对Transformer架构的“深度改进”,而非在多模态统一表征上实现根本性创新,那么它很可能将面临与GPT-5相似的境遇:在技术指标上有所提升,但在核心能力上未能实现质的飞跃。这不仅会使得初期被吊足胃口的资本感到失望,也可能促使整个产业对当前LLM商业模式的持续性进行更深层次的反思。AI产业的下一轮估值增长,将取决于是否能从“效率工具”向“世界理解者”进行跃迁。
算力版图重塑:地缘政治下的芯片博弈
DeepSeek R2的发布延迟,揭示了一个更深层次且更具战略意义的困境:算力基础设施的地缘政治博弈。 据外媒消息,DeepSeek在尝试使用华为昇腾芯片集群替换其之前依赖的英伟达GPU进行R2模型的核心训练工作时,遭遇了“持续的技术问题”,导致发布计划被迫推迟。
这一事件并非孤立。在当前复杂的地缘政治格局下,芯片供应链的自主可控成为各国科技战略的重中之重。中国AI企业转向国产算力平台是必然趋势,但这也伴随着巨大的技术和经济成本。
具体来看,华为昇腾910C芯片,被设计为两颗昇腾910B芯片的“低速CoWoS封装”。尽管华为CloudMatrix 384超节点AI算力集群方案,以384颗昇腾芯片对标英伟达GB200 NVL72方案的74颗芯片,并声称在光互连技术上领先英伟达和AMD当前市售产品一整代,但其核心挑战在于单颗芯片的性能和互联效率。
根据可靠分析,昇腾910C在FP16精度下可实现约800 TFLOP/s的算力,内存带宽约3.2 TB/s,这仅相当于英伟达上一代H100(2022年发布)的约80%,且逻辑芯片面积多出60%1。更关键的是,其双die互联带宽可能比英伟达的解决方案低10–20倍,这使得它在超大规模模型训练中,其内存带宽成为了关键瓶颈,难以“喂饱”计算单元2。尽管国产芯片在芯片利用率上已取得进展(如DeepSeek R2基于昇腾910B训练,芯片利用率高达82%,相比A100集群的91%已接近)3,但更大的电力消耗、更高的发热量、更不可预测的通信问题,以及三倍于GB200 NVL72的整机系统售价,都增加了巨大的挑战。
更不容忽视的是生态系统和工具链的鸿沟。英伟达CUDA平台凭借其数十年的积累,建立了无可匹敌的软件生态和编译器优化能力,确保了AI算力的真实利用率。国产芯片平台要从零开始追赶,需要克服的困难是几何级增长的。DeepSeek的遭遇,正是中国AI产业在追求算力自主过程中的一个缩影:国产替代不仅是硬件性能的追赶,更是软件生态、工程化稳定性及整体成本效益的全面考量。
展望:走向具身智能与通用世界模型
预训练时代的“终结”并非AI发展的尽头,而是迈向更高智能阶段的序章。未来3-5年,我们可能看到以下趋势:
- 多模态融合加速:研究重点将从单一模态向跨模态理解与生成转移,寻求“模态无关的通用现实表征”。这将催生更接近人类感知和认知方式的AI系统。
- “世界模型”的突破:能够模拟物理世界规律,进行复杂推理和规划的“世界模型”将成为通用人工智能(AGI)道路上的关键里程碑。这需要AI不仅能理解语言,更能理解视觉、听觉,并进行三维空间内的交互。
- 小而精的模型与专用智能:在泛化能力提升的同时,针对特定领域进行深度优化的小型模型将更具成本效益和部署灵活性。
- 算力与算法的协同演进:AI芯片的竞争将从单纯的算力堆叠转向更注重能效、互联带宽和软件生态的协同优化。地缘政治将持续推动区域化算力生态的形成,但全球AI技术交流的必要性仍将长期存在。
- 伦理与治理的优先级提升:随着AI能力边界的拓展,对“常识匮乏”、“推理争议”等根本性问题的解决,以及对AI安全、偏见和治理的探讨将变得更加紧迫和重要。
DeepSeek R2的路径选择——无论是技术路线上的坚持,还是硬件平台上的尝试——都反映了当前AI发展面临的深层困境与抉择。它不仅是模型能力的迭代,更是关于AI发展方向、算力主权和商业可持续性的宏大叙事中的一个重要篇章。降低对当前迭代的“突破性”预期,反而能够让我们更清晰地看到,AI的真正未来在于摆脱语言的束缚,拥抱多元且统一的现实世界表征。
引用
-
只欠“昇腾”?DeepSeek R2延迟揭开华为芯片的残酷真相·知乎专栏·无名氏(2024/7/24)·检索日期2024/7/24 ↩︎
-
只欠“昇腾”?DeepSeek R2延迟揭开华为芯片的残酷真相·知乎专栏·无名氏(2024/7/24)·检索日期2024/7/24 ↩︎
-
1.2万亿参数+成本暴跌97%!国产大模型DeepSeek R2即将 ...·知乎专栏·无名氏(2024/7/24)·检索日期2024/7/24 ↩︎