摆脱“Token焦虑”：万格智元如何将算力“私有化”

TL;DR：

清华系初创团队万格智元通过端侧推理引擎技术，试图将大模型运行成本从昂贵的云端“租赁”转变为低廉的本地“拥有”。这一技术路径不仅缓解了企业的Token账单焦虑，更可能在终端设备领域催生出下一个计算范式。

如果说过去一年大模型的争霸是一场“算力军备竞赛”，那么所有的参与者都在潜意识里默认了一个逻辑：所有的智能皆出自云端那座昂贵的“中央处理器”。然而，当企业发现Token的账单增长速度远快于其业务增长速度时，这场由硅谷巨头主导的游戏便露出了其残酷的商业底色。万格智元（Vangge）的出现，正是试图将这场烧钱游戏从云端拖回到终端的“冷静派”。

算力与内存的“战术博弈”

万格智元CEO王冠博的选择是典型的“逆向投资”思维：在资本疯狂涌向云端规模化训练的背景下，他带领一支平均年龄近乎00后的团队，一头扎进了端侧部署的“深水区”。其核心逻辑在于将底层推理引擎cPilot打造为硬件与模型之间的“翻译官”。

这并非仅仅是一次技术优化，而是一次深刻的商业资源重组。通过优化模型在内存中的占用空间，万格智元宣称能让32GB内存的设备运行起以往需要云端服务器才能驱动的80B参数量大模型。用王冠博的话说，这为硬件厂商直接削减了约2000元的单机成本——在利润微薄的硬件制造领域，这无疑是一份充满诱惑的投名状。

“在相同内存开销下，我们的端侧推理方案速度至少快了12倍。”¹

这种“动态稀疏化”算法，本质上是对算力分配效率的极致压榨。通过精准预测推理过程中的参数需求，万格智元不仅解决了隐私与延迟的顽疾，更将模型推理从“即时消耗品”转变成了“一次性硬件投资”。

商业模式的“降维打击”

万格智元并非试图颠覆云端，而是选择了一种更圆滑的中间路线。其端侧智能平台Amis扮演了“调度中枢”的角色：简单的任务本地化处理以实现零Token成本，复杂的决策再请求云端。这种“端云协同”的模式，恰恰击中了当前企业追求性价比与安全性的痛点。

随着DeepSeek与小米等巨头在API定价上开启价格战，这不仅是市场竞争的缩影，更是行业对于“模型通用化”认知的一个转折点。当Token变得廉价，算力将像电力一样，成为每一台智能设备的配置，而非云端厂商的溢价工具。

然而，对于万格智元而言，挑战才刚刚开始。从软件中间层切入虽然具备轻资产优势，但在芯片底层架构尚未收敛的阶段，硬件平台的标准化依然是一个巨大的未知数。如果说现在的万格智元是在为他人做嫁衣，那么其真正的野心——自研端侧芯片或硬件，则意味着要进入一个供应链深度极深的“重资产丛林”。

在这个浪潮中，我们看到的是：算力正在从中心化的“云帝国”向分布式的“边缘州郡”下放。万格智元们押注的，正是那个“硬件即AI”的时代。在这个时代，用户的智能体验不再取决于云端服务器的调度水平，而取决于他手中设备那几颗芯片的运算效率。这不仅是一场技术上的突破，更是一场关于“谁拥有智能”的权力再分配。

引用

连续完成五源、峰瑞两轮数千万元融资，清华00后团队要解决Token账单焦虑｜智能涌现首发·36氪·王欣逸（2026/6/1）·检索日期2026/6/1 ↩︎