TL;DR:
清华系初创团队万格智元通过端侧推理引擎技术,试图将大模型运行成本从昂贵的云端“租赁”转变为低廉的本地“拥有”。这一技术路径不仅缓解了企业的Token账单焦虑,更可能在终端设备领域催生出下一个计算范式。
如果说过去一年大模型的争霸是一场“算力军备竞赛”,那么所有的参与者都在潜意识里默认了一个逻辑:所有的智能皆出自云端那座昂贵的“中央处理器”。然而,当企业发现Token的账单增长速度远快于其业务增长速度时,这场由硅谷巨头主导的游戏便露出了其残酷的商业底色。万格智元(Vangge)的出现,正是试图将这场烧钱游戏从云端拖回到终端的“冷静派”。
算力与内存的“战术博弈”
万格智元CEO王冠博的选择是典型的“逆向投资”思维:在资本疯狂涌向云端规模化训练的背景下,他带领一支平均年龄近乎00后的团队,一头扎进了端侧部署的“深水区”。其核心逻辑在于将底层推理引擎cPilot打造为硬件与模型之间的“翻译官”。
这并非仅仅是一次技术优化,而是一次深刻的商业资源重组。通过优化模型在内存中的占用空间,万格智元宣称能让32GB内存的设备运行起以往需要云端服务器才能驱动的80B参数量大模型。用王冠博的话说,这为硬件厂商直接削减了约2000元的单机成本——在利润微薄的硬件制造领域,这无疑是一份充满诱惑的投名状。
“在相同内存开销下,我们的端侧推理方案速度至少快了12倍。”1
这种“动态稀疏化”算法,本质上是对算力分配效率的极致压榨。通过精准预测推理过程中的参数需求,万格智元不仅解决了隐私与延迟的顽疾,更将模型推理从“即时消耗品”转变成了“一次性硬件投资”。
商业模式的“降维打击”
万格智元并非试图颠覆云端,而是选择了一种更圆滑的中间路线。其端侧智能平台Amis扮演了“调度中枢”的角色:简单的任务本地化处理以实现零Token成本,复杂的决策再请求云端。这种“端云协同”的模式,恰恰击中了当前企业追求性价比与安全性的痛点。
随着DeepSeek与小米等巨头在API定价上开启价格战,这不仅是市场竞争的缩影,更是行业对于“模型通用化”认知的一个转折点。当Token变得廉价,算力将像电力一样,成为每一台智能设备的配置,而非云端厂商的溢价工具。
然而,对于万格智元而言,挑战才刚刚开始。从软件中间层切入虽然具备轻资产优势,但在芯片底层架构尚未收敛的阶段,硬件平台的标准化依然是一个巨大的未知数。如果说现在的万格智元是在为他人做嫁衣,那么其真正的野心——自研端侧芯片或硬件,则意味着要进入一个供应链深度极深的“重资产丛林”。
在这个浪潮中,我们看到的是:算力正在从中心化的“云帝国”向分布式的“边缘州郡”下放。万格智元们押注的,正是那个“硬件即AI”的时代。在这个时代,用户的智能体验不再取决于云端服务器的调度水平,而取决于他手中设备那几颗芯片的运算效率。这不仅是一场技术上的突破,更是一场关于“谁拥有智能”的权力再分配。
引用
-
连续完成五源、峰瑞两轮数千万元融资,清华00后团队要解决Token账单焦虑|智能涌现首发·36氪·王欣逸(2026/6/1)·检索日期2026/6/1 ↩︎