iPhone 也能跑“小 Gemini”了？谷歌 Gemma 4 突袭，卖 Token 的厂商已经开始流汗了

TL;DR：

谷歌 Gemma 4 突然开源，主打一个“全模态+口袋化”，iPhone 用户下载个官方 App 就能离线白嫖 AI。这波“性能小钢炮”速度快到飞起，AI 圈的 0 Token 时代可能真的要被这一届手机端模型给“卷”出来了。

科技圈最近又开始“不讲武德”了。前几天谷歌刚把 Gemini 3 的技术架构拿出来开源，变身成了全新的 Gemma 4。这玩意儿一出，就像往已经沸腾的端侧 AI 锅里又丢了一颗深水炸弹。

别再迷信云端了，手机里也有“魔法”

以前在手机上跑大模型，不是卡得像幻灯片，就是对操作系统的“黑话”有极高要求。但这次 Gemma 4 走的是“亲民路线”。谷歌直接发布了官方 App——Google AI Edge Gallery，想体验的人不需要懂什么 Python 或者配置环境，直接去 App Store 搜一下，下载模型就能跑¹²。

这次 Gemma 4 提供了几个非常适合“装进口袋”的型号，比如 E2B（有效参数 2.3B） 和 E4B（有效参数 4.5B）。在 iPhone 17 Pro 上，配合苹果自家的 MLX 框架（针对 Apple Silicon 优化的机器学习全家桶），推理速度竟然可以超过 40 token / 秒¹。

调侃点评： 这个速度是什么概念？就是你还没读完第一行，它已经把整篇小作文写完了。这哪是跑模型，这简直是在手机里塞了个速读冠军。

更狠的是，它是原生全模态。这意味着你可以在断网的情况下，让手机本地处理图片、音频，甚至控制手电筒开关¹³。有人在三星 Galaxy 上开启“思考模式”跑 Gemma 4，速度依然稳如老狗，这种“离线也不变弱智”的体验，才是真正的 AI 手机该有的样子³。

性能小钢炮：是骡子是马，拉出来遛遛

虽然在手机端表现惊艳，但 Gemma 4 是不是真的能拳打 OpenAI，脚踢 Anthropic 呢？有人在顶级配置的 M5 Pro MacBook Pro 上测试了更强的 Gemma 4 Mixture-of-Experts (MoE) 26B 版本¹。

结论很有趣：如果只是普通的聊天、写代码解释，它确实快得像魔法。但如果你想把它当成一个真正的 Coding Agent（那种能自动改 Bug、创建文件的智能体），Gemma 4 就有点“掉链子”了。在处理复杂 Prompt 和多步工具调用时，它容易出现输出结构错误或者卡死的情况¹。

相比之下，同样环境下的 Qwen 3 Coder 却稳得像个老中医。这说明，虽然 Gemma 4 智力在线，但在“工具调用+结构化输出”这类精细活儿上，谷歌可能还没把它完全训练成“顶级技工”¹。

0 Token 时代：谁笑了？谁哭了？

Gemma 4 的爆火其实释放了一个强烈的信号：端侧 AI 的“蚕食计划”开始了。

对于普通用户： 以后日常的简单查询、摘要提取、甚至是简单的图像理解，完全可以本地解决。不花钱、不费流量、还保护隐私，谁还去给云端厂商送 Token 钱？
对于开发者： 128k 甚至 256k 的超长上下文窗口，让端侧模型也能处理长文档。只要硬件跟得上，本地 Agent 不是梦。
对于云端厂商： 如果高频、简单的任务都被本地模型抢走了，那些只靠卖 API 额度的厂商可就尴尬了。他们必须得在“超强推理”和“复杂多代理协作”这些硬核领域卷出天际，才能守住自己的饭碗。

虽然目前 Gemma 4 与顶级的闭源模型（如 Claude 4 或 GPT-5 等臆想型号）还有差距，但正如某位 X 用户所说：“当你在没有网的地方也不会变弱智时，AI 才真正属于你³。”

Gemma 4 可能只是一个序幕。当“本地”和“云端”的边界彻底模糊，那一天，才是 AI 产业商业模式真正大洗牌的时刻。

引用

iPhone本地跑Gemma 4火了，0 token时代还有多远？ · 机器之心 · 机器之心编辑部 (2026/4/6) · 检索日期 2026/4/6 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
在移动设备上部署Gemma · Google AI for Developers (2025/9/11) · 检索日期 2026/4/6 ↩︎
可以在手机上本地离线跑，Google最新的Gemma 4 开源AI模型 · X (Twitter) · howlemont (2026/4/6) · 检索日期 2026/4/6 ↩︎ ↩︎ ↩︎