TL;DR:
谷歌 Gemma 4 突然开源,主打一个“全模态+口袋化”,iPhone 用户下载个官方 App 就能离线白嫖 AI。这波“性能小钢炮”速度快到飞起,AI 圈的 0 Token 时代可能真的要被这一届手机端模型给“卷”出来了。
科技圈最近又开始“不讲武德”了。前几天谷歌刚把 Gemini 3 的技术架构拿出来开源,变身成了全新的 Gemma 4。这玩意儿一出,就像往已经沸腾的端侧 AI 锅里又丢了一颗深水炸弹。
别再迷信云端了,手机里也有“魔法”
以前在手机上跑大模型,不是卡得像幻灯片,就是对操作系统的“黑话”有极高要求。但这次 Gemma 4 走的是“亲民路线”。谷歌直接发布了官方 App——Google AI Edge Gallery,想体验的人不需要懂什么 Python 或者配置环境,直接去 App Store 搜一下,下载模型就能跑12。
这次 Gemma 4 提供了几个非常适合“装进口袋”的型号,比如 E2B(有效参数 2.3B) 和 E4B(有效参数 4.5B)。在 iPhone 17 Pro 上,配合苹果自家的 MLX 框架(针对 Apple Silicon 优化的机器学习全家桶),推理速度竟然可以超过 40 token / 秒1。
调侃点评: 这个速度是什么概念?就是你还没读完第一行,它已经把整篇小作文写完了。这哪是跑模型,这简直是在手机里塞了个速读冠军。
更狠的是,它是原生全模态。这意味着你可以在断网的情况下,让手机本地处理图片、音频,甚至控制手电筒开关13。有人在三星 Galaxy 上开启“思考模式”跑 Gemma 4,速度依然稳如老狗,这种“离线也不变弱智”的体验,才是真正的 AI 手机该有的样子3。
性能小钢炮:是骡子是马,拉出来遛遛
虽然在手机端表现惊艳,但 Gemma 4 是不是真的能拳打 OpenAI,脚踢 Anthropic 呢?有人在顶级配置的 M5 Pro MacBook Pro 上测试了更强的 Gemma 4 Mixture-of-Experts (MoE) 26B 版本1。
结论很有趣:如果只是普通的聊天、写代码解释,它确实快得像魔法。但如果你想把它当成一个真正的 Coding Agent(那种能自动改 Bug、创建文件的智能体),Gemma 4 就有点“掉链子”了。在处理复杂 Prompt 和多步工具调用时,它容易出现输出结构错误或者卡死的情况1。
相比之下,同样环境下的 Qwen 3 Coder 却稳得像个老中医。这说明,虽然 Gemma 4 智力在线,但在“工具调用+结构化输出”这类精细活儿上,谷歌可能还没把它完全训练成“顶级技工”1。
0 Token 时代:谁笑了?谁哭了?
Gemma 4 的爆火其实释放了一个强烈的信号:端侧 AI 的“蚕食计划”开始了。
- 对于普通用户: 以后日常的简单查询、摘要提取、甚至是简单的图像理解,完全可以本地解决。不花钱、不费流量、还保护隐私,谁还去给云端厂商送 Token 钱?
- 对于开发者: 128k 甚至 256k 的超长上下文窗口,让端侧模型也能处理长文档。只要硬件跟得上,本地 Agent 不是梦。
- 对于云端厂商: 如果高频、简单的任务都被本地模型抢走了,那些只靠卖 API 额度的厂商可就尴尬了。他们必须得在“超强推理”和“复杂多代理协作”这些硬核领域卷出天际,才能守住自己的饭碗。
虽然目前 Gemma 4 与顶级的闭源模型(如 Claude 4 或 GPT-5 等臆想型号)还有差距,但正如某位 X 用户所说:“当你在没有网的地方也不会变弱智时,AI 才真正属于你3。”
Gemma 4 可能只是一个序幕。当“本地”和“云端”的边界彻底模糊,那一天,才是 AI 产业商业模式真正大洗牌的时刻。
引用
-
iPhone本地跑Gemma 4火了,0 token时代还有多远? · 机器之心 · 机器之心编辑部 (2026/4/6) · 检索日期 2026/4/6 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
在移动设备上部署Gemma · Google AI for Developers (2025/9/11) · 检索日期 2026/4/6 ↩︎
-
可以在手机上本地离线跑,Google最新的Gemma 4 开源AI模型 · X (Twitter) · howlemont (2026/4/6) · 检索日期 2026/4/6 ↩︎ ↩︎ ↩︎