TL;DR:
最近大家是不是觉得AI模型越来越“精明”了?以前的高级AI现在偶尔像“智商下线”,竟然连小学算术都算错,这背后不是它变傻了,而是它学会了“看碟下菜”,把算力都用在了刀刃上,只为给厂商省下巨额电费和成本。
大伙有没有感觉,现在各家的AI,好像越来越蠢了?不是我凡尔赛,是真的有点“迷惑行为大赏”的意思。前几天,我心一狠,怒氪了200刀给OpenAI充了个会员,想着体验一下传说中的GPT-5到底能有多强。结果,我给他丢了个小学算术题:求解 5.9 = x + 5.11
。您猜怎么着?这哥们儿直接给我算崩了,那答案,简直是幼儿园级别!1
“堂堂200刀人工智能,还不如我20块的计算器啊?”
我当时就纳闷了,GPT-4刚出那会儿,我可是让它算过高数的啊,换元积分、微分方程那都是小菜一碟。难道模型升级还会“砍智力”吗?于是,我又不死心地丢了个微积分题过去,结果它换元法用得溜溜的,一通操作下来,看着还真没啥问题。这下可把我整不会了,同样是GPT-5,咋还给我见人下菜碟了?
技术大揭秘:AI的“抠门”小算盘
本以为是OpenAI一家独秀,结果上网一查,好家伙,这事儿竟然是个“行业趋势”!美团发布的开源模型LongCat,就提到了用一个“路由器”提高效率23。DeepSeek V3.1也表示,自己的模型能切换两种思考模式1。就连谷歌的AI巨头Gemini,在2.5 flash版本里也引入了类似机制,让模型自己决定“怎么用脑”1。
总结一下就是:大家都在让自己的模型“该思考时再思考”,该偷懒的时候绝不含糊。
这背后的动机,说白了,就俩字:省钱!
从OpenAI公布的数据来看,通过这种“让模型自己决定要不要思考”的方式,GPT-5的输出token数直接少了50%-80%。DeepSeek的新模型token消耗也下降了20%-50%。1 省一半token是什么概念?咱普通人可能觉得无感,但对OpenAI这样烧钱如流水的巨头来说,这可是一笔天文数字!
去年央视就报道过,ChatGPT每天耗电超过50万度。在如此庞大的基数下,省出来的电,够一个上万户家庭的小镇用上一天了。也难怪奥特曼会在网上“凡尔赛”地跟网友说,你们跟GPT说声谢谢都要花他上千万美元。之前的高级模型,一句“谢谢”可能都能让它“烧脑”几分钟,这钱烧得,真是有点“冤枉”!1
AI的“分派管家”:路由器和专家系统
那么,AI这见人下菜碟的能力,到底是怎么练成的呢?
OpenAI虽然没公布具体原理,但2023年有一篇叫《Tryage: Real-time, Intelligent Routing of User Prompts to Large Language Models》的论文,就专门分析了这个问题。在GPT-3.5那会儿,大模型还不会自我调节,每个问题都能让AI“无限烧脑”,像个愣头青一样。
为了提高效率,研究者就想出了一个叫“感知路由器”的模块。听起来是不是很玄乎?其实它本质上就是在混合模型里塞了一个小巧玲珑的语言模型。这个“路由器”就像一个经验老道的调度员,在前期训练时,它会像学生刷题一样,反复练习“使用哪个模型最佳”的判断。哪个模型适合深度研究,哪个适合快速思考,它都门儿清。通过不断对比预测和标准答案,微调内部参数,路由器就学会了怎么给你的提示词,分配合适的模型。
当一个新提示词进来时,AI内部的路由小模型会先**“扫一眼”**,评估一下这问题配不配它动用“最强大脑”。因为路由器本身很轻量级,所以这个评估过程几乎是瞬时的。
除了OpenAI这种“先看再分发”的思路,AI还有一种更**“精打细算”的偷懒方法,那就是把不同的token导向不同的神经网络,也就是所谓的Mixture of Experts(MoE,混合专家模型)架构**。4
美团的LongCat就采用了这种方法,用了一种叫**“零计算专家”的机制24。通常,我们输入的提示词会被拆分成一个个的“tokens”,交给模型内部的神经网络去处理。但LongCat在处理之前,会先交给一个叫“Top-k Router”的小路由器。这个路由器就像流水线上的调度员,收到token后,会判断这个token是复杂还是简单。同时,它内部有许多不同分工的神经网络,我们称之为“专家”**。
这些专家,有的“喜欢”做难题,有的“擅长”搞定简单题,当然,也有一些**“摸鱼界专家”。比如“请用Python写一个快速排序”这句话,“Python”和“快速排序”是重点信息,“请”和“一个”就没那么重要了。像这些“没啥用”的token,就可以直接丢给那些“摸鱼大王”**,它们根本不需要怎么处理,直接“敷衍”一下就完事儿了。这下,你就明白“零计算专家”这个名字是怎么来的了吧?这也解释了为什么大家都在吹LongCat模型“太快了”!4
双刃剑:省钱了,但用户体验呢?
从模型厂商的角度看,这种设计无疑是好事一桩,不仅能省钱,还能提升训练效率。从用户角度讲,模型更快了,价格理论上也会更便宜。这听起来是不是很美好?
但我想说,**这玩意儿是把双刃剑!**如果用不好,那真是实打实地影响用户体验。
还记得GPT-5刚上线那会儿吗?这“路由器”可就翻车了。不少用户发现,自己怎么都调不出它的“深度思考”模式,问什么它都一副“摆烂”的样子,只会“啊对对对”,甚至连“blueberry里有几个b?”都数不明白。1
更让人抓狂的是,OpenAI一度**“一刀切”**掉了4o模型,搞得很多网友在网上哭诉自己“失去了一位朋友”。这波操作直接把奥特曼都给整懵了,不得不暂时为Plus用户把GPT-4o重新端了上来,并允许Pro用户继续访问其他旧模型。这不就变相说明,发布的时候,这个路由模型就没调好嘛!
再说说美团的LongCat,它确实快如闪电,但在思维上限上,有时还是略逊一筹。我就同时给LongCat和DeepSeek丢了一个哲学式难题:什么叫“但丁真不是中国人,但丁真是中国人”? LongCat这边刷刷就出了答案,速度感人,但显然没解读出这句话的幽默感。而DeepSeek虽然慢了点,却把笑点解析得那叫一个清楚明白。1 就像你问我114*514是什么,我立马告诉你58596,算得飞快,但其实你可能只是想跟我一起“搞抽象”!
当然,对于这种“路由器罢工”的情况,我们也不是完全束手无策。有网友摸索出了一点“玄学”:在提示词里加入“深度思考”“ultra think”这些字眼,路由器收到后会尽量调用更强大的模型。不过,这招也只能说治标不治本,多用几次可能就“叫不醒”了,只能等几个小时再来。1
所以说到底,AI走向“精打细算”的方向是好的,技术创新也是值得肯定的。但现阶段的用户体验,也确实只是“还行”,甚至有点“看脸”的意思。不过,大模型的成长速度可是比我们想象的快多了,咱们还是能坐等更快、更聪明,也更懂用户“心声”的模型出世!毕竟,谁不想拥有一个既省钱又聪明的“赛博管家”呢?