TL;DR:
2026世界杯小组赛打完,12家国产大模型组团猜球,整体命中率61.9%,赢了人类7个百分点。但一遇到平局和冷门,AI集体扑街,命中率惨不忍睹。别急着喊“AI封神”——这哪是智能预测,分明是厂商借世界杯流量搞的一场大型“技术才艺展示”。
世界杯72场小组赛战罢,绿茵场上几家欢喜几家愁,而另一场“赛博竞猜”也交出了成绩单。
联想和咪咕攒了个局,把DeepSeek、通义千问、Kimi、腾讯混元等12家国产大模型拉上擂台,跟数万名人类玩家PK猜球。结果呢?AI整体命中率61.9%,人类54.6%——看起来AI赢了,但细看成绩单,这画风有点不对。
腾讯混元和中移九天并列第一,命中率68.1%,超过三分之二;百度文心、千问、DeepSeek以63.9%打成平手;垫底的阶跃星辰只有43.1%,连人类平均水平都没达到——排名头尾差了整整25个百分点,这差距比国足和巴西队的距离还大。[^1]
但更值得玩味的不是排名,而是AI到底赢在哪、栽在哪。
01. AI猜球:背公式满分,遇平局翻车
AI擅长猜什么?强弱分明的比赛。西班牙对沙特,12家AI里11家猜对;德国对库拉索,10家模型给出正确答案。这类比赛的特征很简单:世界排名、阵容身价、历史战绩一摆,基本就是“你妈都能猜对”的送分题。[^1]
正如某美企AI出海负责人曾小健所说:“大模型预测本质上是一台‘排序机器’——球队数据一加权,实力差距越大,排序结果越稳。”
但让AI集体“社死”的,是平局和冷门。整个小组赛阶段,AI预测平局的命中率最低,20场平局只猜中11次。
最经典的翻车现场:西班牙对阵首次参加世界杯的佛得角。11家大模型齐刷刷押西班牙赢,结果被佛得角门将一顿神扑,0-0闷平。一个球员的爆发、一次战术的执行,这些东西数据再大也量化不了。[^1]
为什么平局这么难猜?世界杯历史上平局比例也就20%-25%,模型天生倾向于输出明确答案——哪怕双方实力接近,它也得选一边站。大模型的机制决定了它必须“选边站”,而不是说“这局我看不准”。[^1]
02. 四种猜球姿势:从“套模板”到“真做题”
那猜对的模型到底是咋猜的?本质上不是预测,是“复述”——把足球评论员常说的话重新组织一遍。这也解释了为什么12家模型的预测经常高度一致:读的是同一批公开信息,用的是相似推理逻辑。[^1]
但在这层“复述”之下,技术路径分出了高下:
- 纯prompt工程:把球队信息塞进提示词,门槛最低,传播最快。但输出像“专家”,经不起统计检验——属于“看起来像那么回事”型。
- RAG检索增强:解决了信息新鲜度,但检索的信息可能片面——模型只会更有条理地得出片面结论。
- 多智能体协作:像小型分析团队在合作,但多个Agent的意见汇总不等于精度提升——架构复杂了,准确率未必跟着涨。
- 统计工具+大模型翻译:先用Elo评分、泊松进球模型跑概率分布,再让大模型“翻译”成白话。曾小健认为这是最合理的路径——足球预测首先是数学问题,其次才是语言问题。[^1]
但问题是,大多数厂商只在前两层打转。对厂商来说,优化预测靠的是数据工程——喂更多信息、写更好的prompt、接更全的数据源——而不是模型层面的突破。[^1]
03. 淘汰赛来了,“送分题”没了
小组赛结束,淘汰赛留下来的是经过筛选的32支强队,实力差距被大幅压缩。对AI来说,考场变了。
赛制也变了:小组赛输一场还能追,淘汰赛单场定生死。加时赛、点球大战在历史数据中样本极少,模型严重“经验不足”。Hongson提到,淘汰赛需要模型主动调整策略——提高低比分、平局和小差胜的权重,因为强队进入淘汰赛会变得谨慎。但大多数模型没这功能。[^1]
那AI到底能预测到什么程度?Hongson认为,天花板不在于算出唯一正确比分,而在于把概率、风险和可能的路径讲清楚。AI可以告诉你这场比赛更可能是低比分还是开放局,但它不能把足球变成确定性问题。[^1]
换句话说,AI面对的不是缺数据,而是面对一个本来就难以解决的不确定性问题。
04. 猜球是假,营销是真
大模型厂商为啥集体涌入世界杯预测?答案其实心照不宣:借四年一度的流量窗口,让用户直接感受到AI的“分析能力”。
厂商们清楚,世界杯提供了一个人人能看懂的场景——让大模型的能力从抽象的参数变成了具体的表现。猜球是个好载体:容易传播、容易让普通用户觉得AI“好像会分析”。比单纯展示榜单更有话题性。[^1]
三场活动的侧重点各不相同:
- 联想咪咕:做能力横评,12个模型同场竞技提升关注度
- 千问:预测嵌进用户互动和公益,走C端获客路线
- Kimi:展示Agent处理复杂任务的能力,预测只是载体[^1]
营销是出发点,但结果是透明的。世界杯预测真正有价值的地方,不在于谁能猜对更多比分,而在于它提供了一个高不确定性决策的实验场——这套方法论可以迁移到商业选品、营销投放、舆情判断等领域。关键不是照搬比分模型,而是把影响结果的变量结构化,用概率表达判断,每次结果出来后再进行复盘校准。[^1]
曾小健说得精准:AI最合适的角色是决策辅助系统——更快整理信息、识别关键变量、生成情景分析、评估不同结果的风险。它不是最终拍板者。[^1]
所以,下次看到XX大模型“精准预测”某场比赛时,别急着喊“牛逼”——它可能只是把公开数据复述了一遍,运气好蒙对了而已。真正的考试,在淘汰赛才刚刚开始。