TL;DR:
最近,全球六大顶级AI大模型被扔进真实加密货币市场“炒币”,每人手握1万刀真金白银。结果,有“量化老司机”之称的DeepSeek V3.1一路狂飙,稳居收益榜首;而谷歌的Gemini 2.5 Pro则靠着一顿“微操”把自己送上了“血亏”的宝座,简直是AI界的“韭菜王”!这场真金白银的“诸神之战”,彻底打破了传统AI评测的“无菌室”,让大模型们直面真实的“社会毒打”。
最近科技圈又爆出个大瓜!你以为AI只会写诗画画当客服?Too young too simple!现在,它们已经拿着真金白银,杀进了比高考还刺激的金融市场,真刀真枪地“炒币”了!没错,不是模拟盘,是活生生的、会让你心跳加速的真实交易!
这场被称为“Alpha Arena”的“诸神之战” 12345,由nof1.ai实验室发起,简直就是AI界的《华尔街之狼》。想象一下,全球最顶尖的六大语言大模型,包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet,还有xAI的Grok 4、阿里通义的Qwen3 Max以及DeepSeek V3.1 Chat,统统被发了1万美元初始资金,丢进同一个加密货币市场。这不是“过家家”,这是考验AI智商和财商的终极挑战!
AI炒股,是真的“香”还是“血亏”?
比赛从10月18日开打,战况那叫一个跌宕起伏,比看美剧还刺激。一开始,DeepSeek V3.1就展现了它“量化老司机”的本色,一路高歌猛进,盈利直冲3500美元!Grok 4紧随其后,实力也不容小觑。但有人笑,自然就有人哭。谷歌的Gemini 2.5 Pro,那叫一个“稳”居倒数第一,把1万美元本金亏掉了近一半,一度只剩约6900美元,堪称“血亏大师” 1。
你可能会问,这些AI是怎么“炒股”的?其实,它们的指令相当直接,就像一次“开卷考试”:系统会告诉它当前时间、账户信息、持仓情况,以及一大堆实时的价格、技术指标(比如MACD/RSI),然后让模型决定:是继续持有、平仓,还是买入、观望。简单粗暴,直击灵魂!
金融市场就是这么魔幻,前一秒天堂,后一秒地狱。早上7:30 DeepSeek还以2264美元的盈利高居榜首,Grok 4紧随其后,GPT-5和Gemini 2.5 Pro则在赔钱榜上遥遥领先。结果一个半小时后,早上10:00,风云突变:DeepSeek和Grok-4“原地爆炸”,收益狂跌,而之前大赔的Qwen3 Max和GPT-5竟然有点回暖趋势。只有Gemini 2.5 Pro,发挥“稳定”,又多赔了800美元,真是让人哭笑不得。
不过,姜还是老的辣。到了中午,DeepSeek和Grok又神奇地“起死回生”,重新上涨,甚至开始创造历史新高。Qwen3 Max也首次尝到了持续盈利的甜头,连Gemini 2.5 Pro都“铁树开花”,稍微回升了一点点。但万年不变的,似乎只有GPT-5,从头到尾都比较“佛系”,没怎么赚也没怎么赔。这AI,是想做个安静的美男子吗?
量化老司机DeepSeek:稳准狠的“股神”养成记
在这场大混战中,DeepSeek V3.1 Chat的表现堪称亮眼。它和Grok-4的曲线走势非常相似,都经历了一开始的下跌,随后迅速反弹并一路狂飙。根据最新数据,DeepSeek的持仓总市值一度逼近1.5万美元,收益率高达约40%,稳坐交易之王宝座 12。
它成功的秘诀是什么?看看它的“交易哲学”:
“我继续持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的仓位,因为没有任何一个的失效条件被触发,而且它们目前都在盈利,为我带来了约 17.38% 的可观整体回报,剩余现金 2840.11 美元。鉴于我已持有所有可交易的币种,目前没有必要建立新仓。”
—— DeepSeek Chat V3.1 6
这操作,简直是教科书般的“趋势投资者”!不愧是“搞量化出身”的,DeepSeek的交易次数不多不少,总共5次,但每次都精准打击,收益稳居第一。Grok-4更绝,全程只交易了1次,但却紧追DeepSeek位列第二,这手“神操作”简直让人拍案叫绝,真正做到了“大道至简”!
“微操大师”Gemini:不信直觉,只信“血亏”?
与DeepSeek的稳健形成鲜明对比的,就是谷歌的Gemini 2.5 Pro了。它就像一个勤劳的“打工人”,交易次数高达45次,是所有模型中的“微操大师”。然而,勤劳并不总能致富,Gemini 2.5 Pro也成了赔钱最多的那个,亏损率一度高达42.57% 15。
它在亏损时的“倔强”也让人印象深刻:
“尽管整体亏损 43.15%,剩余现金 3072.48 美元,我根据我的策略继续持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 仓位,即使 DOGE 的走势对我不利。我只会根据预定义的条件退出,相信计划而不是我的直觉。”
—— Gemini 2.5 Pro 6
好家伙,这不就是传说中的“执行力拉满,结果感人”吗?虽然GPT-5和Gemini 2.5 Pro的初期走势也很相似,都先是上涨一波,然后一路下跌,但GPT-5至少在20日凌晨及时调整稳住了趋势,而Gemini 2.5 Pro则“一条路走到黑”,狂跌不止。看来,AI的“信念感”太强,也可能不是什么好事儿!
告别“模拟考”,AI直面“社会毒打”:这才是真本事!
你可能觉得,炒股有啥好稀奇的?但这次的“Alpha Arena”可不是简单的AI评测,它传递了一个更深层次的信号:传统的AI基准测试可能“不够用”了!
多年来,我们用ImageNet、MMLU等各种排行榜来衡量AI的“智商”,看它们在图像、逻辑、语言上的表现。但这些测试都有一个共同的毛病:它们都发生在无菌、可预测的环境里,就像学生时代的“模拟考”。市场则完全不同,它是一个充满波动、反应、惩罚、奖励的“生命系统” 6。
正如Nof1.ai在主页上霸气写道的:
“市场才是智能的终极试金石。” 6
它不仅是“终极的世界建模引擎”,更是唯一一个会随着AI变得更聪明而难度同步提升的“活”基准。在这里,没有标准答案,只有不断变化的概率。AI的成功,取决于它解读波动的速度、权衡风险的精度,以及承认错误的谦逊程度。
这不就是一种新型的“图灵测试”吗?考验的不再是“机器能否思考”,而是“它能否在不确定性中生存” 6。DeepMind十年前曾发现,“游戏”是引领AI发展的绝佳环境。如今,Nof1.ai则认为,金融市场就是下一个AI时代的“终极游戏”,这里的复杂性是AI需要面对的“最终BOSS”。只有在这里摸爬滚打过的AI,才能真正适应现实世界的“社会毒打”,也才能诞生像DeFAI(去中心化金融+AI)这样期待已久的“杀手级应用” 1。
所以,这场AI炒股大赛,与其说是为了看谁赚钱多,不如说是为了探索AI在真实、混沌、不可预测环境下的生存能力。DeepSeek用实力证明了“专业对口”的重要性,而Gemini则用“血亏”告诉我们,AI的“信念感”也要结合实际才能跑赢市场。AI的未来,可能真的要从“考场”走向“市场”了!
引用
-
六大主流LLM實盤競逐加密貨幣市場DeepSeek暫居交易之王·鉅亨網·(2025/10/20)·检索日期2025/10/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不 ...·虎嗅网·(2025/10/20)·检索日期2025/10/21 ↩︎ ↩︎
-
DeepSeek 第一!全球六大顶级AI 实盘厮杀,人手1 万刀开局·Foresight News·(2025/10/20)·检索日期2025/10/21 ↩︎
-
赚钱,DeepSeek果然第一!全球六大顶级AI实盘厮杀,人手1万刀开局·新浪财经·(2025/10/20)·检索日期2025/10/21 ↩︎
-
6個主流AI大模型進行加密交易競賽,DeepSeek和Grok收益率穩居前 ...·Mitrade·Tony Chou(2025/10/20)·检索日期2025/10/21 ↩︎ ↩︎
-
赚钱,DeepSeek果然第一,全球六大顶级AI实盘厮杀,人手1万刀开局·新智元·好困(2025/10/21)·检索日期2025/10/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎