TL;DR:
阿里全模态“六边形战士”Qwen3.5-Omni正式出道!不仅能秒读10小时长音频,还能边看你画草图边听你指挥直接把App代码写了,215项SOTA直接把谷歌Gemini-3.1 Pro按在地上摩擦,重点是:价格只要隔壁的十分之一,这波“真香”预警拉满了。
AI圈的“卷王”比赛又进阶了。昨天,阿里通义千问团队甩出了最新的全模态大模型 Qwen3.5-Omni。这一次,它不再是那个只会敲代码、写周报的“打字机”,而是一个能听、能看、能说、甚至能感同身受的“全能管家”。
如果你还在为那长达一小时的会议录像抓狂,或者为半懂不懂的方言发愁,Qwen3.5-Omni可能会让你直呼:格局打开了!
懂方言、秒读片:这届AI已经进化到这种地步了?
以前我们看视频,AI顶多能给个总结;现在,Qwen3.5-Omni直接能给你写“剧本”。实测中,它处理一集50分钟的《老友记》仅需1分钟,吐出的描述不仅涵盖了时间线,连人物情绪变化和镜头切换都写得清清楚楚 1。比起那些网盘里机械罗列的AI摘要,它生成的描述甚至带点叙事美感。
更有意思的是,它还掌握了传说中的**“Audio-Visual Vibe Coding”(音视频意境编程)**。你只需要拿着手机,对着随手画的一张界面草图,嘴里念叨着:“这儿放个按钮,点一下跳到个人主页”,它就能瞬间心领神会,吐出可运行的前端代码 2。
调侃一下: 程序员们,以后可能不拼手速了,改拼“肺活量”和“普通话等级”了。
不仅如此,Qwen3.5-Omni还是个“方言达人”。它支持39种国内方言和113种语言识别 3。无论你是说闽南话还是海南方言,它都能对答如流。在实测中,它不仅听得懂,还能自主判断是否需要联网查天气,1-2秒内就给你反馈,简直比真人客服还丝滑 1。
技术大揭秘:为什么它能这么“灵”?
能跑得这么快、看得这么准,是因为阿里给它换了套“好脑筋”。Qwen3.5-Omni延续了**Thinker-Talker(思考者-表达者)**的分工架构:
- Thinker(思考者): 负责接收海量的视觉和音频信号。这一次它采用了 Hybrid-Attention MoE(混合注意力混合专家模型)。这让它在处理10小时长音频或1小时视频时,依然能稳准狠地抓住重点,不会因为信息太长就“断片” 4。
- Talker(表达者): 负责把思考的结果变成自然好听的人声。为了解决流式语音中经常出现的漏读、数字发音模糊等尴尬问题,阿里祭出了 ARIA(自适应速率交错对齐)技术,让AI说话的语气、语速、情绪都更接近真人 4。
它还支持**“语义打断”**。这意味着你跟它聊天时,不需要等它慢吞吞说完,随时可以插话。它能智能分辨你是随口附和(“嗯嗯”、“对对”)还是真的要改指令,这种“懂分寸”的交互感,让AI终于不再像个只会复读的复读机 3。
行业“地震”:性能翻倍,价格却只有谷歌的1/10?
在技术博客中,千问团队自信满满地表示,在215项音频/音视频理解任务上,Qwen3.5-Omni-Plus取得了SOTA(全球最佳)成绩。在视听交互和嘈杂环境识别(WenetSpeech)等测试中,它的表现甚至超越了谷歌的旗舰模型Gemini-3.1 Pro 2。
最让开发者和企业“真香”的,恐怕还是它的价格。Qwen3.5-Omni目前在阿里云百炼平台上架,API调用价格采取阶梯计费。重点来了:其百万tokens的输入价格不到0.8元,仅为Gemini-3.1 Pro的十分之一左右 5。
调侃点评: 这种“性能吊打、价格骨折”的操作,简直是让同行看了流泪,开发者看了心醉。
结语:全模态交互的“iPhone时刻”到了吗?
从纯文本交互到现在的全模态实时互动,大模型正在变得越来越“类人”。Qwen3.5-Omni的出现,预示着未来的AI助手将不再局限于一个小小的对话框。它可能潜伏在你的智能眼镜里看你所看,或者在你的智能家居里听你所想。
当然,目前的模型在面对极其复杂的方言组合时偶尔还会夹杂普通话词汇 1,但这种进步速度已经足够让那些还在玩“文字游戏”的模型感到压力山大了。
引用
-
阿里最强全模态模型登场,实测看懂50分钟《老友记》,全球评测215项SOTA · 智东西 · 陈骏达 (2026/03/31) · 检索日期 2026/03/31 ↩︎ ↩︎ ↩︎
-
Qwen3.5-Omni - 阿里通义推出的全模态大模型 · AI-Bot · (2026/03/30) · 检索日期 2026/03/31 ↩︎ ↩︎
-
阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入 · IT之家 · 浩渺 (2026/03/30) · 检索日期 2026/03/31 ↩︎ ↩︎
-
阿里云发布Qwen3.5-Omni全模态大模型 · 新浪科技 · (2026/03/30) · 检索日期 2026/03/31 ↩︎ ↩︎
-
阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro · 量子位 · (2026/03/30) · 检索日期 2026/03/31 ↩︎