洞察 Insights
阿里语音模型杀疯了!英文Rap、方言、多语种,一个不落全“听懂”
阿里通义千问团队发布了“王炸”级语音识别模型Qwen3-ASR-Flash,不仅能精准识别11种语言、多种口音,还能搞定英文Rap、方言和复杂噪音环境。更厉害的是,它在多项基准测试中超越了谷歌Gemini-2.5-Pro和OpenAI GPT-4o-Transcribe等顶尖模型,用户还能通过提供上下文进行“私人定制”识别结果,简直是语音识别领域的“天花板”!
阅读全文