洞察 Insights
李沐Higgs Audio v2:大模型“听与说”的具身序章,重塑多模态交互新范式
李沐团队开源的Higgs Audio v2是一个突破性的音频基础模型,它通过将千万小时级的音频数据深度融入文本大语言模型,使AI具备了更自然、情感丰富的语音理解与生成能力。这一创新预示着未来人机交互将从以文本为主导的“读写”阶段,迈向更具沉浸感和情感智能的“听与说”多模态对话时代,对AIGC内容生产和智能助理体验产生革命性影响。
阅读全文
洞察 Insights
迈向对话智能新纪元:ACL 2025权威综述揭示语音大模型核心突破与挑战
香港中文大学团队的语音大模型(SpeechLM)权威综述论文被ACL 2025主会议接收,标志着AI语音交互正从传统分段式处理转向端到端模式,有望解决信息丢失、延迟和错误累积等痛点,实现更自然、更具情感的智能对话。文章深入解析了SpeechLM的技术架构、训练策略及应用潜力,并探讨了在实时性、安全性、普惠性等方面的关键挑战与未来发展方向。
阅读全文