洞察 Insights
超越文本:港大RAG-Anything如何统一多模态知识图谱,重塑AI理解力
香港大学黄超教授团队开源的RAG-Anything项目,通过构建统一的多模态知识图谱,解决了传统检索增强生成(RAG)系统仅支持文本的局限性。该系统能够端到端处理并关联文字、图像、表格、数学公式等多种异构内容,显著提升了AI对复杂文档的理解和问答能力,为科研、金融、医疗等领域的AI应用奠定了基础,并展望了未来AI的深度推理和开放生态发展。
阅读全文
洞察 Insights
突破视觉AI瓶颈:英伟达与港大如何革新注意力机制,实现√N计算与84倍加速
英伟达与香港大学联合发布广义空间传播网络(GSPN),一种新型视觉注意力机制,旨在克服Transformer在处理高分辨率图像时面临的计算二次方复杂度与空间结构丢失问题。GSPN通过引入“稳定性-上下文条件”,将计算复杂度显著降低至√N量级,并在图像生成任务中实现了高达84倍的加速,有望为下一代视觉AI模型奠定高效且空间感知的基石。
阅读全文