洞察 Insights
颠覆大模型后训练:RLMT如何以“思考”之力重塑AI未来格局
陈丹琦团队的RLMT框架通过让大模型生成并优化“思维链”,实现了8B小模型在通用任务上超越GPT-4o的性能,且仅需7K提示数据。这一突破颠覆了传统大模型后训练对海量数据的依赖,大幅降低了高性能AI的开发成本与门槛,预示着AI向更类人、更高效“系统2思维”进化的新范式,有望重塑AI产业格局,加速AGI的到来。
阅读全文
洞察 Insights
数据跃迁:8B小模型以「高质量数据」驱动AI Agent迈向复杂长程搜索新范式
港科大与MiniMax团队通过WebExplorer框架,创新性地构建了高质量、高挑战性的训练数据集,使得8B小模型在复杂长程网络搜索任务中实现了100次工具调用和128K上下文长度,超越了更大模型。这一突破强调了数据质量而非模型规模在AI Agent发展中的决定性作用,为AI Agent的成本效益部署、技术民主化和数据驱动的智能未来奠定了基础。
阅读全文
洞察 Insights
摆脱“规模诅咒”:小模型赋能中国产业AI迈向“真落地”与智能工业化
中国产业AI在2025年正经历从大模型盲目追求到“小模型时代”的范式转变,以AI Agent落地需求为驱动,通过成本效益、低延迟和隐私保护的“刚刚好智能”解决大模型瓶颈。以DeepSeek为代表的中国厂商正引领效能革命与开源生态重塑,共同构建“大模型+小模型”的混合智能新范式,加速AI向产业底层的广泛渗透和智能工业化进程。
阅读全文
Newspaper
08-27日报|狂飙的智能与潜藏的“极”:AI生态革命的阵痛与信任的基石
今天是2025年08月27日。AI浪潮下,从模型“择偶生娃”到百万Token记忆,再到极致推理“小钢炮”,智能边界被刷新,商业想象被颠覆。然而,繁荣之下,DeepSeek的“极”字事件无情揭示出数据污染和模型失控等结构性裂痕,对AI行业信任基石提出拷问。
阅读全文
洞察 Insights
英伟达“小钢炮”炸场:推理狂飙53倍,还把Mamba 2甩在了身后,这波操作太“顶”了!
英伟达最近发布了“小而精”的Jet-Nemotron系列小模型,不仅在H100 GPU上实现了最高53倍的推理吞吐量提升,还在多项基准测试中超越了Qwen3、Llama3.2等主流模型,甚至在架构上超越了Mamba 2。其核心黑科技是PostNAS(后神经网络架构搜索)和JetBlock(新型线性注意力模块),让模型在保持高精度的同时,运行效率飙升,预示着英伟达在小模型赛道上祭出了“王炸”!
阅读全文
洞察 Insights
颠覆性“小模型”范式:上海交大可微分物理重塑无人机自主智能的未来
上海交通大学研究团队凭借创新性的可微分物理训练范式,实现了轻量级、高鲁棒性的端到端无人机高速避障与零通信集群导航,其低成本、高效率的特点将深刻改变无人机产业格局。这项工作不仅在技术上取得重大突破,更在哲学层面启发了我们对“小模型”在具身智能发展中核心价值的重新思考,挑战了当前AI领域过度依赖数据和规模的主流范式。
阅读全文
洞察 Insights
大模型幻觉之殇与协同之光:智能投顾如何精准破局
随着大型语言模型(LLMs)在金融领域的应用日益深入,其固有的“幻觉”问题和在高合规性要求下的局限性变得尤为突出。北银金科在AICon北京大会上提出的“大小模型协同”架构,通过结合通用大模型的理解能力与传统小模型的精准计算,提供了一种有效解决幻觉风险、提升专业服务深度的新方案,为智能投顾乃至更广泛的高风险行业AI应用指明了方向。
阅读全文
洞察 Insights
集体智能的崛起:GRA框架如何赋能小模型“逆袭”大模型,重塑AI开发图景
上海人工智能实验室与中国人民大学推出的GRA框架,通过模拟学术审稿流程,使多个小型语言模型(7B级别)协同生成高质量训练数据,性能可媲美甚至超越72B大模型蒸馏的效果。这项开源技术为AI模型的开发提供了一种更经济高效、更具普惠性的新范式,有望打破当前对大规模参数模型的过度依赖,促进AI领域的民主化和可持续发展。
阅读全文
洞察 Insights
游戏之智:小模型如何通过像素世界解锁通用推理能力
一项最新研究揭示,通过让仅70亿参数的多模态模型玩简单的街机游戏,如《贪吃蛇》,可以培养出强大的跨领域推理能力,使其在数学和几何任务上超越GPT-4o等顶级模型。这项名为“视觉游戏学习”(ViGaL)的范式,通过游戏训练促进了通用认知能力(如空间理解和规划)的涌现,并挑战了传统AI训练对大规模特定领域数据的依赖,为未来AI发展开辟了高效且可扩展的新路径。
阅读全文