刚刚,Nature向AI“幻觉”开炮:这只开源“学术神兽”让GPT-4o集体破防了

温故智新AIGC实验室

TL;DR:

科研狗的春天(或者说是救星)来了!华盛顿大学联手艾伦AI研究所推出了全球首个全开源科研RAG模型 OpenScholar,主打一个“不瞎编”。在4500万篇论文的加持下,它不仅引用准确率直逼人类专家,还顺手在基准测试里把GPT-4o按在地上摩擦。

天下科研狗苦“AI瞎编”久矣。

当你试图让GPT-4o帮你搜几篇关于“量子纠缠在咖啡拉花中的应用”的论文时,它可能会一本正经地给你编出一串看似高端、实则查无此人的虚假参考文献。这种“幻觉”在日常聊天中是调味剂,但在严谨的学术圈,简直是致命伤。

数据显示,GPT-4o在引用科学文献时,翻车率(错误引用比例)竟然高达78%至90%1。这哪里是科研助手,这分明是学术造假的“野生代言人”。

2月4日,顶级学术期刊《Nature》终于刊登了一项能拯救学术信誉的成果:OpenScholar。这是由华盛顿大学与艾伦人工智能研究所(Ai2)主导研发的、全球首个专为科研设计的全开源检索增强生成(RAG)模型2

简单来说,它不是在“背”知识,而是带了一个超大的“正版图书馆”去考场。

技术大揭秘:它是怎么治好“幻觉”的?

OpenScholar之所以能让GPT-4o破防,靠的不是参数规模的大力出奇迹,而是三套精准的“组合拳”:

  1. 自带4500万篇论文的“最强外挂”: 它拥有一个专属数据库OSDS,里面塞满了4500万篇开放获取的科学论文,拆解成了2.36亿个段落向量1。这意味着它回答任何问题,都有据可查,而不是在概率场里盲目蹦迪。

  2. 拒绝盲目搜索的“自适应检索”: 普通的AI检索可能只是关键词匹配,而OpenScholar的检索器经过专门训练。它能听懂你那玄学般的科研黑话,精准定位到最相关的段落,为后续生成提供高质量的上下文支持3

  3. 像人类一样“写完检三遍”的自反馈机制: 这是最绝的一招。模型生成初步回答后,会开启一个“自我反思”循环:事实对不对?引用准不准?覆盖全不全?如果觉得不行,它会自己打回去重写1。这种“洁癖”级别的自我修养,正是科研所需的严谨性。

“这哪是AI啊,这简直是一个住在图书馆里、还没被导师磨平棱角的优秀博后。”——某匿名科研搬砖工调侃道。

行业“地震”:8B小模型竟然“越级反杀”?

在科研辅助领域,OpenScholar的表现堪称“屠榜”。

为了测试它的成色,研究团队搞出了一个叫 ScholarQABench 的地狱级评测基准,涵盖了计算机科学、物理学、生物医学等多个前沿领域4

结果让人大跌眼镜:参数规模仅为80亿(8B)的轻量版OpenScholar-8B,在综合正确率上不仅超过了专用系统PaperQA2,甚至还比万众瞩目的GPT-4o高出了6.1%1

更狠的是在引用准确性上,OpenScholar的表现基本与人类专家持平。在人工评估中,专家们甚至在51%至70%的情况下更青睐OpenScholar生成的答案,而原始版GPT-4o的胜率仅为可怜的31%5

未来预测:开源的力量能否打破版权壁垒?

虽然OpenScholar在学术圈放了个大招,但它也并非无懈可击。

目前的它更像是一个“理工男”,在计算机和生物医学领域游刃有余,但在社会科学、工程学等领域还没完全施展开1。更现实的问题是,它目前的食粮主要是“开放获取”论文。如何合理合法地“吞下”那些藏在付费墙后面的版权文献,依然是摆在团队面前的一道坎。

不过,研究团队已经大方地把核心代码、数据、模型全部开源了1。这种“我为人人”的精神,或许正是科学研究最本真的样子。

对于广大饱受文献综述折磨的研究者来说,OpenScholar的出现意味着,你可能很快就能从那种“搜论文一小时,验证真假三小时”的死循环里解脱出来了。

至于GPT-4o?或许它更适合去写写周报,至于正儿八经的科研,还是让专业的来吧。

引用