生物学智能体的“马车城”困境：为什么AI科研的瓶颈不在算法，而在基础设施？

TL;DR：

顶级AI模型在生物学领域频繁“翻车”，本质上是由于人类科学数据库大多为人工交互设计，缺乏机器可读的“API高速公路”。建立确定性的数据检索执行层（如gget virus），比单纯提升模型推理能力更能释放AI在科学发现中的潜力。

技术与现实的撕裂：当大模型遇上“老旧城池”

在代码世界，大语言模型（LLM）正以前所未有的速度接管软件工程，从编写函数到自动化部署，实现了一气呵成的工作流。然而，当同样的模型被引入生物学研究时，却频频在检索病毒序列、对比抗体位点等基础任务上“翻车”。Claude Sonnet 4在同一查询任务中，三次输出的答案差异可达数十倍，这种不确定性在科学研究中是灾难性的。

Anthropic的研究指出，这并非模型不够聪明，而是科学数据库的架构与智能体时代存在严重的“代际错位”。如果我们把软件开发比作现代化的汽车新城——拥有标准化API、清晰的文档和版本控制，那么生物学数据库则是一座为马车设计的古老城池：街道弯曲狭窄（网页交互为主）、缺乏机器接口（硬编码在UI层）、且数据标准异质化严重。

确定性执行层：给AI铺设“专用隧道”

为了解决这一难题，Anthropic与NCBI合作推出了 gget virus。它并非是一个简单的AI插件，而是一个确定性的检索层。它将隐藏在网页交互后的过滤逻辑，重构为可编程、可审计的API流水线。

这种设计的核心在于“确定性”。通过协调REST、Datasets和E-utilities等底层系统，gget virus抹平了原始数据与智能体理解之间的障碍。实验数据显示，在接入该工具后，GPT-5.5的检索准确率飙升至99.7%，且不同模型间的性能差距被大幅压缩。这一技术突破揭示了一个深刻的洞察：在复杂科学任务中，优秀的工具层远比一个“更聪明”的模型更能保障科研的可复现性。

商业与科研的范式转移：从模型竞争到地基重塑

这一现象对于AI领域的商业战略有着直接启示。过去两年，市场过度关注模型参数的量级竞赛，但未来3-5年，AI竞争的胜负手将从“大脑”转向“地基”。

生态壁垒的重构：那些能够提供高质量、机器友好型基础设施的科学机构（如NCBI、ENA），将成为AI科学发现时代的核心支柱。
软件定义的科学发现：科研范式正在发生改变，人类科学家与AI智能体将通过确定性中间件建立协作。这意味着，未来生物制药和流行病学领域的投入重点，将不可避免地从单纯的模型微调，转向生物学数据流的标准化与API化。
成本审计与信任成本：对于制药公司而言，一个昂贵但“偶尔幻觉”的模型，远不如一个廉价、稳健且逻辑可审计的工具链更有价值。

未来展望：当“无聊”的基础设施成为核心竞争力

正如互联网早期的基础设施建设奠定了电子商务的繁荣，当前的生物医学AI亦处于“基建期”。我们正站在一个奇点：当所有的科研数据库都具备了“机器可读”的接口，AI将不再仅仅是知识的总结者，而是科学实验的自动化执行者。

然而，这也带来了新的挑战——“责任的模糊性”。当工具层完全自动化地检索并构建数据集后，一旦数据源本身存在偏见或错误，如何进行溯源与审计？我们需要在追求效率的同时，构建一套更严谨的科学溯源系统。

归根结底，AI时代真正的竞争不是比拼谁能生成更华丽的假设，而是看谁能先为机器“铲平”那些陈旧的城墙，让智能体在科学发现的道路上跑得稳、跑得快。

技术与现实的撕裂：当大模型遇上“老旧城池”

确定性执行层：给AI铺设“专用隧道”

商业与科研的范式转移：从模型竞争到地基重塑

未来展望：当“无聊”的基础设施成为核心竞争力

引用