生物学AI的“最后一公里”：为什么科学Agent亟需一场基础设施革命？

TL;DR：

生物学AI Agent的局限性核心不在于模型推理能力的上限，而在于生物数据基础设施长期缺乏“机器可读”的标准化接口。要实现科学发现的范式转移，必须将生物学数据工作流从“人类浏览器交互”转型为“机器可执行”的确定性执行层。

技术与现实的错配：为什么Coding Agent跑得更快？

在软件工程领域，Coding Agent 已然能够通过自主修改代码、运行单元测试来解决复杂的工程问题。这一飞跃的底层逻辑在于：软件世界天生就是为计算机设计的。Git版本控制、标准的包管理器、结构化的API文档以及确定性的测试环境，为 Agent 铺设了一条笔直的“高速公路”。

反观生物学研究，正如 Anthropic 在最新研究中指出的那样，我们让 AI 智能体去操作生物数据基础设施，无异于让现代自动驾驶车辆行驶在古老的鹅卵石窄巷中。生物学数据库不仅分布破碎，且往往隐藏在设计给人类点击的网页界面之后。这种“点击税”（Click Tax）——即必须通过手动交互来筛选复杂的生物数据——已成为束缚 AI 科学潜能的最强枷锁。

数据基础设施：科学Agent的确定性瓶颈

VirBench 基准测试揭示了一个残酷的现实：即便是一流的 AI 模型，在处理生物学检索任务时，也表现出极大的不稳定性。在病毒序列分析等关键任务中，同一模型的多次运行竟能产生截然不同的结果，甚至导致系统发育推断的重大误差。¹

这种“不可靠性”并非模型智商问题，而是环境的混沌所致。在生物学中，元数据缺失、格式异构以及隐藏在传统研究流派中的“领域知识黑箱”，使得模型无法像操作标准代码库那样进行确定性检索。

数据孤岛效应：生物数据散落在全球各地的实验室和门户网站，缺乏统一的逻辑检索接口。
交互界面落后：AI 被迫模拟人类行为去操作浏览器，失去了自动化处理中应有的效率与审计能力。
缺乏反馈机制：与软件工程中明确的“测试通过/失败”不同，生物数据的正确性往往难以快速验证。

从“点击式研究”到“上下文引擎”

为了打破这一瓶颈，gget virus 等确定性执行工具的出现标志着一个关键的转型：将生物数据从混乱的网页界面中“解放”出来，封装为机器可调用的标准化接口。² 当检索层变得可复现、可审计时，模型的性能瓶颈被大幅削弱，低成本模型亦能实现高精度的科研辅助。

这预示了未来 3-5 年科学研究的新范式：我们需要构建一类“上下文引擎”（Context Engine），其核心不在于模拟人类的创造力，而在于为 Agent 提供一个极度“无聊但绝对可靠”的底层底座。在这种框架下，Agent 负责高层假设生成，而底层的数据获取和清理则由标准化、确定性的工具链支撑。³

对未来的审视：当科学遇见自动化

从商业角度看，这为生物医药研发（AI-driven Drug Discovery）的投资逻辑提供了新视角：投资重点不应仅仅押注于更庞大的推理模型，而应聚焦于构建能够连接实验数据、数据库与 Agent 的中间件与基础设施。⁴

这种变革的深层意义在于，它试图通过代码重新定义科学流程。当我们将生物数据库转化为 API 时，我们实际上是将生命科学的复杂过程“符号化”和“模块化”。这不仅是效率的提升，更是人类探索自然方式的重塑。

然而，我们也必须审视潜在风险：当研究过程过度依赖 AI 的自动化执行，我们如何确保在“黑盒”模型背后，科学发现的可重复性和伦理审查依然可控？未来的科学 Agent 系统必须在“自主性”与“可审计性”之间找到精妙的平衡点。

引用

Anthropic最新博客：生物学Agent的瓶颈不在模型，而在数据基础设施 · 虎嗅网 · 2026/6/9 · 检索日期2026/6/9 ↩︎
一个用于生物信息学的AI智能体评测套件 · alphaXiv · 2026/6/9 · 检索日期2026/6/9 ↩︎
Biomni：首个通用生物医学AI智能体重新定义科学研究范式 · 智源社区 · 2026/6/9 · 检索日期2026/6/9 ↩︎
从代码到分子系列：一场由AI 驱动的EGFR 抑制剂发现之旅 · AWS技术博客 · 2026/6/9 · 检索日期2026/6/9 ↩︎