TL;DR:
扎克伯格基金会Biohub突然放出11亿个蛋白质结构,比AlphaFold多8亿,模型ESMFold2全面开源不限商用。谷歌DeepMind的AlphaFold王座这回真有点晃了。学界兴奋但也有质疑:到底是真王者还是碰瓷?反正免费的,先白嫖再说。
AlphaFold 称霸蛋白质结构预测江湖这么多年,拿了诺贝尔奖,一度被认为是「AI 改变科学」的牌面。结果,扎克伯格家的 Biohub 突然甩出一记王炸。
5 月 27 日,Nature 刊文报道:扎克伯格夫妇创立的 Biohub,正式上线 ESM Atlas 数据库,一口气发布了 11 亿个预测蛋白质结构,外加 68 亿条蛋白质序列信息。1
什么概念?AlphaFold 的数据库辛辛苦苦积累了超过 2 亿个结构,ESM Atlas 一来就多了 8 亿条。直接翻了好几倍,而且完全开源,不限商用。
好家伙,这哪是竞争,这简直是掀桌子啊。
11 亿个蛋白质,一把端上桌
蛋白质是生命运转的核心零件。知道它的形状,才能理解它的功能,然后设计新药、攻克疾病。以前解析一个蛋白质结构,实验室里折腾几个月到几年都是常态。AlphaFold 把时间压缩到几分钟,已经是神迹。
现在 ESMFold2 直接把预测规模推到了 11 亿量级,覆盖了大量从未被解析的「暗物质」蛋白质——尤其是来自土壤、海洋等环境的微生物蛋白质数据。这部分在 AlphaFold 的数据库里基本是空白。2
Biohub 科学负责人 Alex Rives 的原话是:「这个图谱展示了蛋白质生物学的全貌,尤其是那些最未知的部分。」1
翻译成人话:以前我们只看到了冰山一角,现在小扎直接把整座冰山搬出来了。
技术解密:ESMFold2 凭啥叫板 AlphaFold?
ESMFold2 走了一条和 AlphaFold 完全不同的技术路线。它不是传统的基于物理和知识的预测,而是把蛋白质序列当成「语言」来学——没错,和大语言模型(LLM)学人类语言的逻辑一模一样。2
它在数十亿条蛋白质数据上训练,让模型学会从序列直接「脑补」出三维结构。这种「蛋白质语言模型」的思路,有点像给 AI 装了个生命代码的翻译器。
训练数据的覆盖范围是关键变量。ESMFold2 纳入的土壤、海洋微生物数据,让它见过的「蛋白质世界」更完整。Biohub 团队声称,ESMFold2 在预测蛋白质之间相互作用的复合结构方面,表现优于 AlphaFold3。1
但最有说服力的不是跑分,而是落地验证。团队用 ESMFold2 设计了全新的蛋白质,拿到实验室合成测试,高比例的设计按预期起效了。从「预测」到「设计」再到「验证」,这条链路跑通,价值就从论文延伸到了真实世界。
开源才是大杀器,Meta 的老套路了
ESMFold2 最锋利的竞争武器,不是跑分,而是完全开源且不限商用。
AlphaFold 虽然也有开放数据库,但 AlphaFold3 在发布初期对商业使用做了限制。谷歌 DeepMind 旗下的 Isomorphic Labs 今年推出的蛋白质相互作用预测模型更是完全闭源。3
而扎克伯格这边,直接把代码和数据全扔出来,任你下载、修改、商用。这招是不是很眼熟?Meta 的 Llama 系列大语言模型就是这么玩的——用开源做基础设施,用生态做护城河。
MIT 的计算生物学家 Ovchinnikov 直接点明:「我预计很多人会很兴奋地想试一试 ESMFold2。」1
全球有大量实验室和研究机构迫切需要一个免费、无限制的结构预测工具。闭源模型再强,能触达的用户群就那么大。开源一开,社区的力量就起来了——迭代、应用、发现原始开发者自己都没想到的用法,这才是真正的杠杆效应。
同行打分:真香还是有水分?
学界反应积极,但保留意见也很明确。
瑞典隆德大学的 Gemma Atkinson 称 ESM Atlas 「应该成为生物学的非凡资源」。1 伦敦大学学院的 Christine Orengo 认可其价值,但强调预测结果需要独立验证。
更尖锐的问题来自首尔国立大学的 Martin Steinegger。他关心的是:ESMFold2 面对那些与已知蛋白质差异很大的「新结构」时,表现到底如何?他的团队此前发现,ESMFold 第一版在这方面并不出色。这个问题对 ESMFold2 依然悬而未决。1
最冷静的判断来自 MIT 的 Ovchinnikov:他认为 ESM Atlas 更适合定位为 AlphaFold 数据库的补充,而不是替代。他还指出,Isomorphic Labs 的闭源模型以及一些 Biohub 没有直接拿来对比的开源模型,也取得了类似水平的成果。ESMFold2 的领先幅度,可能没有论文暗示的那么大。
这种审慎,恰恰折射出蛋白质 AI 赛道的竞争已经白热化。开源、闭源、学术、商业,各路模型都在以极快速度迭代。今天的「最强」,半年后可能就被刷新。
当 AI 开始读懂生命的源代码
这不仅仅是技术竞赛。当 AI 能精准预测所有蛋白质结构,能设计全新的功能性蛋白质且实验验证有效,那距离 AGI 在生命科学领域的落地,可能比大多数人预想的更近。
从分子层面设计生命,按需定制蛋白质,重写进化的规则。这听起来像科幻,但 ESMFold2 这类工具正在一步步把「科幻」变成「工程问题」。
今天,11 亿个蛋白质结构被摊开在桌上,全球任何有网络连接的科学家都可以免费取用。这意味着,AI 理解生命的能力,又上了一个台阶。
至于这个台阶到底有多高?留给学术界慢慢「白嫖」检验吧。反正,免费的,真香。