本杰明·曼恩：AI纪元的孤勇者，与超级智能的对齐之战

TL;DR：

本杰明·曼恩，这位从OpenAI走出、创立Anthropic的AI先锋，不仅是一位技术远见者，更是超级智能时代“安全与对齐”的坚定守护者。他预言AI可能在2028年达至变革性智能，并通过“经济图灵测试”重新定义AGI的到来，同时呼吁社会正视AI的安全与伦理风险，坚守人类创造力的最后防线。

2020年末，硅谷科技巨头OpenAI的内部，一场无声的激荡正酝酿着一场出走。作为GPT-2和GPT-3项目的核心研发成员、论文第一作者，本杰明·曼恩，这位曾深度参与OpenAI从技术研发到商业化全过程，并协助完成十亿美元融资的关键人物，却选择离开，与志同道合的伙伴们一同创立了Anthropic。这并非一场简单的跳槽，而是一次理想主义的决裂，一场关于AI未来走向的深刻信念之战。

在曼恩的记忆中，OpenAI内部安全、研究与商业三大派系的角力日益显现。“每当听到管理层将这种分裂状态合理化时，我都深感忧虑，”他坦言，“总觉得这不是解决问题的正确方式。毕竟，OpenAI的使命是确保能够安全、有效地过渡到AGI，以造福人类。这其实也是Anthropic的使命，但在OpenAI内部，我感到存在着三个派系之间的诸多矛盾与紧张关系。当真正的关键时刻到来时，我们觉得安全性并不是最高优先级。”¹正是这种对“安全性”优先级不足的担忧，驱动了曼恩和团队毅然自立门户，肩负起一个看似渺小却至关重要的使命：确保AI技术在狂飙突进中，始终与人类价值观保持对齐。

思想形成轨迹：从科幻想象到现实对齐

曼恩对AI的关注，源于孩提时代对科幻小说的痴迷。那些描绘人类成为跨星系文明、与有意识机器人共存的故事，在他心中播下了智能机器的种子。然而，真正将这份想象引向现实考量，是2016年尼克·博斯特罗姆的《超级智能》。“他书中描述了，如果我们使用当时的优化技术来训练AI系统，确保这些系统与人类价值观对齐将会有多么困难。”¹这本书像一道闪电，击中了曼恩，让他开始重新评估AI伦理与安全的复杂性。此后，他毫不犹豫地加入了当时还默默无闻的OpenAI，全身心投入到这场前沿探索中。

如今，曼恩的思考已超越了博斯特罗姆书中“把上帝关进盒子里”的传统观念。他看到的，是“人们把‘上帝’从盒子里释放出来，试图让它接触整个互联网，甚至分享银行账户信息来做各种疯狂的事情，这种情境既荒谬又可怕。”¹他认为当前的风险并非不可控，但未来的潜在危机却不容忽视。这种清醒的认知，构筑了他对AI安全级别（ASL）的深刻理解——Anthropic将AI风险分为五级，目前其模型处于ASL-3级，而ASL-5则意味着滥用或失控时可能导致“灭绝性后果”。¹曼恩毫不讳言这些潜在的黑暗面，甚至主动向美国国会作证，详细阐述AI被用于制造生物武器等极端风险。这种坦诚，不仅是其价值观的体现，也赢得了政策制定者的信任。

核心理念阐释：AI迭代的加速与“宪法”的构建

在普遍弥漫着“AI发展遭遇瓶颈”论调的当下，曼恩却坚信技术进步正在加速，并直言这种论调每隔半年就会出现，但从未应验。他指出，模型的迭代周期已从每年缩短至每季度甚至每月，这得益于后期训练技术的突破。Scaling Law依然有效，只是重心已从传统预训练转向强化学习的规模化应用。曼恩引用牛津大学《Our World in Data》的数据图表，强调“每当一个新的基准测试发布后，通常在6-12个月内就会被模型性能‘摧毁’。”¹真正的瓶颈，在于我们如何设计更具挑战性的基准测试，设定更有野心的任务目标。

对于AGI（通用人工智能），曼恩偏爱使用“变革性AI”这一概念，它更关注AI能否对社会经济产生实质性变革影响，而非纠结于人类水平的全能智能。他推崇“经济图灵测试”作为衡量标准：当AI能胜任某个工作岗位，且雇主无需分辨其是机器还是人类时，便通过了该岗位的测试。他预测，当AI能通过50%高价值岗位（按薪资加权）的盲测时，即标志着变革性AI的诞生，这将引爆全球GDP重构与社会形态变革。

Anthropic在AI对齐方面的突破，正是其核心理念的鲜明体现。曼恩强调，“安全与进步并非相互排斥，而是相辅相成。”他提到OpenAI发布GPT-3时模型的个性和功能，正是他们在对齐研究上的成果。而最具代表性的，便是Anthropic独创的“宪法AI”（Constitutional AI）。这种“自我反馈强化学习”（RLAIF）方法，通过自然语言原则（如《联合国人权宣言》、苹果隐私政策等）指导模型学习行为规范，使其能够自我批判、自我改进，减少对大量人工反馈（RLHF）的依赖。曼恩解释道，模型会在生成回答后，根据预设的“宪法”原则进行自我检查和修改。如果模型未能遵循，它会再次尝试，直到生成符合原则的回答。¹

“这最终都是关于AI理解人们想要什么，而不仅仅是他们说了什么，”他总结道。尽管这种方式可能被外界解读为“吸引注意”或“末日预言”，曼恩坚信，提前揭示风险是为了促使整个行业正视问题，并在超级智能到来前采取行动。“即便这种风险发生的概率很小，我们也不能忽视它。”¹

行业影响与未来预判：奇点将至，创造力永恒

曼恩毫不掩饰AI对社会结构的深远影响。他认同联合创始人达里奥·阿莫代伊的观点，即AI可能导致20%的白领职位消失，但更大影响将来自AI对工作性质和社会结构的根本改变。他从经济学角度剖析，失业将由技能错配和工作消亡两种形态交织而成，并大胆预测，在20年后，技术奇点的突破可能导致资本主义也迎来更多变革。他描绘了一个“劳动近乎免费、专家智能唾手可得的富足世界”，届时“工作”的概念本身都将被重新定义。

然而，曼恩也清醒地指出，大众对这种指数级增长的认知局限。他个人早在2019年GPT-2发布时就已预感到拐点将至，但直到ChatGPT出现，大众才真正感受到变革的来临。目前，客户服务和软件开发领域已发生显著变革，AI已能自动编写95%的代码，工程师能产出10-20倍的代码量。他认为，在短期内，劳动力的生产力将大幅提高，每个人能做的事情也会大大增加。但他同时警告，那些技能要求较低或提升空间不大的工作，将会被大量取代。

面对职业替代风险，曼恩给出建议：保持开放和学习的心态，勇于尝试新工具，并真正理解如何发挥工具的最大价值。“真正威胁你的不是AI本身，而是那些比你更善于运用AI的同行。”¹他认为，“创造力”将是人类最后的护城河，是区分普通人与顶尖人才的关键标尺。这种突破框架的思维，是AI始终无法真正理解的。

对于奇点何时到来，曼恩倾向于采纳“超级预言家”们的意见：“50%的概率在接下来的几年内出现某种形式的超级智能，最早可能是2028年。”¹这一预测并非空穴来风，而是基于智能持续改进、模型训练目标、数据中心与电力扩展速度等科学细节。他同时提醒，即便超级智能真的出现，其社会影响会滞后，且分布不均，正如阿瑟·克拉克所言：“未来已经到来，只是它还分布不均。”¹他认为，如果全球GDP增速能从目前的3%飙升至10%以上，那将是变革性AI真正降临的标志。

责任的重量与内心的坚守：可持续的马拉松

承担确保超级智能安全的责任，无疑是沉重的负担。曼恩坦言，支撑他应对这些重压的，是一本名为《替代负罪感》的书，以及其中“动态休息”的概念。他意识到，忙碌可能才是人类大脑的“正常状态”，重要的是学会以可持续的方式工作，如同跑马拉松而非短跑。

更重要的是，志同道合的团队是他坚守的基石。在Anthropic，他看到了“毫无自私自利动机”、真心关注“如何做出正确的事情”的才华横溢的同伴。这份强烈的使命感，让团队成员即使面对其他公司“1亿美元签约奖金”的诱惑，也能坚定地选择留在Anthropic，因为在这里，他们能“直接影响人类未来，推动AI技术造福社会。”¹

曼恩曾担任Anthropic的15个不同岗位，从安全主管到运营管理，再到从零开始建立产品团队。但他最热爱的，是去年成立的Labs团队。这个团队的目标是将研究成果转化为最终用户产品，利用安全研究的优势，探索让AI智能体安全使用用户电脑凭证等高度信任的应用场景。他对此充满乐观，相信很快会有“令人惊讶的成果”问世。

谈及对未来的终极好奇，曼恩有两个问题想问未来的AGI。第一个是阿西莫夫《最后的问题》中关于如何防止宇宙热寂的哲学之问。而第二个，则直指核心：“我们如何确保人类在未来能永远繁荣？”¹这个问题，正是他夜以继日工作的根本驱动力。

在访谈的最后，曼恩给听众留下了一段深刻的寄语：“这是一个极为狂野的时代，如果你觉得它不疯狂，那你可能是生活在原始岩洞里。但你必须适应这种状态，因为这将是未来最常见的常态，未来会变得更加奇异。所以，如果你能做好心理准备，保持开放和适应性，我相信你会处于更加有利的位置。”¹这位AI纪元的孤勇者，正以他的远见、坚守与坦诚，引领着一场关于智能未来的深刻对话，并试图为人类文明构筑一道安全的堤坝。

引用

Anthropic联创曼恩：超级智能可能最早2028年出现·腾讯科技·金鹿（2024/7/24）·检索日期2024/7/24 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎