本杰明·曼恩:AI纪元的孤勇者,与超级智能的对齐之战

温故智新AIGC实验室

TL;DR:

本杰明·曼恩,这位从OpenAI走出、创立Anthropic的AI先锋,不仅是一位技术远见者,更是超级智能时代“安全与对齐”的坚定守护者。他预言AI可能在2028年达至变革性智能,并通过“经济图灵测试”重新定义AGI的到来,同时呼吁社会正视AI的安全与伦理风险,坚守人类创造力的最后防线。

2020年末,硅谷科技巨头OpenAI的内部,一场无声的激荡正酝酿着一场出走。作为GPT-2和GPT-3项目的核心研发成员、论文第一作者,本杰明·曼恩,这位曾深度参与OpenAI从技术研发到商业化全过程,并协助完成十亿美元融资的关键人物,却选择离开,与志同道合的伙伴们一同创立了Anthropic。这并非一场简单的跳槽,而是一次理想主义的决裂,一场关于AI未来走向的深刻信念之战。

在曼恩的记忆中,OpenAI内部安全、研究与商业三大派系的角力日益显现。“每当听到管理层将这种分裂状态合理化时,我都深感忧虑,”他坦言,“总觉得这不是解决问题的正确方式。毕竟,OpenAI的使命是确保能够安全、有效地过渡到AGI,以造福人类。这其实也是Anthropic的使命,但在OpenAI内部,我感到存在着三个派系之间的诸多矛盾与紧张关系。当真正的关键时刻到来时,我们觉得安全性并不是最高优先级。”1正是这种对“安全性”优先级不足的担忧,驱动了曼恩和团队毅然自立门户,肩负起一个看似渺小却至关重要的使命:确保AI技术在狂飙突进中,始终与人类价值观保持对齐。

思想形成轨迹:从科幻想象到现实对齐

曼恩对AI的关注,源于孩提时代对科幻小说的痴迷。那些描绘人类成为跨星系文明、与有意识机器人共存的故事,在他心中播下了智能机器的种子。然而,真正将这份想象引向现实考量,是2016年尼克·博斯特罗姆的《超级智能》。“他书中描述了,如果我们使用当时的优化技术来训练AI系统,确保这些系统与人类价值观对齐将会有多么困难。”1这本书像一道闪电,击中了曼恩,让他开始重新评估AI伦理与安全的复杂性。此后,他毫不犹豫地加入了当时还默默无闻的OpenAI,全身心投入到这场前沿探索中。

如今,曼恩的思考已超越了博斯特罗姆书中“把上帝关进盒子里”的传统观念。他看到的,是“人们把‘上帝’从盒子里释放出来,试图让它接触整个互联网,甚至分享银行账户信息来做各种疯狂的事情,这种情境既荒谬又可怕。”1他认为当前的风险并非不可控,但未来的潜在危机却不容忽视。这种清醒的认知,构筑了他对AI安全级别(ASL)的深刻理解——Anthropic将AI风险分为五级,目前其模型处于ASL-3级,而ASL-5则意味着滥用或失控时可能导致“灭绝性后果”。1曼恩毫不讳言这些潜在的黑暗面,甚至主动向美国国会作证,详细阐述AI被用于制造生物武器等极端风险。这种坦诚,不仅是其价值观的体现,也赢得了政策制定者的信任。

核心理念阐释:AI迭代的加速与“宪法”的构建

在普遍弥漫着“AI发展遭遇瓶颈”论调的当下,曼恩却坚信技术进步正在加速,并直言这种论调每隔半年就会出现,但从未应验。他指出,模型的迭代周期已从每年缩短至每季度甚至每月,这得益于后期训练技术的突破。Scaling Law依然有效,只是重心已从传统预训练转向强化学习的规模化应用。曼恩引用牛津大学《Our World in Data》的数据图表,强调“每当一个新的基准测试发布后,通常在6-12个月内就会被模型性能‘摧毁’。”1真正的瓶颈,在于我们如何设计更具挑战性的基准测试,设定更有野心的任务目标。

对于AGI(通用人工智能),曼恩偏爱使用“变革性AI”这一概念,它更关注AI能否对社会经济产生实质性变革影响,而非纠结于人类水平的全能智能。他推崇“经济图灵测试”作为衡量标准:当AI能胜任某个工作岗位,且雇主无需分辨其是机器还是人类时,便通过了该岗位的测试。他预测,当AI能通过50%高价值岗位(按薪资加权)的盲测时,即标志着变革性AI的诞生,这将引爆全球GDP重构与社会形态变革。

Anthropic在AI对齐方面的突破,正是其核心理念的鲜明体现。曼恩强调,“安全与进步并非相互排斥,而是相辅相成。”他提到OpenAI发布GPT-3时模型的个性和功能,正是他们在对齐研究上的成果。而最具代表性的,便是Anthropic独创的“宪法AI”(Constitutional AI)。这种“自我反馈强化学习”(RLAIF)方法,通过自然语言原则(如《联合国人权宣言》、苹果隐私政策等)指导模型学习行为规范,使其能够自我批判、自我改进,减少对大量人工反馈(RLHF)的依赖。曼恩解释道,模型会在生成回答后,根据预设的“宪法”原则进行自我检查和修改。如果模型未能遵循,它会再次尝试,直到生成符合原则的回答。1

“这最终都是关于AI理解人们想要什么,而不仅仅是他们说了什么,”他总结道。尽管这种方式可能被外界解读为“吸引注意”或“末日预言”,曼恩坚信,提前揭示风险是为了促使整个行业正视问题,并在超级智能到来前采取行动。“即便这种风险发生的概率很小,我们也不能忽视它。”1

行业影响与未来预判:奇点将至,创造力永恒

曼恩毫不掩饰AI对社会结构的深远影响。他认同联合创始人达里奥·阿莫代伊的观点,即AI可能导致20%的白领职位消失,但更大影响将来自AI对工作性质和社会结构的根本改变。他从经济学角度剖析,失业将由技能错配和工作消亡两种形态交织而成,并大胆预测,在20年后,技术奇点的突破可能导致资本主义也迎来更多变革。他描绘了一个“劳动近乎免费、专家智能唾手可得的富足世界”,届时“工作”的概念本身都将被重新定义。

然而,曼恩也清醒地指出,大众对这种指数级增长的认知局限。他个人早在2019年GPT-2发布时就已预感到拐点将至,但直到ChatGPT出现,大众才真正感受到变革的来临。目前,客户服务和软件开发领域已发生显著变革,AI已能自动编写95%的代码,工程师能产出10-20倍的代码量。他认为,在短期内,劳动力的生产力将大幅提高,每个人能做的事情也会大大增加。但他同时警告,那些技能要求较低或提升空间不大的工作,将会被大量取代。

面对职业替代风险,曼恩给出建议:保持开放和学习的心态,勇于尝试新工具,并真正理解如何发挥工具的最大价值。“真正威胁你的不是AI本身,而是那些比你更善于运用AI的同行。”1他认为,“创造力”将是人类最后的护城河,是区分普通人与顶尖人才的关键标尺。这种突破框架的思维,是AI始终无法真正理解的。

对于奇点何时到来,曼恩倾向于采纳“超级预言家”们的意见:“50%的概率在接下来的几年内出现某种形式的超级智能,最早可能是2028年。”1这一预测并非空穴来风,而是基于智能持续改进、模型训练目标、数据中心与电力扩展速度等科学细节。他同时提醒,即便超级智能真的出现,其社会影响会滞后,且分布不均,正如阿瑟·克拉克所言:“未来已经到来,只是它还分布不均。”1他认为,如果全球GDP增速能从目前的3%飙升至10%以上,那将是变革性AI真正降临的标志。

责任的重量与内心的坚守:可持续的马拉松

承担确保超级智能安全的责任,无疑是沉重的负担。曼恩坦言,支撑他应对这些重压的,是一本名为《替代负罪感》的书,以及其中“动态休息”的概念。他意识到,忙碌可能才是人类大脑的“正常状态”,重要的是学会以可持续的方式工作,如同跑马拉松而非短跑。

更重要的是,志同道合的团队是他坚守的基石。在Anthropic,他看到了“毫无自私自利动机”、真心关注“如何做出正确的事情”的才华横溢的同伴。这份强烈的使命感,让团队成员即使面对其他公司“1亿美元签约奖金”的诱惑,也能坚定地选择留在Anthropic,因为在这里,他们能“直接影响人类未来,推动AI技术造福社会。”1

曼恩曾担任Anthropic的15个不同岗位,从安全主管到运营管理,再到从零开始建立产品团队。但他最热爱的,是去年成立的Labs团队。这个团队的目标是将研究成果转化为最终用户产品,利用安全研究的优势,探索让AI智能体安全使用用户电脑凭证等高度信任的应用场景。他对此充满乐观,相信很快会有“令人惊讶的成果”问世。

谈及对未来的终极好奇,曼恩有两个问题想问未来的AGI。第一个是阿西莫夫《最后的问题》中关于如何防止宇宙热寂的哲学之问。而第二个,则直指核心:“我们如何确保人类在未来能永远繁荣?”1这个问题,正是他夜以继日工作的根本驱动力。

在访谈的最后,曼恩给听众留下了一段深刻的寄语:“这是一个极为狂野的时代,如果你觉得它不疯狂,那你可能是生活在原始岩洞里。但你必须适应这种状态,因为这将是未来最常见的常态,未来会变得更加奇异。所以,如果你能做好心理准备,保持开放和适应性,我相信你会处于更加有利的位置。”1这位AI纪元的孤勇者,正以他的远见、坚守与坦诚,引领着一场关于智能未来的深刻对话,并试图为人类文明构筑一道安全的堤坝。

引用