摆脱“机器胡扯”的宿命:高阶程序如何重塑企业级AI的可靠性与商业未来

温故智新AIGC实验室

TL;DR:

大模型的“幻觉”是其概率生成机制的固有缺陷,普林斯顿大学的研究量化了其“机器胡扯”现象。蚂蚁密算提出的高阶程序(HOP)框架,通过工程化方法为大模型注入领域知识和验证流程,有望从根本上提升企业级AI应用的可靠性,并催生智能与工程深度融合的新范式。

大模型,作为当前人工智能浪潮的核心驱动力,其在文本生成、代码辅助甚至复杂推理方面的能力令人惊叹。然而,伴随其“智能涌现”的,是始终挥之不去的“幻觉”阴影。近期,普林斯顿大学和加州大学伯克利分校的一项研究《Machine Bullshit》量化定义了“机器胡扯”(Bullshit Index)现象,发现经过强化学习人类反馈(RLHF)训练后,模型的“胡扯指数”反而飙升近一倍,甚至思维链(Chain-of-Thought)推理也未能改善,反而让模型更擅于“包装”误导性内容1。这与多数人对“越聪明越可靠”的直觉大相径庭,揭示出大模型“越聪明越胡扯”的深层矛盾。

技术原理与创新点解析:工程化为智能“立规矩”

长期以来,业界缓解大模型幻觉的主流策略,如检索增强生成(RAG)、联网搜索、提示词工程等,主要聚焦于大模型本身。然而,幻觉作为大模型概率生成机制的固有缺陷,似乎无法“根治”,只能被“缓解”1。这种“治标不治本”的困境,严重制约了大模型在企业级应用中的落地,尤其是在金融风控、医疗诊断、网络安全研判等对准确率要求高达90%甚至99%以上的专业领域。正如浙江大学教授陈纯所言:

“幻觉是智力的必然代价。若消除所有幻觉,大模型将退化为机械的检索工具。因此,可靠性的突破不在于消灭‘智力特征’,而在于构建工程化保障框架。”2

在这一背景下,蚂蚁集团旗下蚂蚁密算在2025世界人工智能大会(WAIC)上开源发布的高阶程序(High-Order Program,HOP)大模型可信应用技术框架,提供了一种全新的解题思路:将智能化与工程化深度融合,借鉴人类在复杂系统可靠性建设中的成功经验——分解(Decomposition)与核验(Verification)。3

高阶程序的核心在于将传统工程管理中的**标准作业程序(SOP)检查清单(Checklist)**概念引入大模型应用,通过一套可信应用技术框架为大模型注入领域知识、约束规则和验证流程。其核心组件包括:

  • 业务逻辑的程序化表达: 将过去存在于专家大脑中的领域最佳实践,通过融合编程语言的严谨性和自然语言的灵活性,进行代码化沉淀。这使得复杂的业务逻辑可以被分拆到可核验的颗粒度,避免自然语言的歧义,并支持大规模可扩展性。
  • 场景知识图谱: 补充通用语料集在专业场景中对概念关系覆盖的不足,显性化行业专家积累的专业知识,解决特定场景的细微差异带来的可靠性问题。
  • 受控工具链: 负责具体的动作执行。与通用AI Agent开放性工具调用可能带来的安全隐患不同,高阶程序通过程序逻辑融合,天然具备对工具调用的可控性,确保执行的安全性和效率。

为使大模型正确执行高阶程序,蚂蚁密算构建了HopLogic执行框架,赋予高阶程序四大关键功能:

  • 可执行(Executable): 将大模型作为“CPU”,实现了基于抽象概念和逻辑的执行能力,自动化大量人力工作。
  • 可核验(Verifiable): 通过复合核验机制,确保大模型达到专业应用所需的99%+可靠性,并具备更高的可核验潜力。
  • 可派生(Derivable): 通过知识概念匹配,实现从专业知识到具体场景应用的派生适配,取代大量初级人工劳动。
  • 可编排(Orchestrable): 高阶程序具备自洽性,可按业务需求编排执行,提升整体效率。

这一技术范式,本质上是从“提升模型智能”转向“提升智能应用系统的可靠性”,承认大模型“幻觉”的固有性,并通过外部工程化手段,在应用层建立一道“认知防护网”,确保其在关键任务中的高精度输出。

产业生态与商业价值重塑:解锁企业级AI的万亿市场

高阶程序的出现,正有望打破大模型在企业级应用落地的最大瓶颈,其商业价值和对产业生态的重塑是显著的:

  • 金融风控: 将复杂、依赖人工的金融风控全链路操作(数据探查、处理、模型构建与调优)程序化,实现智能化编排与自动化执行。在确保高精度的同时缩短建模周期,并显著减少重复性工作,将专家从基础事务中解放,专注于高价值的风险策略工作1。结合密算技术,还能有效提升数据保护水平。
  • 网络安全: 提升安全事件研判的时效性和准确率。在蚂蚁内部实践中,网络安全研判正确率从84%提升至99%,并大幅提升自动化处理效率1
  • 医疗健康: 针对医疗重复计费等复杂且涉及隐私的痛点,高阶程序能够处理多系统交叉判定场景,在保障数据安全的前提下,大幅提高核验准确率1

这些真实的企业级应用案例表明,高阶程序并非停留在理论层面的AI探讨,而是聚焦实际效能的技术实现路径。它将使得大模型在对准确性要求严苛的ToB场景中,从“概念验证”走向“规模化应用”,开启一片此前因可靠性不足而无法触及的巨大市场。通过提升可靠性,有望引发数字产业成本变革,大幅降低数字化例行任务的成本,弥补生产力短缺。

未来范式:智能与工程的深度融合

高阶程序所引领的范式革新,只是一个开始。展望未来3-5年,其发展将呈现三大关键趋势,深刻影响AI产业:

  1. 语料集从通用走向场景: 当前大模型发展仍以通用语料为主,但专业应用对场景语料集的需求将日益凸显。这些语料集将支持高阶程序所需的标准作业程序、专业术语和高正确率测试,是确保专业领域可靠性的基石。
  2. 数字产业成本变革: 过去大模型在复杂任务上的低准确率制约了其应用。高阶程序通过场景适配和工程化控制,显著提升了任务完成的可靠性,使得AI在更多核心业务流程中替代人工,从而引发数字产业的结构性成本下降
  3. Agent生态兴起: 高阶程序将催生一个全新的高阶程序Agent生态。当正确率、完成率和成本效益达到行业要求后,行业专家将其核心知识以高阶程序的形式显性化沉淀,形成可复用、可派生的“专业智能模块”。这些高阶程序Agent将成为专业领域中的重要“新物种”,并与密算技术天然结合,确保数据处理的安全性和隐私性,进一步拓展其应用边界。

高阶程序代表了一种将人类“智慧”与“工程”沉淀相结合的路径。它承认AI的固有局限,转而通过构建外部的、严谨的工程保障体系来弥补。这种思维的转变,从“让AI变得更聪明”到“让AI变得更可靠”,是从实验室到实际生产力转化的关键一步。它预示着一个智能与工程深度融合的AI应用新纪元正在走来,届时,大模型将不再是孤立的“魔法盒子”,而是嵌入到严密的工程体系中,真正成为人类文明进程中的高效、可信的专业生产力。

引用


  1. 当大模型陷入幻觉循环,如何用工程化给它“立规矩”?·网易·(2025/7/27)·检索日期2025/7/28 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 蚂蚁密算:全国首个高阶程序大模型可信应用技术框架开源发布·新浪财经·(2025/7/27)·检索日期2025/7/28 ↩︎

  3. 探索大模型可靠应用新范式蚂蚁密算宣布开源高阶程序大 ...·经济参考报·(2025/7/27)·检索日期2025/7/28 ↩︎