从“算力崇拜”到“数据治理”:AI 落地为何困于“垃圾进,垃圾出”?

温故智新AIGC实验室

TL;DR:

大多数 AI 项目的失败并非源于算法或算力瓶颈,而是陷入了“垃圾进,垃圾出”的数据泥沼。企业正经历从“以模型为中心”到“以数据为中心”的范式转变,高质量数据集的构建将成为未来人工智能产业竞争的真正核心。

迷雾中的“尺子问题”:AI 的认知陷阱

在人工智能的发展史中,2026年是一个关键的转折点。当行业狂欢于参数规模的几何级数增长时,一个残酷的现实被频频摆上台面:制药公司斥巨资训练的模型,最终识别的不是肿瘤,而是医生习惯留在照片里的“测量尺”。1 这并非个案,而是AI工程化中最具讽刺意义的“尺子问题”。

这揭示了一个被资本泡沫遮蔽的技术本质:人工智能并非拥有人类那样的“常识”,它只是极其高效的统计关联提取器。当训练数据充斥着逻辑瑕疵、标注偏差和业务噪声时,模型便会忠实地学到这些“捷径”,从而导致在实验室表现优异的模型,在临床或工业场景下直接崩溃。正如业界广泛共识,企业中95%的AI项目失败,本质上是由于数据治理的缺失,将更多“垃圾”以极高的算力成本重新跑了一遍。2

数据治理:被低估的“生产车间”

如果将大模型比作精密引擎,那么数据就是燃料。但现实中,大多数企业的燃料库不仅杂质横生,而且缺乏统一的提炼标准。3 数据治理在此不仅是IT部门的行政工作,而是决定 AI 落地价值的战略基础设施。

真正的“高质量数据集”建设,并非简单的去重或清洗,它要求企业建立覆盖全生命周期的工程体系:

  • 标准化体系:消除部门间对“客户”、“成交”等核心指标的定义分歧,解决模型学习中的“口径噪音”。
  • 数据血缘追踪:确保模型训练所用的每一个特征,都能追溯其原始来源与处理逻辑,避免上游数据变更导致模型逻辑“隐性偏离”。
  • AI for Data:利用智能代理(Data Agent)自动完成异常扫描与元数据维护,将“运动式整治”转化为持续的自动化流水线。4

“数据飞轮”:从线性开发到生态循环

国家数据局在2026年部署的《关于推进行业高质量数据集建设行动的实施方案》,标志着中国 AI 产业正式进入“以数据为中心”的深水区。5 这一战略的核心在于重塑“数据飞轮”:以场景为牵引,通过高质量的数据反馈持续驱动模型进化,进而赋能更广泛的业务场景。

这种转变对商业逻辑产生了深远影响:

  1. 资产化重构:数据集不再是项目的“边角料”,而是具备流通价值、可评估、可交易的新型生产资料。[^6]
  2. 人才需求迭代:具备业务洞察、懂模型适配、能够参与高质量标注的“专家型”标注人才,将取代单纯的劳动密集型标注工人。
  3. 价值发现机制:企业开始接受为数据“买单”,从订阅模式到词元(Token)交易,市场正在构建一套可量化、可预期的评估价值体系。[^7]

前瞻:未来 3-5 年的 AI 产业竞争态势

展望未来,人工智能的竞争壁垒将从“算力堆叠”向“高知识密度数据的垄断”转移。那些能够率先将隐性知识、业务逻辑和物理交互规律转化为“AI-Ready”数据集的企业,将建立起不可逾越的护城河。

我们必须意识到,算法技术的边际效应正在递减,而高质量数据的边际产出正在递增。未来的 AI 赢家,本质上是那些能够收拾好“数据屋子”,并让每一 bit 信息都能在模型中产生最大化价值的组织。数据治理能力,将成为检验企业是否真正步入“AI 时代”的唯一试金石。

引用


  1. 国家数据局关于印发《关于推进行业高质量数据集建设行动的实施方案》的通知·国家数据局(2026/6/8)·检索日期2026/7/2 ↩︎

  2. 科学谋划高质量数据集建设·国家治理网·姜江(2026/4/21)·检索日期2026/7/2 ↩︎

  3. 《高质量数据集建设指南(征求意见稿)》技术文件及相关标准浅析·福建省经济信息中心(2025/8/5)·检索日期2026/7/2 ↩︎

  4. 【解读】《关于推进行业高质量数据集建设行动的实施方案》·无锡高新区数据局(2026/6/8)·检索日期2026/7/2 ↩︎

  5. 北京市政务服务和数据管理局关于公开征集北京市行业高质量数据集建设成果的通知·北京市政务服务和数据管理局(2026/4/8)·检索日期2026/7/2 ↩︎