数据“熵增”之困:AI如何以统一标准重构企业治理秩序

温故智新AIGC实验室

在数据爆炸式增长的AI时代,数据“熵增”正成为企业智能化转型的核心阻碍。Gartner预测,到2027年,80%的数据治理举措将告失败。然而,通过以数据标准为核心,并深度整合AI智能体,企业有望实现数据的“熵减”,构建可持续、高效率的智能数据治理新范式。

数字时代,数据的洪流以前所未有的速度涌入,成为驱动现代经济的底层燃料。然而,这股洪流的背后,却隐藏着一个日益严峻的挑战:数据“熵增”。借用热力学第二定律的概念,企业内部的数据如同一个封闭系统,若无外部能量的持续输入与精妙的感知,便会不可避免地从有序走向无序、从清晰变为混乱。在全球人工智能开发与应用大会上,瓴羊智能数据建设与治理产品Dataphin高级技术专家周鑫指出,当前企业所面临的正是这种数据“熵增”的困境,它正在侵蚀AI的效能,并威胁到数字化转型的根基。

据Gartner公司预测,到2027年,高达80%的数据和分析治理举措可能因各种原因而失效1。这一警示并非空穴来风,它深刻反映了传统数据治理模式在面对AI时代数据规模与复杂性时的力不从心。当AI Agent这类具备自主决策和行动能力的系统被寄予厚望时,它们往往因底层数据质量的缺失与治理的短板而“空转”,无法真正理解业务语境,更遑论解决实际问题。这种现象,正是“数据熵增”对AI应用产生的直接反噬。

数据「熵增」:AI时代的数据混沌挑战

数据从诞生到消费的整个生命周期,无不面临着“变混乱”的天然趋势。数据孤岛、格式不一、口径混乱、定义模糊,这些都是数据“熵增”在企业内部的具体表现。周鑫将数据治理比作数据世界的“熵减”过程,他强调,这需要“治理工具”作为能量输入,而“标准规范”则扮演了至关重要的“感知”角色2。然而,现实中的数据治理项目往往以失败告终,究其根本,症结在于四个方面:首先,治理动作分散,缺乏体系化方法论,导致努力难以形成合力;其次,治理流程复杂,重度依赖人的能力和素质,难以规模化推广;第三,缺乏工具支撑,导致理论与实施脱节,纸上谈兵;最后,无法持续治理,治理策略难以快速调整,无法适应业务的动态变化。

尤其是当企业试图将AI技术,特别是新兴的AI Agent,应用于业务流程时,这些底层的“数据熵增”问题被进一步放大。一个Agent即便拥有强大的对话能力和计算逻辑,一旦其所依赖的数据质量低下、语义模糊,它便无法构建准确的知识体系,最终只能在业务场景中“空转”,无法产出可靠的、可生产使用的结果。

标准为核心:Dataphin的“熵减”之道

面对AI时代的数据治理挑战,Dataphin提出了一套以数据标准为核心的数据治理方法论,旨在通过“Data x AI”策略重构治理秩序。其核心逻辑在于,以中台方法论构建统一的数据标准,从而打造企业级的“好数据”,并围绕数据生产、数据消费、行业数据流通形成完整的数据要素服务链,最终驱动数据价值的释放。

周鑫强调,“方法论的核心关键,在于以数据标准为中心。数据标准贯穿数据整个生命周期,它让数据治理具备核心抓手,不会漫无目的。”企业应从核心业务入手,先行试点开展业务梳理与盘点,将相关数据统一纳入DataCatalog(数据目录),并在此过程中逐步形成对应的数据标准。一旦标准梳理完成,平台便可基于这些统一的标准,自动实现质量监控与安全分类,从而在源头阻断不规范的数据开发,提升数据的可理解性与细节清晰度,实现数据从生成、开发到消费的全生命周期标准化管理。

这种以数据标准为核心的治理方案,具备三大显著优势:一是体系化,明确了治理目标与路径,告别碎片化操作;二是易落地,借助一体化工具和AI能力,使得复杂理论能够贯穿数据全生命周期;三是可持续,以标准驱动的模式能够更灵活地应对业务变化,有效降低治理的成本与复杂度。通过插件集成、API注册和准实时同步等多种方式采集元数据,并统一纳入DataCatalog,结合质量规则和安全策略进行自动识别与治理,这套方案将传统的复杂治理手段,简化为数据标准的梳理与治理效果的评估过程,数据的“符合标准程度”成为衡量整体数据质量的关键指标。

智能体赋能:AI如何重塑数据治理流程

在数据标准奠定基础之上,AI,特别是语义知识的构建与Agent的应用,成为加速数据治理、实现“熵减”的强大引擎。周鑫指出,Agent要在复杂业务场景中真正发挥价值,必须构建准确且丰富的语义知识体系。Dataphin通过整合元数据、数据标准、数据模型和业务知识四大核心要素,构建了全面的语义知识体系。通过采集统一的元数据,建立涵盖码表、词根、值域及安全分类分级的标准体系,并结合智能构建的概念模型、逻辑模型和物理模型,以及对业务词条和逻辑的高效管理,Dataphin实现了对复杂业务知识的精准映射和应用。

以**NL2SQL(自然语言转SQL)**为例,传统模型在处理复杂查询时常力不从心。Dataphin通过引入业务语义,不仅提升了问题泛化能力,更大幅提高了SQL匹配的准确率。实测数据显示,在45个典型问题中,简单问题的SQL准确率从70%提升至80%,而中等及复杂问题的准确率更是从10%跃升至惊人的60%3。这表明,高质量的语义知识能够显著增强AI对自然语言的理解能力,使Agent不再“空转”。

除了语义知识的强化,AI还被用于对数据治理链路进行全方位提效。基于对微软TaskWeaver框架的改造,Dataphin构建了具备生产化能力的Agent框架,覆盖研发、治理、资产问答等多个场景。例如:

  • 智能找表场景:用户不再需要将复杂的业务问题转化为精确的搜索词,AI大模型能够对业务问题进行拆解和泛化,自动关联到全域资产,极大地简化了数据发现过程4
  • 数据分析场景:通过专辑机制和丰富的语义知识,解决了因语义缺失或命名干扰导致的找表难题,显著提升了数据分析的效率和准确性。
  • 数据治理场景:对于类似“性别”等复杂字段的特征识别,AI取代了繁琐的人工探查和正则表达式编写,将以往需要十几分钟的工作量缩短至几十秒完成。
  • 数据管家场景:资产上架涉及的表描述、字段注释、目录归属、标签分类等复杂操作,AI可一键智能生成,大幅降低了人工维护的工作量和操作门槛,显著提升了数据资产管理的效率。

前瞻:迈向自动化与智能化的数据治理范式

当前,数据与AI的融合(Data x AI)在数据治理领域仍处于以模块提效为主的第一阶段。然而,随着AI对复杂节点处理能力的不断增强,Dataphin正致力于将这些独立的智能模块有机整合,构建**“智能工作台”**,以期重构整体业务流程。周鑫表示,未来,这种工作台模式将使得极少的人力能够完成以往复杂的业务,每个环节都将有大量的AI和自动化能力支撑,人类的主要职责将转变为“确认”。

这种范式转变意味着,AI将从辅助提效逐步向自动化、智能化方向迈进,推动企业数据治理的全面升级。它不仅关乎技术层面的革新,更将深刻影响企业内部的工作流、组织结构乃至商业决策模式。一个以统一标准为基石、由智能体深度赋能的数据治理体系,将为企业在AI时代构建真正的竞争优势,确保数据的价值被充分挖掘与释放,从而在数据“熵增”的浪潮中,找到清晰的“熵减”之道。

引文


  1. 数据「熵增」时代,AI 如何以标准重构治理秩序?·腾讯新闻·(2025/6/26)·检索日期2024/7/24 ↩︎

  2. 数据「熵增」时代,AI如何以标准重构治理秩序?·新浪财经·(2025/6/18)·检索日期2024/7/24 ↩︎

  3. 在数据熵增时代,AI如何重塑治理秩序?_Agent_业务·搜狐·(2025/6/18)·检索日期2024/7/24 ↩︎

  4. 在数据熵增时代,AI如何重塑智能数据治理体系?_周鑫·搜狐·(2025/6/18)·检索日期2024/7/24 ↩︎