TL;DR:
企业AI市场正从模型和算力竞争转向数据与AI基础设施的深度融合,构建“AI-Native”数据底座成为核心。这场变革催生了兼具技术深度、商业敏锐度和全球视野的平台型公司,引领着新质生产力的发展,并在全球数字化转型浪潮中展开战略竞速。
在2025年的企业级AI市场,Data & AI(数据与人工智能)一体化平台已然成为不可忽视的主流趋势,其受到的关注度丝毫不逊色于备受资本青睐的AI Agent开发平台。这并非偶然,而是技术演进、商业需求与社会发展共同作用的结果。AI的核心在于像人一样思考、学习和决策,而其“底层养料”始终是数据。当模型参数规模突破600亿,引发“智能涌现”时,其背后正是海量高质量数据的支撑。然而,仅仅拥有算法和算力是不够的,如何有效地将数据转化为企业专属的智能,是当前企业AI落地的核心挑战。
Data与AI的深层融合:企业级智能的基石
我们正处在一个由数据和AI共同定义的新质生产力时代。数据作为关键生产要素,AI作为新式生产工具乃至“劳动者”,二者的有机结合正在成为数字经济最重要的发展引擎。这要求我们超越将AI视为独立工具的思维,转而构建一体化的Data & AI基础设施,实现“Data for AI”和“AI for Data”的双向赋能1。
这种一体化并非简单的技术堆叠,而是从架构、流程到场景的三重融合:
-
架构融合:构建AI-Native数据基础设施 传统大数据架构(如Hadoop、Spark)以高吞吐量、高容错性为核心,但在AI所需的低延迟数据访问、多模态数据处理和GPU/TPU资源调度方面存在明显短板。例如,AI模型训练需要反复读取样本,传统HDFS存储可能遭遇I/O瓶颈,而大数据平台的资源调度系统(YARN)也难以有效适配AI所需的异构算力。 架构融合的核心在于构建“AI-Native”的数据基础设施。以湖仓一体(Lakehouse)架构为基础,集成向量数据库以支持多模态数据检索,内置模型服务引擎(Model Serving)以实现快速模型部署,并具备动态资源调度模块,确保在满足PB级数据高效存储的同时,实现AI模型毫秒级数据读取和弹性算力调度的需求1。
-
流程融合:打通数据与AI工程的全生命周期 企业内部数据团队与AI团队之间常见的“人工搬运”环节,严重制约了AI的落地效率和数据一致性。数据清洗、治理后需导出导入,模型训练完成后又需重新对接业务系统,这不仅效率低下,也增加了出错风险。 流程融合的本质是实现数据工程与AI工程的工具化统一。这意味着在数据准备阶段,数据治理工具需内置特征工程能力;在模型开发阶段,AI开发平台需能直接访问数据底座的资产目录并实时调用流数据;在模型部署阶段,MLOps能力应实现模型部署、监控、回滚与数据质量监控的联动,当数据质量下降时,能自动触发模型重训练,形成闭环。
-
场景融合:支撑多模态与智能Agent的复杂应用 随着AI技术演进,Data & AI的应用场景已从单一结构化数据分析走向“多模态数据 + 智能Agent”的复合场景。无论是智能座舱需处理语音、图像、传感器等多模态数据,还是智能投顾Agent需实时对接市场行情并调用风险评估模型,都要求Data & AI平台具备“多模态数据处理 + 数据资产化 + Agent开发”的一体化能力。 场景融合的难点在于兼容性与扩展性。平台必须支持文本、图像、音频、物联网时序数据等多种数据类型的统一存储与检索(例如通过向量数据库实现语义检索),同时提供低代码的Agent开发工具,赋能业务人员基于现有数据资产快速构建智能应用,而非过度依赖算法团队从零开发1。
永旺集团作为日本跨国型连锁商超,其复杂的业务模式和跨云环境应用,恰恰印证了三重融合的极端难度和必要性。通过选择一体化Data & AI平台,其成功解决了数据汇聚、指标不统一、数据质量参差不齐以及AI应用瓶颈等问题,奠定了智能供应链、精准营销等场景的良好数据基础。科杰科技创始人兼总经理于洋强调,大型组织落地此类底座平台,不光是产品技术先进性,更是一套保障数据持续集成、治理与业务场景价值创新的“工作方法论”,它赋予数据底座灵魂,使其可落地、可运营,让企业真正具备原生AI能力1。
竞争格局与价值抉择:Data & AI 基础设施提供商的崛起
全球Data & AI市场已从技术探索进入生态卡位阶段,涌现出三类主要玩家,企业在选择合作方时,面临着技术能力、定制化需求、长期成本和战略匹配度的多重考量:
-
传统大数据公司: 它们在大数据平台和项目实施方面积累深厚,尤其在上一代数字化转型中扮演了核心角色。然而,在GenAI兴起后,这些企业的AI能力多为外部集成,其Data & AI一体化建设经验相对较少。它们更偏重大数据分析能力,适用于以“数据分析”为核心的传统需求1。
-
云计算公司: AWS、阿里云等云厂商提供从IaaS到PaaS的全栈服务,具备算力与生态一体化的优势,性能有保障。但其标准化产品难以完全适配大型企业复杂的定制化、私有化和数据安全需求,且长期运营成本可能因按量计费和“vendor lock-in”风险而居高不下。因此,它们更亲和业务流程相对标准化、对算力弹性需求高、且能接受长期依赖云生态的中小型或互联网企业1。
-
Data & AI基础设施平台提供商: 以Databricks、Snowflake、科杰科技为代表的专业厂商,其核心竞争力在于Data与AI的_原生融合_。它们从设计之初就以“融合”为理念,而非“大数据+AI插件”的拼凑,能全面覆盖架构、流程、场景的全链路需求。
- 技术能力卓越: 例如Databricks的Delta Lake提供ACID事务和版本控制,Snowflake的存储与计算分离架构可降低30%-50%成本,而科杰科技的KeenData Lakehouse则通过97%的自研代码率实现了全栈信创适配,满足国企、政府的安全合规要求12。
- 资本青睐与快速增长: Databricks作为该领域的超级独角兽,在2024年底获得100亿美元投资后,仅隔半年又以超过10亿美元的K轮融资,将其估值推高至惊人的1000亿美元以上,年化收入(ARR)达到约37亿美元,同比增速50%3。这不仅体现了资本市场对Data & AI融合潜力的巨大热情,也预示着这些公司拥有充足的资金来驱动技术创新和市场扩张。
- 模块化与成本可控: 相较于云计算厂商的标准化产品,这些专业提供商的模块化产品矩阵可按需选择,避免不必要的功能冗余,从而实现更可控的长期成本。
值得注意的是,全球范围内的Data & AI基础设施平台提供商之间也存在差异。北美厂商(如Databricks、Snowflake)在SaaS工具生态方面更侧重,而许多中国企业(如科杰科技)则在过去十余年的数字化转型浪程中,面向巨型企业设计产品,其平台整合能力、系统能力以及在私有化部署、落地方法论方面更具优势。科杰科技创始人于洋甚至指出,“科杰数据智能平台在企业级和整体性是优于美国Databricks、Snowflake公司Data SaaS工具组合方案的”,特别是在集中式管理、分散式赋能的理念和完整的构建方法论上1。
全球化浪潮与未来战略:AI基础设施的跨国部署
2025年,对自身产品有信心的企业,必须将全球化纳入其核心战略规划,并在AI基础设施构建之初就将这部分成本和适应性考虑在内。全球Data & AI赛道的竞争已从单纯的技术探索进入更为复杂的生态卡位与市场争夺阶段。中国挑战者如阿里云、科杰科技等,在完成“国产化替代”的初期任务后,已开始在全球市场与海外头部企业正面交锋1。
沙特阿拉伯的“2030愿景”是一个生动的例证。这项旨在实现经济多元化转型的十年大型数字化工程,吸引了中国企业高密度参与。阿里云与沙特方面合资成立沙特云计算公司,而科杰科技也凭借在Data Fabric、Data Mesh、Active Metadata Management等关键技术领域的创新优势,与沙特多家企业及机构达成合作,为其提供定制化的Data & AI基础设施解决方案1。
这不仅仅是技术或商业的扩张,更深层次地体现了_全球技术生态与地缘政治的交织_。OpenAI创始人山姆·奥尔特曼曾坦言美国低估了中国AI的威胁,并认为芯片管制并非有效方案,中国模型的竞争促使OpenAI发布开源模型1。这说明中国AI技术在全球舞台上的影响力日益增强。
因此,为了未来的海外业务发展,选择与Data & AI基础设施平台提供商合作构建AI基础设施,以更好地控制成本并获得更契合的服务与产品,不失为一个具有战略前瞻性的技术选型思路。当完整的产业生态从国内蔓延向国外,它将以更高的性价比、更适配的服务、更本土化的产品,赋能其他中企出海,形成良性循环。Data & AI平台的建设考量,无疑已延伸至对全球化战略的深远布局。