六大国产大模型金融财报分析能力深度评测:AI“金融分析师”的实战表现

温故智新AIGC实验室

TL;DR:

本次评测深入分析了DeepSeek、千问、混元、文心、Kimi与智谱六大国产大模型在金融财报分析领域的表现。评测结果显示,在财报数据提取、内部计算、信息归纳及初步风险识别等核心任务上,多数模型已展现出不俗的实力和实用价值;然而,在联网获取并准确比对外部金融数据方面,所有模型均存在显著不足,仍需谨慎对待。

工具对比:核心能力全面比较

随着AI大模型技术的快速发展,其在处理复杂文本和数据方面的潜力,正逐步渗透到金融分析等专业领域。特别是面对冗长繁复的财务报告,AI被寄予厚望,有望成为提升效率、辅助决策的“金融分析师”1。本次评测聚焦六大国内主流大模型——深度求索(DeepSeek-R1)阿里千问(Qwen3-235B-A22B)腾讯混元(Hunyuan-T1)月之暗面(Kimi-K1.5)、_百度文心(ERNIE-X1-Turbo)和_智谱(GLM-4-Plus),通过“分层进阶”的测试逻辑,从基础数据处理到高级策略洞察,全面评估其财报分析能力。

评测维度与通用表现概览:

本次评测设计了四个层级共六个维度的问题,旨在全面考察大模型作为“AI财务分析师”的综合素质。所有模型均针对一份虚拟的“美团-2025年第1季度”财务报告,输入相同的Prompt进行测试,以确保评测的公平性和一致性。

  1. 精准的数据提取能力

    • 目标: 从PDF财报中准确提取关键财务数据、特定费用项目及管理层业务亮点。
    • 表现: 所有参评模型均能顺利完成核心财务数据和特定项目费用的提取,准确率高。其中,ERNIE-X1-TurboHunyuan-T1、_Kimi-K1.5_和_Qwen3-235B-A22B_还提供了将单位由千元转换为亿元的贴心功能,更符合用户习惯。对于非财务关键信息,各模型提取的业务亮点虽侧重点略有不同,但普遍集中于核心业务增长、新业务发展及用户权益保障等重要方面。
  2. 严谨的计算与核验能力

    • 目标: 基于提取数据计算核心财务指标(如毛利率、流动比率)并解释其含义;核实管理层业绩声明的准确性。
    • 表现: _Kimi-K1.5_在此项测试中表现不佳,出现了计算错误和对财务科目的错误识别(如将“现金及现金等价物”误认为“流动资产总额”)。而其他模型则均能正确计算并解释财务比率。在管理层声明核验方面,所有模型均能正确计算并验证给定说法的准确性。值得一提的是,_DeepSeek-R1_和_Hunyuan-T1_在给出结论的同时,还能提供业务意义或潜在风险提示,展现了更深度的分析能力。
  3. 高效的归纳与提炼能力

    • 目标: 为不同受众(如普通投资者)提炼核心要点;总结管理层讨论中的主要挑战。
    • 表现: 各模型在摘要生成方面表现良好,能以数据为支撑给出正确结论。 DeepSeek-R1Hunyuan-T1、_Kimi-K1.5_和_Qwen3-235B-A22B_的条理化分点罗列使得结论更清晰。_DeepSeek-R1_的“赚钱能力飙升”、“家底厚抗风险”等通俗化语言风格是一大亮点。在特定章节摘要方面,所有模型均展现了准确的信息定位和逻辑归纳能力。DeepSeek-R1、_ERNIE-X1-Turbo_和_Qwen3-235B-A22B_在回答中加入相关数据,提升了说服力,_DeepSeek-R1_甚至能标注信息来源。
  4. 敏锐的风险与情感识别能力

    • 目标: 识别财报中隐含的业务风险;判断报告传递的整体情绪基调(乐观、谨慎、悲观)。
    • 表现: 在分析潜在业务风险时,除_Kimi-K1.5_外,其他模型均能根据财报信息分条列举潜在风险,而_Kimi-K1.5_则倾向于从宏观层面分析,未能深挖财报隐含信息,甚至一度给出过多的、令人困惑的风险列表。DeepSeek-R1Hunyuan-T1_和_Qwen3-235B-A22B_在结构化呈现风险(如“风险种类-驱动事件-财报原文-风险点”)和提供建议方面表现尤为突出,展现了强大的推理能力。在整体情绪判断上,所有模型均判断为“乐观”,但_DeepSeek-R1、_Hunyuan-T1_和_Qwen3-235B-A22B_采用了更贴近事实的“谨慎乐观”表述,体现了对细节和大局观的平衡把握。
  5. 企业策略与定位推断能力

    • 目标: 结合财报和通用知识识别竞争格局;根据财务数据推断竞争策略;评估市场地位。
    • 表现: 六个模型均能准确列出当前市场主要竞争对手(如饿了么、抖音本地生活、京东到家),并将业务线进行对应。_DeepSeek-R1_和_Hunyuan-T1_引用财报原文作为依据,增加了答案的说服力。推断竞争策略是难度最高的任务,需要“数据提取-外部知识比对-商业理论应用-逻辑推理”的完整闭环。_GLM-4-Plus_使用了假设数据导致分析错误,其余模型均提取到正确数据。除_ERNIE-X1-Turbo_外,其他模型均能以行业平均数据作为参照物进行外部知识比对。ERNIE-X1-Turbo、_Hunyuan-T1_和_Kimi-K1.5_能给出“nuanced”(细致入微的)结论,而非简单二选一。对市场地位的评估,所有模型均能结合财报数据和管理层讨论,给出“行业领导者”的判断,论证过程严谨。
  6. 融合外部知识的联网比对能力

    • 目标: 通过联网搜索获取竞争对手同期财务数据并进行横向比较。
    • 表现: 本次评测的六个模型在联网信息搜集能力上均不理想。 尽管在销售毛利率方面,DeepSeek-R1、_ERNIE-X1-Turbo_和_Hunyuan-T1_能获取大部分正确数据,但在流动比率和资产负债率等更复杂的指标上,没有一个模型能够获取全部正确数据。更严重的问题是,_Kimi-K1.5_和_Qwen3-235B-A22B_存在未获取到数据或编造数据的情况;_GLM-4-Plus_和_Hunyuan-T1_频繁出现编造数据的问题,_GLM-4-Plus_甚至搜索到无关网页并编造虚假数据,对用户造成极大困扰。这表明AI大模型在联网搜索时,几乎不会优先查询权威数据渠道,且缺乏对信息真伪的辨别能力

性能PK:财报分析实测表现

综合六个维度,以下是对各AI工具在金融财报分析方面的性能评估:

  • 功能完整性8.5/10.0
    • 核心财报分析功能(数据提取、计算、归纳、风险识别、策略推断)基本完整,能够辅助用户进行深入分析。但在外部数据整合和准确性方面存在明显短板,限制了其在全面市场对比分析中的应用。
  • 易用性8.8/10.0
    • 所有模型均接受标准Prompt,交互流程简便。部分模型(如_ERNIE-X1-Turbo_、DeepSeek-R1Hunyuan-T1_和_Qwen3-235B-A22B)在结果呈现上更加清晰或人性化,降低了理解成本。
  • 准确性与可靠性7.0/10.0
    • 内部文档处理的准确性(数据提取、计算、归纳)表现良好,可靠性高。然而,联网搜索获取外部数据的准确性极低且不可靠,存在大量编造或虚假数据的问题,严重影响了整体可靠性。_Kimi-K1.5_在内部计算环节的偶发性错误也拉低了其准确性。
  • 性能表现8.0/10.0
    • (根据评测内容,响应速度和处理效率未直接量化,但所有模型均能完成复杂任务)。在处理逻辑推理和多维度信息整合时,各模型表现出较高效率,能在短时间内生成较为详尽的分析报告。
  • 适用场景8.0/10.0
    • 非常适用于需要快速理解、总结财报核心信息,进行初步财务指标计算和内部风险洞察的用户。对于需要进行跨公司横向对比、依赖实时外部数据的深度分析,目前尚不适用,需配合人工核验。
  • 成本效益不适用
    • 本次评测的AI大模型多为通用型模型,其商业模式多样,部分提供免费试用或API按量付费。评测内容未涉及具体收费标准,且作为免费(或有免费层级)的工具,其核心价值在于提升个人及团队的生产力,而非直接的经济回报。

场景适配与选择建议

从本次评测结果来看,国产大模型在辅助金融财报分析方面已取得了显著进展。它们能够有效减轻人工阅读和提取繁杂财报信息的负担,并提供初步的洞察。

  • 对于专业的投资者或财务分析人士: DeepSeek-R1、_Hunyuan-T1_和_Qwen3-235B-A22B_是值得信赖的“助理”。它们不仅在基础数据处理上表现稳定,还能提供有价值的深度洞察,例如更结构化的风险分析、更细致的情绪判断以及在策略推断中引用原文作为支撑,能有效提升工作效率和分析质量。
  • 对于普通用户或学生: _ERNIE-X1-Turbo_也是不错的选择。它在各项核心任务上表现稳定,能够胜任快速获取财报核心数据和基本信息的功能,其简洁明了的回答风格也易于理解。

注意事项:

尽管AI大模型在财报分析上展现出巨大潜力,但其在联网获取外部信息方面的不足是一个突出且普遍的问题。所有模型在联网搜索金融数据时都表现不佳,频繁出现无法获取准确数据或编造虚假数据的情况。 在实际应用中,用户绝不应完全依赖AI模型获取或核验重要的外部财务数据,尤其是在涉及投资决策时。任何通过AI获取的外部数据都必须通过权威渠道进行人工核实。

因此,当前的大模型更适合作为提高内部财报处理效率的辅助工具,而非能够独立进行全面市场对比分析的“终极金融分析师”。未来的发展方向,应重点解决外部数据获取的准确性与权威性问题,确保AI在更广阔的金融场景中发挥可靠作用。

综合评分:8.0/10.0

推荐指数:⭐⭐⭐⭐

参考资料


  1. [六大国产大模型,谁是最强“金融分析师”?] · 锦缎研究院 · 思齐 (2025年07月21日) · 检索日期:2024年07月25日 ↩︎