AI Agent 不是聊天框:一次企业财务数据质检 AI Agent 实战复盘
企业AI落地的真正挑战并非技术模型,而是复杂的业务场景与数据孤岛。本文通过一个制造业财务数据质检案例,揭示了如何将人工排查经验转化为可执行的业务Skill,构建具备证据链的AI Agent系统——不是替代决策者,而是为每个财务差异案件建立可审计的标准化侦查流程。

一、企业 AI 最难的不是模型,而是真实业务现场
过去一年,很多企业都在谈 AI Agent。但真正进了企业现场,你会发现,落地最难的往往不是模型能力,而是三个更具体的问题:业务链路太长、系统关系太乱、责任边界太复杂。
这些企业其实不缺系统。前端业务系统、ERP、报表平台、流程系统、主数据平台,该有的都有,历史接口一大堆,老员工脑子里的经验也一堆。
真正的问题是:系统越多,数据越容易在流转过程中断掉。报表能告诉你“这里对不上”,但为什么对不上,还是得靠人一个系统一个系统去翻。
这篇文章基于一个脱敏后的企业财务数据质检项目,复盘一种更适合 B 端复杂场景的落地方式——不是做一个会聊天的 AI,而是把人工排查经验变成可执行、可审计、可复核的业务 Skill。
二、项目背景:业务系统说一套,财务系统说一套,报表平台只负责报警
先把这个场景讲清楚。
一家大型制造企业,内部有好几套系统:
- 前端业务系统:记录门店、经销商、订单、结算单这些业务发生过程
- ERP / 财务系统:负责收入、应收、凭证、过账、开票这些正式账务处理
- 报表平台:从不同系统抽数据,做月结核对,展示差异
一笔业务从发生到入账,大概走这么一条链:
业务发生 → 前端业务系统生成结算单 → 业务数据传入 ERP / 财务系统 → 财务系统完成收入、应收、过账、开票 → 报表平台抽取两端数据 → 月结时做差异比对
正常情况下,两边应该对得上。但现实没这么简单。系统建设时间不同,接口标准不统一,主数据变更频繁,操作人员也可能出错。于是月结的时候经常出现:金额不一致、状态不一致、同一单据出现多行、业务系统有财务系统没有、财务系统已过账业务系统未更新、同一单据对应多个主数据 ID。
报表平台能发现这些差异,但它只能告诉你“这里不一致”,回答不了这些问题:
- 为什么不一致?
- 问题第一次出现在哪个环节?
- 是业务系统错,还是财务系统错?
- 是接口传输的问题,还是主数据归属的问题?
- 该找哪个系统的负责人处理?
于是,最耗人的地方来了:差异发现之后,财务和 IT 还是要逐笔跨系统排查。
三、核心矛盾:企业不是缺 AI,而是缺“可执行的业务归因能力”
很多 AI 项目一上来就做成聊天框。用户输入“请分析这条财务差异的原因”,大模型回一段文字。但在财务对账这种场景里,这么做很不踏实。
因为财务差异归因不是知识问答,是办案。它要回答的是:查了哪些系统?查了哪些字段?哪一步正常?哪一步开始异常?证据从哪来?规则依据是什么?谁最终确认?
没有证据链,AI 回答得再通顺,也没人敢信。
所以这个项目的核心判断就一句话:不要把 AI 做成“回答问题的人”,要把 AI 做成“按步骤查证据的人”。
要建的不是一个聊天机器人,而是一套数据质检 Agent。
四、先区分三个概念:业务系统、财务系统、报表系统
做这类项目,很多人一开始会被各种系统名字绕晕。其实可以很简单地理解。
1. 业务系统:记录“事情怎么发生”
业务系统离业务现场最近,记录的是:谁买了、哪个门店、哪个经销商、哪张订单、哪张结算单、金额多少、业务状态是什么。它关心的是业务过程——这笔交易有没有发生、这张结算单谁生成的、这个客户属于哪个门店、这笔收入归属哪个组织。
2. 财务系统:记录“这件事在账上怎么算”
财务系统更靠近正式账务。它关心的是:收入是否确认、应收是否生成、是否过账、是否开票、凭证号是什么、会计期间是什么。同一笔业务,在业务系统里可能是一张结算单,到了财务系统里,就变成收入、应收、凭证、过账状态这些账务对象。
3. 报表系统:发现“两边说法是否一致”
报表系统从业务和财务两端抽数据做比对,像个检查员:业务系统说金额是 A,财务系统说金额是 B,对不上就报警。但它通常不做根因分析——能发现差异,不一定能解释差异。这就是 AI Agent 介入的空间。
五、为什么简单 RAG 不够?因为归因不是“查文档”,而是“跑流程”
一提到 AI,很多企业就想到知识库。把排查文档、历史案例、会议纪要放进去,让大模型检索回答。这当然有用,但不够。
在这个场景里,知识库最多告诉你“遇到这种问题通常应该怎么查”。但真正的归因,需要系统实际去执行:查差异清单、查业务单据、查财务凭证、查收入台账、查接口日志、查主数据、查组织变更、比金额、比状态、比主数据 ID、判断哪一步开始异常。
所以,人工排查经验不应该只沉淀成“文档”,它应该被转成 Skill。
六、什么是 Skill?就是把老员工经验变成系统能跑的 SOP
在这个项目里,Skill 不是什么玄学概念,它就是一套结构化的排查流程。
举个例子。有一类差异叫“同一结算单出现多个主数据 ID”,老财务或老 IT 知道要这么查:
- 看报表差异清单,确认是否同一单据出现多行
- 查业务系统传给财务系统的数据是否正常
- 查财务系统是否按正确金额过账
- 查业务系统收入台账是否出现多个主数据 ID
- 查门店或客户主数据是否发生过变更
- 查组织变更记录,判断是否历史归属变化导致异常
- 输出根因和复核建议
把这套经验结构化,就是一个 Skill。一个合格的 Skill 至少包含:
- 适用现象:什么样的差异触发这个 Skill
- 输入数据:需要哪些表、字段、日志、主数据
- 排查步骤:第一步查什么,第二步查什么
- 判断规则:什么算正常,什么算异常
- 证据输出:每一步输出什么证据
- 根因分级:定位到系统、表、接口还是业务规则
- 复核角色:需要财务、IT 还是系统负责人确认
Skill 的本质就一句话:把“人脑里的排查经验”,变成“系统里的可执行流程”。
七、Agent 在这里到底干什么?
Agent 不是魔法。在这个场景里,它更像一个任务调度员。职责是:接收差异、判断差异类型、选择对应 Skill、调用相关 Tool、组织规则计算、汇总证据链、生成报告、推送人工复核。
打个比方:
- Agent = 查账侦探
- Skill = 办案手册
- Tool = 查资料工具
- 规则引擎 = 判断器
- 大模型 = 报告写手
- 人工复核 = 最终拍板的人
这里最重要的一点是:不要让大模型直接对原始财务数据做最终判断。更稳妥的方式是——规则引擎负责算清楚,大模型负责讲清楚,人负责确认清楚。
八、为什么要“先确定性计算,再模型解释”?
财务场景对准确性和可审计性要求很高。如果直接把原始财务数据丢给大模型,让它判断“你觉得这条差异是什么原因”,风险很大。大模型可能编造原因、忽略字段口径、混淆系统责任、无法解释依据、经不起审计。
所以更适合的架构是:
- 系统在内网读取差异数据
- Skill 按固定步骤查相关系统
- 规则引擎完成金额、状态、字段、重复记录等确定性判断
- 形成结构化证据链
- 只把脱敏摘要交给大模型生成报告文本
- 真实证据仍在内网绑定
- 人工复核确认
核心思路:模型不直接做财务裁判,模型只做解释和表达。
九、一个典型案例:为什么同一张单据会出现多个主数据 ID?
拿一个脱敏案例来说明。
报表平台发现:同一张结算单出现两行数据,两行数据的主数据 ID 不同,业务系统侧金额汇总后比财务系统侧多。
系统不能直接下结论,得一步步查。
第一步:确认差异现象。 系统先看差异清单——同一结算单号、多行记录、多个主数据 ID、两端金额不一致。初步判断:疑似同单据多主数据 ID 异常。
第二步:查业务系统传给财务系统的数据。 如果结算单表、结算单明细与财务系统一致,说明传输环节暂时没发现问题。这一步先排除了一个可能原因。
第三步:查财务系统过账数据。 如果金额、凭证、状态正常,说明财务系统侧也暂无明显异常。
第四步:查业务系统收入台账。 如果收入台账里同一结算单出现多个主数据 ID,系统就能定位:异常首次出现在业务系统收入台账。
第五步:查主数据和组织变更。 如果进一步发现这个门店、客户或组织曾发生归属变更,系统就能给出更深层的解释:疑似历史组织拆分或归属变化,导致收入台账带出异常主数据 ID。
最终报告不会是一句空泛的“主数据异常”,而是:
本差异初步定位为业务系统收入台账主数据 ID 异常。业务系统传财务系统环节与财务系统过账数据一致,暂未发现传输或财务过账异常。异常首次出现在收入台账生成环节。结合主数据和组织变更记录,疑似历史组织归属变化导致主数据 ID 带出异常。建议由业务系统负责人和财务复核人共同确认。
这就是证据链化的价值。
十、产品形态不应该是聊天框,而应该是差异工作台
这个项目如果做成聊天框,用户很难建立信任。更合理的产品形态是一个差异归因工作台。
用户路径是:看差异批次 → 进入差异单据列表 → 选择一条差异 → 系统识别差异类型 → 启动智能归因 → 查看执行步骤 → 查看证据链 → 查看根因报告 → 人工确认 / 退回 / 转派 → 沉淀历史案例。
页面结构可以拆成:
- 数据质检大盘
- 差异批次中心
- 差异单据列表
- 归因详情页
- 证据链下钻页
- 根因报告页
- 人工复核工作台
- 历史案例库
- 后台 Skill 管理
- 后台 Tool 管理
- 权限与审计
前台给业务人员用,后台给管理员和实施人员用。不要让财务用户天天配置 Agent、模型和 Tool。他们真正关心的是:哪些差异要处理、AI 判断的根因是什么、证据够不够、我要不要确认、需要转给谁。
十一、数据怎么准备?先跑通最小闭环
企业 AI 项目最容易失败的地方,是一开始就想做大而全。收入、应收、合同资产、外库存、资金预测、经营分析、风控审计,所有系统接口、所有历史问题全往上堆,很容易失控。
更现实的做法是先选一个高频、典型、可验证的场景,跑通最小闭环。
一个最小 POC 可以这样设计:
- 业务模块:收入
- 差异类型:同单据多主数据 ID / 金额翻倍 / 状态回传异常
- 数据方式:先用脱敏 Excel,后续再接 API / ETL
- 目标:证明系统能从差异输入,走到证据链和根因报告
最小数据包包括:报表差异清单、业务系统结算单、业务系统收入台账、财务系统过账数据、接口日志、门店/客户主数据、组织变更记录、历史问题登记。
这里有一个关键原则:数据可以脱敏,但跨表关联关系必须保留。真实客户名、真实单号、真实金额可以替换,但同一张单据在不同表里必须能关联起来,否则系统跑不通归因链路。
十二、数据安全怎么讲?
企业客户一定会问:原始数据会不会出网?大模型会不会看到财务明细?模型会不会直接访问数据库?AI 会不会自动修改数据?
这些问题必须提前设计清楚。建议边界如下:
- 原始业务数据不出内网
- 大模型不直接访问数据库
- 金额比对、状态判断、重复识别由规则引擎完成
- 模型只接收脱敏摘要、规则说明、证据摘要
- 系统不自动修复数据、不自动过账
- 归因结果必须人工复核后生效
- 所有查询、模型调用、人工操作均留痕审计
一句话:AI 可以辅助判断和表达,但不能越权决策和执行。
十三、这类项目的实施方法论
可以总结成十步。
- 先画业务流:弄清楚交易、结算、入账、对账、差异、排查的真实业务怎么发生
- 再画系统流:明确每个系统负责什么——业务系统负责业务发生,财务系统负责正式入账,报表平台负责发现差异,AI Agent 负责归因排查
- 画数据流:弄清楚结算单、收入台账、财务凭证、接口日志、主数据、组织变更记录从哪里来、到哪里去
- 选一个高频差异类型:不要一开始全做,先选一个客户最熟、最痛、最能验证的案例
- 还原人工排查步骤:把老员工怎么查逐步拆出来——先查什么、再查什么、如何排除、如何定位、如何得出结论
- 转成 Skill:把人工经验结构化——适用条件、输入数据、执行步骤、判断规则、证据模板、输出结论、复核角色
- 配置 Tool:让系统具备查数据的能力——查差异清单、查业务单据、查财务凭证、查收入台账、查接口日志、查主数据、查组织变更
- 定义规则引擎:明确哪些判断必须确定性完成——金额是否一致、状态是否一致、是否重复插入、是否多主数据 ID、是否命中组织变更
- 生成证据链和报告:报告不是模型自由发挥,而是基于结构化证据生成
- 人工复核和案例沉淀:AI 结论必须允许确认、驳回、修正、补充证据、转派、沉淀案例。这一步决定系统能不能持续进化
十四、为什么这类项目真正的价值不是 AI,而是“业务经验产品化”
很多企业 AI 项目失败,不是因为模型不够强,而是因为没有把业务经验变成系统能力。
只做聊天框,本质是“AI 在回答问题”。但做成 Skill + Tool + 规则 + 证据链,本质是企业在沉淀自己的业务操作系统。
长期看,真正值钱的是这些资产:差异类型库、业务 Skill 库、字段映射库、规则库、证据模板、历史案例库、复核反馈库、责任路由机制。这些东西一旦沉淀下来,就可以从一个场景扩展到更多——收入差异归因、应收差异归因、合同资产差异归因、外库存差异归因、资金预测、经营分析、风控复核、流程问答。
所以这类项目的真正价值不是“用了大模型”,而是:把企业里散落在个人经验、会议材料、问题登记表里的隐性知识,变成可执行、可审计、可复用的系统能力。
十五、企业 AI 落地,先别急着智能,先做到可信
很多时候,企业客户并不需要一个看起来很聪明但无法解释的 AI。他们更需要的,是一个知道边界、能查证据、能解释过程、能保留责任、能人工复核、能持续沉淀的系统。
在财务、对账、风控、审计这类场景里,AI Agent 最好的落地方式,不是替代人,而是帮助人把复杂排查过程标准化。
最后用一句话总结这套方法论:
企业 AI Agent 的价值,不是让模型替人拍脑袋,而是把人的业务经验变成可执行的 Skill,把跨系统数据变成可追溯的证据链,再让人基于更清楚的事实做最终判断。
这才是 AI Agent 在复杂 B 端场景里真正能落地的方向。
本文由 @Alex的荒诞产品观 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自 Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




