告别手动录入发票!元器智能体+工作流实战:3秒提取发票信息,效率提升10倍
财务人员的日常被发票录入折磨得焦头烂额?腾讯元器智能体比赛诞生的'发票提取助手'彻底改变了这一困境。这款工具能在3秒内自动识别发票图片并提取关键信息,准确率高达95%以上。本文将完整拆解智能体+工作流的开发过程,揭秘如何利用OCR插件与大模型技术实现财税场景的效率革命。

财务人员每天最头疼的事是什么?不是算账,而是手动录入发票信息。一张发票十几个字段,一天几十张发票,光是敲键盘就能让人崩溃。
参加腾讯元器智能体比赛,我搭建了”发票提取助手“,只需上传发票图片,3秒内自动识别并提取所有关键信息,输出结构化数据。今天我将详细拆解搭建过程,分享实战心得,让你也能快速上手。
智能体体验链接:
https://yuanqi.tencent.com/agent/dAp1IpDQgKnk
一、背景与痛点:财务人员的真实困境
真实场景还原
作为财务人员,我每天都会遇到这样的场景:
- 上午9点:收到供应商发来的10张发票图片,需要录入到财务系统
- 上午10点:采购部门又发来5张手机拍照的发票,图片有些模糊
- 下午2点:老板发来一张发票,要求立即录入并核对金额
- 下午4点:发现上午录入的一张发票金额有误,需要重新核对…
这就是财务/采购部门的日常:
- 来源多样:手机拍照、扫描件、PDF截图、微信转发
- 手动录入:发票代码、号码、开票日期、购销方信息、金额、税额等十几个字段
- 容易出错:数字录入错误、字段遗漏、格式不规范
- 效率低下:一张发票3-5分钟,一天几十张就是数小时
- 重复劳动:同样的操作重复千百遍
痛点数据对比

智能体方式:自动提取仅需3-5秒,准确率可达95%以上,支持移动办公,零学习成本。
解决方案:智能体+工作流双引擎
我采用了智能体+工作流的开发模式,充分发挥腾讯元器平台的优势:
核心架构

设计思路:
- 智能体层:负责用户交互,接收图片上传
- OCR插件层:专业识别发票文字(这是关键优势)
- 工作流层:编排处理逻辑,调用大模型提取结构化信息
- 输出层:统一JSON格式和表格两种格式,便于后续入库或导出
平台优势:多渠道发布,微信生态无缝衔接
除了技术架构的优势,腾讯元器平台在发布渠道上也有独特优势,这是其他平台难以比拟的:
1. 元宝小程序:微信生态原生支持
最大的亮点是元宝小程序,智能体可以直接发布到元宝小程序,与微信生态无缝衔接:
- 无需额外开发:一键发布,无需单独开发小程序
- 微信内直接使用:用户直接在微信中搜索”元宝”,找到智能体即可使用
- 使用门槛低:财务人员无需安装新APP,在熟悉的微信环境中就能完成发票提取
- 分享便捷:支持微信分享,团队协作更方便
2. 多渠道发布能力
腾讯元器支持多种发布渠道,满足不同使用场景:
- 元宝小程序:面向C端用户,微信生态内使用
- 微信公众号:可接入服务号/订阅号,企业内使用
- 微信客服:可集成到企业客服系统
- API接口:支持系统对接,批量处理场景
3. 实际应用价值
对于财务场景来说,元宝小程序+微信的组合特别实用:
- 移动办公:财务人员在外收到发票,直接用微信拍照上传,立即提取信息
- 团队协作:提取结果可直接分享到微信群,无需导出再发送
- 零学习成本:所有财务人员都会用微信,无需培训

二、拆解智能体搭建过程:从0到1的完整步骤
下面我将详细拆解整个搭建过程,手把手教你如何搭建这个发票提取助手。
步骤1:创建智能体
1. 进入腾讯元器平台,点击”创建智能体”,创建”对话式智能体“
2. 填写基本信息:
- 智能体名称:发票提取助手
- 描述:自动识别发票图片,提取结构化信息
- 头像:选择合适的图标

3. 进入智能体人配置界面,”切换创建方式“是一个关键设置,如果智能体需要工作流配合工作,需要切换到”用工作流创建”


步骤2:创建工作流
这是核心步骤,我们采用智能体+工作流的双引擎架构:
2.1 工作流整体设计
工作流包含3个核心节点:
- OCR识别节点:识别发票图片中的文字
- 信息提取节点:使用大模型提取结构化字段
- 格式化输出节点:整理并输出最终结果


2.2 节点3:OCR识别配置
- 节点类型:选择”OCR插件”节点
- 输入配置:接收智能体传递的图片文件
- 插件选择:选择商用OCR插件(这里可以突出插件优势)
- 输出配置:输出识别后的文本内容
关键配置点:
- 上传文件的URL获取,需要通过参数提取节点先做处理(如上图中的节点2)
- 将提取到的URL作为OCR节点的输入


2.3 节点4:OCR识别结果提取配置
- 节点类型:选择“参数提取”节点
- 输入配置:接收OCR节点输出的文本
- 提取关键信息:提取OCR识别结果的“TextDetections”


2.4 节点5:信息格式化
- 节点类型:选择”LLM”节点(大模型节点)
- 输入配置:接收OCR节点输出的文本
- 模型选择:选择合适的大模型(如元宝大模型等)
- 提示词设计:这是关键!
提示词设计要点:
你是一个专业的发票信息提取助手。请从以下发票文本中 提取结构化信息,严格按照JSON格式输出:
{
“invoice_code”:”发票代码”,
“invoice_number”:”发票号码”,
“issue_date”:”发票开票日期,YYYY-MM-DD格式”,
“buyer_namc”:”购买方公司名称”,
“buyer_tax_id”:”购买方公司纳税人识别号”,
“buyer_address”:购方地址”seller_name”:
“销售方公司名称”,”seller_tax_id”:
“销售方公司纳税人识别号”,
“invoice_project”:”发票的项目名称”,
“amounts_without_tax”:
“不含税金额”,
“amounts_tax”:”税额””amounts_with_tax”:”价税合计”
}
– 输出要求:需要两种格式输出
– 表格的形式输出(表格的字段名为中文)
-Json格式输出
– 要求:
1、请严格按发票提取结果信息输出
2.如果字段不存在,使用null
3.金额字段保留4位小数
4.日期格式统一为YYYY-MM-DD
– 发票文本:{content}

步骤4:连接节点并测试
节点连接:按照流程连接各个节点
智能体 →提取上传链接→ OCR节点→提取OCR结构参数 → LLM格式化节点 → 输出
测试流程:上传测试发票图片,检查每个节点的输出
调试优化:根据测试结果调整提示词和参数

步骤5:发布智能体
1. 测试通过后,点击”发布”,填写发布版本记录
2. 选择发布渠道:
- 元宝小程序(推荐,微信生态)
- 微信公众号
- API接口


三、完整工作流设计详解
流程图

四、应用效果展示:真实场景验证
4.1 实际使用效果
让我们看看智能体在实际场景中的表现:
场景1:手机拍照发票
- 输入:手机拍摄的发票照片
- 处理时间:3.2秒
- 提取准确率:96%
- 输出:完整的结构化JSON数据


4.2 效果对比数据

五、深度洞察:从发票提取看智能体的业务应用
5.1 为什么要选择发票提取场景?
原因有三:
1. 高频刚需场景
- 财务部门每天都要处理大量发票
- 痛点明确,需求强烈
- 一旦解决,立即产生价值
2. 标准化程度高
- 发票格式相对统一
- 字段定义清晰
- 适合用AI自动化处理
3. 效果可量化
- 处理时间:从分钟级降到秒级
- 准确率:可测量、可优化
- ROI:立竿见影
5.2 可迁移的通用模式
这个方案的核心模式可以迁移到多个场景:

通用公式:文档/图片 → OCR/文本提取 → 大模型结构化提取 → 数据校验 → 结构化输出
六、结语
腾讯元器平台的智能体+工作流模式,配合元宝小程序的微信生态优势,让复杂业务逻辑变得简单可控,真正实现”开箱即用”。
本文为腾讯元器智能体比赛参赛作品,欢迎交流讨论。
本文由 @Lucky培丽 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益



