Dify保姆级教程:从零配置到批量生成数据
在AI时代,如何高效批量生成训练数据成为关键挑战。Dify凭借开源特性、私有化部署和强大的批量运行能力,成为数据自动化生产的利器。本文将手把手教你如何通过变量设置与批量运行,实现Prompt自动化流程,让数据生产效率提升10倍以上。

前两篇我聊了自动化思维和人机协同的数据生产模式。这篇进入实操环节:怎么用Dify实现Prompt自动化,批量生成训练数据。
为什么选Dify?因为它是目前最适合做数据批量生产的工具之一。开源、支持私有化部署、变量配置灵活、批量运行能力强。大厂面试问”你有没有用过Dify”,已经是常规操作了。
这篇文章我会从零开始,讲清楚Dify是什么、怎么配置、怎么用变量和批量运行实现自动化生产。
1)Dify是什么?为什么选它?
Dify是一个开源的大语言模型应用开发平台,能帮你快速构建生产级的AI应用。
1.1 Dify的核心优势
第一,开源且支持私有化部署。
和扣子(字节旗下)相比,Dify最大的优势是开源。你可以把它部署在自己的服务器上,数据完全由自己掌控。
这对企业来说非常重要。训练数据往往涉及业务机密,放在第三方平台不放心。私有化部署解决了这个问题。
第二,批量运行能力强。
Dify支持通过CSV文件导入变量,批量运行生成任务。这是做数据自动化生产的关键功能。
第三,变量配置灵活。
你可以把Prompt中的关键要素(角色、主题、数量等)抽成变量,实现”一套模板、多种输出”。
1.2 Dify vs 扣子
扣子(Coze)是字节的产品,最近也开源了。两者怎么选?
- 选Dify的情况: 需要私有化部署、对数据安全要求高、批量生产任务多。
- 选扣子的情况: 零代码操作、个人或小团队快速验证想法、不介意数据在云端。
目前开源版本的成熟度,Dify比扣子更强。但扣子背靠字节,后续发展值得关注。
我的建议是:先学Dify,因为它更通用,私有化部署的能力在企业场景里很吃香。
2)Dify的基础配置:三步搞定
用Dify之前需要先做一些配置。别被”配置”这个词吓到,其实很简单。
2.1 第一步:注册账号
访问 dify.ai,注册一个账号。
如果是企业使用,可以考虑私有化部署。买一台阿里云服务器,按照官方文档操作就行。
2.2 第二步:配置模型供应商
Dify本身不提供模型,你需要接入外部的模型API。
操作路径:点击右上角头像 → 设置 → 模型供应商 → 添加API Key。
推荐的模型供应商:
- 硅基流动(SiliconFlow):国内平台,有免费额度,适合练手
- Aihubmix:聚合了多家模型的API,选择多
- OpenAI官方:效果最好,但需要科学上网,成本也较高
推荐的模型选择:
- GPT-4o-mini:性价比高,生成质量不错,适合批量生产
- DeepSeek系列:国产模型里效果好的,成本低
- Claude系列:长文本处理能力强,适合复杂场景
配置好之后,点击”系统模型设置”,选择默认使用的模型,保存即可。
2.3 第三步:了解应用类型
Dify有四种应用类型,做数据生产主要用第一种:
- 文本生成应用: 专注批量生成数据,支持变量和批量运行。做数据生产就选这个。
- 聊天助手(Chatbot): 基础对话机器人,单纯的LLM对话,无工具调用。
- Agent(智能体): 可以挂载工具(搜索、计算器等)执行任务,适合复杂场景。
- 工作流(Workflow/Chatflow): 面向过程的编排,适合多步骤任务。
对于数据生产场景,文本生成应用是最合适的选择。
3)变量设置:自动化的核心
配置好环境后,下一步是学会用变量。变量是Prompt自动化的核心。
3.1 什么是变量?
变量就是Prompt中可以动态替换的部分。
举个例子。假设你要生成不同角色的对话数据,Prompt可能是这样的:
你是一个{角色},请用{风格}的语气回答以下问题:{问题}。生成{数量}条对话。
其中的”角色”、”风格”、”问题”、”数量”就是变量。你可以在不改变Prompt主体的情况下,通过修改变量值生成不同的数据。
3.2 为什么要用变量?
第一,集中管控Prompt质量。
Prompt的核心部分(格式要求、风格定义、约束条件)是固定的,不会被随意修改。这保证了数据质量的一致性。
第二,分权协作。
团队成员只需要填变量(角色、主题等),不需要碰Prompt核心。这样可以多人并行生产,效率大大提升。
第三,突破上下文限制。
传统做法是把所有内容塞进一个Prompt,容易撞上模型的上下文窗口限制。用变量+批量运行的方式,可以拆成多次请求,绕开这个限制。
3.3 怎么设置变量?
在Dify的文本生成应用中,添加变量很简单:
- 在Prompt编辑框里,用双花括号包裹变量名:{{role}}、{{topic}}、{{number}}
- Dify会自动识别变量,并在左侧生成输入框
- 运行时填入变量值,或者通过CSV批量导入
注意:变量名必须是英文! 这是Dify的限制,中文变量名会报错。
4)批量运行:效率提升的关键
学会了变量,下一步是批量运行。这是效率提升的关键一步。
4.1 什么是批量运行?
批量运行就是一次性导入多组变量值,让Dify自动依次执行生成任务。
比如你有100组不同的角色+主题组合,不需要手动跑100次。把这100组参数写进CSV文件,导入Dify,点击批量运行,它会自动帮你全部跑完。
4.2 怎么操作批量运行?
第一步:准备CSV文件
创建一个CSV文件,第一行是变量名(必须和Prompt里的变量名一致),下面每一行是一组变量值。
举个例子:
role,topic,number
高冷御姐,职场沟通,10
双马尾萝莉,校园日常,10
温柔学姐,情感咨询,10
第二步:导入并运行
在Dify的文本生成应用里,点击”批量运行”,上传CSV文件,确认变量映射无误后,点击开始。
Dify会依次读取每一行的变量值,执行生成任务,最后把所有结果汇总导出。
4.3 批量运行的成本估算
批量运行会消耗API调用次数,产生费用。提前估算成本很重要。
以GPT-4o-mini为例,生成500条单轮对话数据,成本大概在30-50元人民币。
如果是10万条数据,成本在6000-10000元左右。虽然不便宜,但比人工写的成本低得多(10万条数据人工写,光人力成本可能要几十万)。
控制成本的方法:
- 选择性价比高的模型(如国产模型)
- 先小批量测试,确认Prompt质量后再大批量跑
- 用免费额度练手(硅基流动等平台有免费额度)
5)一个完整的配置示例
最后给一个完整的配置示例,把前面讲的串起来。
场景: 生成多角色的情感对话数据
Prompt设计:
你是一个{{role}}角色扮演专家。请根据以下要求生成对话数据:
【角色设定】
– 角色类型:{{role}}
– 核心特质:{{trait}}
– 语言风格:{{style}}
【任务要求】
1. 生成{{number}}组【用户提问】+【角色回答】的对话
2. 回答要符合角色人设,避免OOC(角色崩塌)
3. 语言自然,避免AI感
4. 每条回答控制在2-3句话
【输出格式】
Q:用户提问
A:角色回答
CSV文件:
role,trait,style,number
高冷御姐,成熟独立、掌控欲强,简洁有力、不卖萌,20
双马尾萝莉,活泼可爱、天真无邪,语气词多、爱撒娇,20
温柔学姐,知性温柔、善于倾听,娓娓道来、有耐心,20
运行流程:
- 创建文本生成应用,粘贴Prompt
- 配置好模型供应商和默认模型
- 上传CSV文件,点击批量运行
- 等待生成完成,导出结果
- 人工质检,筛选高质量数据
这样一套流程跑下来,几十分钟就能产出几百条初稿数据。人工质检筛选后,可用数据的产出效率比纯人工高10倍以上。
6)我的一句话总结
Dify的核心价值就一句话:让你用“变量+批量运行”实现数据生产的规模化。
学会配置模型、设计Prompt、设置变量、批量运行这四步,你就掌握了Prompt自动化的基本功。
共勉!棒棒,你最棒!
本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




