Dify保姆级教程：从零配置到批量生成数据

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Dify保姆级教程：从零配置到批量生成数据

青蓝色的海

2026-02-24

0 评论 5146 浏览 3 收藏

11 分钟

在AI时代，如何高效批量生成训练数据成为关键挑战。Dify凭借开源特性、私有化部署和强大的批量运行能力，成为数据自动化生产的利器。本文将手把手教你如何通过变量设置与批量运行，实现Prompt自动化流程，让数据生产效率提升10倍以上。

前两篇我聊了自动化思维和人机协同的数据生产模式。这篇进入实操环节：怎么用Dify实现Prompt自动化，批量生成训练数据。

为什么选Dify？因为它是目前最适合做数据批量生产的工具之一。开源、支持私有化部署、变量配置灵活、批量运行能力强。大厂面试问”你有没有用过Dify”，已经是常规操作了。

这篇文章我会从零开始，讲清楚Dify是什么、怎么配置、怎么用变量和批量运行实现自动化生产。

1）Dify是什么？为什么选它？

Dify是一个开源的大语言模型应用开发平台，能帮你快速构建生产级的AI应用。

1.1 Dify的核心优势

第一，开源且支持私有化部署。

和扣子（字节旗下）相比，Dify最大的优势是开源。你可以把它部署在自己的服务器上，数据完全由自己掌控。

这对企业来说非常重要。训练数据往往涉及业务机密，放在第三方平台不放心。私有化部署解决了这个问题。

第二，批量运行能力强。

Dify支持通过CSV文件导入变量，批量运行生成任务。这是做数据自动化生产的关键功能。

第三，变量配置灵活。

你可以把Prompt中的关键要素（角色、主题、数量等）抽成变量，实现”一套模板、多种输出”。

1.2 Dify vs 扣子

扣子（Coze）是字节的产品，最近也开源了。两者怎么选？

选Dify的情况： 需要私有化部署、对数据安全要求高、批量生产任务多。
选扣子的情况： 零代码操作、个人或小团队快速验证想法、不介意数据在云端。

目前开源版本的成熟度，Dify比扣子更强。但扣子背靠字节，后续发展值得关注。

我的建议是：先学Dify，因为它更通用，私有化部署的能力在企业场景里很吃香。

2）Dify的基础配置：三步搞定

用Dify之前需要先做一些配置。别被”配置”这个词吓到，其实很简单。

2.1 第一步：注册账号

访问 dify.ai，注册一个账号。

如果是企业使用，可以考虑私有化部署。买一台阿里云服务器，按照官方文档操作就行。

2.2 第二步：配置模型供应商

Dify本身不提供模型，你需要接入外部的模型API。

操作路径：点击右上角头像 → 设置 → 模型供应商 → 添加API Key。

推荐的模型供应商：

硅基流动（SiliconFlow）：国内平台，有免费额度，适合练手
Aihubmix：聚合了多家模型的API，选择多
OpenAI官方：效果最好，但需要科学上网，成本也较高

推荐的模型选择：

GPT-4o-mini：性价比高，生成质量不错，适合批量生产
DeepSeek系列：国产模型里效果好的，成本低
Claude系列：长文本处理能力强，适合复杂场景

配置好之后，点击”系统模型设置”，选择默认使用的模型，保存即可。

2.3 第三步：了解应用类型

Dify有四种应用类型，做数据生产主要用第一种：

文本生成应用： 专注批量生成数据，支持变量和批量运行。做数据生产就选这个。
聊天助手（Chatbot）： 基础对话机器人，单纯的LLM对话，无工具调用。
Agent（智能体）： 可以挂载工具（搜索、计算器等）执行任务，适合复杂场景。
工作流（Workflow/Chatflow）： 面向过程的编排，适合多步骤任务。

对于数据生产场景，文本生成应用是最合适的选择。

3）变量设置：自动化的核心

配置好环境后，下一步是学会用变量。变量是Prompt自动化的核心。

3.1 什么是变量？

变量就是Prompt中可以动态替换的部分。

举个例子。假设你要生成不同角色的对话数据，Prompt可能是这样的：

你是一个{角色}，请用{风格}的语气回答以下问题：{问题}。生成{数量}条对话。

其中的”角色”、”风格”、”问题”、”数量”就是变量。你可以在不改变Prompt主体的情况下，通过修改变量值生成不同的数据。

3.2 为什么要用变量？

第一，集中管控Prompt质量。

Prompt的核心部分（格式要求、风格定义、约束条件）是固定的，不会被随意修改。这保证了数据质量的一致性。

第二，分权协作。

团队成员只需要填变量（角色、主题等），不需要碰Prompt核心。这样可以多人并行生产，效率大大提升。

第三，突破上下文限制。

传统做法是把所有内容塞进一个Prompt，容易撞上模型的上下文窗口限制。用变量+批量运行的方式，可以拆成多次请求，绕开这个限制。

3.3 怎么设置变量？

在Dify的文本生成应用中，添加变量很简单：

在Prompt编辑框里，用双花括号包裹变量名：{{role}}、{{topic}}、{{number}}
Dify会自动识别变量，并在左侧生成输入框
运行时填入变量值，或者通过CSV批量导入

注意：变量名必须是英文！ 这是Dify的限制，中文变量名会报错。

4）批量运行：效率提升的关键

学会了变量，下一步是批量运行。这是效率提升的关键一步。

4.1 什么是批量运行？

批量运行就是一次性导入多组变量值，让Dify自动依次执行生成任务。

比如你有100组不同的角色+主题组合，不需要手动跑100次。把这100组参数写进CSV文件，导入Dify，点击批量运行，它会自动帮你全部跑完。

4.2 怎么操作批量运行？

第一步：准备CSV文件

创建一个CSV文件，第一行是变量名（必须和Prompt里的变量名一致），下面每一行是一组变量值。

举个例子：

role,topic,number

高冷御姐,职场沟通,10

双马尾萝莉,校园日常,10

温柔学姐,情感咨询,10

第二步：导入并运行

在Dify的文本生成应用里，点击”批量运行”，上传CSV文件，确认变量映射无误后，点击开始。

Dify会依次读取每一行的变量值，执行生成任务，最后把所有结果汇总导出。

4.3 批量运行的成本估算

批量运行会消耗API调用次数，产生费用。提前估算成本很重要。

以GPT-4o-mini为例，生成500条单轮对话数据，成本大概在30-50元人民币。

如果是10万条数据，成本在6000-10000元左右。虽然不便宜，但比人工写的成本低得多（10万条数据人工写，光人力成本可能要几十万）。

控制成本的方法：

选择性价比高的模型（如国产模型）
先小批量测试，确认Prompt质量后再大批量跑
用免费额度练手（硅基流动等平台有免费额度）

5）一个完整的配置示例

最后给一个完整的配置示例，把前面讲的串起来。

场景： 生成多角色的情感对话数据

Prompt设计：

你是一个{{role}}角色扮演专家。请根据以下要求生成对话数据：

【角色设定】

– 角色类型：{{role}}

– 核心特质：{{trait}}

– 语言风格：{{style}}

【任务要求】

1. 生成{{number}}组【用户提问】+【角色回答】的对话

2. 回答要符合角色人设，避免OOC（角色崩塌）

3. 语言自然，避免AI感

4. 每条回答控制在2-3句话

【输出格式】

Q：用户提问

A：角色回答