那些做知识库踩过的坑，我一次讲完

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

那些做知识库踩过的坑，我一次讲完

申悦

2026-03-24

0 评论 1343 浏览 7 收藏

29 分钟

企业知识库项目90%的工作量都消耗在知识治理这个隐形环节。当企业以为只需将文档上传就能让AI自动理解时，现实却是文档分类混乱、格式混杂、版本冲突等基础问题。本文通过真实案例揭示知识治理的六大核心问题，从定义知识边界到建立运营机制，为企业AI项目提供实操指南。

去年开始，我就在给几家知名上市公司做AI项目，其中客户需求量最大、要求最高的，当属企业知识库项目。

下面我要讲的，就是给一家企业做知识库项目的真实案例。

最开始，客户还是很积极配合的。在我进场调研之前，还提前发来了一套知识文档，说是他们团队已经整理好了，让我先看看。

我当时还挺开心，觉得这客户配合度不错，省了不少沟通成本。

结果打开一看，笑容逐渐消失……

一共194个文档、45个文件夹，一个一个看完后发现，问题不是一两个，是成片成片的……

先说分类。有的文件夹是按”目的”建的，比如”价值创造类”、”价值传递类”；有的又是按业务类型分的，比如”产品”、”财经”。两套逻辑混在同一层目录里，你根本搞不清一份制度文件到底该归在哪。有些文档两边都能放，结果就是放了这边丢了那边，怎么都不对。

再说格式。Word、PDF、PPT、Excel、图片、视频，什么都有，简直像开了个文件格式博览会。最离谱的是，有些培训文档就是纯图片——不是在Word里插了张图，是整份内容就拍了几张照片存着。还有高管在行业峰会上的报道文章，也是图片形式的PDF。这些东西如果想让AI能理解能引用，全得先转成文字版才可以。光是想想这个工作量我就头大。

然后是应用场景。有的文档确实是拿来做问答的FAQ，有的是参考性的知识文档，但还有一大堆纯附件——《会议通知模板》.docx、《会议材料模板》.pdf、《会议决议跟进模板》.xlsx，格式多样不说，这些东西本质上就不是”知识”，是业务工具。但客户觉得这些也应该放进知识库里。你跟他解释这些不太适合直接给AI做问答，对方会很困惑：”那这些放哪？”

最后是版本。同一个文档名出现了三个版本：一个写着”对外版”，一个标了”24年版”，还有一个是”25年最新版”。我问业务方哪个算正式口径，对方想了想说：”AI自己不会判断么？我们的政策都是每年更新的，但新政策是在老政策上做的补充，所以新的老的都需要”。但问题是，”24年版”和”25年最新版”在好几个关键条款上的表述完全不同。要是AI引了旧版本的内容去回答员工或客户，那就不是准不准的问题了，而是会直接让公司崩掉。

我花了3个大夜，逐一看完了这194份文档，写了一份完整的整改意见，把每一份文档的问题类型、处理建议、优先级，都标了出来。

写完之后我自己都觉得有点崩溃。不是因为工作量——是因为我知道这才刚刚开始。

果然，进场第一天就确认了一个让人窒息的事实：之前客户发来的那194份文档，只是他们全部项目资料的十分之一。

那一刻我意识到，这个项目真正花时间的地方，不是搭一个问答智能体、也不是调一套RAG工作流，而是把企业所谓的“知识资料”变成AI能用的东西。

说实话，上面这段经历，并不是个例。

过去一年多，我服务了不同客户，发现几乎每一家说要做知识库的企业，最初的想法都差不多：

“我们有很多文档和资料，你帮我们放进去，让AI能搜能答就行。”

逻辑上听起来没什么毛病。但从实际项目经验来看，这里面藏着一个特别危险的假设——文档就是知识，上传就等于治理。

而现实是什么样呢？

一份过期制度放进去，AI会当成最新规则来引用。员工拿着这个答案去操作，出了问题才发现规则早就改了。
一份口径不统一的材料放进去，销售和财务的人问同一个问题，可能会得到两个互相矛盾的答案，谁也不知道以哪个为准。
一份格式混乱的PDF放进去，文档解析根本看不懂里面的表格、截图和扫描件。结果就是分片混乱、检索错误，模型只能编一个看起来挺像回事、但实际完全不对的答案。

这些问题不是模型推理效果差，也不是检索算法的问题。是喂给它的原料本身就没整理好。

想想看，假设你给一个刚入职的新员工扔一堆没分类、没目录、没版本标记、格式五花八门的资料，然后告诉他”你看完就能上岗了”。就算这人再聪明，他也一脸懵。

是他能力不行么？肯定不是，而是你给他的东西本身就是乱的。AI也一样。

所以我做每个知识库项目的时候，第一件事就是先跟客户讲清楚：

我们现在要做的第一件事，不是搭智能体，而是”做知识治理”。

搭智能体是个技术动作——选平台、传文档、配检索，快的话几天就能完成。

做知识治理是个管理动作——定义什么算知识、盘清知识在哪、搭好分类结构、建好标签体系、设好准入标准、定好谁来负责持续更新。这些事情，往往需要几周甚至几个月。

但如果你跳过后者直接做前者，结果大概率就是：系统搭好了，员工问了一次发现不靠谱，然后就再也不会打开了。

企业不是缺知识，而是缺一套让知识变得可用的秩序。

知识治理到底要治什么

“知识治理”这四个字，客户第一次听到的时候通常会愣一下：治什么？怎么治？我们的知识不就在那吗？

确实在那。但”在那”和”能用”之间，可差了十万八千里。

做了这么多个项目下来，我对这项“脏活累活”也有了些心得。

总的来说，做知识治理，就是要回答六个问题。这六个问题如果你在项目前没想清楚，不管用多好的模型、多好的平台，效果都起不来。

第一个问题：什么算知识？

别觉得这问题简单，真到了企业里面，这件事比想象的乱得多。

有人觉得公司制度文件是知识，有人觉得FAQ才算，有人觉得产品参数、历史案例、术语解释也应该包含进来，还有人会把附件模板、培训视频、甚至高管在年会上的讲话稿统统丢进来说”这些也要放进知识库”。

每个人说的都有道理，但如果不先统一口径，后面就会变成什么都往里塞，塞完之后系统臃肿不堪，检索出来的东西驴唇不对马嘴。

所以在每个项目启动后，我都要先和客户一起去定义知识的边界，明确知识的具体类型。

比如把知识按：制度规范类、业务流程类、产品服务类、术语口径类、问答经验类、案例与模板类去归类，而不同类型的知识，后面的处理方式、入库标准、调用场景全都不一样。

这一步看起来就像就是列了个清单，但它的价值在于，让所有人有了共同语言。不然你说的知识和我说的知识根本不是一回事，后面所有讨论都是空谈。

而且你在做这一步的时候，往往还会帮客户发现一个事实：他们以为放进来的都是知识，实际上有相当一部分只是附件和工具，根本不适合让AI直接引用。把这些东西提前剥离出去，后面会省很多不必要的麻烦。

第二个问题：知识在哪？

企业最不缺的就是文档。但你真要去找某一份具体的知识，经常会发现找不到、找不全、或者找到了好几个版本不知道用哪个。

为什么？因为知识散在各处。

有的在公司OA系统里，有的在某个部门的共享盘里，有的在某个同事的个人电脑里，有的在某个微信群的聊天记录里，还有的根本就不在任何文档里——它在某个干了十几年的老员工脑子里，他走了这个知识就没了。

更头疼的是，同一个问题不同部门的说法还不一样。你去问销售部这个产品的价格体系是什么，和去问财务部，可能会得到两个不同版本。谁的是正式口径？问到最后经常是谁也说不清楚。

所以我在项目前期要下场做的一件非常“重”的工作，就是帮企业做一次彻底的知识盘点。要帮他们搞清楚：现在到底有哪些知识资产？分别在哪？属于哪个部门的哪个条线？谁在负责维护？哪些是正式口径、哪些只是经验材料？哪些可以直接入库、哪些必须先清洗改写？

这件事特别耗时间，而且做的时候你会不断发现新问题——原来这份制度已经废止了、原来那份流程图是三年前的版本、原来这个口径总部和分公司理解完全不一样。

但不做这个盘点，后面做的所有目录、标签、权限、更新机制，全都是空谈。你连知识在哪都没搞清楚，谈什么知识管理？

第三个问题：怎么放？

很多企业做知识库，就是在平台里建几个文件夹，然后把文档往里面拖。跟你在自己电脑上管文件夹的方式差不多。

这样做的结果就是：刚开始还行，放了几十个文档觉得挺整齐的；等到文档数量过了几百上千，整个结构就彻底乱了。你根本不知道一份新文档该往哪放，搜索出来的结果也越来越偏。

面对这类问题，我给企业的方案是：在项目一开始就要搭一套结构化的知识目录树。这套目录结构不是简单建几个文件夹，而是要同时考虑如下三个维度：

组织维度——总部的知识、分公司的知识、不同部门的知识，要有清晰的归属。
业务维度——产品、销售、运营、风控、合规、客服、人资，不同业务线的知识天然就不该混在一起。
功能维度——这份东西是制度？是流程？是模板？是FAQ？是案例？是术语解释？不同功能类型的知识，后面的调用方式完全不一样。

你把这三个维度交叉起来，知识该放哪里就非常清楚了。

这样的设计还有一个好处：后面不管是做权限管控、做场景化检索、还是给不同的智能体分配不同的知识域，都有了清晰的基础。不然越堆越乱，到最后谁都不敢动，一动就怕把什么东西弄丢了。

第四个问题：怎么找？

光有目录树是不够的。目录解决的是”大结构”，但用户真正用的时候，靠的不是一层一层翻目录，而是搜索。

搜索准不准，很大程度上取决于你的标签体系设计得好不好。

很多人一听”标签”，觉得就是从文档里抽几个关键词嘛，能有多复杂？这事儿让AI自动做行。

实际上复杂得很。真实项目里设计的标签体系，绝不只是业务主题这一个维度，而是会包含：业务条线标签、部门标签、场景标签、文档类型标签、适用对象标签、权限标签、时效标签、版本状态标签，有时候还要加上地域标签和渠道标签。

为什么要搞这么多维度？因为标签不是给人看的，它是给AI系统用的筛选器和路由器。

比如你有一个只服务销售部门的智能体，它就只需要调用带”销售”标签的知识，而不是把人资部门的制度也扔给它。

比如一个制度文档已经过期了，通过时效标签就可以自动把它从检索范围里排除掉，不用等到有人发现”AI又引用了一份旧制度”再手动去处理。

再比如同一个知识，面向内部员工和面向外部客户的口径可能不一样，通过渠道标签就可以控制不同场景下AI调用的是哪一份内容。

标签这件事说起来不难，但设计起来特别考验你对业务的理解深度。而且很多时候，你还得把平台本身的检索能力限制也考虑进去——并不是你想设什么标签平台就能支持什么过滤规则。这里面的匹配和妥协，也是一个很耗精力的过程。这件事如果你有兴趣听，我后面再单开文章讲讲。

第五个问题：什么能进？

很多供应商给企业做知识库都有个默认心态：客户给什么就放什么，先放进去再说，后面慢慢优化。

我的做法则正好相反。我会先设一道准入标准，不是所有文档都有资格进入知识库的。

每份材料我都会先抽检一遍：这个东西是不是正式有效的？是不是最新版本？口径是不是和其他材料统一？内容是不是适合被模型直接引用？有没有歧义、缺页、扫描质量太差看不清的？有没有内容冲突——同一个问题这份文档说的和那份文档说的不一样？是不是需要先改写成标准FAQ或者结构化的条目？

这件事说白了，就是在帮企业做知识资产的筛选和质检。

我接触过的大多数企业觉得AI项目效果差，并不在模型选型、RAG参数设置和提示词逻辑，大部分问题都出在输入端。你喂给模型的东西本身就有毛病，它怎么可能给你正确答案？

第六个问题：谁来管？

这是个最容易被忽略、但却决定了知识库能不能长期活下去的问题。

我见过太多知识库项目，建的时候热热闹闹，上线发布会都开了，领导也很支持。结果过了两三个月，没人维护、没人更新、没人处理员工反馈的“点踩”。制度改了知识库里还是旧的，业务流程调了知识库里还是原来的，新产品上线了知识库里根本没有。

员工用了一次发现不靠谱，就再也不会打开了。然后项目就悄无声息地搁浅了。

所以我在做方案的时候，”知识运营体系”永远会是单独的一个大章节。里面要完整回答这些问题：

谁负责新增知识？谁负责审核？谁负责发布上线和下线旧版本？多长时间复盘一次？员工反馈说”这个问题答得不对”的时候，这个反馈怎么回流到知识维护流程里？哪些问题命中率低说明知识库里缺了这块内容？哪些问题反复答错说明口径需要修订？

这些东西本质上是在做运营规划，但它实际上决定了你的知识库到底是活水系统，还是个上线就开始老化的静态文件仓库。

坦率说，知识库从上线那天起，真正的工作才刚刚开始。前面的建设只是打地基，后面的运营才是决定这个项目到底能不能长期活下来的关键。为什么知识治理是最典型的脏活累活

看到这里你可能已经发现了，上面说的那六件事，没有一件是多高深的技术活。

它们全都是沟通、协调、整理、推动、确认、纠偏。

而且在真实项目里，这些工作的推进阻力，远比你想象的大。

业务部门不愿意配合交材料。他们自己的KPI已经够重了，还要抽时间整理文档、确认口径、补充缺失内容。很多人心里想的是”这不是AI项目的事吗，跟我有什么关系”，嘴上不说，但配合度你能感受到。催了三遍材料还没给的情况，我遇到过不止一次。

材料好不容易交上来了，格式五花八门。有Word的、有PDF的、有PPT的、有Excel的，还有拍照截图的。有些关键信息藏在一张图里，有些规则写在一个Excel表格的某一列。想让AI能读懂这些，全都要先一个一个做格式转换和内容提取，纯体力活。

同一个知识，不同部门说法不一致。你问这边是这个规则，问那边又变了。到底以谁的为准？问到最后经常是一群人坐在会议室里讨论半天，才确认下来一个正式口径。一个知识点就能耗掉一个下午，而这样的知识点可能有几百个。

最头疼的还不是这些。是没人愿意负责持续维护。建的时候还挺积极，大家配合度也还行。但一旦上线了，这件事在很多人心里就”结束了”。至于后面谁来更新、谁来审核、过期内容谁来下线——没人主动认领。

我在项目中遇到过最典型的一句话，是一个业务同事非常直接地说：

“为什么一定要我们改文档格式？要是我们改好了，还要AI干什么？”

这句话乍一听可能觉得有点好笑，但它背后反映的是很多企业对知识库项目的一个根本误解：

他们以为AI可以直接消化任何形态的原始资料，就像一个什么都能看懂的超级员工，你把东西扔给它就行了。

但实际上肯定不是这样。AI不是人，但现在的很多文档是写给人看的，不是给AI准备的。AI需要标准化输入、才能给出稳定输出的系统。你不把原料准备好，它做不出好菜。

还有一个让我印象深刻的场景。我给客户写完那份知识整改意见后，对方的反应不是感激，反而觉得压力很大。他们觉得我给他们增加了很多额外的工作量。尤其是当我提出需要他们配合提供评测集——也就是一组用来验证AI回答准确率的标准问答——的时候，对方明显不太想配合了。

在他们看来，”我们花钱请你来做AI项目，结果你让我们自己先干一堆活”，这跟他们最初的预期完全不同。

但事实就是这样。知识治理不是AI供应商或者咨询顾问一个人能完成的事情，它本质上需要企业内部真正参与进来。因为那些知识在你们的系统里、在你们的人脑子里、在你们各个部门的默契和习惯里，外部的人只能帮你搭框架、建方法、推流程，但具体内容的确认和维护，最终只能是你们自己来做。

很多企业以为自己在买一个智能问答系统，实际上是在被迫补一堂迟到了很久的知识管理课。

这句话可能不太好听，但做过几个项目之后，我几乎可以确认这就是现实。

我的几个核心经验判断

做了这么多知识库项目，很多感受是被我反复被验证过的，简单总结如下：

第一，知识库项目里，最难的是解决知识混乱问题。

客户表面上是想”做个问答智能体”，实际上要解决的往往是资料散、版本乱、口径冲突、权限复杂、更新没人管等问题。真正的工作重心是整理和治理，而不是那个问答对话框本身。

第二，知识治理不先做，后面的问答准确率很难靠模型来补。

模型可以帮你润色表达、优化措辞，但它没办法替你判断这份资料是不是最新的、口径是不是统一的、权限是不是正确的、哪份文档该优先生效。这些问题不解决，你后面只能不停地调Prompt、改检索策略，但根因不在那。你在下游怎么折腾都没用，因为上游的水就是脏的。

第三，标签体系比很多人想的更重要。

目录树解决的是知识的大结构，但标签体系决定的是检索精度、权限路由、场景过滤和渠道适配。在这件事要上花的时间，通常不比搭目录树少，因为它直接决定搜索的精准度和权限的可控性。

第四，知识库必须有运营机制，否则一上线就等于失效了。

这一点前面已经说过了，但我还想再强调一次。因为我见过太多项目，建设阶段做得非常认真，上线的时候效果也不错，结果三个月之后整个系统就废了。因为没有人对准确性负责。知识在变，世界在变，你的知识库不变，它就不可能一直准。

第五，知识治理的难度，远大于搭一个问答界面。

知识库项目的核心工作并不只是搭系统、选平台、调模型，那些东西可能一两周就搞定了，真正消耗三个月、半年甚至更久的，全是治理层面的事——盘知识、搭结构、做标签、定标准、推运营、协调各个部门。这些工作脏、碎、累，在演示里也看不出来，但它们恰恰决定了项目最终能不能真正用起来。

最后说一条，也是我做这么多项目下来感触最深的

知识治理本质上不是AI问题，是企业内部管理问题。

很多客户一开始以为自己在做一个AI项目，做着做着才发现，原来自己要面对的是知识管理、流程标准化、责任分工、版本管理这些基础课。这些事情过去十几年一直没人认真做，因为靠经验、靠人情、靠老员工的默契，也能凑合着运转。但现在你要把知识交给AI来用，AI不会脑补、不会揣摩、不会理解潜规则，它只认标准化的输入。

所以AI做的，是把原来藏着的问题暴露出来了。

写在最后

回头来看，我做知识库项目花时间最多的地方，就是帮企业把那些散在各处、格式混杂、口径不一、版本混乱、没人维护的东西，一点一点理出来，变成一个有结构、有标准、有人管、能持续运转的体系。这些工作在PPT里体现不出来，在演示的时候也展示不了，客户汇报的时候更不会拿这些去讲。但恰恰是这些不起眼的基础工作，决定了一个知识库项目到底是”上线即巅峰”，还是真正能长期为业务创造价值。

这可能是今天企业做AI项目最普遍的一个现实：

表面上你买的是一个AI能力，但真正要做的，是检查你的知识资产有没有被认真整理过，你的流程有没有被清晰定义过，你的信息管理有没有人真正在负责。

这些问题不前置解决，后面不管换什么模型、什么平台，都很难真正看到效果。

如果你也正在推进知识库项目，不妨先问问自己：

你们的知识，真的准备好被AI使用了吗？

如果这个问题你现在还不清楚，也许可以先把现状拿出来和我聊聊，有时候一个外部顾问视角的判断，能帮你少走不少弯路。

本文由人人都是产品经理作者【申悦】，微信公众号：【互联网悦读笔记】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App