上一篇我们讲的是:知识库资料在入库之前,到底要怎么清洗、整理、结构化以及做入库前的检查。到这里,很多人都会想:文档已经清洗完毕结构也整理了chunk已经切好了metadata也做了一些准备那么下一步就是把它们塞进向量库,RAG检索层就差不多搭好了?这就是很多知识库项目容易犯的一个错误。因为在真实的项目中,向量库并不是一个只用来存放embedding的无害容器。你如何建立数据库、设计元数据结构以及索引组织方式和更新处理策略都会对最终结果产生影响:检索是否能获取到重要的证据来源是否可以稳定地传回制度更新之后能不能查到以前的内容项目后期会不会越来越难维护也就是说,知识库工程到了这个地步的时候问题就不再是:可以存进去吗?而是:存进去之后,检索层能不能长久地稳定运行?这篇文章,我们继续沿着企业制度知识库这条主线来谈向量库和索引怎样搭建。重点不在于罗列大量的数据库选型百科,而是在于从教程落地的角度出发来回答一些实际的问题:为什么教程阶段先使用本地轻量方案比较合适?量库里到底该存些什么,不该保存什么?为什么metadata会对检索可控性产生影响?索引如何组织才不会使后续更新越来越痛苦?新制度加入、旧制度修订的时候,检索层要如何进行增量更新?检索逻辑应