Python + LlamaIndex 构建本地知识库：打造企业级私有 RAG 系统

张

张建站

2026/4/10 3:33:13

10分钟阅读

Python + LlamaIndex 构建本地知识库：打造企业级私有 RAG 系统

零 API 费用、数据完全本地、支持多种文档格式。本文带你从安装到实战，45 分钟搭建一个企业级本地知识库系统。一、为什么要构建本地知识库？对比维度云端知识库（Notion AI / 飞书）本地 RAG（LlamaIndex）费用按用户/容量付费，¥20-100/人/月完全免费数据隐私数据上传到云端数据留在本地文档支持有限格式PDF、Word、Excel、Markdown、图片等检索精度通用方案可针对业务优化集成能力受限于平台完全可定制38% 数据隐私与安全 29% 零成本长期使用 18% 可自由定制优化 10% 支持私有文档格式 5% 其他选择本地知识库的理由：企业敏感文档、个人隐私资料、需要深度定制的场景。二、LlamaIndex 是什么？LlamaIndex 是一个开源的 LLM 数据框架，核心特点：文档智能解析：自动处理 PDF、Word、Excel、图片等格式向量化存储：内置多种 Embedding 模型和向量数据库检索增强生成（RAG）：结合本地大模型实现精准问答模块化设计：每个组件都可替换和定制用户提问 → 文档加载 → 文本分割 → 向量化 → 向量检索 → 本地大模型 → 回答 ↓ ↓ ↓ ↓ PDF/Word 语义块 Embedding 相似度匹配三、环境准备3.1 硬件要求功能模块最低配置推荐配置文档解析4 GB 内存8 GB 内存向量化（小模型）4 GB 内存8 GB 内存向量化（大模型）8 GB 内存16 GB 内存完整 RAG + 大模型16 GB 内存32 GB 内存或 8 GB 显存3.2 安装依赖# 核心库 pip install llama-index llama-index-embeddings-huggingface # 文档解析支持 pip install llama-index-readers-file pypdf docx2txt # 向量数据库（使用轻量级 Chroma） pip install chromadb # 本地大模型接口（配合 Ollama） pip install llama-index-llms-ollama3.3 准备本地大模型确保 Ollama 已安装并拉取模型：# 推荐：Qwen3 8B（中文能力强） ollama pull qwen3:8b # 备选：Llama 4 Scout ollama pull llama4:scout17b四、快速上手：10 行代码构建知识库4.1 最简知识库from llama_index.core import VectorStoreIndex, SimpleDirectoryReader from llama_index.embeddings.huggingface import HuggingFaceEmbedding from llama_index.llms.ollama import Ollama # 1. 加载文档 documents = SimpleDirectoryReader("./docs").load_data() # 2. 设置本地 Embedding 模型（无需联网） embed_model = HuggingFaceEmbedding( model_name="BAAI/bge-small-zh-v1.5" ) # 3. 设置本地大模型 llm = Ollama(model="qwen3:8b", request_timeout=120.0) # 4. 构建索引 index = VectorStoreIndex.from_documents( documents, embed_model=embed_model ) # 5. 创建查询引擎 query_engine = index.as_query_engine(llm=llm) # 6. 提问 response = query_engine.query("这份文档的