用 LLM 编译你的知识库

张

张建站

2026/4/6 10:39:44

10分钟阅读

用 LLM 编译你的知识库——不是 RAG是一本会自动生长的书先从一个类比说起读书的时候我们会划重点。划完之后只看重点就能抓住整本书的逻辑脉络。这种原文标注的结构对人类的记忆和复习极其友好。Karpathy 提出的 LLM Wiki本质上就是在做同一件事把你读过的所有原始资料通过 LLM 压缩成一份有结构、有标注、有交叉链接的 Markdown Wiki。之后你只需要读 Wiki不用再翻原文——就像只看书里的重点标注就能理解整体逻辑。而最关键的区别在于这本标注书是活的。每次加入新资料它会自动更新每次提问答案会归档进来知识以复利的方式积累而不是散落在聊天记录里消失。为什么 RAG 不够大多数人用 LLM 管理文档的方式是 RAG——上传文件提问时检索相关片段生成回答。NotebookLM、ChatGPT 文件上传本质上都是这个模式。RAG 的根本问题每次提问LLM 都在从零重新发现知识。没有积累没有综合没有记忆。问一个需要综合五篇文档的问题它每次都要重新拼凑碎片。LLM Wiki 的思路完全不同知识只编译一次之后持续保持更新。交叉引用已经在那里了矛盾已经被标记了综合已经反映了你读过的一切。维度RAGLLM Wiki知识积累每次从零检索增量编译持续复利综合能力当次拼凑已预综合带交叉链接维护成本无需维护LLM 全权维护人类零负担核心价值找到理解组织三层架构职责清晰互不重叠Karpathy 设计了一个极简的三层结构my-wiki/ ├── raw/ # 原始资料层 — 只读LLM 不修改 │ ├── articles/ # 文章、论文 │ ├── assets/ # 本地图片 │ └── repos/ # 代码仓库 ├── wiki/ # Wiki 层 — LLM 全权写作和维护 │ ├── index.md # 目录每页一行摘要 │ ├── log.md # 日志时间线记录 │ ├── concepts/ # 概念页 │ └── entities/ # 实体页人物、组织、产品 └── CLAUDE.md # Schema — 告诉 LLM 如何维护这个 Wiki三层的分工raw/是你的原书。只读LLM 读取但永远不修改。这是整个系统的事实来源。wiki/是你的笔记本。LLM 全权写作和维护——摘要页、概念页、实体页、交叉引用全部由它生成。你几乎不直接编辑这里的任何文件。CLAUDE.md或 AGENTS.md是整个系统的灵魂。它定义目录约定、摄入流程、页面格式规范。LLM 因此成为一个有纪律的 Wiki 编辑而不是一个通用聊天机器人。你和 LLM 随时间共同迭代这个文件。四个核心操作附具体做法① Ingest 摄入——读一篇更新十五页把新资料放入raw/告诉 LLM 处理它。一次典型摄入流程LLM 读取原文和你讨论关键收获在wiki/写摘要页更新index.md更新相关概念页和实体页可能触及 10-15 个文件在log.md追加一条记录建议逐篇摄入保持参与感。读摘要、检查更新、引导 LLM 强调什么。你也可以批量摄入但会失去控制感。② Query 问答——答案直接归档回 Wiki提问时LLM 先读index.md定位相关页再深入阅读最后综合作答。答案形式灵活Markdown 页、对比表格、Marp 幻灯片、matplotlib 图表。关键好的答案要归档回 Wiki。你做的一次对比分析、发现的一个新连接——这是有价值的知识不该消失在聊天记录里。每次探索都在累积。③ Lint 健康检查——让 LLM 审计自己定期让 LLM 扫描整个 Wiki检查页面间的矛盾信息被新资料推翻的陈旧观点没有入链的孤儿页面被多次提及但没有独立页面的概念可以用网络搜索补全的数据空白LLM 还很擅长建议下一步该研究什么帮你发现知识盲区。④ 工具扩展——按需添加搜索能力Wiki 规模小时index.md足够导航。规模增大后可以加一个搜索工具。Karpathy 推荐qmdgithub.com/tobi/qmd本地 Markdown 搜索引擎支持 BM25/向量混合搜索有 CLI 和 MCP 两种接入方式LLM 可以直接调用。两个关键文件index.md 和 log.md这是整个系统的导航层设计很精妙index.md——内容导向Wiki 的目录每一页一行包含链接一句话摘要可选元数据日期、来源数。LLM 每次摄入后更新。提问时先读 index再按需钻入具体页。在约 100 个来源、数百页的规模下这个方式工作得出人意料的好——完全不需要向量数据库。log.md——时间导向追加专用记录发生了什么和什么时候发生。建议每条以固定前缀开头## [2026-04-04] ingest | 文章标题这样可以用简单命令解析——grep ^## \[ log.md | tail -5就能看到最近 5 条记录。推荐工具链可以今天就跑起来Obsidian Web Clipper浏览器扩展一键把网页文章转成 Markdown 存入 raw/。在 Obsidian 设置 → 文件与链接把附件文件夹设为raw/assets/再绑定快捷键Download attachments for current file剪藏后一键把所有图片下载到本地。LLM 就能直接引用图片而不依赖可能失效的 URL。Obsidian 图谱视图查看 Wiki 整体形状的最佳方式——哪些页面是枢纽哪些是孤儿。LLM 维护 Wiki你在图谱里看它的生长。Marp 插件让 LLM 直接从 Wiki 内容生成 Markdown 幻灯片。Obsidian 有对应插件输出格式不再只是文字。Dataview 插件如果 LLM 给每个页面加了 YAML frontmatter标签、日期、来源数Dataview 能对这些元数据跑查询动态生成表格和列表。LLM Agent 接入Claude Code、OpenAI Codex、OpenCode 均可。关键是 CLAUDE.md 写得足够清楚——它是 LLM 的操作手册。Wiki 本身就是一个 git 仓库版本历史、分支、协作都免费拥有。完整数据流原始资料 raw/→ LLM 增量编译 →Wiki .md 文件→ QA Lint →答案归档回 Wiki你的每一次探索和提问都在增强这个知识库。复利效应来自于知识不消失只累积。适用场景场景具体用法深度研究阅读论文、报告数周LLM 增量构建综述 Wiki追踪演进脉络读书陪伴每章读完摄入笔记构建人物、主题、情节线的关联 Wiki竞品分析收集竞对资料LLM 维护实体页对比矩阵矛盾信息自动标记个人成长摄入日记、文章、播客笔记构建自我认知 Wiki追踪目标和心理模式团队知识库接入 Slack 消息、会议纪要、项目文档LLM 做所有人都不愿做的维护工作为什么这个模式真的有效维护知识库累人的不是读书或思考而是日常的账务处理——更新交叉引用、保持摘要一致、标记矛盾、在几十个页面里保持连贯。人类会因为这个维护成本放弃 Wiki。LLM 不会厌倦不会忘记更新引用一次能改 15 个文件。—— Karpathy 原文这让我想到 Vannevar Bush 在 1945 年提出的 Memex——一种个人策划的知识存储文档之间有关联路径。Bush 的愿景从来不是今天的互联网他设想的是私密的、主动策划的、连接本身和文档一样有价值的系统。Bush 当年没解决的问题是谁来做维护现在有答案了——LLM。回到类比这就是给 LLM 时代的读书标注法读书标注LLM Wiki 对应原书raw/目录划重点LLM 提炼摘要页、概念页页边批注Wiki 页面之间的反向链接和交叉引用你的笔记本wiki/目录读书规则CLAUDE.mdSchema重看笔记QA 模式直接问 Wiki而且这本笔记本不会过时。每加一本新书旧笔记也会被对照更新——它永远反映你当前读过的所有东西。知识管理的终极问题从来不是如何找到而是如何让它不断增长并保持一致。LLM Wiki 给了一个足够优雅的答案。

3步打造革新性游戏管理平台：FitGirl Repack Launcher一站式解决方案

3步打造革新性游戏管理平台：FitGirl Repack Launcher一站式解决方案【免费下载链接】Fitgirl-Repack-Launcher An Electron launcher designed specifically for FitGirl Repacks, utilizing pure vanilla JavaScript, HTML, and CSS for optimal performance and …...

2026/4/6 10:39:42 阅读更多 →