超越知识：构建具备判断力的 LLM Wiki 四类知识框架

Andrej Karpathy 提出的 “LLM Wiki” 概念在开发者社区引起了轰动。其核心逻辑非常迷人：将原始素材丢给大语言模型（LLM），让它提取概念并建立链接，从而生成一个真正好用的个人知识库。它解决了传统笔记软件中信息碎片化的问题。然而，在实际落地过程中，许多开发者（包括我自己）都撞上了一堵无形的墙：我们可以构建一个“无所不知”的系统，但它却完全不具备“判断力”。

所谓“判断力”，是指系统不仅能背诵教科书，还能像导师、医生或资深工程师那样思考。本文将深入探讨如何将 LLM Wiki 从简单的 1.0 事实检索系统，进化为具备判断力的 2.0 推理引擎。这一进化的核心在于“四类知识框架”的引入以及从“提取（Ingest）”到“挖掘（Mine）”的操作转变。为了实现这些复杂的逻辑，开发者需要调用如 Claude 3.5 Sonnet 或 DeepSeek-V3 等顶级模型，而 n1n.ai 提供了最便捷的接入方式。

为什么“知识”不等于“判断”？

假设你构建了一个编程教学 AI。你把所有的技术文档都喂给了它。当学生问：“我不理解什么是 Promise”时，AI 可能会完美地背诵出 MDN 的定义：“Promise 是一个表示异步操作最终完成或失败的对象。”

这个回答是对的，但也是错的。一个真正的编程导师会意识到，学生不理解 Promise，通常不是因为缺一个定义，而是因为不理解事件循环（Event Loop）或者回调地狱（Callback Hell）。真正的专家不会直接给答案，而是会问：“你理解什么是同步执行吗？你尝试过处理多个嵌套的回调吗？”

早期的 LLM Wiki 存储的主要是 陈述性知识（Declarative Knowledge）——即事实、定义和摘要。它回答的是“是什么”。但专家之所以成为专家，是因为他们掌握了“怎么做”、“为什么”以及“什么时候做”。

四类知识框架详解

要让 AI 产生判断力，我们需要将知识拆解为四个维度。每个维度在 LLM Wiki 中的提取和检索逻辑都完全不同。

1. 陈述性知识（Declarative Knowledge）：事实与定义

这是知识库的底层，解决“是什么”的问题。例如：Python 的装饰器语法、医学上的疾病定义、法律条文的原件。这类知识通过标准的 RAG（检索增强生成）就能得到很好处理。

2. 程序性知识（Procedural Knowledge）：推理路径

这是专家决策的序列。它不是孤立的事实，而是应用事实的顺序。例如：在占星学中，专家知道要先看命宫，再看三方四正，最后看格局，而不是胡子眉毛一把抓。这种“先 A 后 B”的逻辑就是程序性知识。

3. 经验性知识（Experiential Knowledge）：完整案例与决策点

这包括了专家工作的真实记录，尤其是那些包含错误、修正和转折的完整过程。阅读心理学教材不等于会做心理咨询；阅读 100 场真实的咨询对话记录（标注了咨询师在每个时刻为什么保持沉默）才是学习经验性知识。处理这类长文本需要像 Claude 3.5 Sonnet 这样拥有超长上下文窗口的模型，开发者可以通过 n1n.ai 轻松调用。

4. 交互性知识（Interaction Knowledge）：引导策略

这是关于“如何与用户互动”的元知识。什么时候该直接告诉答案？什么时候该保持沉默等待学生思考？当学生连续两次答错时，应该切换到什么引导模式？

核心操作的演进：从 Ingest 到 Mine

在 Karpathy 的初始框架中，核心操作是 Ingest（摄取）。你输入一份 PDF，LLM 提取出事实。但在 Wiki 2.0 中，我们需要引入第二个核心操作：Mine（挖掘）。

Ingest 寻找的是“事实”：产出陈述性知识。
Mine 寻找的是“决策”：产出程序性、经验性和交互性知识。

特性	Ingest (1.0 版本)	Mine (2.0 版本)
目标对象	实体、定义、概念	决策点、转折点、推理逻辑
输出结果	知识图谱、摘要	决策树、交互模版
核心价值	信息检索	模拟专家判断力
推荐模型	GPT-4o mini 等轻量模型	DeepSeek-V3、Claude 3.5 等强推理模型

技术实现：利用 n1n.ai 构建二代 Wiki

要实现“挖掘（Mine）”操作，你需要编写专门的 Prompt 来分析原始素材。以下是一个基于 n1n.ai API 的伪代码示例：

# 使用 n1n.ai 提供的统一接口调用 DeepSeek-V3 进行知识挖掘
import requests

def mine_expert_logic(raw_text):
    api_key = "YOUR_N1N_API_KEY"
    url = "https://api.n1n.ai/v1/chat/completions"

    prompt = f"""
    分析以下专家对话记录：
    1. 识别专家做出关键决策的时刻（例如：为何此时提问而非回答）。
    2. 提取其背后的程序性规则（如果学生状态是 X，则采取策略 Y）。
    3. 总结该领域的 Socratic 引导模式。
    原始文本：{raw_text}
    """

    payload = {
        "model": "deepseek-v3", # 高性价比的强推理模型
        "messages": [{"role": "user", "content": prompt}]
    }
    # 发送请求并处理结果...

案例分析：华盛顿大学的教学实验

华盛顿大学的研究人员分析了 98 场真实的计算机科学助教（TA）辅导课程，总计 17 小时的录音。研究发现，尽管这些助教受过苏格拉底式教学法的培训，但在实际压力下，75% 的时间他们都在直接给答案（陈述性知识），而真正的引导性提问（程序性/交互性知识）占比不足 0.6%。

这说明：知道规则 ≠ 能执行规则。对于 AI 也是如此。如果你不把这些“决策路径”显式地挖掘出来并存入 LLM Wiki，AI 在推理时就会倾向于选择最简单的“背书”模式。通过在 n1n.ai 上调用 OpenAI o1 或 DeepSeek-V3，我们可以强制模型在生成回复前先检索这些挖掘出来的“决策路径”，从而极大地提升回复的专业深度。

模型选择建议

在构建 Wiki 2.0 时，模型的能力边界直接决定了挖掘的深度：

DeepSeek-V3：目前性价比最高的强推理模型。非常适合大规模挖掘程序性知识，成本仅为 GPT-4o 的一小部分。推荐在 n1n.ai 上作为主力挖掘模型。
Claude 3.5 Sonnet：在理解复杂的人类情感和微妙的交互逻辑方面表现卓越。适合挖掘心理咨询、法律谈判等领域的经验性知识。
OpenAI o3/o1：具备极强的逻辑链思考能力，适合处理极其复杂的数学或系统架构决策挖掘。

总结：判断力是知识的结构化升级

AI 的未来不在于拥有更大的知识库，而在于拥有更好的推理和判断力。判断力不是一个“知识量”问题，而是一个“知识类型”问题。通过 Karpathy 的 LLM Wiki 奠定基础，并结合“四类知识框架”与“Mine”操作，我们可以构建出真正具备专家思维的 AI 系统。

无论你是想构建一个聪明的编程助手，还是一个专业的医疗建议系统，从今天开始，停止简单的知识堆砌，开始挖掘背后的决策逻辑。你可以通过 n1n.ai 快速接入全球最顶尖的 LLM API，开启你的 Wiki 2.0 之旅。

在 n1n.ai 获取免费 API Key。

参考来源：https://dev.to/rongrong/a-four-type-framework-for-llm-wiki-by-karpathy-5f1n