超越 RAG：利用知识图谱构建具有 “深层记忆” 的 AI 伴侣

在当前的大语言模型（LLM）开发领域，RAG（检索增强生成）通常被视为让 AI 获取外部数据的金科玉律。然而，随着 AI 从通用的聊天机器人转向深度个性化的伴侣，传统向量 RAG 的局限性正变得日益明显。

我最近面临一个挑战：我的妻子将 LLM 作为心理咨询师、生活教练和倾听者。在过去的一年里，她在 Notion 中建立了一个高达 35,000 token 的 “大师提示词（Master Prompt）”，其中包含她的医疗史、情感触发点和生活目标。每次开启新对话时，手动复制这些内容不仅耗时，还让 AI 显得像个健忘的助手。她需要的不是搜索引擎，而是一个连续的大脑。

为了解决这个问题，我构建了 Synapse AI Chat。该架构超越了简单的向量相似度，利用知识图谱（Knowledge Graphs）创建了一个 “深层记忆” 系统。通过使用 n1n.ai 提供的各类高性能 API，开发者可以实现类似的架构，让 AI 理解因果关系，而不仅仅是关键词匹配。

为什么向量 RAG 不足以构建 “记忆”？

目前大多数 AI 记忆系统依赖向量 RAG：将文本切片、转化为向量，并根据语义相似度进行检索。虽然这对于在 500 页的 PDF 中查找特定条款非常高效，但在模拟人类生活方面却显得力不从心。

向量寻找的是 相似性，而知识图谱寻找的是结构。如果用户说：“项目 A 给我带来了压力，导致了我的职业倦怠。” 向量搜索可能会分别找到 “项目 A” 和 “职业倦怠” 的片段。但知识图谱能理解其中的逻辑链：项目 A -> 导致 -> 压力 -> 结果 -> 职业倦怠。这种对因果关系的理解是构建个性化 AI 的核心。为了获得这种高级推理能力，开发者通常需要调用 Claude 3.5 Sonnet 或 DeepSeek-V3 等顶级模型，而 n1n.ai 正是获取这些 API 的理想平台。

系统架构：躯干与大脑

为了处理这种复杂性，我将项目分为两个部分：

躯干 (Frontend): 使用 React 19 和 Convex 构建。Convex 处理实时数据同步，确保聊天体验流畅无阻。
皮层 (Brain): 基于 Python FastAPI 的后端，负责知识图谱索引和实体提取的重型计算任务。

在模型选择上，我利用了 Gemini 系列的大上下文窗口特性。为了确保生产环境的稳定性，通过 n1n.ai 接入多个模型供应商可以有效避免单点故障。

核心流程：三阶段记忆演进

第一阶段：上下文注入 (Hydration)

在用户开始会话前，系统并不会发送空白提示。我们会从 Neo4j 数据库中提取知识图谱，并将其转化为自然语言摘要，“注入” 到系统提示词中。AI 瞬间就能想起用户是谁、他们关心什么以及他们的社交关系。

第二阶段：记忆巩固 (The "Nap" Phase)

记忆更新并非实时发生，因为图谱提取非常耗时（通常需要 60-200 秒）。我们采用 “巩固” 机制：当用户停止聊天超过 3 小时或手动点击按钮时，系统会像人类睡觉一样进入 “记忆巩固期”。

此时，我们会调用高逻辑性能的模型（如 n1n.ai 上的 GPT-4o 或 Gemini 1.5 Pro）来分析对话记录。提取逻辑如下：

识别新实体（例如：“新药物 Y”）。
识别状态变化（例如：“停止使用药物 X”）。
更新关系边（Relationships）。

第三阶段：结构化输出

我们将图谱节点和边编译成易于 LLM 理解的文本格式：

def _format_compilation(definitions: list[str], relationships: list[str]) -> str:
    sections = []
    if definitions:
        sections.append(
            "#### 1. 概念定义与身份 ####\n"
            "# (理解这些概念对该用户的具体含义)\n"
            + "\n".join(definitions)
        )
    if relationships:
        sections.append(
            "#### 2. 关系动态与因果关系 ####\n"
            "# (这些概念如何随时间相互作用和演变)\n"
            + "\n".join(relationships)
        )
    return "\n\n".join(sections) if sections else ""

工程挑战：处理 503 错误与重试机制

在处理大规模图谱摄取时，LLM API 偶尔会因为负载过高返回 503 错误。我使用 Convex 的调度器实现了一套带指数退避算法的事件驱动重试系统：

export const RETRY_DELAYS_MS = [
  0,            // 第一次：立即尝试
  2 * 60_000,   // 第二次：+2 分钟
  10 * 60_000,  // 第三次：+10 分钟
  30 * 60_000,  // 第四次：+30 分钟
];

// 核心处理作业
export const processJob = internalAction({
  args: { jobId: v.id("cortex_jobs") },
  handler: async (ctx, args) => {
    const job = await ctx.runQuery(internal.cortexJobs.get, { id: args.jobId });
    try {
      // 执行重型图谱摄取任务
      await ingestGraphData(ctx, job.payload);
      await ctx.runMutation(internal.cortexJobs.complete, { jobId: args.jobId });
    } catch (error) {
      const nextAttempt = job.attempts + 1;
      if (nextAttempt &lt; job.maxAttempts) {
        const delay = RETRY_DELAYS_MS[nextAttempt] ?? 30 * 60_000;
        await ctx.scheduler.runAfter(delay, internal.processor.processJob, { jobId: args.jobId });
      }
    }
  },
});

专业建议：引入 “人机回环 (Human-in-the-Loop)”

AI 记忆不应是一个黑盒。我利用 react-force-graph 构建了一个可视化界面，让用户可以审计自己的 “大脑”。如果 AI 错误地记录了某个信息（例如误以为用户喜欢某种食物），用户可以直接编辑节点。这种透明度极大地提升了用户对 AI 伴侣的信任感。

总结

从 “横向” AI（泛泛而谈）转向 “纵向” AI（深度了解用户）是未来的趋势。虽然向量 RAG 适合搜索，但知识图谱才是理解复杂人生的关键。通过 n1n.ai 提供的稳定 API 服务，开发者可以更专注于架构设计，而不必担心后端模型的响应率问题。

立即在 n1n.ai 获取免费 API 密钥。

参考来源：https://dev.to/juandastic/beyond-rag-building-an-ai-companion-with-deep-memory-using-knowledge-graphs-2e6e