告别堆砌提示词：为什么智能体内存需要类型化接口

随着上下文窗口（Context Window）扩展到数百万个 token，开发者们正陷入一个危险的陷阱：将内存（Memory）简单地视为一个字符串拼接问题。我们被引导着相信，如果像 Claude 3.5 Sonnet 或 DeepSeek-V3 这样的模型拥有足够大的窗口，我们只需将整个交互历史转储到提示词中，让 Transformer 自己去处理即可。这种方法虽然实现简单，但正是导致长期规划智能体（Long-Horizon Agents）在生产环境中崩溃的元凶。

核心问题不在于现代模型缺乏智能，而在于“提示词沉积物”导致的决策退化。当你通过 n1n.ai 这样的聚合平台访问全球顶尖模型时，你会很快发现，输出质量与输入的清晰度成正比。将原始对话记录（Raw Transcripts）直接塞进提示词，会将一个精密工具变成一个充满杂物的“垃圾抽屉”。

“仅追加”策略的彻底失败

目前大多数智能体循环都遵循一个可预测且有缺陷的模式：将之前的观察、工具调用、推理痕迹、反思以及任何看起来有用的东西追加到下一个提示词中。这造成了几个技术瓶颈：

注意力稀释：即使模型在“大海捞针”测试中表现优异，它们仍然会受到“迷失在中间”（Lost in the Middle）现象的影响。当提示词包含 50 个之前的工具调用时，模型可能难以优先考虑十个回合前确立的一个关键约束。
状态污染：智能体经常记得一些已经不再正确的事情。如果一个智能体正在导航文件系统，某个目录已被删除，但“内存”中仍包含旧的 ls 输出，智能体可能会尝试无效的操作。
调试考古学：当智能体失败时，开发者必须筛选 30,000 个 token 的提示词，才能弄清楚到底是哪一小段历史数据导致了幻觉。

为了解决这个问题，一篇名为《AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents》的新论文提出了一个激进的转变：内存应该是一个“契约”，而不是一份“笔录”。

AgenticSTS 框架：内存即接口

研究人员使用游戏《杀戮尖塔 2》（Slay the Spire 2）作为测试平台。与简单的聊天基准测试不同，这种环境需要数百次具有延迟后果的战术决策。为了获胜，智能体不能只记得最后说的一句话；它必须理解自己牌组的状态、敌人的意图以及长期的生命值权衡。

AgenticSTS 不使用原始笔录，而是使用五个不同的、类型化的层来组合每个决策提示词：

内存层	描述	目的
固定协议 (Fixed Protocol)	关于智能体应如何行为的静态指令。	确保格式和逻辑的一致性。
当前状态 (Current State)	合法动作和环境状态的结构化架构。	防止智能体尝试不可能的操作。
检索规则 (Retrieved Rules)	根据当前语境通过 RAG 获取的特定游戏机制。	减少模型记忆整个手册的需求。
片段总结 (Episodic Summaries)	来自之前运行或前几个回合的精简见解。	提供历史背景，过滤掉原始日志的噪音。
触发策略技能 (Strategic Skills)	针对特定场景触发的“秘籍”或启发式方法。	鼓励高层规划而非反应式操作。

通过 n1n.ai 访问这些模型，开发者可以在 OpenAI o3 或 Claude 3.5 之间灵活切换，观察哪种架构能最有效地处理这种分层内存。

在您的智能体中实现类型化内存

如果您正在构建用于代码编辑或文档处理的智能体，您可以借用这种模式。停止传递 messages[] 数组，转而构建一个填充模板的提示词构造器。

以下是实现逻辑的示例：

def compose_prompt(current_task, memory_store):
    # 1. 获取核心指令
    protocol = get_protocol("code_editor_v1")

    # 2. 仅获取相关文件状态 (State)
    files = memory_store.get_active_files()

    # 3. 检索相关文档 (Rules)
    docs = vector_db.query(current_task, top_k=3)

    # 4. 获取最近 3 次失败尝试 (Episodic Memory)
    failures = memory_store.get_recent_failures(limit=3)

    # 5. 注入特定的编码标准 (Skills)
    skills = library.get_skills(["error_handling", "dry_principle"])

    # 使用 MDX 安全的转义方式
    return f"""
    协议: {protocol}
    状态: {files}
    参考: {docs}
    历史: {failures}
    指南: {skills}
    任务: {current_task}
    """

为什么这在生产环境中至关重要

类型化的内存接口为您提供了可对比性（Diffability）。当智能体失败时，您可以关闭特定的层。您可以问：“智能体失败是因为片段笔记陈旧了，还是因为检索到的规则不相关？”

在 AgenticSTS 的研究中，基准组（无脚手架）在 10 场比赛中赢了 3 场。通过添加“战略技能”层，胜率跃升至 6/10。虽然样本量较小，但方向非常明确：结构化内存优于原始上下文。

在使用 n1n.ai 提供的极速 API 时，进行多次 RAG 调用或处理结构化模板带来的延迟，会被提示词体积减小所带来的推理速度提升抵消。最终的提示词通常比巨大的对话记录更精简、更聚焦，从而降低了成本并提高了响应速度。

长期规划智能体的高级技巧

审计你的内存：如果你无法解释为什么某条信息出现在提示词中，请将其删除。
谨慎使用模型生成的总结：不要让模型总结它自己的混乱。只存储关于客观事实或成功结果的总结。
设置“一键禁用”开关：设计系统时，应允许你禁用任何内存层（例如“检索规则”层），以便基准测试该层对智能体成功的实际贡献。
处理延迟与成本：虽然处理 {V1, V2} 这样的复杂结构需要更多预处理逻辑，但在 n1n.ai 上使用 DeepSeek-V3 等性价比极高的模型时，这种架构能显著减少因 token 浪费导致的开销。

内存应该是被“选择”出来的，而不是被“灌入”进去的。通过从“上下文囤积”转向有界的、类型化的接口，我们终于可以构建出既智能又可靠的智能体系统。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://dev.to/komo/stop-dumping-agent-memory-into-the-prompt-58ka