构建审计其他 AI 智能体的 AI：A2A 生产系统实战指南

审计报告是在凌晨 2:47 送达的。我原本并没指望它能这么快出来——我在睡前触发了测试运行，更多是出于习惯而非期待。但它就这样出现在我的屏幕上：一个综合评分、六个维度的详细分析，以及一份包含具体代码行号的修复计划。审计者是一个 AI，而被审计的对象也是一个 AI。整个过程经过了 7 轮自然语言对话，完全没有任何人类干预。这就是智能体对智能体（Agent-to-Agent，简称 A2A）在生产环境中的真实样貌。它不是一张架构图，也不是一份白皮书，而是一个能够相互质询的实战系统。

Token 浪费：LLM 应用的隐形杀手

目前大多数基于大语言模型（LLM）构建应用的团队，往往只关注输出质量、响应延迟和用户满意度。然而，Token 效率——即有用信息与消耗总 Token 的比例——却鲜有人提及。在我们的生产测试中，我们发现 AI 智能体在完全可以避免的问题上，通常会浪费 40% 到 60% 的 Token 预算。这不仅是技术债，更是巨大的财务黑洞。

常见的浪费来源包括：

臃肿的系统提示词 (System Prompts)：携带了比任务需求多出 3 倍的上下文。
默认的模型选择：在不需要复杂推理的情况下，盲目使用 GPT-4o 或 Claude 3.5 Sonnet，而不是更具性价比的模型。
低质量的 RAG 上下文：检索到的数据中，80% 与查询无关。
无缓存的重复调用：在没有缓存机制的情况下，反复发起完全相同的请求。
缺乏批处理：本可以合并的请求被拆分为多个串行调用，增加了首字延迟（TTFT）和成本。

为了更高效地管理这些支出，开发者需要一个像 n1n.ai 这样稳定且高速的 API 聚合平台，它可以让你在 DeepSeek-V3、OpenAI o3 等模型之间无缝切换，从而针对不同任务匹配最合适的成本方案。

为什么监控看板不够，而 A2A 必不可少

我们最初尝试构建了一套标准的观测看板，通过日志记录各项指标。但很快我们发现，日志只能告诉你“发生了什么”，却无法告诉你“为什么发生”。最核心的低效往往源于架构设计，即智能体是如何“思考”的——它选择了哪些提示词、如何路由模型、如何处理记忆。这些意图无法从原始的 JSON 日志中推断出来。

于是，我们决定直接“询问”。我们构建了一个名为 Gary 的审计智能体，通过自然语言质询的方式从目标智能体中提取架构信息，而无需任何 SDK 集成或代码更改。

A2A 质询的七个维度

Gary 通过以下七个核心问题对目标智能体进行深度扫描：

模型路由逻辑：你是如何决定在不同任务之间切换模型的？
系统提示词范围：你的系统提示词大约有多长，包含了哪些核心指令？
上下文处理：你根据什么逻辑决定将哪些信息放入上下文窗口？
输出约束：你是否对响应长度或格式有严格限制？如何实现的？
检索策略 (RAG)：如果你使用 RAG，你是如何进行分块（Chunking）和排序的？
缓存机制：你会存储之前的 LLM 响应吗？在什么条件下会触发缓存？
批处理能力：你是否能够在一个 LLM 调用中处理多个用户意图？

通过分析回答，Gary 会在六个维度上进行评分。例如，在对一个基于 RAG 的客服机器人进行审计时，Gary 发现该机器人将所有简单的 FAQ 查询都路由到了昂贵的 GPT-4o 模型。通过 n1n.ai 接入更具性价比的 GPT-4o-mini，该团队立即节省了约 45% 的模型费用。

技术实现：A2A 协议深度解析

该审计系统的后端实现采用了新兴的 A2A 协议，基于 HTTPS 上的 JSON-RPC。它使用 tasks/send 和 tasks/get 方法，并配合服务器发送事件（SSE）实现流式传输。以下是客户端智能体启动审计任务的示例代码：

{
  "jsonrpc": "2.0",
  "method": "tasks/send",
  "params": {
    "id": "audit-run-001",
    "message": {
      "role": "user",
      "parts": [{ "type": "text", "text": "开始 Token 效率审计。API Key: YOUR_KEY" }]
    }
  }
}

Gary 会根据目标智能体的回复，利用 DeepSeek-V3 等模型的高级推理能力，推断出其潜在的架构缺陷。在多智能体协作的环境中，拥有 n1n.ai 提供的低延迟 API 支撑是确保 A2A 实时审计的关键。

专家建议：智能体的“自我意识”局限性

在实战中，我们发现了一个有趣的现象：AI 智能体在描述其逻辑架构时非常诚实，但在估算 Token 使用量时却极其糟糕。它们知道自己的检索策略，却不知道这个策略产生了多少 Token。因此，最佳实践是将 A2A 审计与 n1n.ai 的实时用量监控相结合，形成一个闭环的反馈系统。

审计案例与优化建议表

评估维度	分数	发现问题	修复建议
模型匹配度	62/100	简单逻辑过度依赖 GPT-4o。	引入路由层，将简单查询分流至 GPT-4o-mini。
上下文窗口	71/100	每次调用都携带全量历史记录。	实现滑动窗口机制，对早期对话进行摘要处理。
RAG 效率	55/100	文本分块过大（2000 Token）。	将分块缩小至 512 Token，并引入重排序（Rerank）。

总结

如果你正在构建复杂的 AI 智能体工作流，那么在 Token 效率上“盲飞”是非常危险的。通过引入 A2A 审计层，你可以将 AI 基础设施转变为一个能够自我感知的系统。结合 n1n.ai 提供的多模型聚合能力，你不仅能获得最前沿的 AI 性能，还能确保系统在经济效益上的可持续性。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://dev.to/garybotlington/we-built-an-ai-that-audits-other-ai-agents-heres-how-a2a-works-in-production-51l6