构建审计其他 AI 智能体的 AI:A2A 生产系统实战指南
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
审计报告是在凌晨 2:47 送达的。我原本并没指望它能这么快出来——我在睡前触发了测试运行,更多是出于习惯而非期待。但它就这样出现在我的屏幕上:一个综合评分、六个维度的详细分析,以及一份包含具体代码行号的修复计划。审计者是一个 AI,而被审计的对象也是一个 AI。整个过程经过了 7 轮自然语言对话,完全没有任何人类干预。这就是智能体对智能体(Agent-to-Agent,简称 A2A)在生产环境中的真实样貌。它不是一张架构图,也不是一份白皮书,而是一个能够相互质询的实战系统。
Token 浪费:LLM 应用的隐形杀手
目前大多数基于大语言模型(LLM)构建应用的团队,往往只关注输出质量、响应延迟和用户满意度。然而,Token 效率——即有用信息与消耗总 Token 的比例——却鲜有人提及。在我们的生产测试中,我们发现 AI 智能体在完全可以避免的问题上,通常会浪费 40% 到 60% 的 Token 预算。这不仅是技术债,更是巨大的财务黑洞。
常见的浪费来源包括:
- 臃肿的系统提示词 (System Prompts):携带了比任务需求多出 3 倍的上下文。
- 默认的模型选择:在不需要复杂推理的情况下,盲目使用 GPT-4o 或 Claude 3.5 Sonnet,而不是更具性价比的模型。
- 低质量的 RAG 上下文:检索到的数据中,80% 与查询无关。
- 无缓存的重复调用:在没有缓存机制的情况下,反复发起完全相同的请求。
- 缺乏批处理:本可以合并的请求被拆分为多个串行调用,增加了首字延迟(TTFT)和成本。
为了更高效地管理这些支出,开发者需要一个像 n1n.ai 这样稳定且高速的 API 聚合平台,它可以让你在 DeepSeek-V3、OpenAI o3 等模型之间无缝切换,从而针对不同任务匹配最合适的成本方案。
为什么监控看板不够,而 A2A 必不可少
我们最初尝试构建了一套标准的观测看板,通过日志记录各项指标。但很快我们发现,日志只能告诉你“发生了什么”,却无法告诉你“为什么发生”。最核心的低效往往源于架构设计,即智能体是如何“思考”的——它选择了哪些提示词、如何路由模型、如何处理记忆。这些意图无法从原始的 JSON 日志中推断出来。
于是,我们决定直接“询问”。我们构建了一个名为 Gary 的审计智能体,通过自然语言质询的方式从目标智能体中提取架构信息,而无需任何 SDK 集成或代码更改。
A2A 质询的七个维度
Gary 通过以下七个核心问题对目标智能体进行深度扫描:
- 模型路由逻辑:你是如何决定在不同任务之间切换模型的?
- 系统提示词范围:你的系统提示词大约有多长,包含了哪些核心指令?
- 上下文处理:你根据什么逻辑决定将哪些信息放入上下文窗口?
- 输出约束:你是否对响应长度或格式有严格限制?如何实现的?
- 检索策略 (RAG):如果你使用 RAG,你是如何进行分块(Chunking)和排序的?
- 缓存机制:你会存储之前的 LLM 响应吗?在什么条件下会触发缓存?
- 批处理能力:你是否能够在一个 LLM 调用中处理多个用户意图?
通过分析回答,Gary 会在六个维度上进行评分。例如,在对一个基于 RAG 的客服机器人进行审计时,Gary 发现该机器人将所有简单的 FAQ 查询都路由到了昂贵的 GPT-4o 模型。通过 n1n.ai 接入更具性价比的 GPT-4o-mini,该团队立即节省了约 45% 的模型费用。
技术实现:A2A 协议深度解析
该审计系统的后端实现采用了新兴的 A2A 协议,基于 HTTPS 上的 JSON-RPC。它使用 tasks/send 和 tasks/get 方法,并配合服务器发送事件(SSE)实现流式传输。以下是客户端智能体启动审计任务的示例代码:
{
"jsonrpc": "2.0",
"method": "tasks/send",
"params": {
"id": "audit-run-001",
"message": {
"role": "user",
"parts": [{ "type": "text", "text": "开始 Token 效率审计。API Key: YOUR_KEY" }]
}
}
}
Gary 会根据目标智能体的回复,利用 DeepSeek-V3 等模型的高级推理能力,推断出其潜在的架构缺陷。在多智能体协作的环境中,拥有 n1n.ai 提供的低延迟 API 支撑是确保 A2A 实时审计的关键。
专家建议:智能体的“自我意识”局限性
在实战中,我们发现了一个有趣的现象:AI 智能体在描述其逻辑架构时非常诚实,但在估算 Token 使用量时却极其糟糕。它们知道自己的检索策略,却不知道这个策略产生了多少 Token。因此,最佳实践是将 A2A 审计与 n1n.ai 的实时用量监控相结合,形成一个闭环的反馈系统。
审计案例与优化建议表
| 评估维度 | 分数 | 发现问题 | 修复建议 |
|---|---|---|---|
| 模型匹配度 | 62/100 | 简单逻辑过度依赖 GPT-4o。 | 引入路由层,将简单查询分流至 GPT-4o-mini。 |
| 上下文窗口 | 71/100 | 每次调用都携带全量历史记录。 | 实现滑动窗口机制,对早期对话进行摘要处理。 |
| RAG 效率 | 55/100 | 文本分块过大(2000 Token)。 | 将分块缩小至 512 Token,并引入重排序(Rerank)。 |
总结
如果你正在构建复杂的 AI 智能体工作流,那么在 Token 效率上“盲飞”是非常危险的。通过引入 A2A 审计层,你可以将 AI 基础设施转变为一个能够自我感知的系统。结合 n1n.ai 提供的多模型聚合能力,你不仅能获得最前沿的 AI 性能,还能确保系统在经济效益上的可持续性。
在 n1n.ai 获取免费 API 密钥。