为什么 LLM 工具调用会静默失败以及如何修复

如果你正在构建生产级的大语言模型 (LLM) 应用程序，特别是那些利用工具调用 (Tool Calling) 或结构化输出 (Structured Output) 的程序，你很可能遇到过一个令人沮丧的现象：你的代码在测试中运行完美，但在负载下，它会抛出 json.decoder.JSONDecodeError 或 serde_json::Error。这些错误通常出现在你最重要、最长的响应中。

最让人抓狂的是，模型实际上已经正确完成了它的工作。令牌序列在逻辑上是正确的，但流在最后的闭合字符到达之前被切断了。在这篇指南中，我们将探讨为什么这些静默失败会发生，为什么常见的变通方法会失效，以及像 Suture 这样的高性能代理——结合像 n1n.ai 这样稳定的 API 提供商——如何能以微秒级的延迟解决这个问题。

流式工具调用的解剖

当你从 LLM API 请求流式聊天补全时，提供商不会发送一个单一的、完整的 JSON 文档。相反，它传输一系列服务器发送事件 (SSE)。每个事件都是一个有效的、微小的 JSON 对象，包含最终响应的一个片段。

考虑以下工具调用的片段序列：

data: {"choices":[{"delta":{"tool_calls":[{"function":{"arguments":"{\"ci"}}]}}]}
data: {"choices":[{"delta":{"tool_calls":[{"function":{"arguments":"ty\":\"Par"}}]}}]}
data: {"choices":[{"delta":{"tool_calls":[{"function":{"arguments":"is\"}"}}]}}]}
data: [DONE]

你的 SDK（无论是 LangChain、PydanticAI 还是自定义实现）会将这些事件中的 arguments 字段重新组装成一个字符串：{"city":"Paris"}。只有在那之后，它才会尝试解析它。

问题所在：截断悬崖

当流过早结束时，问题就出现了。发生这种情况有几个原因：

达到最大令牌数 (Max Tokens)：模型在句子中间达到了 max_tokens 限制。
上下文窗口耗尽：提示词和不断增长的响应超过了模型的容量。
网络不稳定：在重负载期间，套接字断开或发生超时。

当流被切断时，你可能会得到一个像这样的部分字符串：{"city":"Par。SSE 外壳本身是有效的，但内部负载是不完整的。你的 JSON 解析器在期待闭合引号和括号时会抛出错误。这在使用通过 n1n.ai 聚合的高吞吐量模型（如 OpenAI o3 或 Claude 3.5 Sonnet）时尤为常见，因为这些场景对速度要求极高。

为什么常见的修复方法会失败

1. 简单的重试

重试整个请求是最常见的反应。然而，这样做既昂贵又缓慢。你需要为已经生成的数千个令牌再次付费，如果问题是由于 max_tokens 限制引起的，重试很可能会在完全相同的地方再次截断，导致失败的无限循环。

2. 增加 Max Tokens

这只是将“悬崖”推得更远，并没有消除它。此外，它无法保护你免受网络层套接字断开的影响。

3. 手动字符串追加

许多开发人员尝试通过简单地在失败的流末尾追加 ]} 来“修复” JSON。这是危险的。考虑这个部分 JSON：

{"items":[250, 194,

如果你盲目地追加 ]}，你会得到 {"items":[250, 194, ]}，由于存在尾随逗号，这是无效的 JSON。一个健壮的修复必须是上下文感知的，能够识别是应该删除逗号、关闭字符串，还是完成一个布尔值。

解决方案：Suture 与字节级修复

为了解决这个问题，我们需要一个能够在每个字节级别理解 JSON 解析器状态的解决方案。Suture 是一个专门的反向代理，旨在位于你的应用程序和 LLM 提供商（如 n1n.ai）之间。

Suture 使用字节级状态机来跟踪对象和数组的嵌套、字符串的状态以及转义字符的有效性。当流结束时（无论是正常结束还是过早结束），Suture 会计算使 JSON 合法所需的精确字符序列，并将它们作为最后一个 delta 事件注入。通过 n1n.ai 获取的高速流可以无缝通过此代理进行加固。

使用 n1n.ai 的技术实现

实施此修复只需在配置中进行一行更改。你不再将 SDK 直接指向提供商，而是将其指向 Suture 代理，然后由代理将请求转发到 n1n.ai。

import os
from openai import OpenAI

# 指向转发至 n1n.ai 的 Suture 代理
client = OpenAI(
    base_url="http://localhost:8787/v1",
    api_key=os.environ["N1N_API_KEY"]
)

response = client.chat.completions.create(
    model="deepseek-v3",
    messages=[{"role": "user", "content": "生成一个巨大的城市 JSON 列表。"}],
    tools=[...], # 工具定义
    stream=True
)

为什么 Suture 与众不同

高性能：Suture 使用 Rust 编写，每个分块增加的延迟仅约为 ~10µs。在 LLM 推理的世界里，延迟通常以数百毫秒计，这几乎可以忽略不计。
UTF-8 安全性：截断经常发生在多字节 UTF-8 字符的中间。Suture 能正确识别这些部分序列，避免破坏编码。
安全性：当通过 n1n.ai 使用 AWS Bedrock 等提供商时，Suture 支持 SigV4 签名。你的私钥永远不会真正经过网络；只使用针对每个请求的签名。
广泛支持：它处理压缩（Gzip, Brotli）和多种提供商格式，包括 OpenAI、Anthropic 和 Google Vertex AI。

修复策略对比

策略	延迟	可靠性	成本影响	复杂度
原生重试	高	低	高	低
正则补丁	低	低	低	中
Suture 代理	~10µs	高	低	低
Pydantic 验证	中	中	低	高

总结

截断的 JSON 是当前 LLM 领域的现实，特别是随着我们转向更复杂的 RAG (检索增强生成) 流水线和多智能体系统。通过使用像 n1n.ai 这样强大的 API 聚合器和像 Suture 这样的修复引擎，你可以确保你的生产系统即使在模型达到极限时也能保持稳定。

不要让一个缺失的闭合括号导致你的生产环境崩溃。立即实施字节级修复策略，为你的用户提供无缝的体验。在 n1n.ai 这样的平台上，稳定性与性能同样重要。

Get a free API key at n1n.ai

参考来源：https://dev.to/wu_jiang_2ca3f4c2d1718f07/why-your-llm-tool-calls-silently-break-and-a-10us-fix-15mj