投机采样：何时以及为何能真正加速 LLM 推理

设想一下，你的聊天接口每秒处理 200 个请求。你正在运行一个 Llama 3 70B 的微调模型。监控显示 GPU 利用率稳定在 78%，但用户反馈延迟很高：中位数首字延迟（TTFT）为 380 毫秒，而 P99 延迟甚至达到了 1.1 秒。

直觉可能会告诉你“我们需要更强大的硬件”。但实际情况是，你的 GPU 处于**内存带宽受限（Memory-bound）**状态，而非算力受限（Compute-bound）。大部分时间，GPU 都在忙于将模型权重和 KV 缓存状态从显存（HBM）搬运到计算核心（SM）中，而且是逐个 Token 地搬运。投机采样（Speculative Decoding）正是打破这一瓶颈的关键技术，它能将“一次一个 Token”的串行流程转变为“一次多个 Token”的并行流水线，且完全不改变模型的输出分布。

作为领先的 LLM API 聚合器，n1n.ai 致力于为开发者提供稳定、高速的推理服务。理解投机采样的原理对于优化企业级 AI 应用至关重要。在实际测试中，该技术在相同硬件上将 P50 TTFT 从 380 毫秒降低到了 140 毫秒。本文将深入探讨其运作机制、变体以及适用场景。

内存墙：为什么要进行“投机”？

在自回归语言模型（LLM）的解码过程中，单张 GPU 的吞吐量上限通常由数据移动的成本决定。当你将模型的参数量翻倍时，每个 Token 的生成时间大约也会翻倍，因为显存带宽是固定的。此时，GPU 的算力核心（SM）大部分时间都在空转，等待权重数据的到达。

投机采样通过引入一个体积更小、速度更快的“草稿模型（Draft Model）”来解决这个问题。草稿模型预先猜测接下来的 $K$ 个 Token，然后由体积巨大的“目标模型（Target Model）”在一次前向传播中同时验证这 $K$ 个 Token。如果草稿模型猜对了，你就以极小的代价获得了 $K$ 个 Token 的产出。

关键特性：投机采样是一种**精确（Exact）**的加速方案。其输出的概率分布与单独运行目标模型完全一致。你不需要为了速度而牺牲模型质量（如 Claude 3.5 Sonnet 或 OpenAI o3 的精度），你付出的是额外的显存和工程复杂度，换取的是显著的响应速度提升。在 n1n.ai 的高性能 API 服务中，这种优化被广泛应用。

算法核心：从 DeepMind 的原始论文说起

投机采样的基础逻辑源于 DeepMind 在 2023 年发表的论文《Accelerating Large Language Model Decoding with Speculative Sampling》。其核心流程如下：

草稿阶段：草稿模型 $M_q$ 以自回归方式生成 $K$ 个候选 Token。通常草稿模型比目标模型小 10 到 50 倍。
验证阶段：目标模型 $M_p$ 对这 $K$ 个 Token（加上一个预测位）进行一次性批处理计算。
接受检查：对于每个提议的 Token $x_t$ ，计算接受概率 $r = \min(1, M_p(x_t) / M_q(x_t))$ 。
重采样：如果某个 Token 被拒绝，算法会根据残差分布进行重采样，确保数学上的严谨性。

加速比取决于“接受率”：即草稿模型猜中目标模型输出的频率。如果草稿模型与目标模型高度对齐，加速效果将非常惊人。

现代变体：EAGLE 与 MTP 的崛起

随着技术演进，简单的“小模型带大模型”方案已衍生出更多高效变体。在 vLLM 等主流推理框架中，以下几种方法最受关注：

方法名称	技术原理	最佳场景	成本与风险
EAGLE / EAGLE-3	预测下一层的隐藏状态而非 Token。	通用场景，目前接受率最高。	每个目标模型需要专门训练的 EAGLE 头部。
多 Token 预测 (MTP)	如 DeepSeek-V3 原生支持，一次前向传播输出多个候选。	原生支持 MTP 的模型。	不适用于标准的 Llama 3 或 Mistral。
N-gram (Prompt Lookup)	在 Prompt 或上下文历史中寻找重复片段作为候选。	代码补全、固定格式 JSON 提取。	在自由对话中几乎无效。
Medusa (美杜莎)	在目标模型顶层增加多个预测头。	允许对目标模型进行微调时。	显著增加显存占用。

对于大多数生产环境，EAGLE 是目前的推荐首选。它在隐藏层级别进行预测，能够捕捉到比 Token 级别更深层的语义关联，从而大幅提高接受率。这也是 n1n.ai 推荐开发者在自建推理服务时优先考虑的方案。

实战指南：在 vLLM 中部署投机采样

以下是使用 vLLM 部署 Llama 3 70B 并开启 EAGLE 加速的示例代码：

from vllm import LLM, SamplingParams

# 定义采样参数
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# 初始化模型，配置投机采样
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B-Instruct",
    tensor_parallel_size=4, # 使用 4 张 GPU
    speculative_config={
        "model": "yuhuili/EAGLE-LLaMA3-Instruct-70B",
        "draft_tensor_parallel_size": 1, # 草稿模型仅占用 1 张 GPU 避免通信开销
        "num_speculative_tokens": 5, # 每次投机 5 个 Token
        "method": "eagle",
    },
)

outputs = llm.generate(["AI 的未来在于"], sampling_params)

部署建议：

$K$ 值的选择：num_speculative_tokens 通常设置为 4-6 之间。设置过高会增加单次循环的计算负担，若接受率不高，反而会导致性能下降。
显存规划：虽然 EAGLE 头部很小（约 2GB），但在 H100 等显存接近满载的情况下，务必预留显存空间，防止 OOM（显存溢出）。

性能评估：均值接受 Token 数 (μ)

评估投机采样效果的唯一核心指标是 μ (Mean Accepted Tokens per cycle)。

加速比近似公式为：Speedup ≈ (1 + μ) / ( (1 + μ) * draft_cost_ratio + 1 )。

如果 μ 低于 1.0，说明草稿模型每轮猜对的 Token 甚至不到一个，此时由于草稿模型的额外计算开销，整体推理速度反而会变慢。在 n1n.ai 的压测中，我们发现针对代码编写场景，μ 通常能达到 4.0 以上，而在文学创作场景中，由于随机性（Entropy）较高，μ 可能会降至 1.5 左右。

避坑指南：哪些场景不适合？

投机采样并非万灵药，以下场景需要谨慎：

高吞吐量压力测试：如果你的 GPU 算力已经完全打满（Compute-bound），投机采样带来的并行化收益会被草稿模型的计算开销抵消。
高 Temperature 设置：当温度系数大于 1.0 时，输出变得极其随机，草稿模型很难命中目标，导致加速失败。
Tokenizer 不匹配：如果草稿模型和目标模型使用的分词器（Tokenizer）不一致，Token ID 的映射会发生混乱，接受率将直接归零。
短文本生成：如果生成的文本只有 10-20 个 Token，投机采样的启动开销和循环摊销可能并不划算。

总结

投机采样是解决 LLM 推理内存带宽瓶颈的优雅方案。通过合理的模型配对（如 Llama 3 配合 EAGLE 头部），开发者可以在不损失任何精度的前提下，获得 2-3 倍的感官加速。这对于构建实时对话机器人、代码助手等对延迟敏感的应用至关重要。

如果你希望直接体验经过深度优化的极速推理服务，而无需自行处理复杂的后端配置，欢迎访问 n1n.ai。我们通过全球节点优化和先进的调度算法，确保每一个 API 请求都能以最优速度返回。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://dev.to/tech_nuggets/speculative-decoding-when-and-why-it-actually-speeds-up-inference-5pl