DeepSeek-V4-Flash-DSpark 在 GPUStack 上的性能评测

在大型语言模型（LLM）的快速迭代中，推理效率的提升已成为企业降低成本、提升用户体验的关键。DeepSeek-V4-Flash-DSpark 的发布，标志着投机采样（Speculative Decoding）技术在生产环境中的又一次重大突破。通过在 GPUStack 上部署该模型，社区成员在发布首日便实现了吞吐量的翻倍增长。对于寻求高性能、高稳定 LLM API 的开发者而言，n1n.ai 提供的聚合服务能够让您第一时间接入这类顶尖优化模型。

DSpark 技术核心：投机采样的威力

DeepSeek-V4-Flash-DSpark 在原始 DeepSeek-V4-Flash 的基础上，引入了一个专门的投机解码模块（Speculative Decoder）。在传统的自回归推理中，模型必须逐个生成 Token，每一个 Token 的产生都需要遍历一遍完整的模型参数。这对于像 DeepSeek 这样拥有海量参数的模型来说，是极大的计算资源浪费。

投机采样技术通过引入一个轻量级的“草稿模型”或模块，预先“猜测”后续可能出现的多个 Token，然后由主模型进行一次性验证。如果猜测正确，主模型在一次推理循环中就能产出多个 Token。这种机制在 n1n.ai 聚合的各类高性能 API 中也得到了广泛应用，是实现低延迟响应的核心技术之一。

测试环境与硬件配置

本次评测基于以下硬件环境：

GPU: 8× NVIDIA H20-141G（具备超大显存带宽，非常适合 MoE 架构）
软件平台: GPUStack v2
推理后端: SGLang 0.5.14（集成了 DSpark 补丁的自定义镜像）

NVIDIA H20 虽然在单精度计算力上有所折衷，但其 141GB 的显存和极高的内存带宽使其在处理 DeepSeek-V4 这种 MoE（混合专家）模型时表现优异。配合 n1n.ai 的智能路由技术，开发者可以充分利用这类硬件的吞吐优势。

GPUStack 部署全流程详解

GPUStack 的优势在于其开箱即用的 Web UI 和对 SGLang 等高性能后端的深度集成。以下是部署 DSpark 版本的具体步骤：

第一步：自定义推理后端

在 GPUStack 导航栏中进入 Inference Backends，编辑 SGLang 卡片。点击 Add Version，创建一个名为 dspark 的配置：

镜像地址: swr.cn-north-4.myhuaweicloud.com/desaysv/gpustack/sglang-dspark:v1.0
框架选择: CUDA
启动入口: sglang serve
启动命令: --model-path {{model_path}} --host {{worker_ip}} --port {{port}}

第二步：模型部署与配置

在 Deployments 页面点击 Deploy Model：

来源: ModelScope (魔搭社区)
模型 ID: deepseek-ai/DeepSeek-V4-Flash-DSpark
后端版本: 选择刚才创建的 dspark-custom

第三步：高级参数调优（关键）

为了在 8× H20 环境下发挥最大性能，需要在 Advanced 设置中填入以下参数：

--context-length 1000000
--trust-remote-code
--tp-size 8
--ep-size 8
--moe-runner-backend flashinfer_mxfp4
--speculative-moe-runner-backend flashinfer_mxfp4
--speculative-algorithm DSPARK
--speculative-eagle-topk 1
--speculative-num-steps 1
--mem-fraction-static 0.85
--cuda-graph-max-bs 32
--max-running-requests 32
--disable-overlap-schedule

技术解析：

tp-size 8 与 ep-size 8：确保 MoE 专家在 8 张显卡间均匀分布，最大化并行度。
flashinfer_mxfp4：利用 MXFP4 精度进一步压缩权重，提升推理速度并降低显存占用。
speculative-algorithm DSPARK：显式启用 DSpark 投机算法。

性能对标实测：数据说明一切

我们使用 SGLang 内置的 bench_serving 工具，对比了原始 DSV4F（开启 MTP）与 DSpark 版本的表现。

场景一：单并发吞吐量（1K 输入 / 1K 输出）

模拟典型的对话机器人场景：

原始 DSV4F: 吞吐量 96.20 tokens/s，首字延迟 (TTFT) 300.45 ms。
DSpark 版本: 吞吐量 195.18 tokens/s，首字延迟 (TTFT) 129.34 ms。
结论: 吞吐量直接翻倍，且响应速度提升了 2.3 倍。这对于需要极致流畅感的实时交互应用至关重要。

场景二：长文本并发测试（64K 输入 / 3K 输出）

模拟 RAG 知识库检索或长文档总结（10 并发）：

原始 DSV4F: 吞吐量 198.60 tokens/s。
DSpark 版本: 吞吐量 338.17 tokens/s。
结论: 在长文本场景下，DSpark 依然保持了 1.7 倍的领先优势。

测试项	原始 DSV4F	DSpark (DSV4FD)	提升幅度
1K/1K 吞吐量	96.20 tok/s	195.18 tok/s	≈ 2.0×
1K/1K TTFT	300.45 ms	129.34 ms	≈ 0.43×
64K/3K 吞吐量	198.60 tok/s	338.17 tok/s	≈ 1.7×
投机采纳长度	2.71	4.42	+63%

为什么 DSpark 表现如此出色？

核心在于“采纳长度”（Acceptance Length）。在单流测试中，DSpark 的采纳长度达到了 4.42，这意味着平均每次主模型推理，都能成功验证并产出超过 4 个 Token。相比之下，传统的 MTP（多 Token 预测）只能达到 2.71。这种效率的提升直接转化为终端用户的速度感。

此外，GPUStack 对 CUDA Graph 的优化也起到了关键作用。通过捕捉计算图，减少了 CPU 与 GPU 之间的调度开销，配合 DSpark 的算法优势，使得 TTFT 缩短到 130ms 以内，几乎达到了“秒开”的水平。

行业应用与总结

DeepSeek-V4-Flash-DSpark 在发布首日的惊艳表现，证明了投机采样是目前 LLM 工程化落地的最优路径之一。通过 GPUStack 的便捷部署，企业可以快速将推理成本减半，或在相同硬件预算下支撑双倍的业务流量。

如果您不希望自行维护复杂的 GPU 集群，或者需要一个更简单、更高效的 API 接入方案，n1n.ai 已经为您准备好了这些经过深度优化的模型接口。无论是 DeepSeek 还是 Claude、GPT 系列，您都可以通过统一的接口享受顶级的推理速度。

立即在 n1n.ai 获取免费 API Key。

参考来源：https://dev.to/gpustack/day-0-benchmark-deploying-deepseek-v4-flash-dspark-on-gpustack-doubles-throughput-1b8h