SGLang 拆分为 RadixArk 并获得 4 亿美元估值:推理市场爆发式增长
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
大语言模型(LLM)推理领域正迎来一场巨变。最初作为加州大学伯克利分校 Ion Stoica 教授 Sky Computing 实验室的一个雄心勃勃的开源研究项目,SGLang 正式转型为一家名为 RadixArk 的商业实体。此次分拆伴随着由 Accel 领投的 4 亿美元惊人估值,这标志着推理效率的竞争已成为人工智能军备竞赛的新前线。
RadixArk 的诞生:从学术研究到商业巅峰
对于通过 n1n.ai 获取高速模型 API 的开发者和企业来说,SGLang 这个名字或许并不陌生。它已迅速成为最受推崇的 LLM 服务框架之一,足以与 vLLM 和 NVIDIA 的 TensorRT-LLM 等老牌巨头并驾齐驱。转向 RadixArk 标志着从学术探索向工业化规模扩张的转变。
Ion Stoica 教授作为 Databricks 和 Anyscale 的联合创始人,有着将伯克利研究项目转化为数十亿美元企业的辉煌战绩(其中最著名的是 Apache Spark 和 Ray)。在 RadixArk 中,核心目标非常明确:解决“推理瓶颈”——即大规模运行 Llama 3 或 DeepSeek 等模型的高昂成本和技术复杂性。
技术优势:为什么 RadixArk 至关重要?
是什么让 SGLang(现在的 RadixArk)在众多推理引擎中脱颖而出?其秘诀在于其架构,特别是 RadixAttention 机制。与 vLLM 使用的标准 PagedAttention 不同,RadixAttention 将 KV(Key-Value)缓存视为一个基数树(Radix Tree)。这允许在多个请求之间自动共享前缀缓存。
当您使用 n1n.ai 这样的 API 聚合平台时,延迟往往取决于引擎处理提示词前缀的速度。如果多个用户发送带有相同系统提示词或少量示例(few-shot)的请求,RadixArk 不会重新计算这些 Token,而是直接从缓存中即时检索。在复杂的多轮对话或结构化数据提取任务中,这可以带来高达 5 倍的吞吐量提升。
核心架构创新点:
- 结构化生成 (Structured Generation):SGLang 允许开发者使用领域特定语言定义输出格式(如 JSON),从而加速解码过程。
- 压缩 KV 缓存:高效的内存管理允许在消费级硬件上实现更大的 Batch Size。
- 多 GPU 编排:内置对张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)的支持,确保大规模模型能以极低的开销运行。
4 亿美元估值背后的推理市场爆发
来自 Accel 的投资凸显了一个关键趋势:如果说 2023 年是训练之年,那么 2024 和 2025 年则是推理之年。企业正从“试玩模型”转向“部署生产级应用”。在这个阶段,每百万 Token 的成本(Cost per 1M tokens)成为了最重要的衡量指标。
RadixArk 进入的是一个效率直接转化为利润的市场。通过优化 Token 生成方式,他们能帮助企业降低 30% 到 70% 的 GPU 云账单。对于使用 n1n.ai 平台的开发者而言,这些优化意味着他们所依赖的顶级 LLM 将拥有更低的价格和更高的可靠性。
实战指南:利用 SGLang/RadixArk 逻辑优化应用
为了理解 RadixArk 方法的力量,假设您需要生成一个结构化的 JSON 对象。使用标准库时,模型可能会在不必要的空格或错误的格式上浪费 Token。而通过 SGLang 的逻辑,约束条件被直接嵌入到推理过程中。
# SGLang 结构化生成逻辑示例
from sglang import function, system, user, assistant, gen, select
@function
def multi_choice_qa(s, question, options):
s += system("你是一个得力的助手。")
s += user(question)
s += assistant("答案是 " + select("answer", options))
# 这确保了模型仅输出提供的选项之一,
# 降低了延迟并确保了 100% 的可靠性。
这种级别的控制力使 RadixArk 成为 OpenAI 原生结构化输出功能的强有力竞争者。
深度对比:RadixArk vs vLLM vs TensorRT-LLM
| 特性 | RadixArk (SGLang) | vLLM | TensorRT-LLM |
|---|---|---|---|
| 缓存机制 | 基数树 (自动缓存) | PagedAttention | 手动管理 |
| 易用性 | 高 (原生 Python) | 高 | 中 (构建复杂) |
| 结构化输出 | 原生支持 | 有限支持 | 依赖外部库 |
| 性能表现 | 复杂/长上下文表现最佳 | 通用吞吐量领先 | NVIDIA 硬件原生速度最快 |
给开发者的专业建议 (Pro Tips)
- 前缀缓存是王道:如果您的应用使用长系统提示词(例如 2000 Token 的知识库),SGLang/RadixArk 会比标准引擎快得多,因为它只需处理一次这些 Token。
- 关注吞吐量而非仅延迟:在扩展规模时,不要只看“首字延迟”(TTFT),要看在高负载下的“每秒 Token 数”(TPS)。即使在 GPU 利用率达到 90% 时,RadixArk 也能保持高 TPS。
- 利用 n1n.ai 进行测试:在承诺使用特定的托管提供商之前,使用 n1n.ai 测试不同的后端实现。这让您无需自行管理基础设施即可进行性能基准测试。
总结:高效 AI 的未来
RadixArk 的分拆不仅仅是一次企业行为,更是 AI 生态系统走向成熟的标志。随着 SGLang 演变为商业产品,我们可以期待它与硬件加速器的集成更加紧密,并能更好地支持 DeepSeek-V3 和 Llama-3.1 等最新模型。
对于开发者社区来说,这种竞争是一件好事。它降低了成本,并提高了我们对“快速 AI”的定义标准。无论您是在构建自主代理(Autonomous Agents)还是简单的聊天机器人,紧跟 RadixArk 的发展动态对于保持竞争优势至关重要。
在 n1n.ai 获取免费 API 密钥。