SGLang 拆分为 RadixArk 并获得 4 亿美元估值：推理市场爆发式增长

大语言模型（LLM）推理领域正迎来一场巨变。最初作为加州大学伯克利分校 Ion Stoica 教授 Sky Computing 实验室的一个雄心勃勃的开源研究项目，SGLang 正式转型为一家名为 RadixArk 的商业实体。此次分拆伴随着由 Accel 领投的 4 亿美元惊人估值，这标志着推理效率的竞争已成为人工智能军备竞赛的新前线。

RadixArk 的诞生：从学术研究到商业巅峰

对于通过 n1n.ai 获取高速模型 API 的开发者和企业来说，SGLang 这个名字或许并不陌生。它已迅速成为最受推崇的 LLM 服务框架之一，足以与 vLLM 和 NVIDIA 的 TensorRT-LLM 等老牌巨头并驾齐驱。转向 RadixArk 标志着从学术探索向工业化规模扩张的转变。

Ion Stoica 教授作为 Databricks 和 Anyscale 的联合创始人，有着将伯克利研究项目转化为数十亿美元企业的辉煌战绩（其中最著名的是 Apache Spark 和 Ray）。在 RadixArk 中，核心目标非常明确：解决“推理瓶颈”——即大规模运行 Llama 3 或 DeepSeek 等模型的高昂成本和技术复杂性。

技术优势：为什么 RadixArk 至关重要？

是什么让 SGLang（现在的 RadixArk）在众多推理引擎中脱颖而出？其秘诀在于其架构，特别是 RadixAttention 机制。与 vLLM 使用的标准 PagedAttention 不同，RadixAttention 将 KV（Key-Value）缓存视为一个基数树（Radix Tree）。这允许在多个请求之间自动共享前缀缓存。

当您使用 n1n.ai 这样的 API 聚合平台时，延迟往往取决于引擎处理提示词前缀的速度。如果多个用户发送带有相同系统提示词或少量示例（few-shot）的请求，RadixArk 不会重新计算这些 Token，而是直接从缓存中即时检索。在复杂的多轮对话或结构化数据提取任务中，这可以带来高达 5 倍的吞吐量提升。

核心架构创新点：

结构化生成 (Structured Generation)：SGLang 允许开发者使用领域特定语言定义输出格式（如 JSON），从而加速解码过程。
压缩 KV 缓存：高效的内存管理允许在消费级硬件上实现更大的 Batch Size。
多 GPU 编排：内置对张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）的支持，确保大规模模型能以极低的开销运行。

4 亿美元估值背后的推理市场爆发

来自 Accel 的投资凸显了一个关键趋势：如果说 2023 年是训练之年，那么 2024 和 2025 年则是推理之年。企业正从“试玩模型”转向“部署生产级应用”。在这个阶段，每百万 Token 的成本（Cost per 1M tokens）成为了最重要的衡量指标。

RadixArk 进入的是一个效率直接转化为利润的市场。通过优化 Token 生成方式，他们能帮助企业降低 30% 到 70% 的 GPU 云账单。对于使用 n1n.ai 平台的开发者而言，这些优化意味着他们所依赖的顶级 LLM 将拥有更低的价格和更高的可靠性。

实战指南：利用 SGLang/RadixArk 逻辑优化应用

为了理解 RadixArk 方法的力量，假设您需要生成一个结构化的 JSON 对象。使用标准库时，模型可能会在不必要的空格或错误的格式上浪费 Token。而通过 SGLang 的逻辑，约束条件被直接嵌入到推理过程中。

# SGLang 结构化生成逻辑示例
from sglang import function, system, user, assistant, gen, select

@function
def multi_choice_qa(s, question, options):
    s += system("你是一个得力的助手。")
    s += user(question)
    s += assistant("答案是 " + select("answer", options))

# 这确保了模型仅输出提供的选项之一，
# 降低了延迟并确保了 100% 的可靠性。

这种级别的控制力使 RadixArk 成为 OpenAI 原生结构化输出功能的强有力竞争者。

深度对比：RadixArk vs vLLM vs TensorRT-LLM

特性	RadixArk (SGLang)	vLLM	TensorRT-LLM
缓存机制	基数树 (自动缓存)	PagedAttention	手动管理
易用性	高 (原生 Python)	高	中 (构建复杂)
结构化输出	原生支持	有限支持	依赖外部库
性能表现	复杂/长上下文表现最佳	通用吞吐量领先	NVIDIA 硬件原生速度最快

给开发者的专业建议 (Pro Tips)

前缀缓存是王道：如果您的应用使用长系统提示词（例如 2000 Token 的知识库），SGLang/RadixArk 会比标准引擎快得多，因为它只需处理一次这些 Token。
关注吞吐量而非仅延迟：在扩展规模时，不要只看“首字延迟”（TTFT），要看在高负载下的“每秒 Token 数”（TPS）。即使在 GPU 利用率达到 90% 时，RadixArk 也能保持高 TPS。
利用 n1n.ai 进行测试：在承诺使用特定的托管提供商之前，使用 n1n.ai 测试不同的后端实现。这让您无需自行管理基础设施即可进行性能基准测试。

总结：高效 AI 的未来

RadixArk 的分拆不仅仅是一次企业行为，更是 AI 生态系统走向成熟的标志。随着 SGLang 演变为商业产品，我们可以期待它与硬件加速器的集成更加紧密，并能更好地支持 DeepSeek-V3 和 Llama-3.1 等最新模型。

对于开发者社区来说，这种竞争是一件好事。它降低了成本，并提高了我们对“快速 AI”的定义标准。无论您是在构建自主代理（Autonomous Agents）还是简单的聊天机器人，紧跟 RadixArk 的发展动态对于保持竞争优势至关重要。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://techcrunch.com/2026/01/21/sources-project-sglang-spins-out-as-radixark-with-400m-valuation-as-inference-market-explodes/