AI 推理初创公司 Baseten 拟以 130 亿美金估值融资 15 亿美元

作者
  • avatar
    姓名
    Nino
    职业
    Senior Tech Editor

人工智能领域的竞争格局正在发生根本性的转变:从追求极致训练能力的“算力竞赛”,转向追求极致部署效率的“推理淘金热”。据可靠消息称,专门从事 AI 推理基础设施的初创公司 Baseten 正处于敲定 15 亿美元新一轮融资的最后阶段,此次融资将使该公司估值达到惊人的 130 亿美元。这一消息距离其上一轮融资仅过去几个月,充分体现了市场对能够稳定、高效服务于 DeepSeek-V3、Llama 3.1 和 Claude 3.5 Sonnet 等大模型的底层设施的迫切需求。

随着企业级应用从实验阶段走向生产环境,技术瓶颈已经从“如何构建模型”转移到了“如何以低于 100ms 的延迟为数百万用户提供服务”。在这一转型过程中,像 n1n.ai 这样的公司发挥了至关重要的作用,它们作为聚合层,让开发者无需管理复杂的供应商合同即可访问这些高性能推理终端。

推理市场的黄金时代

在过去的两年里,行业焦点一直被所谓的“算力战争”所占据,即争夺用于模型训练的 NVIDIA H100 显卡。然而,随着 DeepSeek-V3 等开源模型在性能上逐渐比肩闭源巨头,价值链条开始向下游移动。现在的市场更看重“管道工程”:即处理 GPU 冷启动、自动扩缩容以及低成本路由的编排层。

Baseten 的成功在于其成功抽象了 Kubernetes 和 NVIDIA Triton 推理服务器的复杂性。其开源框架 Truss 允许开发者将模型封装为针对高性能推理优化的 Docker 镜像。这在生产环境中至关重要,因为未经优化的模型会导致成本随使用量线性增长,可能迅速耗尽初创公司的资金。通过使用 n1n.ai 这样的聚合器,开发者可以根据实时的价格和性能基准动态切换供应商,从而进一步优化成本。

技术深度解析:为什么推理如此困难?

在生产环境中运行大语言模型(LLM)推理远非调用一个 API 那么简单。它涉及多个层面的技术挑战:

  1. KV 缓存管理 (KV Cache):在长对话中管理存储上下文 Token 所需的显存,这是决定推理速度的关键。
  2. 持续批处理 (Continuous Batching):将多个并发请求合并到单次 GPU 运算中,以最大化吞吐量。
  3. 量化技术 (Quantization):将模型精度从 FP16 降低到 INT8 或 FP8,以便在更小的 GPU 上运行更大的模型而不损失准确度。
  4. 冷启动 (Cold Starts):当流量激增时,启动新 GPU 实例所需的时间。Baseten 声称其冷启动速度处于行业领先水平,大型模型的加载通常能在 10 秒内完成。

推理服务商对比表

特性BasetenTogether AIFireworks AIn1n.ai (聚合器)
核心焦点自定义模型部署服务器端开源模型极速 API 服务多供应商统一访问
延迟表现极低极低优化路由后的最低延迟
自定义程度高 (Truss)高 (通过 API 灵活配置)
适用场景企业私有模型RAG 工作流延迟敏感型应用稳定性与成本控制

实战指南:实现可扩展的部署

为了理解这些平台的价值,让我们看一个典型的 Python 部署工作流。虽然 Baseten 处理底层架构,但开发者可以通过 n1n.ai 的统一接口轻松调用这些经过优化的后端。

import requests

# 使用 n1n.ai 调用优化后的推理终端示例
api_key = "YOUR_N1N_API_KEY"
url = "https://api.n1n.ai/v1/chat/completions"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json"
}

data = {
    "model": "deepseek-v3",
    "messages": [{"role": "user", "content": "解释推理扩展的重要性。"}],
    "stream": False
}

response = requests.post(url, headers=headers, json=data)
print(response.json())

LLM 推理优化的专家建议 (Pro Tips)

  1. 采用投机采样 (Speculative Decoding):该技术利用一个小模型(如 7B 参数)预测 Token,再由大模型(如 70B 参数)进行验证。这通常能将吞吐量提升 2 倍以上。
  2. 监控 Token 消耗:在发送 API 请求前,务必实现 Token 计数逻辑。这不仅能防止账单超出预算,还能帮助优化 Prompt 工程。
  3. 利用区域终端:如果你的用户主要分布在亚太地区,选择在香港或新加坡设有节点的供应商,可以将网络延迟降低 50ms 以上。

聚合层的战略意义

Baseten 130 亿美元的估值凸显了 AI 基础设施市场的巨大规模。然而,对于大多数开发者而言,真正的挑战不仅在于找到供应商,更在于确保系统的“高可用性”。如果某个供应商宕机或出现延迟抖动,你的应用就会中断。这就是为什么行业正在向“推理聚合 (Inference Aggregation)”演进。像 n1n.ai 这样的平台提供了自动故障转移机制,确保当特定的 GPU 集群过载时,你的请求能自动路由到下一个最佳可用节点。

展望 2025 年,竞争将进一步白热化。我们预计会有更多专用硬件(如 Groq 的 LPU)集成到推理栈中。最终的赢家将是那些能在保持最高可靠性的同时,提供最低单位 Token 成本的服务商。

立即在 n1n.ai 获取免费 API Key。