AI 推理初创公司 Baseten 拟以 130 亿美金估值融资 15 亿美元
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
人工智能领域的竞争格局正在发生根本性的转变:从追求极致训练能力的“算力竞赛”,转向追求极致部署效率的“推理淘金热”。据可靠消息称,专门从事 AI 推理基础设施的初创公司 Baseten 正处于敲定 15 亿美元新一轮融资的最后阶段,此次融资将使该公司估值达到惊人的 130 亿美元。这一消息距离其上一轮融资仅过去几个月,充分体现了市场对能够稳定、高效服务于 DeepSeek-V3、Llama 3.1 和 Claude 3.5 Sonnet 等大模型的底层设施的迫切需求。
随着企业级应用从实验阶段走向生产环境,技术瓶颈已经从“如何构建模型”转移到了“如何以低于 100ms 的延迟为数百万用户提供服务”。在这一转型过程中,像 n1n.ai 这样的公司发挥了至关重要的作用,它们作为聚合层,让开发者无需管理复杂的供应商合同即可访问这些高性能推理终端。
推理市场的黄金时代
在过去的两年里,行业焦点一直被所谓的“算力战争”所占据,即争夺用于模型训练的 NVIDIA H100 显卡。然而,随着 DeepSeek-V3 等开源模型在性能上逐渐比肩闭源巨头,价值链条开始向下游移动。现在的市场更看重“管道工程”:即处理 GPU 冷启动、自动扩缩容以及低成本路由的编排层。
Baseten 的成功在于其成功抽象了 Kubernetes 和 NVIDIA Triton 推理服务器的复杂性。其开源框架 Truss 允许开发者将模型封装为针对高性能推理优化的 Docker 镜像。这在生产环境中至关重要,因为未经优化的模型会导致成本随使用量线性增长,可能迅速耗尽初创公司的资金。通过使用 n1n.ai 这样的聚合器,开发者可以根据实时的价格和性能基准动态切换供应商,从而进一步优化成本。
技术深度解析:为什么推理如此困难?
在生产环境中运行大语言模型(LLM)推理远非调用一个 API 那么简单。它涉及多个层面的技术挑战:
- KV 缓存管理 (KV Cache):在长对话中管理存储上下文 Token 所需的显存,这是决定推理速度的关键。
- 持续批处理 (Continuous Batching):将多个并发请求合并到单次 GPU 运算中,以最大化吞吐量。
- 量化技术 (Quantization):将模型精度从 FP16 降低到 INT8 或 FP8,以便在更小的 GPU 上运行更大的模型而不损失准确度。
- 冷启动 (Cold Starts):当流量激增时,启动新 GPU 实例所需的时间。Baseten 声称其冷启动速度处于行业领先水平,大型模型的加载通常能在 10 秒内完成。
推理服务商对比表
| 特性 | Baseten | Together AI | Fireworks AI | n1n.ai (聚合器) |
|---|---|---|---|---|
| 核心焦点 | 自定义模型部署 | 服务器端开源模型 | 极速 API 服务 | 多供应商统一访问 |
| 延迟表现 | 极低 | 低 | 极低 | 优化路由后的最低延迟 |
| 自定义程度 | 高 (Truss) | 中 | 低 | 高 (通过 API 灵活配置) |
| 适用场景 | 企业私有模型 | RAG 工作流 | 延迟敏感型应用 | 稳定性与成本控制 |
实战指南:实现可扩展的部署
为了理解这些平台的价值,让我们看一个典型的 Python 部署工作流。虽然 Baseten 处理底层架构,但开发者可以通过 n1n.ai 的统一接口轻松调用这些经过优化的后端。
import requests
# 使用 n1n.ai 调用优化后的推理终端示例
api_key = "YOUR_N1N_API_KEY"
url = "https://api.n1n.ai/v1/chat/completions"
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
data = {
"model": "deepseek-v3",
"messages": [{"role": "user", "content": "解释推理扩展的重要性。"}],
"stream": False
}
response = requests.post(url, headers=headers, json=data)
print(response.json())
LLM 推理优化的专家建议 (Pro Tips)
- 采用投机采样 (Speculative Decoding):该技术利用一个小模型(如 7B 参数)预测 Token,再由大模型(如 70B 参数)进行验证。这通常能将吞吐量提升 2 倍以上。
- 监控 Token 消耗:在发送 API 请求前,务必实现 Token 计数逻辑。这不仅能防止账单超出预算,还能帮助优化 Prompt 工程。
- 利用区域终端:如果你的用户主要分布在亚太地区,选择在香港或新加坡设有节点的供应商,可以将网络延迟降低 50ms 以上。
聚合层的战略意义
Baseten 130 亿美元的估值凸显了 AI 基础设施市场的巨大规模。然而,对于大多数开发者而言,真正的挑战不仅在于找到供应商,更在于确保系统的“高可用性”。如果某个供应商宕机或出现延迟抖动,你的应用就会中断。这就是为什么行业正在向“推理聚合 (Inference Aggregation)”演进。像 n1n.ai 这样的平台提供了自动故障转移机制,确保当特定的 GPU 集群过载时,你的请求能自动路由到下一个最佳可用节点。
展望 2025 年,竞争将进一步白热化。我们预计会有更多专用硬件(如 Groq 的 LPU)集成到推理栈中。最终的赢家将是那些能在保持最高可靠性的同时,提供最低单位 Token 成本的服务商。
立即在 n1n.ai 获取免费 API Key。