Benchmark 筹集 2.25 亿美元专项基金加注 Nvidia 竞争对手 Cerebras
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
在 AI 硬件领域的竞争进入白热化阶段之际,硅谷最负盛名的风险投资公司之一 Benchmark Capital 成功筹集了 2.25 亿美元的特殊目的载体(SPV)基金,专门用于增持 Cerebras Systems 的股份。这一战略举措正值 Cerebras 准备首次公开募股(IPO)的关键时刻,同时也向市场释放了一个强烈信号:在 Nvidia 统治的 GPU 市场之外,以晶圆级集成(Wafer-Scale Integration)为核心的新型架构正获得资本市场的高度认可。
Benchmark 与 Cerebras 的渊源可以追溯到 2016 年,当时该机构领投了 Cerebras 的 A 轮融资。此次通过专项基金从早期股东或员工手中收购股份(二级市场交易),显示了 Benchmark 对 Cerebras 能够在大语言模型(LLM)推理和训练市场夺取市场份额的巨大信心。对于使用 n1n.ai 平台的开发者和企业而言,硬件的多样化意味着未来 LLM API 的成本有望进一步降低,性能也将迎来跨越式提升。
技术核心:晶圆级集成 vs. GPU 集群
要理解 Benchmark 为何如此激进地加注,必须剖析 Cerebras WSE-3 芯片的底层逻辑。传统的 GPU(如 Nvidia H100)受限于光刻掩模尺寸(Reticle Limit),必须在小型硅片上制造。而 Cerebras 则打破常规,将整块 12 英寸晶圆制造成一颗巨大的芯片。
Cerebras WSE-3 与行业标准对比:
| 特性 | Cerebras WSE-3 | Nvidia H100 (SXM5) |
|---|---|---|
| 晶体管数量 | 4 万亿 | 800 亿 |
| AI 核心数 | 900,000 | 18,432 (CUDA) |
| 片上内存 | 44GB SRAM | 80GB HBM3 (片外) |
| 内存带宽 | 21 PB/s | 3.35 TB/s |
| 织物带宽 | 214 PB/s | 900 GB/s (NVLink) |
Cerebras 系统最核心的优势在于彻底解决了“内存墙”问题。在典型的 LLM 工作负载中,模型速度往往受限于处理器与内存之间的数据传输效率。通过将整个模型状态或海量激活集保留在具有 21 PB/s 带宽的片上内存中,Cerebras 能够实现比传统 GPU 集群快几个数量级的推理速度。当你通过 n1n.ai 调用高速模型时,底层硬件处理高吞吐量和低延迟的能力直接决定了终端用户的体验。
为什么 Benchmark 选择在此时出手?
当前的 AI 硬件市场正处于“稀缺溢价”期。虽然 Nvidia 占据了数据中心 AI 市场 90% 以上的份额,但超大规模云厂商和主权国家(如阿联酋)正迫切寻找替代方案,以降低供应链风险和总拥有成本(TCO)。Cerebras 最近签署了数个价值数十亿美元的合同,其中最引人注目的是与阿联酋 G42 合作构建全球最大的 AI 超算集群(Condor Galaxy)。
Benchmark 选择筹集 SPV(通常在机构希望突破对单一公司的投资限额时使用)表明,他们预见到 Cerebras 在 IPO 后将带来巨额回报。对于包括 n1n.ai 在内的聚合器平台生态系统而言,硬件层的竞争加剧意味着 Token 价格的下降,以及更多不依赖 GPU 内存布局限制的创新模型架构的涌现。
开发者实战:如何测试 LLM API 的性能
随着 Cerebras 等硬件逐渐融入云生态,开发者需要具备测量性能增益的能力。以下是一个 Python 示例,展示如何测量 LLM API 节点的延迟和吞吐量,这正是 Cerebras 硬件试图优化的核心指标。
import time
import requests
def benchmark_llm_api(api_url, api_key, prompt):
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
data = {
"model": "llama-3.1-70b", # 假设为 Cerebras 优化的模型
"messages": [{"role": "user", "content": prompt}],
"stream": False
}
start_time = time.perf_counter()
try:
response = requests.post(api_url, headers=headers, json=data)
end_time = time.perf_counter()
if response.status_code == 200:
latency = end_time - start_time
result = response.json()
# 计算每秒 Token 数 (TPS)
usage = result.get("usage", {})
total_tokens = usage.get("total_tokens", 0)
tps = total_tokens / latency if latency > 0 else 0
return {
"latency": f"{latency:.4f}s",
"tokens_per_second": f"{tps:.2f}",
"status": "成功"
}
else:
return {"status": "错误", "code": response.status_code}
except Exception as e:
return {"status": "异常", "message": str(e)}
# 专家建议:使用 n1n.ai 实时对比不同供应商的 API 响应速度
行业洞察:从训练到推理的范式转移
虽然 Cerebras 最初专注于大规模模型训练,但目前的行业重心正在向“规模化推理”转移。Cerebras 最近推出的推理产品线声称其运行 Llama-3 70B 的速度可超过 450 tokens/s,这远超目前基于 GPU 的云服务商。对于企业级开发者来说,这意味着不应将基础设施硬编码到单一硬件类型上。通过使用 n1n.ai 这样的抽象层,你可以随着 WSE-3 等新硬件的上线,无缝切换到性价比更高的后端,确保你的应用始终运行在最先进的芯片之上。
专家技术贴:应对硬件异构化的三条建议
- 解耦模型与推理引擎:不要依赖特定硬件的优化库(如 CUDA 独占功能),尽量使用支持跨平台编译的框架。
- 关注内存带宽而非算力峰值:在 LLM 推理中,内存带宽通常是决定吞吐量的第一要素。Cerebras 的 21 PB/s 带宽是其超越 Nvidia 的杀手锏。
- 利用 API 聚合服务:通过 n1n.ai 统一管理多种模型的调用,可以在不改变代码逻辑的情况下,实时享受底层硬件升级带来的红利。
总结:AI 算力的未来格局
Benchmark 的 2.25 亿美元豪赌是对架构多样性的有力支持。随着 LLM 从简单的聊天机器人演进为复杂的“推理智能体”(如 OpenAI o1 或 DeepSeek-V3),对低延迟、高带宽算力的需求将呈指数级增长。Cerebras 代表了对现状最激进的挑战,在 Benchmark 的持续加持下,他们已准备好在 Nvidia 长期垄断的版图中撕开一道裂口。
立即在 n1n.ai 获取免费 API 密钥