Cerebras 融资 55 亿美元,2026 年首个大型科技 IPO 股价飙升 108%
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
人工智能硬件领域的格局在今天发生了剧变。Cerebras Systems 成功执行了其首次公开募股(IPO),筹集了惊人的 55 亿美元。市场对此的反应近乎狂热,股价在收盘时飙升了 108%。对于一家在一年前还面临巨大质疑的公司来说,这一里程碑标志着晶圆级计算(Wafer-Scale Computing)已正式成为企业级 AI 领域中一种可行、甚至可能更优于传统 GPU 集群的选择。
逆袭之路:从质疑到巅峰
在 2025 年初,许多行业分析师曾质疑 Cerebras 是否能够将其雄心勃勃的硬件和软件栈扩展到足以与英伟达(NVIDIA)的 Blackwell 和 Rubin 架构竞争的程度。当时主要的担忧集中在晶圆级芯片的制造良率以及散热需求上。然而,CS-3 系统在多个主权 AI 云和大型制药研究实验室的成功部署,证明了其第三代晶圆级引擎(WSE-3)的可靠性。
对于寻求在下一代基础设施上构建应用的开发者来说,像 n1n.ai 这样的平台正变得至关重要。通过聚合高性能的 LLM API,n1n.ai 允许工程师利用由 Cerebras 驱动的后端所提供的巨大吞吐量,而无需管理底层硬件的复杂性。这次 IPO 证实了市场对多样化 AI 算力的需求正处于历史最高水平。
技术深度解析:为什么 WSE-3 改变了游戏规则
WSE-3 不仅仅是一个更大的芯片;它代表了对困扰传统 GPU 集群的冯·诺依曼架构局限性的根本性突破。
1. 片上内存与带宽的革命
传统的 GPU 在处理器与外部 HBM(高带宽内存)之间移动数据时会消耗大量时间。Cerebras 将 44GB 的片上 SRAM 直接集成到晶圆上。这导致其内存带宽比任何基于 PCIe 或 NVLink 的系统都要高出几个数量级。
- Cerebras WSE-3 内存带宽: 每秒 21 Petabytes
- NVIDIA H100 内存带宽: 每秒 3.3 Terabytes
这种近乎无限的带宽意味着在进行大模型推理时,权重加载几乎没有延迟,这对于追求极致速度的应用场景至关重要。通过 n1n.ai 调用此类接口,开发者可以感受到明显的响应提速。
2. 通信延迟的消除
在典型的 GPU 集群中,数据必须通过多层网络(如 InfiniBand 或以太网)才能到达其他 GPU。而在 Cerebras 晶圆上,所有 900,000 个 AI 优化核心都通过硅级结构(Silicon-level fabric)进行通信。这使得延迟从微秒级降低到了纳秒级,对于训练具有数万亿参数的大规模模型来说,这是决定性的优势。
使用 Cerebras 扩展 LLM 推理
随着行业重心从模型训练转向推理,响应速度(每秒 Token 数)已成为开发者的核心 KPI。Cerebras 系统在处理 Llama 3 和 DeepSeek-V3 等模型的超高速推理方面表现卓越。当通过像 n1n.ai 这样的统一 API 提供商进行集成时,开发者即使在处理复杂的推理任务时,也能实现亚秒级的响应时间。
技术实现:如何接入高速推理端点
为了利用这些先进的硬件能力,开发者可以使用标准的 OpenAI 兼容 SDK。以下是如何通过聚合器配置请求到 Cerebras 优化端点的示例:
import openai
# 将客户端配置为指向像 n1n.ai 这样的高速聚合器
client = openai.OpenAI(
base_url="https://api.n1n.ai/v1",
api_key="YOUR_N1N_API_KEY"
)
# 调用针对 Cerebras 优化的模型版本
response = client.chat.completions.create(
model="llama-3.1-405b-cerebras",
messages=[
{"role": "system", "content": "你是一个高速推理助手。"},
{"role": "user", "content": "分析晶圆级计算对大模型延迟的影响。"}
],
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
深度对比:Cerebras 与传统 GPU 集群
| 特性 | Cerebras CS-3 (WSE-3) | NVIDIA H100 集群 (64 GPU) |
|---|---|---|
| 形态因子 | 单台设备 (15U) | 多个机柜 |
| 核心数 | 900,000 AI 核心 | 约 1,000,000 CUDA 核心 |
| 片上内存 | 44 GB SRAM | 约 5.1 GB L2 缓存 (总计) |
| 功耗 | 约 23kW | 约 45kW - 60kW |
| 编程模型 | CSoft (支持 PyTorch/TF) | CUDA / NCCL |
对 AI 生态系统的战略意义
Cerebras 的成功上市预示着“英伟达溢价”正在受到挑战,那些优先考虑内存局部性的架构正在崛起。对于企业而言,这意味着每个 Token 的成本更低,RAG(检索增强生成)应用的上线速度更快。
开发者专业建议: 在选择 LLM API 时,不要只看模型名称。请关注底层的硬件提供商。运行在 Cerebras 硬件上的 Llama-70B 模型,其延迟表现通常会优于运行在拥挤的 A100 集群上的相同模型。像 n1n.ai 这样的平台通过将您的请求路由到最快的一级硬件,帮助您简化了这一选择过程。
未来展望:2026 年及以后
凭借 55 亿美元的新资金,Cerebras 预计将加速 WSE-4 的开发。传闻称 WSE-4 将采用 2nm 工艺,核心数量有望再次翻倍。随着 Cerebras、Groq 和英伟达之间的竞争白热化,最终的赢家是开发者,因为他们现在可以获得前所未有的计算能力。
如果您是企业架构师或初创公司创始人,信号已经非常明确:硬件瓶颈正在被打破。现在是扩大您的 AI 雄心的时候了。
前往 n1n.ai 获取免费 API 密钥。