OpenAI 与 Cerebras 签署 100 亿美元算力协议以提升 AI 推理速度

作者
  • avatar
    姓名
    Nino
    职业
    Senior Tech Editor

人工智能基础设施领域正在发生一场剧变。据报道,ChatGPT 的开发商 OpenAI 已与 Cerebras Systems 签署了一项价值约 100 亿美元的里程碑式协议。该协议的核心是确保获得专门的算力,以驱动下一代大语言模型(LLM),特别是那些需要高强度推理能力的任务。随着行业向更复杂的架构迈进,像 n1n.ai 这样的平台正密切关注这种硬件演进将如何为全球开发者转化为更快、更可靠的 API 性能。

从 GPU 到晶圆级引擎的跨越

多年来,NVIDIA 凭借其 H100 和 H200 GPU 统治了 AI 算力市场。然而,推理模型(如 OpenAI 的 o1-preview 和即将推出的 o3)对低延迟的需求日益增长,暴露了传统 GPU 集群的局限性。当模型在做出响应前进行“思考”时,瓶颈往往在于独立芯片之间的通信。

Cerebras Systems 提供了一个激进的替代方案:晶圆级引擎 3(WSE-3)。与从硅晶圆上切割下来的标准 GPU 不同,WSE-3 本身就是一整块晶圆。这带来了以下优势:

  • 4 万亿个晶体管:提供前所未有的并行处理能力。
  • 90 万个 AI 优化核心:专为神经网络所需的线性代数运算而设计。
  • 44GB 片上 SRAM:这是关键因素。通过将模型权重存储在极速的 SRAM 中,而不是较慢的外部 HBM(高带宽内存)中,Cerebras 可以实现比传统硬件快出几个数量级的推理速度。

对于使用 n1n.ai (https://n1n.ai) 的开发者来说,这一硬件突破预示着未来即使是最复杂的推理任务,其“首个 Token 响应时间”也将大幅缩短。

为什么 OpenAI 需要 Cerebras?

OpenAI 的最新策略涉及“推理时算力”(Inference-time Compute)。像 o1 这样的模型在输出结果之前,会使用思维链过程来验证自身的逻辑。这个过程计算量巨大且对时间极其敏感。如果一个模型需要 30 秒来“思考”,那么它在实时应用中就变得不切实际。

通过利用 Cerebras 的独特架构,OpenAI 旨在实现:

  1. 降低延迟:为复杂的编程和数学问题提供近乎即时的推理。
  2. 高效扩展:100 亿美元的投资表明了 OpenAI 长期致力于构建大规模 Cerebras 算力集群的决心,以应对数百万 API 用户的流量。
  3. 供应链多样化:摆脱对 NVIDIA 的完全依赖,为 OpenAI 的基础设施堆栈提供更多的议价能力和稳定性。

对于企业级用户而言,可靠性是关键。n1n.ai (https://n1n.ai) 致力于提供对托管在最稳定、高性能后端上的模型的访问,确保我们的用户能够从这些基础设施进步中受益,而无需管理底层硬件的复杂性。

技术对比:Cerebras WSE-3 vs. NVIDIA H100

特性Cerebras WSE-3NVIDIA H100 (SXM)
芯片尺寸46,225 mm²814 mm²
核心数900,00016,896 (CUDA)
内存类型片上 SRAM外部 HBM3
内存带宽21 PB/s3.35 TB/s
互连带宽214 PB/s900 GB/s (NVLink)

内存带宽的差距最为显著。由于 WSE-3 将整个模型保留在芯片上,它避开了困扰传统 GPU 架构的“内存墙”问题。这就是为什么 Cerebras 能够声称 Llama-3 70B 的推理速度可达每秒 1,800 个 Token,这在标准 GPU 设置下目前是不可能实现的。

开发者实施指南

这对您有何影响?随着 OpenAI 整合这些硬件,其 API 端点可能会出现新的“速度等级”或优化模型。使用像 n1n.ai 这样的聚合器可以让您在这些高性能模型之间无缝切换。以下是通过标准接口调用高速推理模型的概念性示例:

import openai

# 使用 n1n.ai 作为您通往高性能算力的网关
client = openai.OpenAI(
    api_key="YOUR_N1N_API_KEY",
    base_url="https://api.n1n.ai/v1"
)

response = client.chat.completions.create(
    model="o1-preview-fast",
    messages=[
        {"role": "user", "content": "解这个复杂的微分方程:dy/dx = y + x"}
    ]
)

print(response.choices[0].message.content)

优化推理的专业建议

  • 批处理:虽然 Cerebras 速度极快,但对于非实时任务,批量请求仍能提高吞吐量。
  • Token 管理:随着速度的提升,生成更长响应的诱惑也随之增加。请使用 max_tokens 来控制成本。
  • 模型选择:在面向用户的聊天中使用模型的“快速”变体,并将“重型”推理模型留给后端逻辑或数据分析。

对 AI 可及性的全球影响

这项 100 亿美元的交易不仅仅是一个采购订单;它是一个信号,表明 AI 行业正在向专门化的定制芯片迈进。这种竞争最终将降低每百万 Token 的成本,使初创公司和独立开发者也能负担得起先进的 AI。

通过集中访问这些强大的后端,n1n.ai (https://n1n.ai) 确保您不需要 100 亿美元的预算即可使用价值 100 亿美元的算力。我们负责路由、在线率和优化,让您可以专注于构建下一个伟大的产品。

Get a free API key at n1n.ai