为什么 OpenAI 和 SpaceX 都在自研芯片挑战英伟达

作者
  • avatar
    姓名
    Nino
    职业
    Senior Tech Editor

人工智能革命一直由一个单一且强大的引擎驱动:英伟达(Nvidia)的 GPU。在过去的几年里,H100 及其继任者一直是训练和部署大语言模型(LLM)的金标准。然而,完全依赖单一供应商的时代正在接近临界点。以 OpenAI 和 SpaceX 为首的技术巨头现在正投入数十亿美元追求“硅基主权”——开发自有的定制芯片,旨在优化特定工作负载,同时绕过昂贵的“英伟达税”。

硅基淘金热:为何是现在?

这一转变的主要驱动力是经济成本和运营的可持续性。目前,单块英伟达 H100 的成本可能超过 30,000 美元,而且交付周期往往长达数月。对于像 OpenAI 这样通过 API 处理海量流量的公司来说,推理(运行模型)的成本正逐渐超过训练成本。在这种背景下,n1n.ai 应运而生,通过提供统一的 API 接入点,帮助开发者在最高效的模型之间进行切换,从而应对不断攀升的算力成本。

OpenAI 最近公布的“Jalapeño”计划——一款与博通(Broadcom)合作开发的定制推理芯片——标志着战略性的转向。与旨在处理大量通用数学运算的通用 GPU 不同,Jalapeño 很可能是一款针对 Transformer 架构专门优化的 ASIC(专用集成电路)。通过剥离 GPU 中那些 LLM 推理不需要的组件,OpenAI 可以实现更高的能效比(Performance-per-watt)和更低的延迟。

博通的协同效应与 ASIC 的优势

OpenAI 并非孤军奋战。通过与博通合作,他们利用了后者在高速互连和定制芯片设计方面数十年的经验。博通一直是谷歌 TPU(张量处理单元)成功背后的沉默建筑师。OpenAI 的目标是创造一款在“内存带宽”方面表现卓越的芯片,而这正是目前 LLM 性能的瓶颈所在。

当你通过 n1n.ai 使用 API 时,响应速度(每秒 Token 数)主要取决于芯片将数据从内存移动到处理核心的速度。像 Jalapeño 这样的定制芯片旨在最大化这种吞吐量,与标准英伟达硬件相比,有望将高速推理的成本降低 50% 或更多。

SpaceX:大气层边缘的 AI

在 OpenAI 专注于数据中心推理的同时,SpaceX 正在应对不同的硬件挑战:边缘 AI。对于星链(Starlink)卫星星座和星舰(Starship)飞行计算机,SpaceX 需要的芯片不仅要快,还要具备极强的抗辐射能力和超高的能效。通用 GPU 对于卫星有限的太阳能预算来说过于耗电。

通过自研芯片,SpaceX 可以将 AI 驱动的遥测分析和轨道机动直接集成到硬件中。这种垂直整合是 SpaceX 与特斯拉和苹果共同采取的策略,确保软件和硬件实现“协同设计”。这种深度的优化正是行业向碎片化硬件生态系统发展的核心原因,也使得像 n1n.ai 这样的聚合器对于希望在不同硬件后端保持灵活性的开发者来说变得至关重要。

技术深挖:训练芯片 vs 推理芯片

理解正在开发的两种芯片之间的区别至关重要:

  1. 训练芯片:这些芯片需要海量的 FP8/FP16 精度计算能力和巨大的芯片间通信带宽(如英伟达的 NVLink)。它们被用于构建像 GPT-4o 这样的模型。
  2. 推理芯片 (ASICs):这些芯片针对“前向传播”操作进行了优化。它们通常使用较低的精度(如 INT8 甚至 4 位量化)来节省功耗并提高速度。OpenAI 的 Jalapeño 正属于这一类别。
特性英伟达 H100 (通用 GPU)OpenAI Jalapeño (定制 ASIC)
灵活性极高较低 (针对 Transformer 优化)
推理成本预期较低
能效比中等极高
内存带宽约 3.3 TB/s针对 HBM3e 优化

对开发者和 API 市场的影响

随着硬件变得更加专业化,我们将看到 LLM 市场的“碎片化”。某些模型在谷歌 TPU 上运行效果更好,另一些在 OpenAI 的自研芯片上表现更佳,而还有一些将继续留在英伟达的 Blackwell 架构上。对于开发者来说,管理这些不同的硬件优化端点简直是一场噩梦。

这就是为什么 n1n.ai 正在成为现代 AI 开发的标准。通过抽象底层硬件,n1n.ai 允许你调用单一 API,并获得最佳性能,而无需关心模型是运行在 H100 还是定制的 Jalapeño 芯片上。

代码实现:利用 n1n.ai 实现模型路由

为了应对这种多芯片并存的未来,开发者应当使用抽象的 API 层。以下是如何实现一个兼容 n1n.ai 生态系统的灵活模型调用方法:

import requests

def get_llm_response(prompt, model_type="fast"):
    # n1n.ai 为各种硬件驱动的模型提供统一端点
    url = "https://api.n1n.ai/v1/chat/completions"
    headers = {"Authorization": "Bearer YOUR_API_KEY"}

    # 根据成本和延迟需求进行动态路由
    # 未来可以无缝切换到 OpenAI 的自研芯片模型
    selected_model = "openai/custom-inference" if model_type == "fast" else "gpt-4o"

    payload = {
        "model": selected_model,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.7
    }

    try:
        response = requests.post(url, json=payload, headers=headers)
        response.raise_for_status()
        return response.json()
    except Exception as e:
        return { "error": str(e) }

# 示例调用
print(get_llm_response("请解释自研 AI 芯片的优势。"))

未来:后英伟达时代?

这是否意味着英伟达陷入了麻烦?并不尽然。英伟达依然拥有 CUDA 这一强大的“软件护城河”。然而,Triton(OpenAI 开发的 AI 内核编程语言)的兴起,使得编写可以在非英伟达硬件上运行的代码变得更加容易。随着 OpenAI、SpaceX 和谷歌持续加码自研硬件,这种竞争最终将降低终端用户的成本。

对于企业而言,传递出的信号非常明确:不要将自己锁定在单一的硬件供应商手中。使用像 n1n.ai 这样的聚合器,可以确保随着芯片战争的演变,你的应用程序始终能够站在速度和成本效益的最前沿。

Get a free API key at n1n.ai