推理初创公司 Inferact 获 1.5 亿美元融资,推动 vLLM 商业化

作者
  • avatar
    姓名
    Nino
    职业
    Senior Tech Editor

大语言模型(LLM)推理领域迎来了一场地震。由开源项目 vLLM 的核心贡献者组建的初创公司 Inferact 宣布完成 1.5 亿美元的种子轮融资。此次融资由多家顶级风险投资机构领投,使这家尚处于隐身模式的公司估值直接飙升至 8 亿美元。这一消息不仅证明了资本市场对 AI 基础设施层的高度认可,也标志着 vLLM 这一事实上的行业标准正式开启了大规模商业化之路。

为什么 vLLM 值得 8 亿美元的估值?

在 vLLM 出现之前,大模型的推理效率一直是制约其商业化落地的最大瓶颈。传统的推理框架在处理长文本或高并发请求时,往往会因为 Key-Value (KV) 缓存的内存碎片化问题,导致显存利用率极低。这不仅增加了推理成本,还严重影响了响应速度。

vLLM 引入了名为 PagedAttention 的革命性算法。该算法借鉴了操作系统中虚拟内存的分页管理思想,将 KV 缓存划分为非连续的块,从而实现了近乎零的内存浪费。这一技术突破使得单卡吞吐量提升了 10 倍以上。对于像 n1n.ai 这样集成多种高性能大模型 API 的平台来说,底层推理引擎的效率直接决定了最终用户所感受到的响应速度和价格优势。

Inferact 的使命:从开源神器到企业级平台

尽管 vLLM 在开源社区已经取得了巨大成功,但企业在实际生产环境中部署大模型时,需求远不止于“快”。企业级应用需要更完善的安全保障、多租户隔离、自动扩缩容以及严格的服务等级协议(SLA)。Inferact 的目标正是填补这一空白,提供一个针对大规模部署优化的、托管版的 vLLM 服务。

通过将 vLLM 商业化,Inferact 正在与 NVIDIA 的 TensorRT-LLM 以及 Hugging Face 的 TGI 展开正面竞争。然而,Inferact 拥有一个独特的优势:他们掌握着目前最受欢迎的开源推理引擎的路线图。那些已经在开发环境中使用 vLLM 的开发者,可以无缝迁移到 Inferact 的生产级平台。这对于 n1n.ai 等高频 API 服务商而言,意味着未来可以获得更加稳定且低成本的推理支持。

技术深挖:PagedAttention 的核心逻辑

在标准推理中,显存分配是静态的。如果为每个请求预留最大长度的显存,会产生大量的内部碎片;如果动态分配,则会产生外部碎片。vLLM 通过以下方式解决了这一难题:

  1. 逻辑块管理:将请求的 KV 缓存逻辑上划分为固定大小的块。
  2. 块映射表:建立逻辑块与 GPU 物理显存块之间的映射关系。
  3. 按需分配:只有在生成新 Token 时,才分配物理块。

这种架构还支持高效的并行采样(Parallel Sampling)。当一个 Prompt 需要生成多个不同的回答时,vLLM 可以共享相同的 Prompt 缓存,极大地节省了计算资源。对于希望低门槛调用这些优化模型的开发者,n1n.ai 提供了一个便捷的入口,让用户无需关心复杂的显存管理即可享受顶级推理性能。

推理框架横向对比表

特性vLLM / InferactTensorRT-LLMText Generation Inference (TGI)
内存管理PagedAttention分页 KV 缓存基于块的管理
硬件支持NVIDIA / AMD仅限 NVIDIANVIDIA / Intel Gaudi
易用性极高 (Pythonic)中等 (构建复杂)
吞吐量业界领先高 (针对 H100 优化)中等/高
许可证Apache 2.0自定义协议HFOIL (受限)

开发者指南:如何上手 vLLM

如果你想体验 Inferact 背后这套强大的技术,可以通过以下简单的 Python 代码在本地或服务器上运行 vLLM。请确保你的环境拥有支持 CUDA 的 GPU。

from vllm import LLM, SamplingParams

# 定义输入提示词
prompts = [
    "请用通俗易懂的语言解释 PagedAttention。",
    "Inferact 融资 1.5 亿美元对 AI 行业有何影响?",
]

# 初始化大模型,vLLM 支持 Llama 3、Qwen、Mistral 等主流模型
llm = LLM(model="tech-ai/Llama-3-Chinese-8B-Instruct")

# 设置采样参数
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=512)

# 执行推理生成
outputs = llm.generate(prompts, sampling_params)

# 输出结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f\"提示词: {prompt!r}, 生成内容: {generated_text!r}\")

专家建议:成本与性能的平衡之道

在部署大模型时,企业最关心的两个指标是“首字延迟”(TTFT)和“每秒生成 Token 数”。虽然 Inferact 提供了强大的引擎,但自行维护 GPU 集群的空置成本往往非常高昂。这就是 API 聚合平台的价值所在。通过 n1n.ai,开发者可以直接按需调用基于 vLLM 优化的模型接口,既享受了极致的推理性能,又避免了昂贵的硬件维护费用。

推理市场的未来:硬件多样化与软件标准化

凭借 1.5 亿美元的资金,Inferact 预计将加速对非 NVIDIA 硬件的支持。随着 AMD MI300 系列、国产 AI 芯片以及 Groq 等专用推理芯片的崛起,推理市场正趋于碎片化。Inferact 的目标是将 vLLM 打造成为推理层的“通用操作系统”,无论底层硬件如何变化,上层应用都能保持一致的高效体验。

这次融资也反映了风投风向的转变:从单纯追逐高参数量的模型厂商,转向关注那些能让模型“跑得更快、更省”的基础设施服务商。Inferact 的成功再次证明,在 AI 时代,效率就是核心竞争力。如果你正在寻找稳定、高速且性价比极高的 API 服务,n1n.ai 绝对是你的首选方案。

总结

Inferact 的诞生标志着 vLLM 从一个成功的学术/开源项目正式步入商业竞技场。随着企业级功能的完善,整个 AI 生态系统都将受益于更廉价、更快速的推理能力。无论你是开发独立应用的初创团队,还是寻求数字化转型的传统企业,Inferact 引领的技术变革都将深刻影响你的 AI 战略。而在这一过程中,n1n.ai 将始终为你提供最前沿、最可靠的 API 接入支持。

Get a free API key at n1n.ai