行业资讯2026年2月25日Meta 签署 1000 亿美元 AMD 芯片协议以助力 个人超智能Meta 与 AMD 达成的巨额多年期协议标志着 AI 硬件格局的战略转变,旨在摆脱对 Nvidia 的单一依赖,并为下一代“个人超智能”扩展数据中心能力。阅读全文 →
AI教程2026年2月2日深入浅出 vLLM:User API 详解与 PagedAttention 原理本文深入探讨 vLLM 的核心架构,重点解析 User API 的实现机制,以及 PagedAttention 如何解决 GPU 显存瓶颈,助力 DeepSeek-V3 等大模型的高效推理。阅读全文 →
AI教程2026年1月27日vLLM 深度解析:PagedAttention 如何让大模型推理更快、更省钱深入探讨 vLLM 如何通过 PagedAttention 技术解决 GPU 显存碎片化问题,并显著提升大语言模型(LLM)的推理吞吐量。阅读全文 →
行业资讯2026年1月23日推理初创公司 Inferact 获 1.5 亿美元融资,推动 vLLM 商业化由 vLLM 项目核心成员创立的初创公司 Inferact 完成 1.5 亿美元种子轮融资,估值达 8 亿美元。该公司旨在将业界领先的开源推理引擎 vLLM 转化为企业级高性能解决方案。阅读全文 →
行业资讯2026年1月22日SGLang 拆分为 RadixArk 并获得 4 亿美元估值:推理市场爆发式增长来自加州大学伯克利分校的高性能推理引擎项目 SGLang 正式拆分为商业公司 RadixArk,由 Accel 领投,估值高达 4 亿美元。阅读全文 →
行业资讯2026年1月15日OpenAI 与 Cerebras 签署 100 亿美元算力协议以提升 AI 推理速度OpenAI 与 Cerebras Systems 达成了一项价值约 100 亿美元的大规模合作伙伴关系,旨在利用其晶圆级引擎(Wafer-Scale Engine)技术,大幅降低 o1 和 o3 等复杂推理模型的延迟。阅读全文 →
AI教程2026年1月10日vLLM 快速入门:高性能大语言模型推理与部署优化指南本指南深入探讨 vLLM 的核心架构、PagedAttention 算法、生产环境部署策略以及如何通过参数调优实现 20 倍以上的推理吞吐量提升。阅读全文 →
模型评测2026年1月6日NVIDIA Cosmos Reason 2 物理 AI 推理应用评测深入评测 NVIDIA Cosmos Reason 2,探讨它如何为机器人和物理 AI 系统带来先进的推理能力,以及开发者如何通过 n1n.ai 高效利用这一模型。阅读全文 →