大模型推理

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

AI教程2026年7月14日
Intel Arc Pro B70 在 DeepSeek R1 推理中超越 NVIDIA 5090D
一项出人意料的基准测试显示，英特尔 Arc Pro B70 工作站显卡在 DeepSeek R1 吞吐量上击败了 NVIDIA 的旗舰产品 5090D，这预示着大模型硬件经济效益的重大转变。
阅读全文 →
模型评测2026年7月9日
vLLM 原生 Transformers 推理后端：实现极致推理速度与兼容性
深入探讨 vLLM 的原生 Transformers 推理后端如何通过 PagedAttention 和连续批处理技术，为开发者提供高性能的 LLM 推理解决方案。
阅读全文 →
行业资讯2026年7月8日
AI 芯片制造商 SambaNova 融资 10 亿美元估值飙升至 110 亿美元
人工智能芯片先驱 SambaNova Systems 在最新一轮融资中筹集了 10 亿美元，估值达到 110 亿美元。这一进展标志着市场对非 GPU 架构（如可重构数据流架构）在 LLM 推理领域的高度认可。
阅读全文 →
AI教程2026年6月25日
深入理解 KV Cache：MQA、GQA 与 MLA 如何加速大模型推理
本文深入探讨了大语言模型推理中的核心优化技术 KV Cache，详细解析了 MQA、GQA 和 MLA 等注意力机制如何通过减少显存占用和计算冗余，显著提升模型推理速度与吞吐量。
阅读全文 →
行业资讯2026年6月25日
OpenAI 发布首款 AI 推理处理器 Jalapeño
OpenAI 正式进军硬件领域，推出了与博通（Broadcom）合作研发的定制 ASIC 芯片 Jalapeño。该芯片专为 AI 推理优化，旨在提升 ChatGPT 和 Codex 等模型的运行效率并降低成本。
阅读全文 →
行业资讯2026年6月24日
OpenAI 与博通联合推出针对大模型推理优化的自研芯片 Jalapeño
OpenAI 与博通 (Broadcom) 合作开发代号为 'Jalapeño' 的定制 AI 芯片，旨在通过专用硬件架构大幅提升 LLM 推理效率并降低运营成本。
阅读全文 →
AI教程2026年5月20日
生产环境 vLLM 配置指南：核心决策与性能优化
深入探讨生产级 vLLM 部署的关键配置决策、故障诊断及底层架构原理，助您构建稳定、高并发的 LLM 推理服务。
阅读全文 →
AI教程2026年5月2日
NVIDIA NIM 对比 OpenAI API：2026 年开发者 LLM 推理指南
深入对比 NVIDIA 的优化推理微服务与 OpenAI 的专有 API，重点分析 2026 年的成本、延迟和企业级可扩展性。
阅读全文 →
行业资讯2026年4月19日
Cerebras Systems 提交 IPO 申请：挑战英伟达的晶圆级芯片巨头
AI 芯片初创公司 Cerebras Systems 正式提交 IPO 申请。凭借其独特的晶圆级引擎（WSE-3）技术以及与 AWS 和 OpenAI 的巨额订单，Cerebras 正在成为英伟达在高性能 AI 计算领域最强有力的竞争对手。
阅读全文 →
AI教程2026年4月16日
深入解析大模型推理的分离架构：预填充与解码的性能博弈
本文深入探讨了大模型推理中预填充（Prefill）与解码（Decode）阶段的本质区别，解释了为什么将两者在同一 GPU 上运行会导致效率低下，并介绍了分离式推理架构如何实现 2-4 倍的成本降低。
阅读全文 →
AI教程2026年4月6日
LLM 部署成本优化：生产环境策略与 K8s 最佳实践
面向开发者和 CTO 的全面指南，探讨如何通过模型量化、Kubernetes 编排以及使用 n1n.ai 智能 API 管理来降低大语言模型（LLM）的运营成本。
阅读全文 →
AI教程2026年3月24日
如何在手机上运行 400B 参数大模型
深入探讨如何通过闪存卸载（Flash Offloading）和分组量化技术，在 iPhone 等移动设备上本地运行 DeepSeek-V3 或 Llama 3 等超大规模参数模型。
阅读全文 →