推理优化

AI教程2026年7月22日
16GB 内存运行 110B 模型：预测本地 LLM 推理速度的数学公式
探索“分层解码定律”，该定律可预测不同硬件上的 LLM 推理速度。了解深度感知量化如何让 110B 模型在 16GB 内存的 2016 年旧电脑上运行。
阅读全文 →
行业资讯2026年7月17日
GPU 融资方转向推理芯片：4 亿美元交易揭示 AI 基础设施新趋势
AI 基础设施领域正发生重大变革，一项 4 亿美元的芯片抵押贷款表明，投资重点正从以训练为中心的 GPU 转向专门的推理硬件。本文深度分析这一转型背后的经济与技术逻辑。
阅读全文 →
AI教程2026年7月2日
优化 vLLM 推理服务：AWQ、GPTQ 与 GGUF 量化方案深度对比
深入探讨 AWQ、GPTQ 和 GGUF 等模型量化格式，以及如何利用 vLLM 和动态 LoRA 技术为企业级小语言模型 (SLM) 构建高性能推理服务。
阅读全文 →
模型评测2026年7月2日
Hugging Face 与 Cerebras 合作利用 Gemma 模型实现实时语音 AI
深入探讨 Hugging Face 与 Cerebras 的合作伙伴关系如何通过利用 Gemma 模型和晶圆级硬件实现低于 100 毫秒的延迟，从而彻底改变实时语音 AI。
阅读全文 →
模型评测2026年5月7日
vLLM V1 演进：强化学习中的正确性优先原则
深入探讨 vLLM 从 V0 到 V1 的版本跨越，重点分析其架构如何通过“正确性优先”的方法支持 GRPO 和 PPO 等复杂的强化学习工作流。
阅读全文 →
AI教程2026年5月3日
在 RTX 3090 上优化 Qwen3.6-27B 本地推理：原生 vLLM 与 Ollama 备选方案指南
深入探讨如何在消费级硬件上运行最先进的 Qwen3.6-27B 模型，利用原生 Windows vLLM 实现 72 tokens/s 的速度，并实施混合云端-本地策略。
阅读全文 →

文章分类

热门标签

16GB 内存运行 110B 模型：预测本地 LLM 推理速度的数学公式

GPU 融资方转向推理芯片：4 亿美元交易揭示 AI 基础设施新趋势

优化 vLLM 推理服务：AWQ、GPTQ 与 GGUF 量化方案深度对比

Hugging Face 与 Cerebras 合作利用 Gemma 模型实现实时语音 AI

vLLM V1 演进：强化学习中的正确性优先原则

在 RTX 3090 上优化 Qwen3.6-27B 本地推理：原生 vLLM 与 Ollama 备选方案指南