AI教程2026年4月7日无需训练即可将大模型的 KV 缓存压缩 33 倍深入了解 NexusQuant 库,这是一种突破性的 LLM 优化技术,可在不进行重新训练的情况下将 KV 缓存压缩高达 33 倍,让 128K 超长上下文在消费级 GPU 上运行成为可能。阅读全文 →
AI教程2026年4月5日Gemma 4 本地推理优化指南:llama.cpp KV 缓存修复与 NPU 部署评测深入分析 Google Gemma 4 模型的最新本地推理突破,涵盖 llama.cpp 的显存优化修复、Ollama 在 RTX 3090 上的量化性能基准测试,以及在 Rockchip NPU 上的超低功耗部署实践。阅读全文 →
AI教程2026年3月24日如何在手机上运行 400B 参数大模型深入探讨如何通过闪存卸载(Flash Offloading)和分组量化技术,在 iPhone 等移动设备上本地运行 DeepSeek-V3 或 Llama 3 等超大规模参数模型。阅读全文 →
模型评测2026年2月21日GGML 与 llama.cpp 加入 Hugging Face 推动本地 AI 长期发展GGML 和 llama.cpp 正式加入 Hugging Face,这标志着本地 AI 生态进入了标准化的新阶段,将极大地加速开源模型在消费级硬件上的普及。本文深度解析这一变动对开发者和企业的深远影响。阅读全文 →
AI教程2026年1月11日构建实时本地语音 AI 智能体:技术实现指南(第三部分)本教程深入探讨如何在本地环境(包括仅 CPU 环境)中运行语音智能体的核心组件,涵盖 Whisper、Llama 3.1 和 Kokoro 的部署与优化。阅读全文 →