量化技术

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

AI教程2026年5月27日
Ollama v0.30.0、Qwen3.5 35B 与 WebGPU 上的 1-bit 多模态 AI
深入探讨本地 AI 的最新进展：Ollama 改进的互操作性、具备原生多轮对话保存能力的 Qwen3.5 35B 模型的发布，以及通过 WebGPU 在浏览器中运行的突破性 1-bit 文本生成图像模型。
阅读全文 →
AI教程2026年5月7日
利用 Unsloth 和 NVIDIA 硬件加速 LLM 训练：技术深度解析
深入探讨 Unsloth 如何通过 4-bit 量化、FlashAttention-2 和定制化 CUDA 内核，充分释放 NVIDIA GPU 潜力，实现 2-4 倍的训练加速。
阅读全文 →
AI教程2026年5月1日
KVQuant 实现 4-bit KV 缓存量化：在 8GB 显存运行 70B 大模型
深入了解 KVQuant 如何通过 4-bit KV 缓存量化技术将 LLM 内存占用降低 4 倍。本文详细介绍了 LLaMA-70B 如何在消费级硬件上实现低损耗运行，并提供代码实现指南。
阅读全文 →
AI教程2026年4月7日
无需训练即可将大模型的 KV 缓存压缩 33 倍
深入了解 NexusQuant 库，这是一种突破性的 LLM 优化技术，可在不进行重新训练的情况下将 KV 缓存压缩高达 33 倍，让 128K 超长上下文在消费级 GPU 上运行成为可能。
阅读全文 →
AI教程2026年4月5日
Gemma 4 本地推理优化指南：llama.cpp KV 缓存修复与 NPU 部署评测
深入分析 Google Gemma 4 模型的最新本地推理突破，涵盖 llama.cpp 的显存优化修复、Ollama 在 RTX 3090 上的量化性能基准测试，以及在 Rockchip NPU 上的超低功耗部署实践。
阅读全文 →
AI教程2026年3月24日
如何在手机上运行 400B 参数大模型
深入探讨如何通过闪存卸载（Flash Offloading）和分组量化技术，在 iPhone 等移动设备上本地运行 DeepSeek-V3 或 Llama 3 等超大规模参数模型。
阅读全文 →
模型评测2026年2月21日
GGML 与 llama.cpp 加入 Hugging Face 推动本地 AI 长期发展
GGML 和 llama.cpp 正式加入 Hugging Face，这标志着本地 AI 生态进入了标准化的新阶段，将极大地加速开源模型在消费级硬件上的普及。本文深度解析这一变动对开发者和企业的深远影响。
阅读全文 →
AI教程2026年1月11日
构建实时本地语音 AI 智能体：技术实现指南（第三部分）
本教程深入探讨如何在本地环境（包括仅 CPU 环境）中运行语音智能体的核心组件，涵盖 Whisper、Llama 3.1 和 Kokoro 的部署与优化。
阅读全文 →