AI教程2026年5月27日Ollama v0.30.0、Qwen3.5 35B 与 WebGPU 上的 1-bit 多模态 AI深入探讨本地 AI 的最新进展:Ollama 改进的互操作性、具备原生多轮对话保存能力的 Qwen3.5 35B 模型的发布,以及通过 WebGPU 在浏览器中运行的突破性 1-bit 文本生成图像模型。阅读全文 →
AI教程2026年5月7日利用 Unsloth 和 NVIDIA 硬件加速 LLM 训练:技术深度解析深入探讨 Unsloth 如何通过 4-bit 量化、FlashAttention-2 和定制化 CUDA 内核,充分释放 NVIDIA GPU 潜力,实现 2-4 倍的训练加速。阅读全文 →
AI教程2026年5月1日KVQuant 实现 4-bit KV 缓存量化:在 8GB 显存运行 70B 大模型深入了解 KVQuant 如何通过 4-bit KV 缓存量化技术将 LLM 内存占用降低 4 倍。本文详细介绍了 LLaMA-70B 如何在消费级硬件上实现低损耗运行,并提供代码实现指南。阅读全文 →
AI教程2026年4月7日无需训练即可将大模型的 KV 缓存压缩 33 倍深入了解 NexusQuant 库,这是一种突破性的 LLM 优化技术,可在不进行重新训练的情况下将 KV 缓存压缩高达 33 倍,让 128K 超长上下文在消费级 GPU 上运行成为可能。阅读全文 →
AI教程2026年4月5日Gemma 4 本地推理优化指南:llama.cpp KV 缓存修复与 NPU 部署评测深入分析 Google Gemma 4 模型的最新本地推理突破,涵盖 llama.cpp 的显存优化修复、Ollama 在 RTX 3090 上的量化性能基准测试,以及在 Rockchip NPU 上的超低功耗部署实践。阅读全文 →
AI教程2026年3月24日如何在手机上运行 400B 参数大模型深入探讨如何通过闪存卸载(Flash Offloading)和分组量化技术,在 iPhone 等移动设备上本地运行 DeepSeek-V3 或 Llama 3 等超大规模参数模型。阅读全文 →
模型评测2026年2月21日GGML 与 llama.cpp 加入 Hugging Face 推动本地 AI 长期发展GGML 和 llama.cpp 正式加入 Hugging Face,这标志着本地 AI 生态进入了标准化的新阶段,将极大地加速开源模型在消费级硬件上的普及。本文深度解析这一变动对开发者和企业的深远影响。阅读全文 →
AI教程2026年1月11日构建实时本地语音 AI 智能体:技术实现指南(第三部分)本教程深入探讨如何在本地环境(包括仅 CPU 环境)中运行语音智能体的核心组件,涵盖 Whisper、Llama 3.1 和 Kokoro 的部署与优化。阅读全文 →