模型量化

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

AI教程2026年7月2日
优化 vLLM 推理服务：AWQ、GPTQ 与 GGUF 量化方案深度对比
深入探讨 AWQ、GPTQ 和 GGUF 等模型量化格式，以及如何利用 vLLM 和动态 LoRA 技术为企业级小语言模型 (SLM) 构建高性能推理服务。
阅读全文 →
AI教程2026年6月21日
优化 96GB 显存运行本地大模型与付费 API 的深度对比报告
深入探讨使用 4 张 RTX 3090 显卡（96GB 显存）构建本地 LLM 推理环境的工程实践、性能瓶颈以及与高性能 API 相比的经济性分析。
阅读全文 →
AI教程2026年6月21日
Gemma 4 显存需求全解析：各版本硬件配置指南
全面解析 Google Gemma 4 各个版本的显存（VRAM）要求，涵盖量化技术对性能的影响，并为开发者提供针对 RTX 4090/5090 等显卡的专业建议。
阅读全文 →
AI教程2026年6月6日
Google Gemma 4 移动端 QAT 模型发布详解
Google 发布了针对 Gemma 4 系列的量化感知训练 (QAT) Checkpoints，旨在大幅降低移动端和消费级硬件上的 LLM 内存占用并提升推理速度。
阅读全文 →
AI教程2026年5月28日
本地 LLM 工作流优化：Ollama 量化机制、Light-Agent CLI 与 Qwen 3.7 Max 全解析
本文深入探讨本地 AI 领域的最新进展，包括 Ollama 的默认量化策略、专为本地编码设计的 Light-Agent v0.2.1，以及 Qwen 3.7 Max 在多模态生成方面的卓越表现。
阅读全文 →
AI教程2026年5月19日
本地大语言模型生产环境实战：Qwen2.5 性能优化与 Claude 3.5 对标
深入探讨如何在本地硬件（如 DGX Spark）上部署 Qwen2.5-32B，通过 FP8 量化、VRAM 管理和 Schema 优先的提示词工程，实现接近 Claude 3.5 Sonnet 的生产级表现。
阅读全文 →
AI教程2026年5月2日
PFlash 加速 llama.cpp 预填充与 Ollama 性能飞跃：Llama 3.2 安卓部署指南
深入了解 PFlash 如何实现 llama.cpp 预填充 10 倍提速，Ollama v0.22.1 对 Qwen 模型的性能优化，以及在安卓端部署微调 Llama 3.2 的实战教程。
阅读全文 →
AI教程2026年3月24日
在手机上运行 400B 参数 AI 模型：从笔记本到口袋的突破
深入解析 Flash-MoE 与苹果 'LLM in a Flash' 技术如何让 4000 亿参数模型在 iPhone 上运行，以及这一趋势对混合 AI 应用架构的深远影响。
阅读全文 →
模型评测2026年2月24日
在 NVIDIA Jetson 上部署开源视觉语言模型 (VLM) 的优化指南
本指南详细介绍了如何在 NVIDIA Jetson Orin 平台上部署和优化 PaliGemma、Moondream 等开源视觉语言模型，涵盖 TensorRT-LLM 加速、4-bit 量化以及边缘端推理实战。
阅读全文 →
AI教程2026年2月17日
本地运行 AI 模型全指南：摆脱云端依赖的步步教程
本教程详细介绍了如何在本地环境部署大语言模型（LLM），涵盖硬件选型、Ollama 安装、模型量化技术以及如何通过 Python API 进行集成，助力开发者实现 100% 私有化 AI 工作流。
阅读全文 →