AI教程2026年4月7日无需训练即可将大模型的 KV 缓存压缩 33 倍深入了解 NexusQuant 库,这是一种突破性的 LLM 优化技术,可在不进行重新训练的情况下将 KV 缓存压缩高达 33 倍,让 128K 超长上下文在消费级 GPU 上运行成为可能。阅读全文 →