KV 缓存

浏览我们所有的行业资讯、模型评测与 AI 教程。

  • AI教程

    无需训练即可将大模型的 KV 缓存压缩 33 倍

    深入了解 NexusQuant 库,这是一种突破性的 LLM 优化技术,可在不进行重新训练的情况下将 KV 缓存压缩高达 33 倍,让 128K 超长上下文在消费级 GPU 上运行成为可能。
    阅读全文