如何通过提示词压缩将 LLM API 成本降低 72%

在 AI 基础设施的运行成本中，有一项隐形的开支往往被开发者忽略，那就是“礼貌税”（Politeness Tax）。当我们与 Claude 3.5 Sonnet、OpenAI o3 或 DeepSeek-V3 等大语言模型交互时，我们往往会将人类的社交习惯带入到 System Prompt（系统提示词）中。我们会说“请”、“请务必”、“非常感谢”，并像写正式商务邮件一样撰写指令。虽然这符合人类的直觉，但在 LLM 的世界里，每一个礼貌性的 Token 都在消耗真金白银。

在最近一次对高并发生产系统的审计中，我发现一个运行了数月的系统提示词，仅仅因为冗余的表达就浪费了数千美元。通过对这些提示词进行系统性的“瘦身”，我在保证输出质量完全一致的前提下，将 LLM 的账单降低了 72%。本文将深入探讨 Token 优化的底层逻辑，并介绍如何使用开源工具 token-diet 来实现自动化降本。

什么是“礼貌税”？

要理解为什么要优化提示词，首先要明白 Token 的计费机制。Token 是 LLM 处理信息的基本单位。通常情况下，1000 个 Token 约等于 750 个英文单词或 500 个汉字。如果你通过 n1n.ai 这样的聚合平台调用顶级模型，你的每一分钱都是按 Token 数量计算的。

让我们看一个典型的系统提示词开头：

“请务必仔细阅读以下说明，并确保您精确且毫无例外地遵守其中的每一条规定。”

这段话大约消耗了 25-30 个 Token。但从语义角度看，它完全等同于：

“遵守以下说明。”

后者仅消耗 4 个 Token。在单次调用中，这看起来微不足道，但如果你的应用每月有 1000 万次 API 调用，这多出来的 20 多个 Token 就会累积成数亿个冗余 Token。以高性能模型每百万 Token 3 美元的价格计算，你每月仅仅为了“维持礼貌”就向模型供应商支付了超过 1500 美元的冤枉钱。

token-diet：提示词的“冷酷编辑器”

为了解决这个问题，我开发了 token-diet。这是一个基于 Python 的工具，旨在自动识别并剔除提示词中的“水分”。对于那些通过 n1n.ai 管理多个模型供应商的企业来说，这个工具是优化 API 支出的利器。

安装与快速上手

你可以通过 pip 轻松安装：

pip install token-diet

安装完成后，你可以直接在终端对提示词文件进行处理：

# 执行平衡模式的压缩
token-diet system_prompt.txt --level balanced

# 查看压缩前后的对比（Diff 模式）
token-diet prompt.txt --diff

核心压缩逻辑深度解析

token-diet 采用了双层压缩机制，确保在极度精简的同时不丢失核心指令：

1. 基于规则的压缩（离线且确定）

这一层通过精心设计的正则表达式库，直接剔除已知的冗余模式：

移除礼貌修饰词：如“请”、“劳烦”、“如果您能...我将不胜感激”。
合并冗余形容词：将“详尽且全面的总结”简化为“详尽总结”。
改写啰嗦的介词短语：将“为了能够实现...的目的”简化为“为了”。
剥离元指令：模型通过消息角色（System Role）已经知道自己的任务，因此“你的任务是”这类开场白通常是多余的。

2. 基于 API 的元提示压缩（LLM 增强）

在 aggressive（激进）模式下，工具会调用轻量级模型（如 Claude Haiku）对提示词进行重写。虽然用 LLM 来压缩 LLM 提示词听起来有些递归的荒诞感，但数学上的投入产出比（ROI）非常惊人：花费 $0.0001 的压缩成本，可以为生产环境节省数百美元。通过 n1n.ai 接入这些轻量模型，可以实现极高的处理效率。

性能对比表：压缩前后的差异

类别	原始 Token 数	压缩后 Token 数	节省比例
礼貌用语	15	0	100%
冗余修饰	22	5	77.3%
元上下文	18	2	88.9%
系统提示词总计	847	234	72.4%

进阶：在生产流程中集成优化

在企业级应用中，手动运行命令行是不够的。你应该将压缩逻辑集成到你的 RAG 流水线或 LangChain 流程中。如果你正在使用 n1n.ai 作为 API 网关，可以在请求发送前添加一个中间层进行动态压缩。

import subprocess

def compress_prompt_service(input_text):
    # 调用 token-diet 的静默模式
    result = subprocess.run(
        ['token-diet', '--quiet', '--level', 'aggressive'],
        input=input_text,
        capture_output=True,
        text=True,
        encoding='utf-8'
    )
    return result.stdout.strip()

# 示例：在发送给 n1n.ai 之前进行优化
raw_prompt = "请您务必根据以下提供的文档内容，撰写一份非常详尽且全面的摘要..."
optimized_prompt = compress_prompt_service(raw_prompt)

# 调用 n1n.ai 接口
# response = n1n_client.chat(model="claude-3-5-sonnet", prompt=optimized_prompt)

提示词极简主义：三大黄金法则

如果你希望手动优化提示词，请遵循以下原则：

直奔主题：不要告诉模型“你是一个 AI 助手”。除非需要特定的角色扮演（Persona），否则直接给指令。LLM 不需要被提醒它的身份。
用结构代替文字：使用 Markdown 的层级结构（# ## ###）来组织指令，而不是用长句子解释结构。结构本身就是信息。
量化要求而非形容要求：不要说“写得简洁一点”，要说“字数少于 50 字”。这不仅节省 Token，还能显著提高模型遵循指令的准确度。

优化对 RAG 系统的重要意义

在检索增强生成（RAG）系统中，上下文窗口（Context Window）是极其宝贵的资源。每一条被节省下来的系统提示词 Token，都可以转化为更多的检索片段或 Few-shot 示例。在使用 n1n.ai 提供的长文本模型时，精简的指令能让模型在处理大规模检索数据时更加专注，减少“迷失在中间”（Lost in the Middle）的现象，从而提升 RAG 的检索精度。

总结：效率即竞争力

随着 LLM 应用从实验阶段进入大规模商业化阶段，成本控制已成为核心竞争力。72% 的成本缩减意味着你的 AI 产品可以拥有更高的利润率或更具竞争力的定价。通过审计“礼貌税”并利用 token-diet 等工具，你可以确保在 n1n.ai 上的每一分投入都转化为了真正的智能输出，而不是无意义的文字填充。

立即在 n1n.ai 获取免费 API 密钥。

参考来源：https://dev.to/lakshmisravyavedantham/i-put-my-prompts-on-a-diet-and-cut-my-llm-bill-by-72-2425