使用 DSPy 实现 LLM 提示词工程自动化

与大语言模型（LLM）交互的范式正在发生根本性转变。在过去两年中，“提示词工程”（Prompt Engineering）一直是开发者从 GPT-4 或 Claude 等模型中提取价值的主要手段。然而，手动编写提示词存在脆弱、难以扩展且高度依赖特定模型版本的缺陷。如果你从 GPT-4 切换到 DeepSeek-V3，原本精心设计的提示词可能会失效。这就是 DSPy (Declarative Self-improving Language Programs) 诞生的背景，它提供了一种系统化的方法，让 LLM 提示词的创建和优化实现自动化。

手动提示词工程的局限性

传统的提示词工程更像是一门艺术而非科学。开发者往往花费数小时调整形容词、添加“让我们一步步思考”等指令，并手动筛选 few-shot 示例。这种方法有三个主要弊端：

脆弱性：模型权重的微小变动或系统消息的更新都可能破坏提示词的效果。
缺乏可移植性：为某一模型优化的提示词在另一模型上表现往往不佳。当使用 n1n.ai 这种支持多模型的聚合平台时，你需要一种无需手动重写即可保持一致性的方法。
优化瓶颈：人类无法手动测试数千种提示词组合，以找到准确率的数学全局最优解。

DSPy 核心理念：编程而非编写提示词

由斯坦福大学 NLP 团队开发的 DSPy 框架，将程序的逻辑（模块 Modules）与文本表示（提示词 Prompts）解耦。你不再需要编写长段的文本，而是定义 Signatures（签名） 来描述输入和输出行为。随后，DSPy 使用 Optimizer（优化器，也称 Teleprompter） 为特定模型和任务自动生成最佳提示词。

第一步：环境配置

首先，你需要安装库并配置 LLM 供应商。这里强烈建议使用 n1n.ai，因为它提供了统一的 API 接口，能够让 DSPy 在不同架构的模型之间无缝切换并进行优化。

import dspy

# 通过 n1n.ai 聚合器配置 LLM
# n1n.ai 提供对 DeepSeek、GPT 和 Claude 的高速访问
lm = dspy.OpenAI(
    api_base="https://api.n1n.ai/v1",
    api_key="YOUR_N1N_API_KEY",
    model="deepseek-chat"
)
dspy.settings.configure(lm=lm)

第二步：定义签名 (Signature)

签名是对模型任务的声明式规范。例如，我们要构建一个从长篇技术论文中生成技术摘要的系统：

class TechnicalSummarizer(dspy.Signature):
    """将技术文档总结为面向开发者的要点。"""
    document = dspy.InputField(desc="技术论文的全文内容")
    summary = dspy.OutputField(desc="关键技术要点的列表")

第三步：构建模块 (Module)

模块是 DSPy 程序的构建块。它们可以是简单的 Predict，也可以是复杂的 ChainOfThought 或 MultiHopRAG。与静态提示词不同，模块是参数化的。

class SummarizationPipeline(dspy.Module):
    def __init__(self):
        super().__init__()
        # ChainOfThought 会自动添加“推理”步骤
        self.generate_summary = dspy.ChainOfThought(TechnicalSummarizer)

    def forward(self, document):
        return self.generate_summary(document=document)

自动化的魔力：优化器 (Teleprompters)

DSPy 的核心优势在于其优化能力。只需提供少量数据集（甚至只需 20-50 个样本），你就可以使用 Teleprompter 来“编译”你的程序。编译器会执行以下操作：

生成候选提示词。
从训练数据中选择最佳的 few-shot 示例。
迭代改进指令，以最大化预设指标（如准确性、简洁度或格式符合度）。

from dspy.teleprompt import BootstrapFewShot

# 定义一个简单的评估指标
def validate_summary(example, pred, trace=None):
    return len(pred.summary) &lt; 500 and "key" in pred.summary.lower()

# 编译程序
teleprompter = BootstrapFewShot(metric=validate_summary)
optimized_program = teleprompter.compile(SummarizationPipeline(), trainset=my_dataset)

为什么在 DSPy 中配合使用 n1n.ai？

在运行优化循环时，延迟和可靠性至关重要。DSPy 在编译阶段可能会向 LLM 发起数十次调用，以测试不同的指令集。n1n.ai 确保了这些调用能够以极低的延迟和高吞吐量完成。此外，由于 n1n.ai 支持 DeepSeek-V3 和 Claude 3.5 Sonnet 等多种模型，你可以先针对成本较低的模型（如 DeepSeek）编译 DSPy 程序，然后评估更高成本的模型（如 GPT-4o）是否能带来显著的性能提升，而无需修改任何提示词代码。

进阶策略：多阶段优化

对于企业级应用，单次优化往往不够。开发者可以研究 MIPROv2 (Multi-objective Instruction Prophet)。该优化器采用贝叶斯方法，同时搜索指令空间和 few-shot 示例空间。

在 RAG（检索增强生成）场景中，DSPy 可以同时优化检索阈值和生成提示词。这确保了如果检索器返回了低质量的上下文，生成器会自动接收到“审慎对待输入”的指令，从而提高系统整体的鲁棒性。

性能对比表

特性	手动提示词工程	DSPy + n1n.ai
开发速度	慢 (反复试错)	快 (编程实现)
维护成本	高 (容易失效)	低 (自适应优化)
模型迁移	困难	极易 (通用签名)
优化方式	主观感悟	数据驱动 / 数学最优
成本控制	难以精确控制	通过 n1n.ai 灵活路由

专业建议 (Pro Tips)

从小规模开始：你不需要 10,000 个标签。DSPy 在仅有 25 个高质量示例的情况下就能展现出显著的性能提升。
指标至上：花在定义评估指标上的时间应该多于编写提示词的时间。如果你的指标为 None，DSPy 就无法进行改进。
利用聚合器的多样性：使用 n1n.ai 测试不同的后端。在 Llama-3 上表现良好的签名，其 bootstrapping 过程可能与 GPT-4o 完全不同。

总结

基于“感觉”进行提示词优化的时代即将结束。通过采用 DSPy，你可以将 LLM 交互视为一个软件工程问题，通过版本控制、自动化测试和优化循环来解决。结合 n1n.ai 强大的基础设施，你将在构建强大且可预测的 AI 系统方面获得显著的竞争优势。

立即在 n1n.ai 获取免费 API 密钥。

参考来源：https://towardsdatascience.com/automate-writing-your-llm-prompts/