计划–代码–执行：设计能够自主创建工具的 AI 智能体

大语言模型（LLM）智能体的范式正在经历快速演变。最初，我们关注的是“推理”（思维链，CoT）。随后，我们转向了“行动”（ReAct），即智能体利用预定义的一组工具与现实世界交互。然而，随着我们构建的系统日益复杂，预设工具库（Pre-built toolkits）的局限性也愈发明显。下一个前沿领域是 计划–代码–执行（Plan–Code–Execute, PCE） 框架。在这个框架下，智能体不再仅仅是工具的使用者，而是成为了工具的创造者。

预设工具的瓶颈

在传统的智能体架构中，开发人员会提供一个函数（工具）库供智能体调用。虽然这种方法对于简单任务非常有效，但在面对复杂场景时，它存在几个关键缺陷：

上下文窗口膨胀：提供 50 多个工具定义会消耗大量 Token，从而减少了用于处理实际任务数据的空间。
发现难题：当面临过多相似选项时，LLM 往往难以选择正确的工具，从而导致幻觉（Hallucinations）。
缺乏灵活性：如果某项任务需要一种你的库中未涵盖的特定数据转换逻辑，智能体就会束手无策。

为了克服这些障碍，开发者们正转向 n1n.ai 等高性能 API 服务商，以获取具备卓越代码生成和推理能力的模型，从而赋能智能体编写自己的逻辑。

计划–代码–执行（PCE）工作流深度解析

PCE 框架将工具创建的责任从人类开发者转移到了 AI 智能体身上。这个过程通常包含三个截然不同的阶段：

1. 计划阶段 (Planning)

智能体不会盲目行动，而是先分析用户请求并将其分解为子任务。它会判断现有的工具是否足够，或者是否需要创建一个新的自定义函数。像 OpenAI o3 或 Claude 3.5 Sonnet 这样的模型在处理这种高层级的架构推理时表现尤为出色。

2. 代码阶段 (Coding)

一旦计划确定，智能体就会编写 Python 或 JavaScript 代码来解决子任务。例如，如果智能体需要计算特定股票在非标准时间段内的波动率，它会利用 pandas 和 numpy 编写一段脚本，而不是依赖于一个硬编码的 /get_volatility 接口。通过 n1n.ai 调用这些模型，可以获得极高的生成质量。

3. 执行阶段 (Execution)

生成的代码被发送到一个安全的沙箱环境（如 E2B 或 Docker 容器）中运行。执行结果随后被反馈到智能体的上下文中，以指导下一步行动。利用 n1n.ai 提供的低延迟端点，开发者可以确保这一循环近乎实时地完成。

技术实现：Python 实战示例

下面是一个工具制造智能体的简化概念实现。我们使用系统提示词来鼓励智能体在必要时定义函数。

import subprocess

class ToolMakerAgent:
    def __init__(self, api_key):
        self.api_key = api_key
        self.sandbox_env = {}

    def execute_code(self, code_string):
        # 在生产环境中，请务必使用 E2B 等安全沙箱
        try:
            # 这里的 exec 仅作演示，实际应使用隔离环境
            exec(code_string, self.sandbox_env)
            return "执行成功"
        except Exception as e:
            return f"错误: {str(e)}"

    def handle_request(self, user_query):
        # 步骤 1 & 2: 计划与代码生成
        # 通过 n1n.ai 调用 Claude 3.5 Sonnet
        prompt = f"编写一个 Python 函数来解决：{user_query}。仅返回代码。"
        generated_code = self.call_llm(prompt)

        # 步骤 3: 执行
        result = self.execute_code(generated_code)
        return result

为 PCE 选择合适的模型

并非所有的 LLM 都适合 PCE 工作流。这一策略要求模型具备极高的“编程智商”和“指令遵循能力”。

模型	编程评分 (HumanEval)	推理深度	最佳应用场景
Claude 3.5 Sonnet	极高	卓越	通用型 PCE 智能体
DeepSeek-V3	极高	高	高性价比的工具生成
OpenAI o3	巅峰级	行业领先	复杂的数学或逻辑工具

通过 n1n.ai 这样的统一网关访问这些模型，允许你根据所创建工具的复杂程度动态切换模型。例如，使用 DeepSeek-V3 处理简单的数据清洗脚本，而在处理复杂的金融建模工具时切换到 Claude。

安全考量：沙箱隔离

允许智能体执行自主生成的代码具有内在风险。你必须实施严格的安全措施：

资源限制：限制 CPU 和内存使用，防止无限循环或内存耗尽（例如：内存 < 512MB）。
网络隔离：除非明确需要，否则禁用沙箱内的互联网访问。
临时环境：每次执行都应在一个新鲜的容器中进行，并在使用后立即销毁。

进阶优化：工具持久化

一个常见的优化手段是“保存”智能体创建的工具。如果智能体为特定的日志格式构建了一个复杂的正则表达式解析器，请将该代码保存到本地数据库中。下次出现类似请求时，智能体可以在从头编写代码之前，通过 RAG（检索增强生成）搜索自己“创建的库”。

总结

从静态工具调用到动态工具制造的转变，代表了 AI 自主性的重大飞跃。通过实施“计划-代码-执行”框架，你可以构建出更灵活、Token 利用率更高且能够解决开放式问题的系统。这种架构不仅降低了维护成本，还赋予了 AI 应对未知挑战的能力。

立即开始使用全球最强大的模型构建你自己的工具制造智能体，在 n1n.ai 获取免费 API Key。

参考来源：https://towardsdatascience.com/plan-code-execute-designing-agents-that-create-their-own-tools/