计划–代码–执行:设计能够自主创建工具的 AI 智能体
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
大语言模型(LLM)智能体的范式正在经历快速演变。最初,我们关注的是“推理”(思维链,CoT)。随后,我们转向了“行动”(ReAct),即智能体利用预定义的一组工具与现实世界交互。然而,随着我们构建的系统日益复杂,预设工具库(Pre-built toolkits)的局限性也愈发明显。下一个前沿领域是 计划–代码–执行(Plan–Code–Execute, PCE) 框架。在这个框架下,智能体不再仅仅是工具的使用者,而是成为了工具的创造者。
预设工具的瓶颈
在传统的智能体架构中,开发人员会提供一个函数(工具)库供智能体调用。虽然这种方法对于简单任务非常有效,但在面对复杂场景时,它存在几个关键缺陷:
- 上下文窗口膨胀:提供 50 多个工具定义会消耗大量 Token,从而减少了用于处理实际任务数据的空间。
- 发现难题:当面临过多相似选项时,LLM 往往难以选择正确的工具,从而导致幻觉(Hallucinations)。
- 缺乏灵活性:如果某项任务需要一种你的库中未涵盖的特定数据转换逻辑,智能体就会束手无策。
为了克服这些障碍,开发者们正转向 n1n.ai 等高性能 API 服务商,以获取具备卓越代码生成和推理能力的模型,从而赋能智能体编写自己的逻辑。
计划–代码–执行(PCE)工作流深度解析
PCE 框架将工具创建的责任从人类开发者转移到了 AI 智能体身上。这个过程通常包含三个截然不同的阶段:
1. 计划阶段 (Planning)
智能体不会盲目行动,而是先分析用户请求并将其分解为子任务。它会判断现有的工具是否足够,或者是否需要创建一个新的自定义函数。像 OpenAI o3 或 Claude 3.5 Sonnet 这样的模型在处理这种高层级的架构推理时表现尤为出色。
2. 代码阶段 (Coding)
一旦计划确定,智能体就会编写 Python 或 JavaScript 代码来解决子任务。例如,如果智能体需要计算特定股票在非标准时间段内的波动率,它会利用 pandas 和 numpy 编写一段脚本,而不是依赖于一个硬编码的 /get_volatility 接口。通过 n1n.ai 调用这些模型,可以获得极高的生成质量。
3. 执行阶段 (Execution)
生成的代码被发送到一个安全的沙箱环境(如 E2B 或 Docker 容器)中运行。执行结果随后被反馈到智能体的上下文中,以指导下一步行动。利用 n1n.ai 提供的低延迟端点,开发者可以确保这一循环近乎实时地完成。
技术实现:Python 实战示例
下面是一个工具制造智能体的简化概念实现。我们使用系统提示词来鼓励智能体在必要时定义函数。
import subprocess
class ToolMakerAgent:
def __init__(self, api_key):
self.api_key = api_key
self.sandbox_env = {}
def execute_code(self, code_string):
# 在生产环境中,请务必使用 E2B 等安全沙箱
try:
# 这里的 exec 仅作演示,实际应使用隔离环境
exec(code_string, self.sandbox_env)
return "执行成功"
except Exception as e:
return f"错误: {str(e)}"
def handle_request(self, user_query):
# 步骤 1 & 2: 计划与代码生成
# 通过 n1n.ai 调用 Claude 3.5 Sonnet
prompt = f"编写一个 Python 函数来解决:{user_query}。仅返回代码。"
generated_code = self.call_llm(prompt)
# 步骤 3: 执行
result = self.execute_code(generated_code)
return result
为 PCE 选择合适的模型
并非所有的 LLM 都适合 PCE 工作流。这一策略要求模型具备极高的“编程智商”和“指令遵循能力”。
| 模型 | 编程评分 (HumanEval) | 推理深度 | 最佳应用场景 |
|---|---|---|---|
| Claude 3.5 Sonnet | 极高 | 卓越 | 通用型 PCE 智能体 |
| DeepSeek-V3 | 极高 | 高 | 高性价比的工具生成 |
| OpenAI o3 | 巅峰级 | 行业领先 | 复杂的数学或逻辑工具 |
通过 n1n.ai 这样的统一网关访问这些模型,允许你根据所创建工具的复杂程度动态切换模型。例如,使用 DeepSeek-V3 处理简单的数据清洗脚本,而在处理复杂的金融建模工具时切换到 Claude。
安全考量:沙箱隔离
允许智能体执行自主生成的代码具有内在风险。你必须实施严格的安全措施:
- 资源限制:限制 CPU 和内存使用,防止无限循环或内存耗尽(例如:内存 < 512MB)。
- 网络隔离:除非明确需要,否则禁用沙箱内的互联网访问。
- 临时环境:每次执行都应在一个新鲜的容器中进行,并在使用后立即销毁。
进阶优化:工具持久化
一个常见的优化手段是“保存”智能体创建的工具。如果智能体为特定的日志格式构建了一个复杂的正则表达式解析器,请将该代码保存到本地数据库中。下次出现类似请求时,智能体可以在从头编写代码之前,通过 RAG(检索增强生成)搜索自己“创建的库”。
总结
从静态工具调用到动态工具制造的转变,代表了 AI 自主性的重大飞跃。通过实施“计划-代码-执行”框架,你可以构建出更灵活、Token 利用率更高且能够解决开放式问题的系统。这种架构不仅降低了维护成本,还赋予了 AI 应对未知挑战的能力。
立即开始使用全球最强大的模型构建你自己的工具制造智能体,在 n1n.ai 获取免费 API Key。