基准测试结果:SmolLM3 3B 与 Phi-4-mini 在智能体编程测试中领跑
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
长期以来,大型语言模型 (LLM) 领域一直被 “规模即正义” 的哲学所主导。然而,Works With Agents 智能体编程基准测试的第二轮结果彻底颠覆了这一叙事。在这次涉及 32 个模型的全面测试中(较最初的 10 个模型大幅增加),结果令开发者社区感到震惊。来自 Hugging Face 的 30 亿参数模型 SmolLM3 3B 不仅仅是参与了竞争,它以 93.3 的高分占据了统治地位,将 Claude Sonnet 4 以及各种 GPT-5 迭代版本远远抛在身后。
对于希望将这些高性能模型集成到生产环境中的开发者来说,n1n.ai 提供了一个统一的 API,可以访问具有行业领先稳定性的最新小型和大型语言模型。这种向用于特定任务(如智能体编程)的 “小型语言模型” (SLM) 的转变表明,效率和架构重点可能比原始参数数量更为关键。
小巨人的崛起:基准测试概览
基准测试结果凸显了一个令人惊讶的趋势:排行榜的前列挤满了可以在现代笔记本电脑上流畅运行的模型。SmolLM3 3B 摘得金牌,紧随其后的是微软的 Phi-4-mini。甚至 Qwen2.5 的变体(1.5B 和 3B)也成功地与大得多的 Claude Sonnet 4 打成了平手。
| 排名 | 模型 | 分数 |
|---|---|---|
| 🥇 | SmolLM3 3B | 93.3 |
| 🥈 | Phi-4-mini | 90.0 |
| 🥉 | Claude Sonnet 4 | 85.0 |
| 4 | Qwen2.5 1.5B | 85.0 |
| 5 | Qwen2.5 3B | 85.0 |
| 6 | Granite 3.2 2B | 82.5 |
| 7 | Ministral 3B | 81.7 |
| 8 | Mistral Large 3 | 79.6 |
| 9 | Gemma 4 31B | 78.3 |
| 10 | Gemma 4 26B A4B | 78.3 |
为什么小型模型在智能体编程中胜出
智能体编程 (Agentic Coding) 与标准的基准代码补全有本质不同。它要求模型在循环中运行,处理多文件编辑、执行 Shell 命令并从自身的错误中恢复。Works With Agents 基准测试通过 12 轮严格的测试来评估模型,重点关注:
- 多文件编辑:在目录结构中修改 Python 脚本和 Shell 文件。
- Git 操作:自主执行 clone、branch 和 commit。
- Shell 命令执行:与操作系统交互以运行测试或构建脚本。
- Bash 脚本编写:使用复杂的管道和重定向(例如
grep | awk | sed)。 - 错误恢复:能够查看回溯 (traceback) 并在无需人工干预的情况下修复代码。
像 SmolLM3 3B 这样的小型模型似乎拥有一种指令遵循的 “纯度”,而大型模型往往因为过度对齐 (Over-alignment) 或过多的 “推理” 步骤而失去这种纯度,从而在工具调用序列中导致幻觉。当您使用 n1n.ai 来编排这些模型时,您可以以远低于前沿模型成本的价格利用这种高效性。
“Pro” 变体的失败分析
最令人吃惊的发现之一是 “Pro” 和 “Large” 变体与其 “Flash” 或 “Mini” 版本相比表现不佳。
| 模型 | 分数 |
|---|---|
| Claude Sonnet 4 | 85.0 |
| Gemini 2.5 Flash | 76.4 |
| GPT-5.4 | 76.6 |
| Grok 4.20 | 75.0 |
| DeepSeek V4 Flash | 60.0 |
| GPT-5.4 Pro | 51.6 |
| DeepSeek V4 Pro | 38.3 |
DeepSeek V4 Pro 尽管拥有庞大的参数量,但仅获得了惨淡的 38.3 分,而其 Flash 变体则获得了 60.0 分。同样,GPT-5.5 Pro 和 GPT-5.4 Pro 的表现都大幅低于其基础模型。这表明大型模型中的 “推理” 开销实际上可能阻碍了它们高效执行直接工具调用的能力。它们经常 “过度思考” 解决方案,导致产生不必要的步骤,从而在效率得分(占基准测试总权重的 30%)上被扣分。
实施指南:使用 SmolLM3 构建智能体
要通过 n1n.ai 使用像 SmolLM3 3B 这样高分的模型实现智能体,您需要专注于系统提示词 (System Prompt) 和工具定义结构。以下是初始化编程智能体循环的 Python 示例。
import openai
# 配置 n1n.ai API 访问
client = openai.OpenAI(
base_url="https://api.n1n.ai/v1",
api_key="YOUR_N1N_API_KEY"
)
def run_agent_task(prompt):
messages = [
{"role": "system", "content": "你是一个编程智能体。使用 Shell 工具解决问题。请保持简洁。"},
{"role": "user", "content": prompt}
]
# 使用 SmolLM3 3B 以获得高效率
response = client.chat.completions.create(
model="smollm3-3b",
messages=messages,
tools=[
{
"type": "function",
"function": {
"name": "execute_shell",
"parameters": {
"type": "object",
"properties": {
"command": {"type": "string"}
}
}
}
}
]
)
return response
技术深挖:1.5B 参数的门槛
虽然 3B 模型表现优异,但基准测试揭示了推理模型在 1.5B 参数左右存在一个 “智能底线”。像 DeepSeek-R1 1.5B 和 Qwen3.5 0.8B 这样的模型难以完成基础的工具序列,得分分别为 27.5 和 26.0。
更令人担忧的是谷歌 Lyria 系列的表现。Lyria 3 Pro 仅获得了 8.3 分,而 Lyria 3 Clip 竟然得分为 0。这些模型无法为智能体任务生成任何可运行的输出,凸显了它们在真实环境交互指令微调方面的巨大差距。
企业 AI 策略专业建议
- 不要默认选择最大的模型:对于内部 DevOps 智能体或自动 PR 审查器,像 SmolLM3 或 Phi-4-mini 这样的模型不仅速度更快,而且在此类特定基准测试中统计学上的准确率更高。
- 监控效率:基准测试将效率权重设为 30%。在生产环境中,一个需要 50 步才能完成另一个模型 5 步就能完成的任务的模型,在成本和延迟上都是巨大的负担。
- 使用聚合器:利用 n1n.ai 动态切换模型。如果任务需要大量的创意写作,使用 Claude;如果需要 12 轮的编程序列,请切换到 SmolLM3。
总结
Works With Agents 基准测试证明我们正在进入一个 “模型专业化” 的时代。通用单体模型的时代正受到高度优化、在智能体工作流中表现出色的中小型模型的挑战。SmolLM3 3B 和 Phi-4-mini 正在引领这一潮流,证明了对于编程智能体而言,规模不是瓶颈——执行逻辑才是。
在 n1n.ai 获取免费 API 密钥。