基准测试结果：SmolLM3 3B 与 Phi-4-mini 在智能体编程测试中领跑

长期以来，大型语言模型 (LLM) 领域一直被 “规模即正义” 的哲学所主导。然而，Works With Agents 智能体编程基准测试的第二轮结果彻底颠覆了这一叙事。在这次涉及 32 个模型的全面测试中（较最初的 10 个模型大幅增加），结果令开发者社区感到震惊。来自 Hugging Face 的 30 亿参数模型 SmolLM3 3B 不仅仅是参与了竞争，它以 93.3 的高分占据了统治地位，将 Claude Sonnet 4 以及各种 GPT-5 迭代版本远远抛在身后。

对于希望将这些高性能模型集成到生产环境中的开发者来说，n1n.ai 提供了一个统一的 API，可以访问具有行业领先稳定性的最新小型和大型语言模型。这种向用于特定任务（如智能体编程）的 “小型语言模型” (SLM) 的转变表明，效率和架构重点可能比原始参数数量更为关键。

小巨人的崛起：基准测试概览

基准测试结果凸显了一个令人惊讶的趋势：排行榜的前列挤满了可以在现代笔记本电脑上流畅运行的模型。SmolLM3 3B 摘得金牌，紧随其后的是微软的 Phi-4-mini。甚至 Qwen2.5 的变体（1.5B 和 3B）也成功地与大得多的 Claude Sonnet 4 打成了平手。

排名	模型	分数
🥇	SmolLM3 3B	93.3
🥈	Phi-4-mini	90.0
🥉	Claude Sonnet 4	85.0
4	Qwen2.5 1.5B	85.0
5	Qwen2.5 3B	85.0
6	Granite 3.2 2B	82.5
7	Ministral 3B	81.7
8	Mistral Large 3	79.6
9	Gemma 4 31B	78.3
10	Gemma 4 26B A4B	78.3

为什么小型模型在智能体编程中胜出

智能体编程 (Agentic Coding) 与标准的基准代码补全有本质不同。它要求模型在循环中运行，处理多文件编辑、执行 Shell 命令并从自身的错误中恢复。Works With Agents 基准测试通过 12 轮严格的测试来评估模型，重点关注：

多文件编辑：在目录结构中修改 Python 脚本和 Shell 文件。
Git 操作：自主执行 clone、branch 和 commit。
Shell 命令执行：与操作系统交互以运行测试或构建脚本。
Bash 脚本编写：使用复杂的管道和重定向（例如 grep | awk | sed）。
错误恢复：能够查看回溯 (traceback) 并在无需人工干预的情况下修复代码。

像 SmolLM3 3B 这样的小型模型似乎拥有一种指令遵循的 “纯度”，而大型模型往往因为过度对齐 (Over-alignment) 或过多的 “推理” 步骤而失去这种纯度，从而在工具调用序列中导致幻觉。当您使用 n1n.ai 来编排这些模型时，您可以以远低于前沿模型成本的价格利用这种高效性。

“Pro” 变体的失败分析

最令人吃惊的发现之一是 “Pro” 和 “Large” 变体与其 “Flash” 或 “Mini” 版本相比表现不佳。

模型	分数
Claude Sonnet 4	85.0
Gemini 2.5 Flash	76.4
GPT-5.4	76.6
Grok 4.20	75.0
DeepSeek V4 Flash	60.0
GPT-5.4 Pro	51.6
DeepSeek V4 Pro	38.3

DeepSeek V4 Pro 尽管拥有庞大的参数量，但仅获得了惨淡的 38.3 分，而其 Flash 变体则获得了 60.0 分。同样，GPT-5.5 Pro 和 GPT-5.4 Pro 的表现都大幅低于其基础模型。这表明大型模型中的 “推理” 开销实际上可能阻碍了它们高效执行直接工具调用的能力。它们经常 “过度思考” 解决方案，导致产生不必要的步骤，从而在效率得分（占基准测试总权重的 30%）上被扣分。

实施指南：使用 SmolLM3 构建智能体

要通过 n1n.ai 使用像 SmolLM3 3B 这样高分的模型实现智能体，您需要专注于系统提示词 (System Prompt) 和工具定义结构。以下是初始化编程智能体循环的 Python 示例。

import openai

# 配置 n1n.ai API 访问
client = openai.OpenAI(
    base_url="https://api.n1n.ai/v1",
    api_key="YOUR_N1N_API_KEY"
)

def run_agent_task(prompt):
    messages = [
        {"role": "system", "content": "你是一个编程智能体。使用 Shell 工具解决问题。请保持简洁。"},
        {"role": "user", "content": prompt}
    ]

    # 使用 SmolLM3 3B 以获得高效率
    response = client.chat.completions.create(
        model="smollm3-3b",
        messages=messages,
        tools=[
            {
                "type": "function",
                "function": {
                    "name": "execute_shell",
                    "parameters": {
                        "type": "object",
                        "properties": {
                            "command": {"type": "string"}
                        }
                    }
                }
            }
        ]
    )
    return response

技术深挖：1.5B 参数的门槛

虽然 3B 模型表现优异，但基准测试揭示了推理模型在 1.5B 参数左右存在一个 “智能底线”。像 DeepSeek-R1 1.5B 和 Qwen3.5 0.8B 这样的模型难以完成基础的工具序列，得分分别为 27.5 和 26.0。

更令人担忧的是谷歌 Lyria 系列的表现。Lyria 3 Pro 仅获得了 8.3 分，而 Lyria 3 Clip 竟然得分为 0。这些模型无法为智能体任务生成任何可运行的输出，凸显了它们在真实环境交互指令微调方面的巨大差距。

企业 AI 策略专业建议

不要默认选择最大的模型：对于内部 DevOps 智能体或自动 PR 审查器，像 SmolLM3 或 Phi-4-mini 这样的模型不仅速度更快，而且在此类特定基准测试中统计学上的准确率更高。
监控效率：基准测试将效率权重设为 30%。在生产环境中，一个需要 50 步才能完成另一个模型 5 步就能完成的任务的模型，在成本和延迟上都是巨大的负担。
使用聚合器：利用 n1n.ai 动态切换模型。如果任务需要大量的创意写作，使用 Claude；如果需要 12 轮的编程序列，请切换到 SmolLM3。

总结

Works With Agents 基准测试证明我们正在进入一个 “模型专业化” 的时代。通用单体模型的时代正受到高度优化、在智能体工作流中表现出色的中小型模型的挑战。SmolLM3 3B 和 Phi-4-mini 正在引领这一潮流，证明了对于编程智能体而言，规模不是瓶颈——执行逻辑才是。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://dev.to/vystartasv/benchmark-results-smollm3-3b-phi-4-mini-deepseek-v4-grok-420-agent-coding-tested-4p3n