基准测试结果:SmolLM3 3B 与 Phi-4-mini 在智能体编程测试中领跑

作者
  • avatar
    姓名
    Nino
    职业
    Senior Tech Editor

长期以来,大型语言模型 (LLM) 领域一直被 “规模即正义” 的哲学所主导。然而,Works With Agents 智能体编程基准测试的第二轮结果彻底颠覆了这一叙事。在这次涉及 32 个模型的全面测试中(较最初的 10 个模型大幅增加),结果令开发者社区感到震惊。来自 Hugging Face 的 30 亿参数模型 SmolLM3 3B 不仅仅是参与了竞争,它以 93.3 的高分占据了统治地位,将 Claude Sonnet 4 以及各种 GPT-5 迭代版本远远抛在身后。

对于希望将这些高性能模型集成到生产环境中的开发者来说,n1n.ai 提供了一个统一的 API,可以访问具有行业领先稳定性的最新小型和大型语言模型。这种向用于特定任务(如智能体编程)的 “小型语言模型” (SLM) 的转变表明,效率和架构重点可能比原始参数数量更为关键。

小巨人的崛起:基准测试概览

基准测试结果凸显了一个令人惊讶的趋势:排行榜的前列挤满了可以在现代笔记本电脑上流畅运行的模型。SmolLM3 3B 摘得金牌,紧随其后的是微软的 Phi-4-mini。甚至 Qwen2.5 的变体(1.5B 和 3B)也成功地与大得多的 Claude Sonnet 4 打成了平手。

排名模型分数
🥇SmolLM3 3B93.3
🥈Phi-4-mini90.0
🥉Claude Sonnet 485.0
4Qwen2.5 1.5B85.0
5Qwen2.5 3B85.0
6Granite 3.2 2B82.5
7Ministral 3B81.7
8Mistral Large 379.6
9Gemma 4 31B78.3
10Gemma 4 26B A4B78.3

为什么小型模型在智能体编程中胜出

智能体编程 (Agentic Coding) 与标准的基准代码补全有本质不同。它要求模型在循环中运行,处理多文件编辑、执行 Shell 命令并从自身的错误中恢复。Works With Agents 基准测试通过 12 轮严格的测试来评估模型,重点关注:

  1. 多文件编辑:在目录结构中修改 Python 脚本和 Shell 文件。
  2. Git 操作:自主执行 clone、branch 和 commit。
  3. Shell 命令执行:与操作系统交互以运行测试或构建脚本。
  4. Bash 脚本编写:使用复杂的管道和重定向(例如 grep | awk | sed)。
  5. 错误恢复:能够查看回溯 (traceback) 并在无需人工干预的情况下修复代码。

像 SmolLM3 3B 这样的小型模型似乎拥有一种指令遵循的 “纯度”,而大型模型往往因为过度对齐 (Over-alignment) 或过多的 “推理” 步骤而失去这种纯度,从而在工具调用序列中导致幻觉。当您使用 n1n.ai 来编排这些模型时,您可以以远低于前沿模型成本的价格利用这种高效性。

“Pro” 变体的失败分析

最令人吃惊的发现之一是 “Pro” 和 “Large” 变体与其 “Flash” 或 “Mini” 版本相比表现不佳。

模型分数
Claude Sonnet 485.0
Gemini 2.5 Flash76.4
GPT-5.476.6
Grok 4.2075.0
DeepSeek V4 Flash60.0
GPT-5.4 Pro51.6
DeepSeek V4 Pro38.3

DeepSeek V4 Pro 尽管拥有庞大的参数量,但仅获得了惨淡的 38.3 分,而其 Flash 变体则获得了 60.0 分。同样,GPT-5.5 Pro 和 GPT-5.4 Pro 的表现都大幅低于其基础模型。这表明大型模型中的 “推理” 开销实际上可能阻碍了它们高效执行直接工具调用的能力。它们经常 “过度思考” 解决方案,导致产生不必要的步骤,从而在效率得分(占基准测试总权重的 30%)上被扣分。

实施指南:使用 SmolLM3 构建智能体

要通过 n1n.ai 使用像 SmolLM3 3B 这样高分的模型实现智能体,您需要专注于系统提示词 (System Prompt) 和工具定义结构。以下是初始化编程智能体循环的 Python 示例。

import openai

# 配置 n1n.ai API 访问
client = openai.OpenAI(
    base_url="https://api.n1n.ai/v1",
    api_key="YOUR_N1N_API_KEY"
)

def run_agent_task(prompt):
    messages = [
        {"role": "system", "content": "你是一个编程智能体。使用 Shell 工具解决问题。请保持简洁。"},
        {"role": "user", "content": prompt}
    ]

    # 使用 SmolLM3 3B 以获得高效率
    response = client.chat.completions.create(
        model="smollm3-3b",
        messages=messages,
        tools=[
            {
                "type": "function",
                "function": {
                    "name": "execute_shell",
                    "parameters": {
                        "type": "object",
                        "properties": {
                            "command": {"type": "string"}
                        }
                    }
                }
            }
        ]
    )
    return response

技术深挖:1.5B 参数的门槛

虽然 3B 模型表现优异,但基准测试揭示了推理模型在 1.5B 参数左右存在一个 “智能底线”。像 DeepSeek-R1 1.5B 和 Qwen3.5 0.8B 这样的模型难以完成基础的工具序列,得分分别为 27.5 和 26.0。

更令人担忧的是谷歌 Lyria 系列的表现。Lyria 3 Pro 仅获得了 8.3 分,而 Lyria 3 Clip 竟然得分为 0。这些模型无法为智能体任务生成任何可运行的输出,凸显了它们在真实环境交互指令微调方面的巨大差距。

企业 AI 策略专业建议

  1. 不要默认选择最大的模型:对于内部 DevOps 智能体或自动 PR 审查器,像 SmolLM3 或 Phi-4-mini 这样的模型不仅速度更快,而且在此类特定基准测试中统计学上的准确率更高。
  2. 监控效率:基准测试将效率权重设为 30%。在生产环境中,一个需要 50 步才能完成另一个模型 5 步就能完成的任务的模型,在成本和延迟上都是巨大的负担。
  3. 使用聚合器:利用 n1n.ai 动态切换模型。如果任务需要大量的创意写作,使用 Claude;如果需要 12 轮的编程序列,请切换到 SmolLM3。

总结

Works With Agents 基准测试证明我们正在进入一个 “模型专业化” 的时代。通用单体模型的时代正受到高度优化、在智能体工作流中表现出色的中小型模型的挑战。SmolLM3 3B 和 Phi-4-mini 正在引领这一潮流,证明了对于编程智能体而言,规模不是瓶颈——执行逻辑才是。

n1n.ai 获取免费 API 密钥。