NVIDIA AI-Q 在 DeepResearch Bench I 与 II 中取得第一名

大语言模型（LLM）的格局正在从简单的对话界面转向复杂、自主的研究智能体（Research Agents）。最近，NVIDIA AI-Q 在这一演进中脱颖而出，在 DeepResearch Bench I 和 II 中均获得了第一名。这一成就标志着“智能体化” AI 系统发展的一个重要里程碑——这些模型不仅能生成文本，还能主动浏览网页、执行代码，并综合大量冲突信息来解决多步研究问题。对于希望集成这些高性能能力的开发者和企业，n1n.ai 等平台提供了必要的 API 基础设施，以极低的延迟访问这些前沿模型。

什么是 DeepResearch Bench？

与 MMLU 或 GSM8K 等侧重于静态知识或数学推理的传统基准测试不同，DeepResearch Bench（由研究社区开发并在 Hugging Face 上展示）旨在评估智能体执行开放式、复杂研究任务的能力。这些任务通常要求模型具备以下能力：

制定搜索策略：将复杂的查询分解为更小的、可搜索的组件。
网页导航：使用浏览器工具寻找相关来源，通常需要穿梭于多个页面并过滤掉无关数据。
处理冲突信息：协调来自不同来源且可能相互矛盾的数据。
执行代码：使用 Python 进行数据分析或验证研究论文中的数学主张。
综合与报告：生成一份逻辑严密、引用充分的报告，全面回答原始查询。

NVIDIA AI-Q 在此基准测试中的成功，不仅源于其参数规模，更源于其复杂的推理架构。通过利用 n1n.ai，开发者可以借助类似的高性能模型，构建能够复制这种研究深度的智能体。

NVIDIA AI-Q 的核心架构

NVIDIA AI-Q 采用了一种被称为“智能体工作流”（Agentic Workflow）的多阶段推理循环。与试图一次性回答问题的“零样本”模型不同，AI-Q 采用了“计划-行动-反思”（Plan-Act-Reflect）循环。

计划阶段：模型创建研究任务的层级计划。如果查询是“分析量子计算对现代密码学的影响”，模型会识别出子话题，如 RSA 漏洞、格密码学以及当前的 NIST 标准。
行动阶段：模型与外部工具交互。这包括高保真网页浏览器和 Python 沙箱。它检索片段、下载 PDF 并运行脚本来验证数据。
反思阶段：这是 AI-Q 脱颖而出的关键。它会对自己的发现进行批判性评估。如果收集到的数据不足或存在矛盾，它会更新计划并返回行动阶段。

这种迭代过程使 AI-Q 能够克服许多模型面临的“瓶颈”——即 GPT-4o 或 DeepSeek-V3 等较简单模型可能会产生幻觉或仅提供浅显总结的地方。对于企业而言，保持这些循环的高速运行至关重要，这也是为什么来自 n1n.ai 的高吞吐量 API 正在成为智能体部署的行业标准。

性能对比：AI-Q 傲视群雄

DeepResearch Bench I 和 II 的结果显示，AI-Q 与其竞争对手之间存在明显差距。在“成功率”（无需人工干预完成任务的百分比）方面，AI-Q 在特定技术类别中的准确率甚至超过了 OpenAI 的 o3 模型。

模型	DeepResearch I (得分)	DeepResearch II (得分)	工具调用准确率
NVIDIA AI-Q	84.2	79.5	96.1%
OpenAI o3 (High)	81.5	77.2	94.8%
DeepSeek-V3	76.8	72.4	89.5%
Claude 3.5 Sonnet	74.1	68.9	91.2%

AI-Q 的统治地位在需要长上下文推理的任务中尤为明显。虽然许多模型在研究上下文超过 10 万个 token 时会表现吃力，但 AI-Q 依然保持了极高的检索准确性和逻辑一致性。这使其成为需要同时处理数千份文档的 RAG（检索增强生成）系统的理想选择。

如何构建你自己的研究智能体

要实现一个类似于 NVIDIA AI-Q 逻辑的研究智能体，开发者可以使用 Python 结合 LLM 聚合器。以下是使用 n1n.ai 提供的 OpenAI 兼容接口构建推理循环的概念性实现：

import openai

# 配置客户端以使用 n1n.ai 基础设施
client = openai.OpenAI(
    api_key="YOUR_N1N_API_KEY",
    base_url="https://api.n1n.ai/v1"
)

def research_agent(query):
    # 第一步：制定计划
    plan = client.chat.completions.create(
        model="nvidia-ai-q",
        messages=[{"role": "system", "content": "请为以下查询创建研究计划。"},
                  {"role": "user", "content": query}]
    )
    print(f"生成的计划: {plan.choices[0].message.content}")

    # 第二步：模拟工具调用与反思循环
    # 在实际场景中，这将涉及浏览器或代码执行
    for i in range(3): # 迭代反思循环
        response = client.chat.completions.create(
            model="nvidia-ai-q",
            messages=[{"role": "user", "content": f"根据新数据完善此研究: {plan.choices[0].message.content}"}]
        )
        if "COMPLETE" in response.choices[0].message.content:
            break

    return response.choices[0].message.content

# 示例用法
result = research_agent("H100 与 B200 GPU 的最新基准测试对比是什么？")
print(result)

高性能研究智能体的专家建议

延迟管理：研究智能体在每个任务中会执行多次 API 调用。如果每次调用的延迟都很高，总任务时间将变得不可接受。使用像 n1n.ai 这样的低延迟聚合器对于保持智能体的响应速度至关重要。
上下文窗口优化：不要将所有搜索结果全部塞进提示词中。使用“重排序”（Reranker）或摘要步骤，确保每个来源仅将最相关的 < 500 字发送给推理模型。
结构化输出：使用 JSON 模式确保智能体的计划和工具调用可以被后端逻辑解析。这可以防止智能体出现“文本漂移”，即智能体开始闲聊而不是执行动作。
成本控制：智能体工作流会迅速消耗数千个 token。通过集中式仪表板监控您的使用情况，以避免在大规模研究抓取过程中出现意外费用。

AI 研究的未来

NVIDIA AI-Q 在 DeepResearch Bench 上的成功预示着一个未来：AI 不再仅仅是一个写作助手，而是一个战略合作伙伴。随着模型在浏览开放网络和验证事实方面变得更加出色，瓶颈将从“获取信息”转向“推理质量”。NVIDIA 对结构化反思和高保真工具集成的关注，为整个行业树立了新标杆。

对于渴望开始构建的开发者来说，最重要的步骤是选择一个能够应对这些复杂需求的 API 供应商。无论您是在构建自动化市场研究工具还是技术文档助手，底层 LLM API 的可靠性都是您成功的基石。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://huggingface.co/blog/nvidia/how-nvidia-won-deepresearch-bench