模型评测2026年5月18日深度解析 Open Agent Leaderboard 智能体排行榜深入探讨 Hugging Face 发布的 Open Agent Leaderboard,评估 DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o 等顶尖大模型在复杂多步智能体任务中的表现。阅读全文 →