模型评测2026年5月28日ITBench-AA 测试显示:前沿大模型在企业级 IT 自动化任务中得分均低于 50%Artificial Analysis 与 IBM 联合发布了 ITBench-AA 基准测试,结果显示即使是 GPT-4o 和 Claude 3.5 Sonnet 这样的一线大模型,在处理复杂的企业级 IT 智能体任务时,成功率也未能突破 50%。阅读全文 →