行业资讯2026年2月20日Google Gemini 3.1 Pro 刷新基准测试纪录:重新定义复杂任务处理谷歌最新的 Gemini Pro 模型再次打破了 AI 基准测试纪录,在长文本推理和多模态处理方面展现出前所未有的能力。Gemini 3.1 Pro 旨在处理更为复杂的企业级工作流。阅读全文 →
模型评测2026年2月19日企业级 AI 智能体为何失败:IBM 与伯克利 IT-Bench 及 MAST 研究深度解析IBM 与加州大学伯克利分校的研究人员推出了 IT-Bench 和 MAST 框架,旨在诊断自主智能体在企业环境中的失败原因,揭示了工具调用和长程规划中的关键缺陷。阅读全文 →
行业资讯2026年2月18日Anthropic 发布 Claude 4.6 Sonnet 显著提升智能与速度Anthropic 延续其四个月一次的更新节奏,正式发布了 Claude 4.6 Sonnet 模型。该版本在代码生成、逻辑推理及多模态处理方面实现了质的飞跃,同时保持了中型模型在速度与成本上的极致平衡。阅读全文 →
行业资讯2026年1月28日Anthropic 据报寻求以 3000 亿美元估值融资 200 亿美元AI 巨头 Anthropic 据传正在洽谈一轮高达 200 亿美元的融资,其估值可能突破 3000 亿美元,这标志着大模型竞争格局的又一次重大飞跃。阅读全文 →
行业资讯2026年1月24日AI 智能体能否胜任职场工作?最新基准测试揭示模型局限性针对咨询、金融和法律行业的最新 AI 表现研究显示,大模型在处理实际白领任务时存在显著差距。本文深入探讨技术瓶颈及开发者优化策略。阅读全文 →
模型评测2026年1月22日AssetOpsBench:弥合 AI Agent 基准测试与工业现实之间的鸿沟深入探讨 AssetOpsBench,这是一个专门为测试工业环境下的大模型智能体(LLM Agents)而设计的基准测试。本文分析了工业 AI 落地面临的挑战,并展示了如何通过 n1n.ai 调用顶级模型来提升工业自动化水平。阅读全文 →