行业资讯2026年5月20日Google DeepMind 将街景数据整合至 Genie 世界模型Google DeepMind 通过整合长达 15 年的街景数据,大幅提升了 Genie 世界模型的能力,使其能够生成可交互、可导航的 3D 真实城市环境,为机器人训练和模拟领域带来革命性突破。阅读全文 →
模型评测2026年5月18日PaddleOCR 3.5:基于 Transformers 后端的 OCR 与文档解析实践深入探讨 PaddleOCR 3.5 的最新更新,重点介绍其与 Transformers 后端的集成、PP-OCRv4 的性能提升以及针对 RAG 流程的高性能文档解析能力。阅读全文 →
模型评测2026年4月1日IBM Granite 4.0 3B Vision:企业文档处理的紧凑型多模态智能IBM 发布了 Granite 4.0 3B Vision,这是一款专门针对文档理解、无 OCR 数据提取和高效企业工作流优化的多模态模型。阅读全文 →
行业资讯2026年2月21日OpenAI 首款搭载摄像头与人脸识别的智能音箱据报道,OpenAI 正在开发一款售价在 200 至 300 美元之间的智能音箱。该设备将配备先进的计算机视觉和类似 Face ID 的人脸识别系统,标志着 OpenAI 从软件向硬件集成 AI 的重大转型。阅读全文 →
行业资讯2026年2月15日Meta 智能眼镜或将增加面部识别功能 Name Tag据报道,Meta 正在为其智能眼镜开发一项名为“Name Tag”的功能,允许用户通过 AI 助手和面部识别技术实时识别他人身份。阅读全文 →
AI教程2026年1月12日多模态视觉智能体自动提示词优化:以自动驾驶为例本文深入探讨如何利用自动提示词优化 (APO) 技术提升自动驾驶视觉智能体的准确性,结合 Python 实战演练与 GPT 5.2 等前沿多模态模型。阅读全文 →