计算机视觉

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

模型评测2026年6月22日
PP-OCRv6 深度解析：支持 50 种语言的多尺度 OCR 模型（1.5M 至 34.5M 参数）
深入探讨百度 PaddleOCR 团队发布的 PP-OCRv6 模型，分析其在 Hugging Face 上的集成、多语言支持、以及从 1.5M 轻量级到 34.5M 高精度模型的架构演进与应用场景。
阅读全文 →
行业资讯2026年6月11日
Decart 发布 Oasis 3 世界模型可模拟真实驾驶场景
Decart 推出突破性的生成式世界模型 Oasis 3，能够通过 API 模拟长达数小时的交互式光影追踪级别驾驶环境，为自动驾驶开发带来范式变革。
阅读全文 →
行业资讯2026年5月20日
Google DeepMind 将街景数据整合至 Genie 世界模型
Google DeepMind 通过整合长达 15 年的街景数据，大幅提升了 Genie 世界模型的能力，使其能够生成可交互、可导航的 3D 真实城市环境，为机器人训练和模拟领域带来革命性突破。
阅读全文 →
模型评测2026年5月18日
PaddleOCR 3.5：基于 Transformers 后端的 OCR 与文档解析实践
深入探讨 PaddleOCR 3.5 的最新更新，重点介绍其与 Transformers 后端的集成、PP-OCRv4 的性能提升以及针对 RAG 流程的高性能文档解析能力。
阅读全文 →
模型评测2026年4月1日
IBM Granite 4.0 3B Vision：企业文档处理的紧凑型多模态智能
IBM 发布了 Granite 4.0 3B Vision，这是一款专门针对文档理解、无 OCR 数据提取和高效企业工作流优化的多模态模型。
阅读全文 →
AI教程2026年2月28日
使用 Gemini 进行视觉对象检测与编辑
深入探讨如何利用 Gemini 1.5 的多模态能力进行精确的对象检测、视觉定位以及自动化的图像编辑工作流。
阅读全文 →
行业资讯2026年2月21日
OpenAI 首款搭载摄像头与人脸识别的智能音箱
据报道，OpenAI 正在开发一款售价在 200 至 300 美元之间的智能音箱。该设备将配备先进的计算机视觉和类似 Face ID 的人脸识别系统，标志着 OpenAI 从软件向硬件集成 AI 的重大转型。
阅读全文 →
行业资讯2026年2月15日
Meta 智能眼镜或将增加面部识别功能 Name Tag
据报道，Meta 正在为其智能眼镜开发一项名为“Name Tag”的功能，允许用户通过 AI 助手和面部识别技术实时识别他人身份。
阅读全文 →
AI教程2026年1月12日
多模态视觉智能体自动提示词优化：以自动驾驶为例
本文深入探讨如何利用自动提示词优化 (APO) 技术提升自动驾驶视觉智能体的准确性，结合 Python 实战演练与 GPT 5.2 等前沿多模态模型。
阅读全文 →