多模态 AI

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

行业资讯2026年7月9日
探索 GPT-Live：实时语音交互的新纪元
深入剖析 OpenAI 推出的原生多模态语音模型 GPT-Live，探讨其技术架构、低延迟优势以及开发者如何通过 n1n.ai 平台高效集成这一尖端技术。
阅读全文 →
行业资讯2026年6月30日
Apple Vision Pro 负责人加入 OpenAI 领导硬件开发
原 Apple 公司负责 Vision Pro 工程设计的副总裁 Paul Meade 据报道已加盟 OpenAI，负责领导其神秘的硬件团队。这一举动标志着 OpenAI 正式进军硬件领域，试图将 LLM 能力与实体设备深度融合。
阅读全文 →
AI教程2026年6月26日
谷歌 Gemini 3 正式发布：开启原生多模态智能的新纪元
谷歌正式发布 Gemini 3，凭借原生跨模态理解能力、MTP-Drafter 加速技术以及顶级的编程性能，重新定义了前沿大模型的标准。
阅读全文 →
模型评测2026年6月5日
Nemotron 3.5 内容安全指南：企业级多模态 AI 防护方案
深入探讨 NVIDIA 发布的 Nemotron 3.5 Content Safety 模型，了解其如何为企业级 LLM 部署提供可定制、高性能的多模态安全防护。
阅读全文 →
模型评测2026年6月4日
ScreenAI：一种用于 UI 和视觉语言理解的视觉语言模型
深入评测 Google 推出的 ScreenAI 模型，这是一个拥有 50 亿参数的视觉语言模型，通过灵活的分块策略和 LLM 驱动的数据生成技术，在 UI 界面和信息图表理解方面达到了业界领先水平。
阅读全文 →
行业资讯2026年5月24日
谷歌 Gemini 驱动的 AI 眼镜与 Android XR 的未来
谷歌最近展示了其集成了 Gemini AI 的 Android XR 眼镜原型，承诺实现翻译、导航和视觉搜索直接叠加在现实世界中的未来体验。
阅读全文 →
AI教程2026年5月20日
在 Amazon EKS 上部署多阶段多模态推荐系统
本指南详细介绍了如何利用 Kubernetes、布隆过滤器和向量数据库构建、扩展并部署生产级的多模态推荐引擎。
阅读全文 →
行业资讯2026年5月12日
Mira Murati 的 Thinking Machines 及其交互模型的演进
前 OpenAI CTO Mira Murati 创立的新公司 Thinking Machines 正在开发“交互模型”——这是一种从回合制对话向持续、实时多模态协作的范式转变。
阅读全文 →
AI教程2026年5月6日
部署 Gemma 4 MTP 与多模态 AI 本地化指南
深度解析 Google Gemma 4 的多 Token 预测技术、Microsoft VibeVoice 的 C++ 移植版以及 Ollama 离线桌面层，助力开发者构建高效本地 AI 生态。
阅读全文 →
AI教程2026年4月28日
Google Gemma 4：开发者最实用的开源模型深度指南
深入探讨谷歌最新发布的 Gemma 4 开源模型系列。分析其在多模态支持、结构化输出、代理工作流以及边缘侧部署方面的技术优势，并探讨其 Apache 2.0 协议对开发者生态的重大意义。
阅读全文 →
模型评测2026年4月17日
使用 Sentence Transformers 训练与微调多模态嵌入及重排序模型
深入探讨如何利用 Sentence Transformers v3 训练最先进的多模态嵌入和重排序模型，适用于视觉搜索和 RAG 应用场景。
阅读全文 →
AI教程2026年4月8日
深度解析 Deep Agents v0.5：实现异步子智能体与多模态工作流
深入探讨 Deep Agents v0.5 的最新更新，包括非阻塞子智能体委派、增强的多模态文件系统支持，以及如何利用高性能 LLM API 扩展智能体工作流。
阅读全文 →