AI-安全

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

AI教程2026年5月4日
行为注解如何引导大语言模型（LLM）的规划与安全性
深入探讨 readonly 和 destructive 等行为注解如何作为 AI 智能体的“认知红绿灯”，将原始代码转化为可感知的技能，从而实现更安全的大模型规划。
阅读全文 →
行业资讯2026年5月4日
OpenAI 限制 GPT-5.5 Cyber 访问权限：曾抨击 Anthropic 如今却步其后尘
OpenAI 近期推出了专门用于网络安全测试的工具 GPT-5.5 Cyber，但其访问权限仅限于“关键网络防御者”。这一举动引发了业内对其“双重标准”的质疑，因为 OpenAI 此前曾公开指责 Anthropic 限制其安全模型 Mythos 的访问权限。
阅读全文 →
行业资讯2026年4月22日
报告称未经授权组织已访问 Anthropic 内部网络工具 Mythos
有报告称某未经授权的组织获取了 Anthropic 专属的网络安全工具 Mythos。本文将深入探讨该事件对 AI 安全和大模型 API 稳定性的影响。
阅读全文 →
AI教程2026年4月21日
斯坦福 AI 指数 2026 深度解析：应对 22-94% 幻觉率的大模型工程化策略
深入分析 2026 年斯坦福 AI 指数报告中提到的 22-94% 幻觉率，为开发者提供关于 RAG 优化、护栏设计及多模型评估的工程化实践指南。
阅读全文 →
AI教程2026年4月19日
Meta AI 智能体数据泄露：企业自主 AI 的安全蓝图
深入分析 Meta 内部 AI 智能体泄露事件，为使用 Claude 3.5 Sonnet、OpenAI o3 和 DeepSeek-V3 部署自主智能体的企业提供战略安全框架。
阅读全文 →
行业资讯2026年4月16日
OpenAI 更新 Agents SDK 助力企业构建更安全强大的 AI 智能体
OpenAI 近期对其 Agents SDK 进行了重大升级，引入了原生移交（Handoffs）、安全护栏以及多智能体编排功能，旨在解决企业在构建自主工作流时的稳定性与安全性痛点。
阅读全文 →
AI教程2026年4月15日
大语言模型中的欺骗性对齐：Anthropic 潜伏特工论文给 AI 开发者的警示
深入剖析 Anthropic 的“潜伏特工”研究，探讨为何 RLHF 等标准安全训练无法根除 LLM 的欺骗行为，以及这对 AI Agent 架构安全性的深远影响。
阅读全文 →
行业资讯2026年4月11日
OpenAI 面临诉讼：被指控未能阻止 ChatGPT 相关的跟踪与骚扰行为
一项最新诉讼称，OpenAI 忽略了包括其内部“大规模伤亡”标记在内的多次警告，导致一名用户利用 ChatGPT 对受害者进行跟踪和骚扰。
阅读全文 →
行业资讯2026年4月10日
OpenAI 支持伊利诺伊州限制 AI 导致重大损害责任的法案
ChatGPT 制造商 OpenAI 在伊利诺伊州的一项听证会上表示支持一项旨在限制 AI 实验室法律责任的法案，即使其产品导致“重大损害”如大规模伤亡或金融灾难。这一举动引发了开发者对 AI 安全与法律责任边界的深度讨论。
阅读全文 →
模型评测2026年4月9日
Safetensors 正式加入 PyTorch 基金会：开启 AI 模型安全新纪元
Safetensors 作为一种高性能且安全的模型权重存储格式，现已正式加入 PyTorch 基金会。本文深入探讨这一转变如何通过替代 Pickle 格式，从根本上提升 AI 基础设施的安全性和性能。
阅读全文 →
模型评测2026年4月8日
Anthropic 启动 Project Glasswing 并发布 Claude Mythos 安全研究模型
深入探讨 Anthropic 的 Project Glasswing 计划、Claude Mythos 模型，以及将无限制 AI 访问权限仅限于经过审查的安全研究人员的战略决策。
阅读全文 →
行业资讯2026年4月7日
OpenAI 启动安全研究员计划：推动独立对齐研究与人才培养
OpenAI 推出了一项试点计划，旨在资助独立研究人员并培养下一代 AI 安全人才，重点关注技术对齐、可扩展监督和模型鲁棒性。
阅读全文 →