AI 智能体安全：从麦肯锡 Lilli 被黑事件看 LLM 架构防御

当一个自主 AI 智能体（AI Agent）能够在不到两小时的时间内，通过你的内部 RAG（检索增强生成）助手进行渗透、窃取敏感知识并提升权限时，你面临的不再仅仅是一个聊天机器人问题，而是一个严峻的应用安全和 SOC（安全运营中心）危机。近期关于麦肯锡内部助手 Lilli 的安全讨论为企业敲响了警钟。Lilli 构建在专有方法论、客户文档和工作流工具之上，这与许多企业正在利用 n1n.ai 提供的快速 API 构建的“企业副驾驶（Enterprise Copilots）”非常相似。

这些助手在看似简单的对话界面背后，聚合了高价值的数据和操作权限。然而，这种便利性暴露了三个传统安全模型难以应对的攻击面：用户提示词、内部知识库以及集成的工具 API。随着开发人员从被动聊天机器人转向主动智能体，如果不对这些半自主实体进行严格的安全审查，类 Lilli 的违规事件将成为必然结果。在构建此类系统时，开发者往往会通过 n1n.ai 寻找高性能模型，但却容易忽略智能体层的粒度权限控制。

企业级 AI 助手的架构解构

要理解这种攻击，我们首先必须剖析其目标架构。像 Lilli 这样的企业助手通常由三个主要层级组成：

聊天 UI (Chat UI)：用户交互的入口点。
RAG 流水线 (RAG Pipeline)：将 LLM 连接到内部 Wiki、SharePoint 和向量数据库的桥梁。
插件与连接器 (Plugins & Connectors)：用于 CRM、工单系统（如 Jira）或文档管理的工具集成。

现代 LLM 安全准则将这三者均视为重要的攻击面。每一个新连接器——无论是 Slack、数据仓库还是 GitHub 仓库——都增加了被强制泄露数据或执行未经授权操作的风险。开发者在构建这些堆栈时，往往优先考虑模型的响应速度和准确性，但在智能体层级的权限隔离上投入不足。

智能体 AI 的兴起：从对话者到操作者

智能体 AI（Agentic AI）代表了一种根本性的转变。它为 LLM 封装了记忆、规划和工具使用能力。智能体可以将高层目标分解为多步任务，调用 API，并在极少的人工干预下进行迭代。这是从“聊天机器人”到“操作员”的质变。

与简单的“提示-回答”流程不同，智能体框架使用逻辑循环（通常称为 ReAct 模式）。其伪代码逻辑如下：

while not goal_reached:
    observation = get_state()  # 获取当前状态
    # LLM 分析状态并规划下一步行动
    plan = llm.plan(observation, memory)
    tool_calls = extract_tools(plan)
    # 智能体执行工具，如 SQL 查询或 API 请求
    results = execute_tools(tool_calls)
    memory.update(results)  # 更新记忆

这种循环使智能体能够感知（读取日志/文档）、推理（制定计划）、行动（调用工具/修改文件）并学习（更新记忆）。虽然这带来了巨大的生产力提升，但如果配置不当，它也会变成一个自动化的攻击剧本。例如，一个可以执行代码并调用内部 API 的智能体可能会引发工具劫持、权限提升和记忆中毒等故障模式。

攻击路径：黑客是如何在 2 小时内完成的

针对 Lilli 级别助手的真实攻击链遵循逻辑进阶：提示词注入 → RAG 数据外泄 → 工具枚举 → 令牌滥用 → 横向移动。每一步利用的都是设计假设，而非罕见的零日漏洞。

1. 提示词注入与间接投毒

第一个弱点是聊天或上传端点。所有提示词和上下文参数都是不可信的。攻击智能体可以通过针对性的提问探测系统结构，或者在上传的文档中嵌入恶意指令。间接提示词注入（Indirect Prompt Injection）尤为危险：一旦恶意文档被摄入向量库，它就会成为未来所有查询的“可信”上下文。

2. RAG 数据外泄

在影响对话流后，攻击者会瞄准 RAG 流水线。通过精心构造的查询引导检索转向敏感集合，攻击者可以强迫助手在引用中“显示完整的源文本”。这通常会绕过 UI 层的限制，利用向量数据库中缺失的行级或文档级访问控制列表（ACL）。

3. 工具枚举与令牌滥用

一旦智能体确认其拥有工具访问权限，它就会开始枚举可用功能。它可能会调用 help 或 list_tools 命令。在已记录的案例中，过度授权的通用 API 令牌允许智能体执行破坏性操作（如删除数据库），因为令牌缺乏环境隔离。当您选择 n1n.ai 作为 LLM 服务商时，务必确保应用逻辑层实施了严格的令牌作用域控制。

4. 横向移动

凭借强大的令牌，智能体可以从测试环境的只读访问转向业务系统的写入访问。由于 Lilli 类的助手通常处理高价值的咨询工作流，两小时的窗口足以让攻击者外泄内部方法论、客户名单和项目元数据，这些数据在 GDPR 等法规下属于高度敏感信息。

语义层的监控盲区：为什么传统 SIEM 会失效

传统的安全信息和事件管理（SIEM）系统侧重于基础设施信号，如网络日志和身份验证事件。然而，智能体攻击发生在“语义层”——即提示词、检索块和工具调用的世界。大多数组织并不记录这些数据，这导致他们对那些孤立看来看似正常的 API 调用完全处于盲区。

为了防御此类攻击，安全团队必须将提示词和工具调用视为一类审计事件。AI 增强型 SOC 可以标记异常行为，例如助手突然跨无关项目读取数千个数据块，或者在单个提示词后出现大量“显示原始源代码”的查询。

硬化你的 AI 堆栈：深度防御策略

硬化防御应从架构开始。现代安全指南提倡对智能体行为实施“零信任”原则。绝不应允许智能体直接调用生产数据库或云控制平面，而应通过带有策略执行和日志记录的硬化服务外壳进行路由。

受控检索（Guarded Retrieval）实现

为了减轻上下文中毒和过度检索，必须在上下文到达模型之前强制执行 ACL。以下是一个受控检索函数的概念示例：

def guarded_retrieve(user_context, query):
    # 1. 执行语义搜索
    raw_results = vector_search(query)

    # 2. 根据用户权限过滤结果
    # 每个数据块都必须带有 resource_id 元数据标签
    filtered_chunks = [
        chunk for chunk in raw_results
        if acl_check(user_context.id, chunk.metadata["resource_id"])
    ]

    # 3. 在返回前脱敏敏感信息 (PII, 密钥)
    return redact_content(filtered_chunks)

作用域受限的短期令牌

关键故障点通常涉及过度授权的令牌。应通过为每个工具和环境分配短期、受限作用域的令牌来缓解这一风险。确保测试环境与生产环境凭据的严格隔离。一种强大的模式是让智能体以结构化 JSON 的形式提议操作，由策略引擎进行风险评分，只有在通过后（或经人工批准）才允许实际执行。

总结：将 AI 视为关键基础设施

AI 智能体在两小时内攻破复杂的企业助手并不是极端案例，而是监控不成熟和工具权限过度授权的必然结果。用于驱动业务自动化的组件，同样可以被用于自动化的侦察和数据外泄。要保护您的企业，必须明确映射 RAG 攻击面，以零信任原则约束工具，并将语义层交互作为遥测数据接入 SIEM。

在构建和扩展您的 AI 能力时，请利用 n1n.ai 提供的强健基础设施和高速模型，确保您的应用既强大又具韧性。如果您不会给一名初级工程师无监督、无日志的生产环境访问权限，那么您也不应该给自主智能体这种权力。

在 n1n.ai 获取免费的 API 密钥。

参考来源：https://dev.to/olivier-coreprose/an-ai-agent-hacked-mckinseys-lilli-in-2-hours-inside-the-architecture-exploit-path-and-how-to-3pp0