Anthropic 收购计算机使用 AI 初创公司 Vercept 以增强 Claude 智能体能力

作者
  • avatar
    姓名
    Nino
    职业
    Senior Tech Editor

人工智能的版图正在发生根本性的变化:从单纯的“对话”转向“行动”。为了巩固其在“计算机使用(Computer Use)”领域的领先地位,Anthropic 最近完成了对 Vercept 的收购。Vercept 是一家位于西雅图的初创公司,以其复杂的智能体(Agentic)工具而闻名。这次收购发生在一场备受关注的人才争夺战之后——在此之前,Meta 成功挖走了 Vercept 的一位创始人,这再次印证了业界对能够构建大型动作模型(LAM)的顶尖工程师的极度渴求。

Vercept 的核心技术围绕着能够像人类操作笔记本电脑一样导航桌面环境的智能体展开。这包括移动光标、点击按钮、输入文本以及在不同应用程序之间执行复杂的多步工作流。通过整合 Vercept 的知识产权和留任团队,Anthropic 旨在进一步优化 Claude 3.5 Sonnet 的“计算机使用”功能,将其打造为企业自动化的首选方案。对于希望体验这些前沿功能的开发者,可以通过 n1n.ai 平台轻松调用最新的 Anthropic 模型,享受统一且稳定的 API 服务。

“计算机使用”能力的战略意义

在过去的两年里,大语言模型(LLM)大多被局限在对话框中。虽然 RAG(检索增强生成)和 LangChain 等框架帮助模型连接了外部数据,但如何与陈旧的遗留软件(Legacy Software)交互依然是一个瓶颈。Vercept 的解决方案是将图形用户界面(GUI)视为一系列视觉令牌(Visual Tokens)和坐标。这意味着 AI 不再需要 API 接口,它只需要“看”屏幕就能操作任何软件。

当我们将 Anthropic 的路径与 OpenAI 或 Google 进行对比时,可以发现明显的差异。OpenAI 目前侧重于通过 o1 或即将推出的 o3 模型来提升逻辑推理能力,而 Anthropic 则在实用性上加倍下注。收购 Vercept 预示着下一代 Claude 将不仅限于建议代码或撰写邮件,它将能够主动管理您的 CRM 系统、更新复杂的电子表格,甚至在没有人工干预的情况下在 Slack 和 Jira 之间进行协调。开发者可以通过 n1n.ai 获取这些具备强大执行力的模型能力。

技术深度解析:从 LLM 到 LAM 的演进

构建一个能够使用计算机的智能体,其难度指数级高于构建一个聊天机器人。这需要多个层面的技术突破:

  1. 视觉感知(Visual Perception):模型必须实时解析屏幕截图。这涉及到识别 UI 元素(如按钮、输入框),即使这些元素在底层代码中没有明确的标签。
  2. 坐标映射(Coordinate Mapping):将高层意图(例如“提交发票”)转化为精确的鼠标点击 (x, y) 坐标。这需要极高的像素级精度。
  3. 错误恢复(Error Recovery):如果弹出了意外窗口或页面加载失败,智能体必须能够通过推理绕过障碍,而不是陷入死循环。对于开发者而言,使用 n1n.ai 提供的 API 聚合服务,可以确保在推理过程中获得极低的延迟,这对于实时错误处理至关重要。
  4. 长序列推理:操作计算机通常涉及数十个步骤,模型必须保持长期的上下文记忆,以确保任务不会中途“跑偏”。

开发者指南:如何调用 Claude 的计算机使用功能

实现这些功能时,开发者通常需要使用 Anthropic 提供的特定工具调用(Tool Calling)架构。以下是一个基于 Python 的概念性示例,展示了如何构建一个基础的计算机操作智能体。为了保证生产环境的稳定性,建议通过 n1n.ai 访问 API,以获得更优的网络路由和负载均衡。

import anthropic

# 通过 n1n.ai 代理初始化客户端,以增强连接稳定性
client = anthropic.Anthropic(api_key="YOUR_N1N_API_KEY", base_url="https://api.n1n.ai/v1")

def execute_agent_task(prompt):
    # 使用具备计算机使用能力的 Claude 3.5 Sonnet 模型
    response = client.beta.messages.create(
        model="claude-3-5-sonnet-20241022",
        max_tokens=2048,
        tools=[{
            "type": "computer_20241022",
            "name": "computer",
            "display_width_px": 1920,
            "display_height_px": 1080,
        }],
        messages=[{"role": "user", "content": prompt}],
        betas=["computer-use-2024-10-22"]
    )
    return response

# 示例任务:"打开浏览器,访问公司内网,下载上个月的销售报表并保存为 PDF。"

行业对比:Anthropic 与竞争对手

维度Anthropic (Vercept)OpenAI (Operator)Microsoft (Copilot)
核心技术视觉 GUI 交互浏览器环境智能体OS 级系统集成
主力模型Claude 3.5 SonnetGPT-4o / o1GPT-4o 定制版
响应延迟中等(视觉处理开销)较低(基于 DOM)低(原生集成)
通用性极高(支持任何应用)中等(仅限 Web)高(仅限 Windows)
API 可用性可通过 n1n.ai 获取限量内测仅限企业客户

专业建议:安全性与沙箱环境

赋予 AI 控制计算机的权限伴随着巨大的安全风险。在部署由 Vercept 技术驱动的智能体时,开发者必须遵循严格的“人机协作(HITL)”协议:

  • 临时环境(Ephemeral Environments):务必在 Docker 容器或一次性虚拟机中运行计算机使用智能体。绝不要在没有沙箱保护的情况下让智能体访问您的主操作系统。
  • 权限最小化:仅授予智能体完成任务所需的最小权限。例如,如果任务只是处理 Excel,就不应赋予其访问系统设置的权限。
  • 实时审计:使用屏幕录制工具记录智能体的所有操作,以便在出现问题时进行回溯分析。通过 n1n.ai 的管理后台,您也可以监控 API 的调用频率,防止异常行为。

市场展望:AI 员工时代的到来

尽管 Meta 尝试通过挖角来阻挠,但 Anthropic 对 Vercept 的成功收购证明了“智能体时代”已经正式开启。我们正在从“AI 作为顾问”转向“AI 作为员工”。对于初创企业和大型公司来说,自动化的门槛正在大幅降低。您不再需要 50 人的工程团队来开发自动化脚本,您只需要一个强大的模型和一个可靠的 API 网关。

利用 n1n.ai,开发者可以轻松对比 Claude 3.5 Sonnet 与 DeepSeek-V3 或 GPT-4o 在处理特定 UI 任务时的表现。这种多模型策略是 2025 年构建稳健 AI 应用的关键所在。

总而言之,Anthropic 吸收 Vercept 的专业知识后,很可能会推出一个比以往任何时候都更“了解”数字世界的 Claude 版本。无论是填写复杂的表单、导航复杂的 ERP 系统,还是执行跨应用的数据迁移,工作的未来正在被一个接一个的点击所自动化。

Get a free API key at n1n.ai