Anthropic 推出的 Claude Code 和 Cowork 现已支持自主控制计算机

人工智能的版图正在发生深刻变革，从单纯的被动对话界面转向能够执行复杂任务的辅助代理。Anthropic 最近通过更新其专业化工具 Claude Code 和 Cowork，再次推高了这一变革的上限。这些工具现在具备了自主控制用户计算机的能力。这一进展标志着大语言模型（LLM）在实际应用中的重大飞跃，使其从文本生成领域跨入到了“代理行动”（Agentic Action）的范畴。

通过利用 Claude 3.5 Sonnet 模型先进的推理和视觉能力，这些工具现在可以在无需人工干预的情况下执行诸如打开文件、导航网页浏览器以及运行开发环境等任务。对于希望将这些高性能模型集成到自己工作流中的开发者和企业，n1n.ai 提供了一个精简的 API 网关，能够以行业领先的稳定性和速度访问最新的 Claude 模型。

深入理解“计算机使用”（Computer Use）机制

此次更新的核心是“计算机使用”功能，该功能最初作为 Claude 3.5 Sonnet 模型的实验性预览版发布。与依赖特定软件 API 的传统集成方式不同，Claude 的计算机使用功能是通过“观察”屏幕来实现的。模型会频繁抓取屏幕截图，分析视觉布局，然后模拟人类的交互行为，如点击鼠标、敲击键盘和移动光标。

这种方法本质上比传统的自动化脚本更具灵活性。传统的脚本如果 UI 元素移动了几个像素可能就会失效，而 Claude 的视觉推理能力使其能够适应不断变化的界面。当你使用 Claude Code 时，你不仅是在给它一段文本指令，更是在给它一双虚拟的手来管理你的终端和集成开发环境（IDE）。

Claude Code 与 Cowork：两种不同的生产力路径

Anthropic 将其代理化产品分为两个独立的工具，以满足不同的专业需求：

Claude Code：这是一款专门为工程师设计的基于终端（Terminal）的工具。它可以导航复杂的代码库、运行测试、修复 Bug，甚至部署代码。它的角色更像是一个结对编程伙伴，不仅提供代码建议，还能实际执行整个开发生命周期。
Cowork：这是一款针对通用业务任务的更广泛的生产力工具。Cowork 可以与各种应用程序交互、管理电子邮件、在多个浏览器标签页中进行研究，并在不同的软件平台之间同步数据。

对于那些正在构建这些工具的自定义版本的开发者来说，使用像 n1n.ai 这样强大的聚合平台，可以确保你的应用程序拥有处理自主代理所需的高吞吐量视觉和文本 Token 的能力。

技术实现：底层架构一窥

为了理解 Claude 如何与计算机交互，我们可以查看模型所使用的“工具”（Tools）结构。当开发者通过 API 启用计算机使用功能时，会为模型提供一组预定义的函数。

以下是 Python 集成中工具定义的一个概念性示例：

# Claude 计算机使用工具的概念性表示
computer_tools = [
    {
        "name": "computer",
        "type": "computer_20241022",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 0
    },
    {
        "name": "text_editor",
        "type": "text_editor_20241022"
    },
    {
        "name": "bash",
        "type": "bash_20241022"
    }
]

其工作流程遵循严格的“推理-行动-观察”（Reason-Act-Observe）循环：

观察 (Observation)：模型接收屏幕截图和当前的元数据。
推理 (Reasoning)：模型确定下一个逻辑步骤（例如：“我需要点击‘保存’按钮”）。
行动 (Action)：模型输出一个工具调用指令（例如：mouse_click(x=450, y=200)）。
验证 (Verification)：再次抓取屏幕截图，以确认操作是否成功执行。

安全性与“人在回路”（Human-in-the-Loop）

允许 AI 控制计算机引发了显著的安全担忧。Anthropic 通过实施“权限优先”模型来解决这一问题。在执行涉及敏感数据或系统级更改的任务之前，Claude 会明确请求许可。用户还可以设置边界，将 AI 的活动限制在特定的目录或应用程序中。

此外，目前的发布版本仅限于 macOS 的研究预览版。这种受控的发布方式允许 Anthropic 在 Windows 或 Linux 系统更广泛发布之前，收集关于极端情况和潜在漏洞的数据。通过 n1n.ai 调用 Claude API 的开发者可以从这些内置的安全功能中受益，同时还能灵活地为特定企业需求构建自定义的防护栏。

性能对比：Claude 3.5 Sonnet vs. 竞品

在代理化任务领域，Claude 3.5 Sonnet 目前处于领先地位。以下是它与其它主流模型在基于视觉的自动化任务中的对比情况：

功能特性	Claude 3.5 Sonnet	GPT-4o	DeepSeek-V3
视觉准确度	极高 (针对 UI 优化)	高 (通用型)	中等
工具调用延迟	< 2.0s	< 1.8s	< 2.5s
原生计算机控制	是 (内置支持)	有限 (需第三方支持)	否
上下文窗口	200k Tokens	128k Tokens	128k Tokens
编程基准测试	顶级水平	优秀	优秀

最大化代理式 AI 效率的专业技巧

为了充分利用 Claude 的计算机使用能力，请考虑以下策略：

细粒度权限控制：不要授予完整的访问权限，而是使用环境变量将 AI 限制在“沙盒”环境中。这可以防止意外的文件删除或未经授权的网络请求。
高分辨率截图：模型的推理能力取决于它能“看”到什么。确保你的显示设置能为 UI 元素提供清晰的对比度。
API 调用优化：由于计算机使用涉及发送多张图像，Token 成本可能会迅速增加。使用 n1n.ai 可以让你监控使用情况，并通过具有竞争力的定价模型优化你的支出。

AI 工作流的未来

Claude 控制计算机的能力标志着“可行动 AI”（Actionable AI）时代的开始。我们正在告别将 LLM 视为简单咨询顾问的时代，转向将 LLM 视为数字员工。无论是自动化重复的数据录入，还是管理复杂的 CI/CD 流水线，其带来的生产力提升潜力都是巨大的。

随着这些工具的不断进化，人类意图与机器执行之间的界限将继续变薄。通过在今天集成这些能力，企业可以在日益自动化的世界中保持领先地位。通过 n1n.ai 接入这些顶尖模型，您将获得最稳定的开发保障。

Get a free API key at n1n.ai

参考来源：https://www.theverge.com/ai-artificial-intelligence/899430/anthropic-claude-code-cowork-ai-control-computer