深度解析 Anthropic 评估 AI 对就业市场影响的方法论

人工智能与劳动力市场的交汇点已不再是遥远的未来，而是一个正在迅速演变的现实。2023 年，Claude 系列模型的开发商 Anthropic 发布了一项具有里程碑意义的研究，探讨了大语言模型（LLM）在数千个职业类别中的“理论能力”。与以往仅关注 GPT-4 等模型当时能力的研究所不同，Anthropic 的研究引入了一个极具启发性的变量：“预期的 LLM 驱动软件”（Anticipated LLM-powered software）。通过预测这些模型最终将如何集成到专业工具中，该研究描绘了一幅 AI 在劳动力中扮演的更具变革性的图景。

为了理解工作的未来，开发者和企业必须首先理解这些能力是如何被衡量的。在 n1n.ai，我们提供基础设施，利用 Claude 3.5 Sonnet 和 DeepSeek-V3 等最新模型来测试这些理论极限。本文将深入分析 Anthropic 研究背后的方法论，并为实现他们所预期的那种“软件”提供技术路线图。

LLM 研究中的“暴露度”（Exposure）概念

在 Anthropic 的研究背景下，使用的主要衡量指标是 暴露度（Exposure）。这并不一定意味着职业被取代或自动化；相反，它指的是 LLM 是否能在不降低质量的前提下，显著减少完成特定任务所需的时间。

Anthropic 将暴露度分为三个不同的等级：

直接暴露（Direct Exposure）：LLM 可以在极少的人工干预下完成任务。
工具辅助暴露（Tool-Assisted Exposure）：当 LLM 集成到专业软件（例如具备 RAG 能力的法律研究工具）中时，可以完成任务。
无暴露（No Exposure）：需要物理存在或高度专业的手动灵巧度的任务。

2023 年这项研究中最具争议的方面是它对中间类别的依赖。Anthropic 的研究人员假设，LLM 的真正力量不会通过聊天界面释放，而是通过高度专业化的垂直软件。这正是 n1n.ai 发挥作用的地方，它提供统一的 API，用于在不同的模型供应商之间构建这些复杂的“预期软件”层。

为什么“预期软件”至关重要

当 Anthropic 进行这项研究时，Claude 2 等模型代表了当时的最高水平。然而，研究人员深知，纯模型的性能只是成功的一半。为了衡量理论能力，他们假设存在能够实现以下功能的软件：

管理长上下文：处理 100k+ token，以处理整个法律案件或代码库。
执行多步推理：将复杂目标分解为可执行的子任务。
与外部 API 交互：超越文本生成，转向以行动为导向的工作流。

今天，这些“预期”的功能在通过 n1n.ai 提供的模型中已成为标准。例如，Claude 3.5 Sonnet 使用工具和直接操作 Artifacts 的能力，完美契合了 2023 年研究中的假设。理论能力与实际应用之间的差距正在缩小，但这需要强大的 API 管理能力来实现规模化。

技术实践：填补鸿沟

为了复制研究中提到的“预期软件”，开发者需要实现的不仅仅是一个简单的提示词（Prompt）。他们需要一个能够处理重试、负载均衡和模型回退（Fallback）的系统。以下是一个 Python 示例，展示了如何使用 n1n.ai 平台构建一个任务评估引擎，以评估任务的自动化潜力。

import requests
import json

def evaluate_task_exposure(task_description):
    api_key = "YOUR_N1N_API_KEY"
    url = "https://api.n1n.ai/v1/chat/completions"

    payload = {
        "model": "claude-3-5-sonnet",
        "messages": [
            {
                "role": "system",
                "content": "你是一位劳动经济学和 AI 能力评估专家。"
            },
            {
                "role": "user",
                "content": f"分析以下任务的 AI 暴露度：{task_description}。返回一个包含 'score' (0-1) 和 'requirements' 的 JSON 对象。"
            }
        ],
        "response_format": { "type": "json_object" }
    }

    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }

    response = requests.post(url, headers=headers, data=json.dumps(payload))
    return response.json()

# 示例用法
task = "根据 10 份之前的合同草拟一份主服务协议"
result = evaluate_task_exposure(task)
print(result)

在这个代码片段中，我们使用高智能模型进行元分析——这是构建 Anthropic 所构想的“预期软件”的关键组成部分。通过使用 n1n.ai，开发者可以在 Claude、GPT-4o 或 o1-preview 之间灵活切换，为特定的垂直领域找到最佳的性能价格比。

深度对比：当前能力 vs. 预期能力

能力维度	2023 年理论假设	2025 年现实（通过 n1n.ai）
上下文窗口	100k tokens	200k+ tokens (Claude 3.5)
推理能力	基础思维链	高级 System 2 思维 (OpenAI o1)
工具使用	实验阶段	生产级函数调用 (Function Calling)
延迟	< 5 秒	小型模型 < 500 毫秒

专家建议：企业如何应对 AI 浪潮

关注工作流，而非单一任务：Anthropic 的研究表明，虽然单个任务的暴露度很高，但整个职业很难被完全自动化。应构建能够增强工作流的软件，而不是试图直接取代人类。
利用多模型策略：不要把自己锁定在单一供应商。使用 n1n.ai 将复杂的推理任务路由给 Claude 3.5，而将高吞吐量、简单的任务路由给更快速、更便宜的模型如 DeepSeek-V3。
实施 RAG（检索增强生成）：“预期软件”高度依赖模型访问外部数据的能力。RAG 是将理论能力转化为实际产出的桥梁。

总结

Anthropic 2023 年的研究为行业敲响了警钟，它强调 AI 对就业市场的影响仅受限于我们围绕模型构建的软件质量。随着模型能力的增强，瓶颈已从 AI 本身转移到了基础设施和集成层。

通过利用像 n1n.ai 这样高性能的 LLM 聚合器，企业可以保持领先地位，将“理论能力”转化为切实可见的商业价值。无论您是在构建下一代法律科技工具，还是在自动化客户支持，您所需的工具已经触手可及。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://arstechnica.com/ai/2026/03/how-did-anthropic-measure-ais-theoretical-capabilities-in-the-job-market/