如何在 Chrome 扩展程序中使用 Transformers.js

随着浏览器端机器学习技术的飞速发展，Transformers.js 已成为开发者在网页环境中运行 AI 模型的首选工具。它允许我们直接在用户本地设备上执行自然语言处理（NLP）、计算机视觉等任务，而无需将数据发送到远程服务器。但在 Chrome 扩展程序（特别是 Manifest V3 标准下）中实现这一功能，需要处理特定的安全策略和架构限制。本文将详细讲解如何构建一个高性能的 AI 扩展，并探讨如何通过 n1n.ai 提供的稳定 API 来补充本地算力的不足。

为什么选择端侧 AI？

在 Chrome 扩展中集成 Transformers.js 具有显著优势：

隐私安全：用户的数据（如浏览记录、选中文本）可以在本地处理，无需上传云端，符合严苛的隐私政策。
离线可用性：一旦模型缓存完成，扩展可以在无网络连接的情况下继续工作。
降低成本：对于高频低复杂度的任务（如关键词提取、情感分析），利用用户本地算力可以极大减少服务器开销。

然而，本地算力并非万能。对于需要深度逻辑推理或超长上下文的任务，调用 n1n.ai 的云端大模型依然是目前最可靠的解决方案。通过 n1n.ai 的聚合接口，开发者可以轻松切换 DeepSeek、Claude 或 GPT-4 等顶级模型，作为本地推理的有力补充。

核心架构：Manifest V3 的挑战

Chrome 扩展的 Manifest V3 版本引入了 Service Worker，但 Service Worker 有一个致命限制：它不支持 WebAssembly 的某些动态特性，且会在闲置时自动关闭。因此，直接在 background.js 中运行模型往往会导致失败。

最佳实践是利用 Side Panel (侧边栏) 或 Offscreen Document (离屏文档)。侧边栏不仅提供了持久的运行环境，还能通过 Web Worker 释放主线程，确保用户界面的流畅度。

第一步：配置 Manifest.json

首先，我们需要在配置文件中声明必要的权限和内容安全策略（CSP）。

{
  "manifest_version": 3,
  "name": "AI 助手扩展",
  "version": "1.0.0",
  "permissions": ["sidePanel", "storage", "tabs"],
  "side_panel": {
    "default_path": "sidepanel.html"
  },
  "content_security_policy": {
    "extension_pages": "script-src 'self' 'wasm-unsafe-eval'; object-src 'self'"
  }
}

关键点：'wasm-unsafe-eval' 是必须的，否则浏览器会拦截 Transformers.js 加载 ONNX 运行时所需的 WASM 模块。

第二步：创建 Web Worker 实现异步推理

为了防止加载模型（通常为几十到几百 MB）时导致 UI 卡顿，我们必须使用 Web Worker。

// sidepanel.js
const worker = new Worker(new URL('./worker.js', import.meta.url))

worker.postMessage({ type: 'load', model: 'Xenova/distilbert-base-uncased' })

worker.onmessage = (e) => {
  const { status, result } = e.data
  if (status === 'ready') {
    console.log('模型加载完成')
  } else if (status === 'success') {
    document.querySelector('#result').innerText = result[0].label
  }
}

第三步：编写 Worker 逻辑

在 worker.js 中，我们利用 Transformers.js 进行初始化。建议设置 env.allowLocalModels = false 以强制从 Hugging Face 或你自己的 CDN 下载模型文件。

// worker.js
import { pipeline, env } from '@xenova/transformers'

let classifier

self.onmessage = async (e) => {
  const { type, text } = e.data

  if (type === 'load') {
    classifier = await pipeline(
      'sentiment-analysis',
      'Xenova/distilbert-base-uncased-finetuned-sst-2-english'
    )
    self.postMessage({ status: 'ready' })
    return
  }

  const output = await classifier(text)
  self.postMessage({ status: 'success', result: output })
}

性能优化与混合方案 (Hybrid Strategy)

运行本地模型时，显存和内存是最大的瓶颈。以下是针对开发者的专业建议：

量化 (Quantization)：务必使用 8-bit 甚至 4-bit 量化的模型。Transformers.js 默认支持加载量化后的 ONNX 模型，这能减少 50%-75% 的内存占用。
模型分片：对于较大的模型，确保开启分片加载，防止单次网络请求超时。
云端回退机制：当检测到用户设备性能不足（如通过 navigator.deviceMemory 判断）或任务复杂度过高时，应无缝切换到 n1n.ai 的 API 接口。

对比分析表：

特性	Transformers.js (本地)	n1n.ai (云端)
响应速度	极快 (无需网络)	取决于网络 (通常 < 500ms)
模型能力	基础 (100M-500M 参数)	顶级 (千亿级参数)
隐私级别	极高 (数据不出本地)	高 (加密传输)
兼容性	依赖用户 GPU/CPU	全平台兼容

进阶：利用 WebGPU 加速

最新的 Transformers.js 版本已经开始支持 WebGPU。在 Chrome 113+ 中，你可以通过配置 device: 'webgpu' 来获得接近原生的推理速度。这对于实时语音识别或图像处理类扩展来说是质的飞跃。

总结

在 Chrome 扩展中集成 Transformers.js 代表了前端开发的新趋势：将 AI 能力去中心化。然而，为了保证产品的稳定性和深度，开发者应当采取“本地轻量推理 + 云端深度支持”的混合模式。通过 n1n.ai，你可以快速接入全球领先的 AI 算力，确保你的扩展程序在任何环境下都能提供卓越的智能体验。

立即在 n1n.ai 获取免费 API 密钥。

参考来源：https://huggingface.co/blog/transformersjs-chrome-extension