Mira Murati 的 Thinking Machines 及其 交互模型 的 演进
- 作者

- 姓名
- Nino
- 职业
- Senior Tech Editor
人工智能的版图正在经历一场深刻的变革,从静态的、基于回合的问答模式向流式的、实时的交互协作演进。前 OpenAI 首席技术官 Mira Murati 最近揭示了她新创立的初创公司 Thinking Machines 的核心愿景。这家公司不仅仅是在构建另一个大语言模型(LLM),而是在开发一种被称为“交互模型”(Interaction Models)的新物种。这一区分标志着人类与机器共存及协作方式的一次关键进化。
当前 AI 的“单线程”局限性
目前,即使是像 GPT-4o 或 Claude 3.5 Sonnet 这样最先进的模型,其运行逻辑也主要是“单线程”的。正如 Thinking Machines 所指出的,今天的模型在等待用户完成输入(无论是文本提示词还是语音指令)时,实际上处于一种感官缺失的状态。在用户输入的这段时间内,模型无法感知用户的犹豫、无法观察实时变化的视觉环境,也无法捕捉人类在“输入阶段”表现出的细微行为特征。
这种感知上的延迟造成了认知壁垒。对于构建高风险应用的开发者(如手术辅助系统或实时编程副驾驶)来说,这种基于回合制的瓶颈是一个巨大的障碍。通过使用 n1n.ai 等平台,开发者已经在寻求尽可能降低这种延迟的方法,但底层的模型架构本身需要改变,以支持真正的“持续感知”。
什么是交互模型?
Thinking Machines 将交互模型定义为能够持续摄取音频、视频和文本的系统。它们不再等待“停止令牌”(Stop Token),而是实时地进行思考、响应和行动。想象一下,一个 AI 通过摄像头看到你在进行某项物理操作时遇到了困难,并在你开口求助 之前 就给出了建议。这需要模型在权重处理和注意力机制上发生根本性转变,向基于流的推理架构迈进。
交互模型的核心特征:
- 持续多模态:同时处理视觉、听觉和文本流,而不是交替处理。
- 低延迟反馈回路:模型的反馈以增量方式提供,通常延迟 < 100 毫秒,以符合人类的自然感官体验。
- 主动代理能力:能够根据环境线索而非仅仅是直接指令来发起行动或对话。
如何在今天实现实时 AI 体验
虽然 Thinking Machines 正在构建下一代原生交互模型,但开发者今天已经可以通过利用高速 API 聚合器来模拟这些体验。例如,n1n.ai 提供了访问 DeepSeek-V3 和 GPT-4o 等模型最快端点的能力,这对于构建响应式应用至关重要。
为了利用现有技术构建一个伪交互模型,开发者可以采用 WebSocket 流式传输方案。以下是一个使用 n1n.ai 兼容端点的概念性 Python 示例:
import asyncio
import websockets
import json
# 使用 n1n.ai 兼容端点处理持续流的示例
async def stream_interaction(api_key, input_stream):
uri = "wss://api.n1n.ai/v1/realtime"
async with websockets.connect(uri, extra_headers={"Authorization": f"Bearer {api_key}"}) as websocket:
# 启动持续感知循环
async for frame in input_stream:
await websocket.send(json.dumps({
"type": "input_frame",
"data": frame # 可以是音频或视频元数据
}))
# 无需等待“回合结束”即可接收即时反馈
response = await websocket.recv()
print(f"AI 感知结果: {json.loads(response)['thought']}")
# 注意:实际实现需要更健壮的错误处理和缓冲区管理。
对比分析:推理模型 vs. 交互模型
| 特性 | 推理模型 (如 OpenAI o1) | 交互模型 (Thinking Machines) |
|---|---|---|
| 核心优势 | 复杂的逻辑推理和多步规划 | 实时环境适应能力 |
| 输入风格 | 离散提示词 (基于回合) | 持续数据流 (基于流) |
| 延迟目标 | 数秒至数分钟 (为了深度思考) | < 200 毫秒 |
| 主要场景 | 科学研究、复杂编程、数学 | 机器人、AR/VR、现场协作 |
| 可用性 | 已通过 n1n.ai 提供 | 研发中 |
为什么开发者需要关注这一趋势
对于开发者社区而言,Thinking Machines 的兴起信号明确:AI 正在脱离“聊天框 UI”。下一代价值十亿美元的应用将不再是聊天窗口,而是无形的智能层,实时与物理和数字世界互动。这要求基础设施发生转变。你需要的不只是能用的 API,而是具有极致稳定性和速度的 API。
使用 n1n.ai 这样的服务,可以让你在不同的模型供应商(如 OpenAI、Anthropic、DeepSeek)之间自由切换,从而针对特定的地理区域或用例找到最低延迟。这种灵活性是构建“交互就绪”软件的基石。
持续感知面临的挑战
构建一个“时刻在听、时刻在看”的 AI 引入了巨大的技术和伦理挑战:
- 计算成本:持续推理的成本比基于回合的推理呈指数级增长。开发者必须优化 Token 使用率和帧率。
- 隐私保护:持续的数据流传输需要严格的端侧处理或加密管道,以确保用户信任。
- 噪声过滤:在持续流中区分相关的用户动作和背景噪声是一个非平凡的机器学习难题。
AI 工程师的战略建议
- 优化 TTLB (首字节时间):在交互模型中,完成整个思考过程的时间不如 开始 响应的时间重要。
- 混合边缘-云架构:将预处理(如语音活动检测 VAD)移动到边缘端,以减少发送到 API 的数据负载。
- 利用多模型路由:通过 n1n.ai 将简单的交互任务路由到更小、更快的模型(如 Llama 3.1 8B),而将繁重的推理任务留给大模型。
结语
Mira Murati 的 Thinking Machines 正在尝试填补 AI 作为工具与 AI 作为协作伙伴之间的鸿沟。通过超越现实的“单线程”,他们正在为未来铺平道路,让技术能够理解我们行动的实时背景。在我们等待这些原生交互模型上市的同时,最好的准备方式就是精通实时、多模态的 API 集成艺术。
立即在 n1n.ai 获取免费 API 密钥。