使用 Ollama 在本地运行 LLM 并通过 Python 进行集成

人工智能的格局正在发生剧变，从单纯依赖云端 API 转向强大的本地执行环境。对于开发者而言，在本地运行大语言模型 (LLM) 在数据隐私、降低延迟和零代币 (Token) 成本方面具有无可比拟的优势。本教程将深入探讨 Ollama（领先的本地模型编排工具）与 Python（人工智能开发的通用语言）之间的协同作用。

为什么选择本地运行 LLM？

虽然像 n1n.ai 这样的云服务商提供了大规模的算力和最先进的模型（如 Claude 3.5 Sonnet 或 OpenAI o3），但本地执行在特定场景下具有不可替代的价值：

数据隐私：敏感数据永远不会离开您的机器。这对于医疗、金融和法律行业至关重要。
成本效率：在开发、测试或高吞吐量的批量处理任务中，完全没有 API 调用费用。
离线访问：即使没有互联网连接，也能进行模型开发和运行。
高度自定义：可以轻松更换模型、调整系统提示词 (System Prompts)，且不受供应商锁定 (Vendor Lock-in) 的限制。

Ollama 入门指南

Ollama 通过将 Llama 3.1、Mistral 和 DeepSeek-V3 等模型打包成易于管理的容器，极大地简化了运行流程。

安装步骤

您可以从官方网站下载适用于 macOS、Linux 或 Windows（预览版）的 Ollama。安装完成后，可以通过终端拉取您的第一个模型：

ollama run llama3.1

该命令会下载模型权重（对于 7B-8B 参数的模型，通常为 4-8GB）并打开交互式聊天界面。然而，为了构建真正的应用程序，我们需要将其与 Python 桥接。

使用 Python 集成 Ollama

在 Python 中与 Ollama 交互最有效的方法是使用官方的 ollama 库。您可以使用 pip 进行安装：

pip install ollama

基础聊天实现

以下是一个发送提示词并接收响应的简单脚本：

import ollama

# 调用本地模型
response = ollama.chat(model='llama3.1', messages=[
  {
    'role': 'user',
    'content': '为什么天空是蓝色的？',
  },
])

print(response['message']['content'])

流式响应 (Streaming)

为了提供更好的用户体验，特别是在使用参数量较大的模型时（延迟可能较高），流式输出是必不可少的：

import ollama

stream = ollama.chat(
    model='llama3.1',
    messages=[{'role': 'user', 'content': '请写一篇关于人工智能安全的 500 字文章。'}],
    stream=True,
)

for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

进阶应用：结构化输出与 JSON 模式

现代 LLM 应用程序通常需要结构化数据而非纯文本。Ollama 支持 JSON 模式，确保模型输出有效的 JSON 格式，这对于工具调用 (Tool Calling) 或数据库更新至关重要。

response = ollama.chat(
  model='llama3.1',
  messages=[{'role': 'user', 'content': '提取用户信息：姓名张三，年龄 30，现居北京。'}],
  format='json',
)
print(response['message']['content'])

本地与云端：通过 n1n.ai 寻找平衡

尽管本地模型非常强大，但它们受限于硬件的显存 (VRAM)。例如，运行一个 70B 参数的模型需要大量的 GPU 资源（如双 RTX 3090/4090）。在这种情况下，混合部署方案变得极具价值。

开发者可以使用本地模型进行原型设计和简单任务处理，而将复杂、需要高推理能力的逻辑路由到 n1n.ai。n1n.ai 提供了一个统一的 API，可以高速、稳定地访问全球最强大的模型，是您本地设置的完美容灾或扩容伙伴。

特性	本地 (Ollama)	云端 (n1n.ai)
成本	免费（仅硬件成本）	按 Token 付费
隐私性	最高	安全（取决于服务商）
响应速度	取决于 GPU/RAM	极速（优化后的基础设施）
模型规模	受限 (例如 < 70B)	无限制 (GPT-4o, Claude 3.5)
可靠性	支持离线	需要互联网

专家建议：优化本地性能

量化 (Quantization)：Ollama 中的大多数模型都是量化过的（例如 4-bit）。这可以减少约 70% 的内存占用，而智能损失极小。
GPU 加速：确保您的系统已启用 NVIDIA CUDA 或 Apple Metal 支持。Ollama 会自动检测这些硬件加速器。
系统提示词 (System Prompts)：使用 Modelfile 来定义自定义行为。例如：

FROM llama3.1
PARAMETER temperature 0.7
SYSTEM "你是一位资深的 Python 开发者，只提供简洁的、代码优先的回答。"

使用本地模型构建 RAG 管道

检索增强生成 (RAG) 是 AI 应用的金标准。您可以将 Ollama 与向量数据库（如 ChromaDB 或 FAISS）结合使用。

第一步：使用 ollama.embeddings 对文档进行向量化。
第二步：将向量存储在本地向量数据库中。
第三步：检索相关上下文并将其传递给本地 LLM 进行回答。

整个流程可以在单台笔记本电脑上运行，无需任何数据上传到公共互联网，极大地保障了企业内部文档的安全。

总结

Ollama 实现了高性能 LLM 的民主化，而其 Python 集成使其成为任何开发者工具箱中的利器。通过将本地模型的隐私性与 n1n.ai 的强大算力和可扩展性相结合，您可以构建出既稳健又面向未来的 AI 应用程序。

立即在 n1n.ai 获取免费 API 密钥。

参考来源：https://realpython.com/podcasts/rpp/284/