使用 Azure Layout 解析 PDF 表格以优化 RAG 系统

检索增强生成 (RAG) 已成为将大语言模型 (LLM) 应用于私有领域数据的架构标准。然而，RAG 系统的性能从根本上受限于其数据提取的质量。虽然像 PyMuPDF (fitz) 这样的库在提取流式文本方面表现出色，但在面对复杂的关联表格、合并单元格或扫描文档时，它们往往力不从心。

在构建利用 n1n.ai 提供的各种模型的高性能 AI 代理时，第一个障碍就是将混乱的 PDF 转换为清晰、具有语义意义的 Markdown 格式。本文将探讨传统工具失效的原因，以及如何使用 Azure AI Document Intelligence Layout 构建鲁棒的提取管道。

传统 PDF 解析的局限性

大多数开源 PDF 库将文档视为绘图指令的集合。它们根据 (x, y) 坐标识别字符。这对于简单的段落有效，但在处理表格时会失败，原因如下：

缺乏结构感：表格在解析器眼中只是靠近线条的浮动文本。PyMuPDF 可能会按行或按列读取，导致“文本面条化”，逻辑顺序完全错乱。
合并单元格：理解一个表头跨越三列需要视觉推理能力，而简单的文本流解析器缺乏这种能力。
扫描件与图像：如果不借助额外的 OCR 引擎，PyMuPDF 无法“看到”图像中的文本，而且即使有 OCR，也往往会丢失布局上下文。

对于使用 n1n.ai 驱动企业级搜索的开发者来说，这些解析错误会导致模型产生“幻觉”，因为 LLM 接收到的上下文数据中，数字与对应的表头已经断开了联系。

引入 Azure AI Document Intelligence (Layout 模型)

Azure AI Document Intelligence（原名 Form Recognizer）利用深度学习来识别文档结构。其 prebuilt-layout 模型专为提取以下内容而设计：

表格：原生识别行、列和跨行跨列单元格。
选择标记：复选框和单选按钮。
阅读顺序：它能正确识别多栏布局，确保提取后的文本流符合人类阅读逻辑，这对 LLM 至关重要。
样式识别：它能区分标题、副标题和正文。

实现指南：从 PDF 到 Markdown

为了构建适配 RAG 的管道，我们需要将 PDF 转换为 Markdown。Markdown 是 Claude 3.5 Sonnet 或 OpenAI o3（可通过 n1n.ai 访问）等模型的首选格式，因为它能以极少的 Token 开销保留结构层次。

第一步：环境准备

你需要一个 Azure AI Document Intelligence 资源和 Python SDK：

pip install azure-ai-formrecognizer

第二步：提取代码实现

以下是一个专业的代码示例，用于提取表格和文本：

from azure.ai.formrecognizer import DocumentAnalysisClient
from azure.core.credentials import AzureKeyCredential

def analyze_layout(file_path, endpoint, key):
    # 初始化客户端
    client = DocumentAnalysisClient(endpoint, AzureKeyCredential(key))

    with open(file_path, "rb") as f:
        # 使用预置的 layout 模型
        poller = client.begin_analyze_document("prebuilt-layout", document=f)

    result = poller.result()

    # 将内容转换为 Markdown 格式
    markdown_output = []
    for page in result.pages:
        markdown_output.append(f"## 第 {page.page_number} 页")
        # Azure 会自动处理阅读顺序
        markdown_output.append(result.content)

    return "\n".join(markdown_output)

为什么 Markdown 对 RAG 至关重要

当你将提取的数据存入向量数据库（如 Pinecone 或 Milvus）时，“分块 (Chunking)”策略至关重要。如果你使用 PyMuPDF，一个表格可能会在行中间被切断。而使用 Azure 的 Layout 模型，你可以将整个表格作为一个完整的 Markdown 块提取出来：

特性	PyMuPDF	Azure Layout
表格提取	较差（纯文本）	极佳（感知网格）
OCR 能力	需要 Tesseract 辅助	内置高质量 OCR
标题检测	无	语义化检测
解析速度	极快	中等（需调用 API）

高级策略：语义化分块 (Semantic Chunking)

在获得 Azure 转换的 Markdown 后，不要仅仅按字符数进行简单切分。利用模型检测到的标题来创建语义块。例如，如果 Layout 模型识别出某个部分为 section_heading，请确保该部分的完整内容被保留在同一个 Chunk 中。这能为通过 n1n.ai 接口调用的 DeepSeek-V3 等模型提供更完整的上下文窗口。

处理扫描文档与低质量图像

Azure 的核心优势之一是处理“噪声”的能力。在企业环境中，经常会遇到打印文档的照片或传真件。Azure Layout 使用基于 Vision Transformer 的 OCR 技术，能够处理旋转、倾斜和低对比度的文本。这确保了你的 RAG 系统不会对公司大量的历史纸质文档“视而不见”。

生产环境专业建议

成本控制：Azure Document Intelligence 按页计费。对于大规模处理，建议先对文档进行预筛选，确保只有高价值数据才发送到 API 进行深度解析。
延迟优化：API 调用比本地处理慢。建议使用异步处理（如 Python 的 asyncio）来并发处理文档批次，提高吞吐量。
数据清洗：在将文本嵌入 (Embedding) 向量库之前，可以使用较小的 LLM（如 Llama 3.1 8B）对 OCR 产生的微小瑕疵进行二次清洗。
多模态融合：对于极其复杂的图表，可以结合 Azure 的解析结果与多模态模型（如 GPT-4o）的视觉理解能力，进一步提升解析精度。

总结

不要再浪费时间在正则表达式和基于坐标的提取上了。如果你的 RAG 系统在数据质量上遇到瓶颈，问题很可能出在解析层。通过切换到像 Azure AI Document Intelligence 这样具备布局感知能力的模型，你可以为 LLM 提供其发挥最佳性能所需的结构化、干净的数据。

准备好升级你的 AI 应用了吗？在 n1n.ai 获取免费 API 密钥。

参考来源：https://towardsdatascience.com/when-pymupdf-cant-see-the-table-parse-pdfs-for-rag-with-azure-layout/