告别固定长度分块：提升 RAG 精度 40% 的核心策略

我们花了 6 个月的时间来优化嵌入向量（Embeddings）、调整 HNSW 参数并精简提示词（Prompts）——结果却在短短 2 小时内通过更换分块策略，击败了之前所有的优化成果。这是一个关于 4 名机器学习工程师如何发现 RAG 架构底层缺陷，并实现 40% 精度提升的真实案例。

RAG 优化的陷阱

在我们的生产环境中，有一个处理每天 12,000 次查询的 RAG 系统，内容涵盖 API 文档、操作手册和架构决策记录。长期以来，我们的 RAGAS 上下文精度（Context Precision）一直停留在 0.51。我们尝试了各种手段：

微调嵌入模型：在领域数据上训练模型。
HNSW 参数调优：将 ef_search 从 64 增加到 512。
提示词工程：重写了数十次系统提示词。

然而，效果微乎其微。直到一个周五下午，我们尝试修改了分块策略。仅用 2 小时，上下文精度就从 0.51 跃升至 0.68。通过使用像 n1n.ai 这样的高性能 LLM API 聚合器，开发者可以非常方便地在不同模型间进行此类实验。

为什么固定长度分块会破坏检索？

目前的 RAG 社区存在一个巨大的盲点：我们过度关注向量索引参数和嵌入模型排行榜，却在数据摄入阶段向管道输入“垃圾分块”。

传统的 RecursiveCharacterTextSplitter（固定长度分块）是基于位置的（例如每 512 个 token 切分一次）。它完全无视文本的语义结构。我们对 2,400 个技术文档分块进行了审计，结果令人震惊：

34% 的分块在句子中间断开。
22% 的分块在代码块中间断开。
41% 的多步骤操作步骤与其上下文分离。

想象一下，一个分块的结尾是：“要配置重试策略，请将 max_retries 参数设置为”，而下一个分块的开头是：“3 并启用指数退避”。第一个分块捕获了“意图”但没有“结果”，第二个分块捕获了“结果”但没有“意图”。对于查询“如何配置重试策略？”，这两个分块都无法提供完整的语义信息。这种“语义断裂”是导致模型幻觉和回答不完整的根源。

语义分块（Semantic Chunking）的崛起

与基于位置的切分不同，语义分块尊重文档的自然结构。其核心算法如下：

将文档拆分为单个句子。
使用嵌入模型对每个句子进行向量化。
计算相邻句子之间的余弦距离（Cosine Distance）。
在距离超过设定阈值（通常为 85% 分位数）的地方进行切分。

这种方法确保了每个分块在主题上是连贯的。利用 n1n.ai 提供的极速 API 接口，可以显著降低语义分块带来的计算延迟。

代码实现：固定长度 vs 语义分块

以下是使用 LangChain 实现这两种策略的对比。请注意，语义分块器需要一个嵌入模型来识别主题切换点。

from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai import OpenAIEmbeddings
import tiktoken

# 示例技术文档
doc = """
## 重试配置
要为 API 客户端配置重试策略，您需要设置多个参数。
max_retries 参数控制失败请求的重试次数。
对于大多数生产工作负载，建议将其设置为 3。
"""

# 1. 固定长度分块
enc = tiktoken.encoding_for_model("gpt-4o")
fixed_splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,
    chunk_overlap=50,
    length_function=lambda text: len(enc.encode(text)),
)
fixed_chunks = fixed_splitter.split_text(doc)

# 2. 语义分块
# 建议通过 n1n.ai 调用高质量嵌入模型以获得最佳边界识别
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
semantic_splitter = SemanticChunker(
    embeddings=embeddings,
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=85,
)
semantic_chunks = semantic_splitter.split_text(doc)

性能基准测试

我们针对 500 个生产环境问题进行了严谨的基准测试，使用了 RAGAS 框架进行评估。结果显示，分块质量是影响 RAG 准确性的最核心杠杆。

配置方案	忠实度 (Faithfulness)	回答相关性	上下文精度
固定长度 512-token	0.62	0.58	0.51
语义分块 (percentile-85)	0.74	0.71	0.68
语义分块 + BGE 重排序	0.82	0.79	0.72
配置 3 + HNSW 参数调优	0.83	0.80	0.72

数据表明，仅语义分块一项就将上下文精度提升了 17 个百分点（0.51 → 0.68）。相比之下，我们花费数周调整 HNSW 参数仅带来了 1 个百分点的提升。在 n1n.ai 上使用 DeepSeek-V3 或 Claude 3.5 Sonnet 等顶尖模型时，高质量的分块能让 LLM 的推理能力得到更充分的发挥。

生产环境中的进阶技巧：处理过小分块

语义分块的一个潜在问题是它可能产生极短的分块（例如只有一句话）。这会导致检索到的内容背景不足。我们建议在代码中加入一个合并逻辑，确保每个分块至少包含一定数量的 token（例如 80 个）。

# 合并过小的语义分块
merged_chunks = []
buffer = ""
MIN_CHUNK_TOKENS = 80

for chunk in semantic_chunks:
    token_count = len(enc.encode(chunk))
    if token_count &lt; MIN_CHUNK_TOKENS:
        buffer += " " + chunk
    else:
        if buffer:
            chunk = buffer.strip() + " " + chunk
            buffer = ""
        merged_chunks.append(chunk)

成本与收益分析

语义分块并非没有代价。由于它需要对文档中的每一句话进行向量化，摄入阶段的嵌入成本会增加约 8 倍。然而，对于追求高精度的生产系统，这部分成本增加与减少幻觉带来的价值相比是微不足道的。通过 n1n.ai 接入高性价比的 API，可以有效控制这一过程的总成本。

总结：RAG 的依赖链条

RAG 的质量取决于一个严密的依赖链：分块 → 嵌入 → 索引 → 检索 → 重排序 → 生成。下游的每一个环节都受限于上游的质量。你无法通过提示词工程解决检索不到位的问题，也无法通过优化检索算法来挽救破碎的分块。

如果你的 RAG 系统精度遇到瓶颈，请停止盲目调整模型参数，先去审计你的分块边界。那 2 小时的分块修复，往往比 6 个月的下游优化更有价值。

Get a free API key at n1n.ai

参考来源：https://dev.to/aiwithmohit/stop-using-fixed-length-chunking-the-1-change-that-gave-us-40-better-rag-precision-17hc