停止过度关注嵌入模型基准测试：90% 的搜索质量取决于上游数据

在当前的 AI 开发领域，我们似乎陷入了一种“基准测试（Benchmark）”狂热。每隔几周，就会有一个新的嵌入（Embedding）模型发布，声称在 MTEB 榜单上取得了领先地位，并承诺能显著提升 RAG（检索增强生成）系统的效果。开发者们经常会问：“我该不该把 OpenAI 的模型换成 Voyage？”或者“Gemini 的嵌入效果在生产环境中到底行不行？”

作为 Vaultt（前身为 StudentVenture）的 CTO，我在过去一年中负责维护一个拥有超过 10,000 名顶尖人才画像的语义匹配系统。我们的实践经验表明：过度关注模型本身的细微差距往往是找错了方向。如果你想显著提升搜索质量，不应该盯着排行榜，而应该盯着你的数据管道。

实验数据：模型增益 vs 数据增益

为了验证这一观点，我们在真实的候选人数据库上进行了一次受控实验。我们建立了一个由招聘人员提交的真实查询组成的评估集（Eval Set），并设定了一个简单的评分标准：检索出的前 10 名候选人中，是否包含招聘人员最终决定面试的人选。

变量一：更换模型 我们保持原始数据（Raw JSON）不变，横向对比了五种主流模型，包括开源模型、Google Gemini、OpenAI 以及 Voyage。结果显示，表现最好的模型与最差的模型之间，检索准确率仅有 7 个百分点 的差距。在实际应用中，这种差距往往处于误差范围内，甚至可能仅仅是因为随机种子的不同。通过 n1n.ai 这样的聚合平台，你可以轻松调用这些模型，但你会发现它们在处理脏数据时表现同样平庸。

变量二：优化上游数据 我们保留了第一轮测试中表现最差的模型，但改变了输入给模型的内容：

版本 1（原始数据）： 直接输入包含生物信息、技能数组和工作经历的原始 JSON。
版本 2（结构化摘要）： 我们增加了一个上游环节，使用高推理能力的 LLM 解析候选人的 PDF 作品集、识别项目图片中的文字（OCR），并将所有碎片信息合成一段描述该人才核心竞争力的自然语言摘要。我们只对这段摘要进行嵌入。

结果令人震惊：检索质量直接提升了 40 个百分点。

为什么上游数据才是关键？

嵌入模型的核心任务是将语义相似的“文本”映射到向量空间中的邻近位置。关键词是“文本”。当你把一个充满冗余字段、特殊符号和零碎列表的 JSON 丢给模型时，你实际上是在制造语义噪音。模型生成的向量更多地是在描述“这是一个招聘平台的 JSON 对象”，而不是在描述“这是一个具备分布式系统经验的工程师”。

通过使用 n1n.ai 提供的强力 LLM 进行预处理，你可以将噪音转化为高信号的叙述。干净、有逻辑的描述能让嵌入模型更准确地捕捉到实体的本质特征。

高质量搜索的架构设计指南

如果你希望获得 40% 而非 7% 的提升，你需要重新审视你的技术架构。以下是我们在 Vaultt 采用的生产级方案：

1. 在写入阶段（Ingestion）摊销 LLM 成本

很多团队试图在查询时（Query Time）完成所有复杂操作，这会导致高延迟和高成本。我们的做法是：在候选人数据入库时，调用一次高性能 LLM（如 Claude 3.5 Sonnet）生成“搜索摘要”。虽然单次调用较贵，但由于每个候选人只需处理一次，其成本被分摊到了后续成千上万次的搜索请求中。

在搜索时，我们使用极其廉价的嵌入模型处理用户的查询词。这种“重写入、轻查询”的策略，既保证了搜索的深度，又将响应时间控制在 20ms 以内。利用 n1n.ai 的统一 API，你可以快速切换不同的摘要模型，找到性价比最高的组合。

2. 为什么 pgvector 是中小型规模的首选

在处理 10,000 到 1,000,000 个向量时，专门的向量数据库往往是“过度设计”。我们在 Postgres 中直接使用 pgvector 扩展。这样做的好处是显而易见的：

混合查询（Hybrid Search）： 你可以在一个 SQL 语句中同时进行硬过滤（如“坐标：伦敦”、“状态：在职”）和语义排序。
运维简化： 一套备份机制，一套权限模型，没有数据同步带来的分布式一致性问题。

-- 混合查询示例
SELECT name, summary
FROM candidates
WHERE city = '北京'
  AND years_of_exp &gt; 5
ORDER BY embedding &lt;=&gt; '[0.012, -0.045, ...]'
LIMIT 10;

3. 结构化过滤 vs 向量检索

不要强迫嵌入模型去理解所有的逻辑。如果用户搜索“伦敦的 React 开发者”，不要指望向量空间能完美区分“伦敦”和“曼彻斯特”。

结构化数据： 使用 Postgres 的 B-tree 索引处理地理位置、薪资、职位类型等硬性指标。
非结构化语义： 使用向量检索处理“思维方式”、“项目复杂度”或“技术品味”等模糊概念。

成本效益分析：不要为 7% 的提升支付 30 倍溢价

让我们看一组数据：Google 的 gemini-embedding-001 每百万 token 约 $0.006，而 Voyage-3.5-large 约为$ 0.18。两者价格相差 30 倍。如果在你的特定业务场景下，昂贵模型带来的提升微乎其微，那么这笔钱显然应该花在数据清洗上。通过 n1n.ai 接入更具性价比的模型，并将节省下来的预算投入到上游的 LLM 摘要生成中，你会获得更高的投资回报率（ROI）。

优化搜索质量的四个步骤

建立真实评估集： 收集 50-100 个真实用户查询，并标注出理想的搜索结果。没有评估集，所有的优化都是在凭感觉（Vibe-based optimization）。
优化输入内容： 引入 LLM 预处理流程，将原始数据转化为高质量的叙述性摘要。
实施混合搜索： 将向量数据存储在主数据库中，结合元数据过滤。
模型迭代： 只有在完成前三步后，才考虑更换嵌入模型。此时，那 7% 的提升才有意义。

总结

搜索质量是一个系统工程，而不仅仅是模型选择题。数据清洗、输入构造和评估严谨性这些“脏活累活”，才是蕴含 40% 提升空间的地方。嵌入模型排行榜是一个局部最优解，真正的全局最优解隐藏在你的上游数据中。

立即在 n1n.ai 获取免费 API 密钥，开启你的优化之旅。

参考来源：https://dev.to/yanishimself/stop-benchmarking-embedding-models-90-of-your-search-quality-lives-upstream-2pdf