一个上线半年的企业知识库 RAG,没人改过代码,向量库的容量曲线平稳上升,延迟、QPS、成功率三条监控曲线都健康。但客服开始抱怨:「问不到东西了」、「以前能查到的现在排在第三页」、「问 2024 年的政策结果给我推了 2022 年的版本」。
检索质量在悄悄下降,没有任何告警告诉你。
这不是 bug,也不是事故。它是一类隐蔽、渐进、传统监控难以察觉的架构层退化,业内直到 2025 年才被 Microsoft Azure 系统化命名为 vector drift(向量漂移)。它不是某个组件的失效,而是 RAG 全链路上多个组件随时间不同步演进所累积的结果。这篇文章把「为什么会漂」「怎么知道在漂」「怎么治」一次摆清楚。
核心思路
把 embeddings 当成动态资产去管理,而不是建库时的一次性产物。
2026/5/11大约 22 分钟
