网盘 ByteCloud:https://cloud.bytelighting.cn
框架封装得越好,原理就藏得越深。本文用纯 Java + OkHttp + Jackson 从零写一个约 300 行的 Mini Agent,把 LLM 调用、Tool Calling、ReAct 循环、上下文管理几个核心机制裸写一遍。读完再回头看 Spring AI、LangChain4j 的源码或任何一篇 Agent 论文,会顺畅许多。
OpenClaw、Hermes、Claude Code 是 Harness Engineering 在不同问题域上沉淀出的三种范式:让 Agent 能干活、让 Agent 越用越强、让 Agent 干得稳。本文从架构、记忆、工具、上下文、安全五个维度横向拆解,看清这三条演进路径背后的设计取舍。
一个上线半年的企业知识库 RAG,没人改过代码,向量库的容量曲线平稳上升,延迟、QPS、成功率三条监控曲线都健康。但客服开始抱怨:「问不到东西了」、「以前能查到的现在排在第三页」、「问 2024 年的政策结果给我推了 2022 年的版本」。
检索质量在悄悄下降,没有任何告警告诉你。
这不是 bug,也不是事故。它是一类隐蔽、渐进、传统监控难以察觉的架构层退化,业内直到 2025 年才被 Microsoft Azure 系统化命名为 vector drift(向量漂移)。它不是某个组件的失效,而是 RAG 全链路上多个组件随时间不同步演进所累积的结果。这篇文章把「为什么会漂」「怎么知道在漂」「怎么治」一次摆清楚。
核心思路
把 embeddings 当成动态资产去管理,而不是建库时的一次性产物。
如果说 Agent Skill 设计哲学 回答的是"做什么样的 Skill",那么本文要回答的就是另一个问题:当 Skill 要进入生产环境(尤其是金融、政务、医疗这类高合规领域)时,如何把它工程化地跑起来。
Skill 不是一段 Prompt,也不是一个 Tool 的语法糖。它是一个标准化、可执行、可复用、可审计、可插拔的领域能力单元,包含业务知识、执行流程、工具调用规则、异常处理、输出格式、合规约束和评估标准。
聚焦大模型技术栈与 AI 应用工程实践,记录从提示词设计、RAG 系统构建到 Agent 落地的全链路知识。既有对 LLM 原理的理解,也有实际开发中踩坑与总结。
知识体系
- 大模型应用 — 大模型 API 调用、Prompt 工程、RAG 检索增强、Agent 系统开发框架(LangChain / LlamaIndex 等)
系统架构知识体系,包含常见分布式系统设计案例、软件架构风格与模式,以及软考系统架构师备考资料,覆盖从方案设计到落地实现的全过程。
知识体系
技术之外的记录与思考。包括读书笔记与书单、高效工具推荐,以及日常随笔与感悟。工程师不只写代码,也读书、思考、生活。
知识体系
1. 概述
2025 年 12 月 18 日,Anthropic 发布了新的开源标准 Agent Skills,早期叫 Claude Skills,后来变成了大家可以按照约定使用的标准。
系统梳理数据结构与算法核心知识,覆盖常见面试题型分类、LeetCode 分类题解,以及可复用的算法模板。理解原理与应试实战并重,适合备战技术面试和日常查阅。
知识体系
以 Java 生态为主线,覆盖语言基础、数据库原理与调优、Spring 全家桶 / MyBatis / 中间件等主流框架,以及实战项目复盘。从单机应用到分布式系统,兼顾理论深度与工程落地。
知识体系
计算机基础知识体系,涵盖操作系统原理与大数据技术栈。打牢底层认知,有助于理解上层系统的设计动机,是进阶工程师的必备功底。
知识体系
2026 年,Prompt Engineering 正在被重新定义。IBM、Anthropic、OpenAI 等机构不约而同地指出,这个领域正在从"写好一段提示词"演进为"设计自主推理系统的认知架构"。在这个背景下,Skill —— 一种介于 Prompt 和 Agent Framework 之间的中间层 —— 成为了释放模型能力的关键杠杆。
本文以一个具体的联网 Skill 设计案例为起点,逐步泛化出一套通用的 Skill 设计方法论,并结合学术研究和个人实践经验,探讨如何在不同领域中设计出高质量的 Agent Skill。
核心认知:上下文窗口是关键
使用 Claude Code 时,最容易被忽视的瓶颈不是提示词质量,也不是模型选择,而是 上下文窗口 的管理。可以把它理解为 Claude 的 "白板" -- 你发的每条消息、Claude 读的每个文件、执行的每条命令都会写上去。白板满了,Claude 就会表现下滑:遗忘指令、犯低级错误、开始重复自己。所以核心原则是:管好这块白板,就是管好 AI 的注意力。
1. 基本概念
1.1 定义
- 软件可靠性:软件产品在 规定的条件 下和 规定的时间区间 完成 规定功能 的能力。
- 串并联系统可靠性:无论什么系统,都是由多个设备组成的,协同工作,而这多个设备的组合方式可以是串联、并联,也可以是混合模式
- 串联系统:
- 一个设备不可靠,整个系统崩溃。
- 可靠性公式:$ R_{串联} = R_1 × R_2 × ⋯ × R_n $
- 并联系统:
- 所有设备都不可靠,整个系统才崩溃。
- 可靠性公式:$ R_{并联} = 1 - (1 - R_1)(1 - R_2)...(1 - R_n) $
- 串联系统:
- 广义的软件可靠性测试:指为了 最终评价软件系统的可靠性 而运用 建模、统计、试验、分析 和 评价 等一系列手段对软件系统实施的一种测试。
- 狭义的软件可靠性测试:指为了获取可靠性数据,按预先确定的测试用例,在软件的预期使用环境中,对软件实施的一种测试。它是面向缺陷的测试,以用户将要使用的方式来测试软件。
- ISO/IEC 25010 软件质量模型中 “可靠性(Reliability)” 的子特性分类:
- 无故障性(Faultlessness):
- 可用性(Availability): 产品在需要使用时可运行且可访问的能力。
- 容错性(Fault Tolerance): 系统在出现故障时仍能维持部分功能的能力。
- 可恢复性(Recoverability): 软件在发生失败后恢复数据和恢复服务的能力。
