2026.6 期

BraumAce2026/6/2约 3463 字大约 12 分钟

2026.6 期

6.21

Progressive Disclosure: Claude-Mem's Context Priming Philosophy：Claude-Mem 官方文档——先给「有什么 + 取用成本」的轻量索引、由 agent 自行决定取什么的三层渐进式披露（索引→按需详情→源文件），替代传统 RAG 一次性塞满上下文的 context pollution，把有限注意力预算只花在高价值信息上。
Context Engineering for AI Agents：Claude-Mem 官方文档（提炼自 Anthropic《Effective context engineering for AI agents》）——上下文工程的核心是「找到能最大化目标达成概率的最小高信号 token 集」，针对 context rot 用 Just-In-Time 检索、Compaction、结构化笔记、Sub-Agent 等手段在多轮迭代中维护 token 的信噪比。

6.18

Loop Engineering 概念解析、思考与实践：阿里技术——区分底层 Agent Loop 与面向需求验收的 Loop Engineering，提出用 Automations、Worktrees、Skills、Connectors / Plugins、Sub Agents 与 State 组织自动化闭环，把原本依赖人反复提示、测试和纠偏的协同过程升级为可定时、可隔离、可验证、可沉淀的自运行系统，同时提醒需求和验证标准不清时应保留 Human-in-the-Loop。

6.17

更可靠的主播助理：淘宝主播Agent的Harness工程实战：阿里云开发者——以淘宝主播 Agent 为高压生产场景，拆解 Harness 如何通过上下文工程、Tool Registry、Lifecycle Hooks、Checkpoint、安全防护、评测体系与三层记忆，把即时直播操作做成可控、可恢复、可追踪的工程系统。
一文搞懂Token经济学：同样额度多干3倍活，只需理解消耗机制：腾讯云开发者——从一次 AI Coding API 调用的上下文组成讲清 Token 消耗机制，结合 KV/Prompt Cache、Rules/Memory/Skills/MCP 分层成本与 Sub-Agent 冷启动代价，给出精简系统税、保护缓存和按需加载的降本路径。
面向Skills编程-淘宝企业购端对端研发提效实践：大淘宝技术——提出「面向 Skills 编程」范式，把领域知识、工作流和约束规则封装成可版本化 Skill，让 LLM 在确定性框架内生成代码；以企业购客户对接为例，沿 Vibe Coding、Prompt 模板、SDD、Skill、云端平台演进，将商品域端到端交付周期从 23.5 人日缩短到 8 人日。
拆解大模型几项核心操作背后的数学与 Infra 优化逻辑：腾讯技术工程——从 RMSNorm、Softmax、Causal Mask、Sampling 拆解大模型核心算子的数学等价变换与 Infra 优化逻辑，解释数值稳定、访存瓶颈、SFU、FlashAttention 等如何通过精度取舍和硬件利用率换取推理吞吐。

6.16

AI 不缺智商缺纪律：我的 Harness 工程化实践：阿里云开发者——把 AI Coding 稳定性的关键从模型能力转向流程工程，用分层上下文、角色 Agent、状态外置、G1-G8 门禁与 hook 拦截，把 prompt 约束升级为可执行、可评测、可续跑的 Harness。
AI Agent & Skill 测评方案及落地实践：腾讯技术工程——面向 Agent 从 Demo 到生产可靠的测评体系，拆解确定性评分器、Rubric 评分器、人工评分器三类组合，覆盖功能正确性、过程质量、效率成本、鲁棒安全和体验对齐，并用 TPerf 智能分析 Agent 给出落地流程。
AI 时代，如何超过大多数人？：拓跋阿秀——反驳把 AI 当搜索、模板和外包的低效用法，强调靠近源头、定义好问题、提供高质量上下文、坚持验证、沉淀工作流和建立判断标准，才能用 AI 放大思考而不是外包思考。

6.15

别再问我什么是 Loop Engineering（橙皮书）：花叔——提出 loop engineering（循环工程）：在 harness 之上再搭一层「自动外循环」，按 prompt → context → harness → loop 四层栈组织，靠定时触发、自孵化 sub-agent、外部独立验证（AI 不能给自己打分）、记忆与下一步决策自动驱动 agent 干活；核心是把人从「逐条指挥 agent」升级为「设计指挥系统的工程师」，并警示验证债、理解腐烂、token 失控、认知投降四笔代价。
一篇搞懂 AI Coding Agent 的 Token 成本控制：腾讯技术工程——Token 账单大头是系统反复搬运的上下文（固定前缀 + 会话历史 + 工具往返 + 重试）而非用户提问本身；以 Prompt Cache 稳定前缀为基础，沿「使用习惯 → 模型路由 → 上下文压缩（RTK/Caveman/headroom/context-mode）→ 代码图谱（Graphify/CodeGraph）→ Orchestrator-Worker 多 Agent 分工」五层路径，让便宜模型干标准活、贵模型只做高价值推理来系统性压成本。
后端架构 AI Friendly 的标准与路径：面向无人值守开发时代的系统重构：阿里技术——后端「AI Friendly」的本质是把藏在人脑、群聊、事故里的系统知识显式化、可检索、可验证：用 Architecture Map + Service Card + 显式领域模型与不变量 + SKILL + 受控 Harness + Test-Gated 开发 + 结构化可观测 + L0-L5 分级权限 + Architecture as Code，把系统从「可维护」升级为「可被 Agent 维护」，沿 Copilot → Coworker → Operator 三阶段扩大 AI 可信半径，核心准则是「先可验证、再无人化」。

6.12

如何构建一个更“好”的知识库？：大淘宝技术——系统讲解 RAG 知识库全链路优化，涵盖 RAGAS 评估框架、文档切分策略（Late Chunking）、混合检索（RRF 融合）、查询增强（HyDE/Multi-Query/EAR）、Cross-Encoder 重排序、AutoRAG 自动化优化、QuIM-RAG 问题倒排索引及 OpenViking 文件系统范式。
面向 Agent Skill 的 CLI/SSO 鉴权体系：安全、无感、可追溯：货拉拉技术——为 Agent Skill 调用企业内部系统设计的 SSO 鉴权方案，通过 keychain 主密钥 + 密文文件 + 飞书 Hook 登录 + Agent 轮询授权，实现 token 不落盘、多用户隔离、登录过程无感。
让 Claude Code 拥有自我进化和记忆系统｜得物技术：得物技术——为 Claude Code 构建 Hook 机制驱动的自我学习系统：行为观测层（100% 捕获工具调用）→ 模式提炼层（统计+AI 语义双路径提炼 Instinct 规则）→ 记忆注入层（向量检索+上下文注入），Token 消耗降低 78%，错误重复率下降 80%。
AI 不缺智商缺纪律：一场 Harness 工程化实践：阿里技术——两个月 Harness 工程化复盘，五层 harness 分层结构（常驻入口→触发规则→状态外置→调度→执行支撑）、多 Agent 职责隔离、评测驱动迭代、4 条踩坑教训（prompt 是负债不是资产、过度拆分 Agent 代价大等）。
Harness Engineering落地前，先想清楚这几个问题：腾讯云开发者——从数据中台 AI 助手 Dola 出发，讨论两个问题：流式渲染架构改造（代码高亮库 DOM 模型与 AI 流式输出错配）和存量项目如何用 Harness Engineering 思路适配 AI Coding（规则机器可读、入口收敛、决策显式）。
Agent skill 迭代式编写实战：大淘宝技术——Agent Skill 编写经验，定义为模块化领域知识资产，核心设计遵循三层渐进式披露架构（主文件→补充文档→完整资源），用决策树替代模糊判断、确定性操作脚本化，建立内部自查与外部评估双重验证机制。

6.10

4000行代码撑起一个Agent框架？nanobot架构深度解析：俞孟凡（腾讯云开发者）——拆解港大 nanobot（3,935 行代码）的架构设计：控制面集中化的 ReAct 循环、Markdown Skill 懒加载、grep 记忆、消息总线重注入。
Harness Engineering：长程自动化 AI Coding / Skills 开发实践：胡韶山（阿里技术）——从 Prompt→Context→Harness 三阶段演进切入，用四个案例（编辑工具、技术债放大、上下文防火墙、反馈回路重设计）论证 Harness 是 Agent 时代的护城河。

6.8

横向拆解Claude Code、Codex等六大Agent上下文压缩策略后，我们做了第 7 个：mervynyang（腾讯技术工程）——横向拆解 Claude Code、Codex CLI、OpenCode、Cline、Cursor、Amp、MemGPT/Letta 七种 Agent 上下文压缩方案，提炼分层渐进、增量摘要、用户消息特权等六条共识，落地四级水位线方案（Snip → Prune → Summarize）。

6.7

重新思考研发基础设施：当 Agent 成为第一公民：许晓斌（阿里技术）——从一个周报生成系统出发，提出「意图驱动 + 代码沉淀」的统一框架：软件系统始终由意图（不确定性）驱动、代码（确定性）沉淀构成，Agent 没有改变这个模式，只是把循环速度从月级压缩到分钟级。核心推论：Agent 是加速而非革命；静态沉淀不会消失（agent 占比呈锯齿形波动）；当循环频率从发布周期跃迁到运行时反馈，传统 Git/CI/测试/发布等基础设施的假设系统性失效——Git 假设每次变更值得 commit，CI 假设构建是离散事件，CR 假设有人看每一行代码，这些在分钟级循环下全部不成立。代码分化为「瞬态代码」（on the fly 生成、用完即弃，类似 JIT 机器码）和「沉淀代码」（验证后固化）两种形态，Infra 需要同时支撑两者。
Agent-Memory 评测全景：基准、评估与记忆系统（理论篇）：场景智能技术团队（大淘宝技术）——从基准数据集、评估框架、记忆系统三条主线梳理 Agent 长期记忆评测全景。基准方面：MUSE（多模态推荐对话，7k case）、LOCOMO（超长对话记忆，平均300轮/对话）；评估框架：MemoryAgentBench 提出四项核心能力（准确检索、测试时学习、长程理解、冲突解决），发现 RAG 擅长准确检索、长上下文擅长整体理解，但所有方法在冲突解决（多跳场景准确率仅 6%）上均表现不佳；记忆系统：对比 THEANINE、RMM（Google）、M3-Agent（字节 Seed）、Mem0 等方案。核心结论：当前技术在检索准确性上有进展，但跨会话推理、动态更新、效率平衡仍是瓶颈，未来评测需统一口径综合考量检索正确性、使用有效性、时间维度和成本约束。

6.2

AI软件工程范式革命的思考：从工程史视角推演软件工程的范式革命——经典工程靠「能源换低阶智能」完成工业化（蒸汽机→PLC），而软件工程五十年来始终依赖人脑作为认知主体，所有方法论（结构化编程、敏捷、DevOps）都只是「优化堆人力的方式」；大模型第一次实现「能源→高阶智能」，是与蒸汽机平行的工程史事件，但带来了新的不确定性（幻觉、漂移、不可解释），需要用二阶控制论设计自我纠偏系统；人的角色从「亲手消除偏差」退守到「设计能自我纠偏的系统」，类似工程史上自动化越彻底、工业相关人口反而越多的规律；落地路径分三阶段（辅助→自主→自治），最终瓶颈不是技术而是组织心智的转变。

6.1

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？：从大淘宝营销业务实践出发，探讨传统架构（DDD 平台型 / MVC 业务型）与 AI「不确定性」本质的冲突——传统架构要求输入格式规范、输出可预测、流程预定义，而 AI 具有概率性和涌现性；提出 AI Friendly 架构三范式演进：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）；核心能力包括 Multi-Agent 系统、Context Engineering、AI Friendly API 及 AI 可观测体系；实际应用中 AI 审核准确率达 95.7%，AI 答疑系统问题解决准确率超 98%。
深入解析Chromium的 AI Coding 开发体系：以 Chromium（3500 万行 C++ 代码）为例拆解全球最大开源项目的 AI Coding 基建——在 agents/ 目录下构建了完整的 AI Agent 基础设施，支持 Gemini CLI、Claude Code、GitHub Copilot 三工具复用；核心机制包括：AI Policy（人类始终是最终责任人，违规剥夺 Committer 权限）、四层分层 Prompt 体系（核心指令→完整工作流→平台模板→任务提示词）、18+ 可复用 Skills、RAG 知识库、15+ 场景的 Eval 评估测试框架；AI 使用政策核心原则：AI 是辅助工具，人类开发者对每一行代码负全责。
Agent核心技术概念与范式发生了哪些演变以及背后的思考：从 2023-2026 Agent 四个阶段（被动式 ReAct → 工具增强 → Skill 封装 → 自进化）系统梳理技术范式演进——早期 Agent 本质是「被动响应」的增强版 Chatbot，受限于模型能力只能完成单步推理；工具增强阶段引入 Function Call 链但仍依赖用户明确指令；Skill 阶段将专业知识封装为可复用模块实现即插即用；自进化阶段 Agent 具备持续学习和自我优化能力；核心论点：搞不清楚演化逻辑容易陷入「为升级而升级」的误区，旧范式并非简单淘汰而是可以相互结合使用。