2026.6 期
2026.6 期
6.21
Progressive Disclosure: Claude-Mem's Context Priming Philosophy:Claude-Mem 官方文档——先给「有什么 + 取用成本」的轻量索引、由 agent 自行决定取什么的三层渐进式披露(索引→按需详情→源文件),替代传统 RAG 一次性塞满上下文的 context pollution,把有限注意力预算只花在高价值信息上。
Context Engineering for AI Agents:Claude-Mem 官方文档(提炼自 Anthropic《Effective context engineering for AI agents》)——上下文工程的核心是「找到能最大化目标达成概率的最小高信号 token 集」,针对 context rot 用 Just-In-Time 检索、Compaction、结构化笔记、Sub-Agent 等手段在多轮迭代中维护 token 的信噪比。
6.18
- Loop Engineering 概念解析、思考与实践:阿里技术——区分底层 Agent Loop 与面向需求验收的 Loop Engineering,提出用 Automations、Worktrees、Skills、Connectors / Plugins、Sub Agents 与 State 组织自动化闭环,把原本依赖人反复提示、测试和纠偏的协同过程升级为可定时、可隔离、可验证、可沉淀的自运行系统,同时提醒需求和验证标准不清时应保留 Human-in-the-Loop。
6.17
更可靠的主播助理:淘宝主播Agent的Harness工程实战:阿里云开发者——以淘宝主播 Agent 为高压生产场景,拆解 Harness 如何通过上下文工程、Tool Registry、Lifecycle Hooks、Checkpoint、安全防护、评测体系与三层记忆,把即时直播操作做成可控、可恢复、可追踪的工程系统。
一文搞懂Token经济学:同样额度多干3倍活,只需理解消耗机制:腾讯云开发者——从一次 AI Coding API 调用的上下文组成讲清 Token 消耗机制,结合 KV/Prompt Cache、Rules/Memory/Skills/MCP 分层成本与 Sub-Agent 冷启动代价,给出精简系统税、保护缓存和按需加载的降本路径。
面向Skills编程-淘宝企业购端对端研发提效实践:大淘宝技术——提出「面向 Skills 编程」范式,把领域知识、工作流和约束规则封装成可版本化 Skill,让 LLM 在确定性框架内生成代码;以企业购客户对接为例,沿 Vibe Coding、Prompt 模板、SDD、Skill、云端平台演进,将商品域端到端交付周期从 23.5 人日缩短到 8 人日。
拆解大模型几项核心操作背后的数学与 Infra 优化逻辑:腾讯技术工程——从 RMSNorm、Softmax、Causal Mask、Sampling 拆解大模型核心算子的数学等价变换与 Infra 优化逻辑,解释数值稳定、访存瓶颈、SFU、FlashAttention 等如何通过精度取舍和硬件利用率换取推理吞吐。
6.16
AI 不缺智商缺纪律:我的 Harness 工程化实践:阿里云开发者——把 AI Coding 稳定性的关键从模型能力转向流程工程,用分层上下文、角色 Agent、状态外置、G1-G8 门禁与 hook 拦截,把 prompt 约束升级为可执行、可评测、可续跑的 Harness。
AI Agent & Skill 测评方案及落地实践:腾讯技术工程——面向 Agent 从 Demo 到生产可靠的测评体系,拆解确定性评分器、Rubric 评分器、人工评分器三类组合,覆盖功能正确性、过程质量、效率成本、鲁棒安全和体验对齐,并用 TPerf 智能分析 Agent 给出落地流程。
AI 时代,如何超过大多数人?:拓跋阿秀——反驳把 AI 当搜索、模板和外包的低效用法,强调靠近源头、定义好问题、提供高质量上下文、坚持验证、沉淀工作流和建立判断标准,才能用 AI 放大思考而不是外包思考。
6.15
别再问我什么是 Loop Engineering(橙皮书):花叔——提出 loop engineering(循环工程):在 harness 之上再搭一层「自动外循环」,按 prompt → context → harness → loop 四层栈组织,靠定时触发、自孵化 sub-agent、外部独立验证(AI 不能给自己打分)、记忆与下一步决策自动驱动 agent 干活;核心是把人从「逐条指挥 agent」升级为「设计指挥系统的工程师」,并警示验证债、理解腐烂、token 失控、认知投降四笔代价。
一篇搞懂 AI Coding Agent 的 Token 成本控制:腾讯技术工程——Token 账单大头是系统反复搬运的上下文(固定前缀 + 会话历史 + 工具往返 + 重试)而非用户提问本身;以 Prompt Cache 稳定前缀为基础,沿「使用习惯 → 模型路由 → 上下文压缩(RTK/Caveman/headroom/context-mode)→ 代码图谱(Graphify/CodeGraph)→ Orchestrator-Worker 多 Agent 分工」五层路径,让便宜模型干标准活、贵模型只做高价值推理来系统性压成本。
后端架构 AI Friendly 的标准与路径:面向无人值守开发时代的系统重构:阿里技术——后端「AI Friendly」的本质是把藏在人脑、群聊、事故里的系统知识显式化、可检索、可验证:用 Architecture Map + Service Card + 显式领域模型与不变量 + SKILL + 受控 Harness + Test-Gated 开发 + 结构化可观测 + L0-L5 分级权限 + Architecture as Code,把系统从「可维护」升级为「可被 Agent 维护」,沿 Copilot → Coworker → Operator 三阶段扩大 AI 可信半径,核心准则是「先可验证、再无人化」。
6.12
如何构建一个更“好”的知识库?:大淘宝技术——系统讲解 RAG 知识库全链路优化,涵盖 RAGAS 评估框架、文档切分策略(Late Chunking)、混合检索(RRF 融合)、查询增强(HyDE/Multi-Query/EAR)、Cross-Encoder 重排序、AutoRAG 自动化优化、QuIM-RAG 问题倒排索引及 OpenViking 文件系统范式。
面向 Agent Skill 的 CLI/SSO 鉴权体系:安全、无感、可追溯:货拉拉技术——为 Agent Skill 调用企业内部系统设计的 SSO 鉴权方案,通过 keychain 主密钥 + 密文文件 + 飞书 Hook 登录 + Agent 轮询授权,实现 token 不落盘、多用户隔离、登录过程无感。
让 Claude Code 拥有自我进化和记忆系统|得物技术:得物技术——为 Claude Code 构建 Hook 机制驱动的自我学习系统:行为观测层(100% 捕获工具调用)→ 模式提炼层(统计+AI 语义双路径提炼 Instinct 规则)→ 记忆注入层(向量检索+上下文注入),Token 消耗降低 78%,错误重复率下降 80%。
AI 不缺智商缺纪律:一场 Harness 工程化实践:阿里技术——两个月 Harness 工程化复盘,五层 harness 分层结构(常驻入口→触发规则→状态外置→调度→执行支撑)、多 Agent 职责隔离、评测驱动迭代、4 条踩坑教训(prompt 是负债不是资产、过度拆分 Agent 代价大等)。
Harness Engineering落地前,先想清楚这几个问题:腾讯云开发者——从数据中台 AI 助手 Dola 出发,讨论两个问题:流式渲染架构改造(代码高亮库 DOM 模型与 AI 流式输出错配)和存量项目如何用 Harness Engineering 思路适配 AI Coding(规则机器可读、入口收敛、决策显式)。
Agent skill 迭代式编写实战:大淘宝技术——Agent Skill 编写经验,定义为模块化领域知识资产,核心设计遵循三层渐进式披露架构(主文件→补充文档→完整资源),用决策树替代模糊判断、确定性操作脚本化,建立内部自查与外部评估双重验证机制。
6.10
4000行代码撑起一个Agent框架?nanobot架构深度解析:俞孟凡(腾讯云开发者)——拆解港大 nanobot(3,935 行代码)的架构设计:控制面集中化的 ReAct 循环、Markdown Skill 懒加载、grep 记忆、消息总线重注入。
Harness Engineering:长程自动化 AI Coding / Skills 开发实践:胡韶山(阿里技术)——从 Prompt→Context→Harness 三阶段演进切入,用四个案例(编辑工具、技术债放大、上下文防火墙、反馈回路重设计)论证 Harness 是 Agent 时代的护城河。
6.8
- 横向拆解Claude Code、Codex等六大Agent上下文压缩策略后,我们做了第 7 个:mervynyang(腾讯技术工程)——横向拆解 Claude Code、Codex CLI、OpenCode、Cline、Cursor、Amp、MemGPT/Letta 七种 Agent 上下文压缩方案,提炼分层渐进、增量摘要、用户消息特权等六条共识,落地四级水位线方案(Snip → Prune → Summarize)。
6.7
重新思考研发基础设施:当 Agent 成为第一公民:许晓斌(阿里技术)——从一个周报生成系统出发,提出「意图驱动 + 代码沉淀」的统一框架:软件系统始终由意图(不确定性)驱动、代码(确定性)沉淀构成,Agent 没有改变这个模式,只是把循环速度从月级压缩到分钟级。核心推论:Agent 是加速而非革命;静态沉淀不会消失(agent 占比呈锯齿形波动);当循环频率从发布周期跃迁到运行时反馈,传统 Git/CI/测试/发布等基础设施的假设系统性失效——Git 假设每次变更值得 commit,CI 假设构建是离散事件,CR 假设有人看每一行代码,这些在分钟级循环下全部不成立。代码分化为「瞬态代码」(on the fly 生成、用完即弃,类似 JIT 机器码)和「沉淀代码」(验证后固化)两种形态,Infra 需要同时支撑两者。
Agent-Memory 评测全景:基准、评估与记忆系统(理论篇):场景智能技术团队(大淘宝技术)——从基准数据集、评估框架、记忆系统三条主线梳理 Agent 长期记忆评测全景。基准方面:MUSE(多模态推荐对话,7k case)、LOCOMO(超长对话记忆,平均300轮/对话);评估框架:MemoryAgentBench 提出四项核心能力(准确检索、测试时学习、长程理解、冲突解决),发现 RAG 擅长准确检索、长上下文擅长整体理解,但所有方法在冲突解决(多跳场景准确率仅 6%)上均表现不佳;记忆系统:对比 THEANINE、RMM(Google)、M3-Agent(字节 Seed)、Mem0 等方案。核心结论:当前技术在检索准确性上有进展,但跨会话推理、动态更新、效率平衡仍是瓶颈,未来评测需统一口径综合考量检索正确性、使用有效性、时间维度和成本约束。
6.2
- AI软件工程范式革命的思考:从工程史视角推演软件工程的范式革命——经典工程靠「能源换低阶智能」完成工业化(蒸汽机→PLC),而软件工程五十年来始终依赖人脑作为认知主体,所有方法论(结构化编程、敏捷、DevOps)都只是「优化堆人力的方式」;大模型第一次实现「能源→高阶智能」,是与蒸汽机平行的工程史事件,但带来了新的不确定性(幻觉、漂移、不可解释),需要用二阶控制论设计自我纠偏系统;人的角色从「亲手消除偏差」退守到「设计能自我纠偏的系统」,类似工程史上自动化越彻底、工业相关人口反而越多的规律;落地路径分三阶段(辅助→自主→自治),最终瓶颈不是技术而是组织心智的转变。
6.1
面向 LLM 的架构设计:什么是真正的 AI Friendly 架构?:从大淘宝营销业务实践出发,探讨传统架构(DDD 平台型 / MVC 业务型)与 AI「不确定性」本质的冲突——传统架构要求输入格式规范、输出可预测、流程预定义,而 AI 具有概率性和涌现性;提出 AI Friendly 架构三范式演进:确定性→概率性(将输出收敛至安全区间)、结构化→语义化(基于意图而非格式响应)、静态→动态(从规则转向规划);核心能力包括 Multi-Agent 系统、Context Engineering、AI Friendly API 及 AI 可观测体系;实际应用中 AI 审核准确率达 95.7%,AI 答疑系统问题解决准确率超 98%。
深入解析Chromium的 AI Coding 开发体系:以 Chromium(3500 万行 C++ 代码)为例拆解全球最大开源项目的 AI Coding 基建——在
agents/目录下构建了完整的 AI Agent 基础设施,支持 Gemini CLI、Claude Code、GitHub Copilot 三工具复用;核心机制包括:AI Policy(人类始终是最终责任人,违规剥夺 Committer 权限)、四层分层 Prompt 体系(核心指令→完整工作流→平台模板→任务提示词)、18+ 可复用 Skills、RAG 知识库、15+ 场景的 Eval 评估测试框架;AI 使用政策核心原则:AI 是辅助工具,人类开发者对每一行代码负全责。Agent核心技术概念与范式发生了哪些演变以及背后的思考:从 2023-2026 Agent 四个阶段(被动式 ReAct → 工具增强 → Skill 封装 → 自进化)系统梳理技术范式演进——早期 Agent 本质是「被动响应」的增强版 Chatbot,受限于模型能力只能完成单步推理;工具增强阶段引入 Function Call 链但仍依赖用户明确指令;Skill 阶段将专业知识封装为可复用模块实现即插即用;自进化阶段 Agent 具备持续学习和自我优化能力;核心论点:搞不清楚演化逻辑容易陷入「为升级而升级」的误区,旧范式并非简单淘汰而是可以相互结合使用。
