Planner-Executor 拆分：什么时候该拆，什么时候该合

Sam Wilson
架构 , Agent
03 May, 2026

第一天，让单个模型同时做规划和执行，看起来很优雅。三个月后，trace 日志会讲一个不同的故事：Prompt 里负责规划的那部分在工具调用上下文中开始漂移，负责执行的那部分开始幻觉出从未被规划过的步骤。把两者拆开很少是直觉反应。但它经常是正确的选择。

拆分到底买到什么

专门的 Planner 跑在一个干净的上下文里——只有用户请求和可用的工具 schema——产出一份它无法用执行细节污染的计划。专门的 Executor 一次只接收一步、执行、汇报。两个组件都拿到了更小、更锋利的 Prompt。每一个都可以独立替换：便宜的 Executor 配上昂贵的 Planner 是一个真实的成本杠杆，没有拆分你拉不动这个杠杆。

拆分的代价

延迟。每步两次模型调用，Planner 需要修订时甚至三次。对于 2 秒以内的交互式场景，拆分的代价往往太高。诚实的答案是：短任务保留联合循环，只有当任务步数超过 5 步、或者你已经在生产环境观察到联合循环跑题时，才拆分。

Planner-Executor 拆分不是架构上的洁癖。它是对单模型循环在规模下表现出的某个具体失效模式的回应。

多自主才算太自主

John Doe
架构 , 自主性
06 May, 2026

Agent 的自主性是一根滑杆，不是一个开关，正确档位由任务决定的多过由技术决定的。把滑杆推到"完全自主"的本能是真的，因为那样 demo 看起来很神奇。代价后来在客服队列里出现，那时一个 Agent ...

Claude Code 2.1.136：当 AI Agent 的安全阈门从‘相信’变成‘验证’

John Doe
安全 , Agent
09 May, 2026

你让 Claude Code 在 auto mode 下跑一个长任务，回来发现它把你的 AWS credentials 写进了日志文件。或者更糟：它在你没看到的一个弹窗里点了 "允许"，然后把一个安全 ...

Agent 失败时：不会无限循环的恢复模式

Agent 的失败不抛异常。它们产出看起来合理但错误的输出，或者用稍微不同的方式悄悄重试同一个坏方法。把 Agent 包在 try/catch 里是错误的心智模型——Agent 没崩，它只是继续往一个 ...

没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent，是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理，直到第七步。标准的精确 ...

Agent 护栏：在不阉割 Agent 的前提下

给 Agent 加护栏属于那种简单版本太严苛、谨慎版本太宽松的任务。挡得太狠 Agent 拒绝完全合理的任务；挡得太松，新闻头条自己就写出来了。第一版要么是什么都不肯做的聊天机器人，要么是不该做那件事 ...

Agent Harness：为什么你的模型不是问题所在

LangChain 在 TerminalBench 2.0 上从 30 名开外飙到了第 5 名。他们没有换模型。同一个 LLM。同样的参数。唯一改变的是包裹在模型外面的那层软件——Harness。 ...

Agent 记忆：情景、语义，以及该留下什么

Sam Wilson
架构 , 记忆
05 May, 2026

你建的第一个 Agent 没有当前对话之外的任何记忆，这能撑大约一周。然后用户回来，期望连续性，你开始往上贴记忆：一张数据库表、一个向量库、把过去会话的摘要塞进 system prompt。三个月后， ...

Multi-Agent 系统：协调才是真正的难点

Multi-Agent 架构很有诱惑力，因为它映射到人类组织工作的方式：专家、协调者、交接协议。第一次把复杂任务在"研究员"Agent 和"作者"Agent 之间拆分时，结果确实更好。第三次的时候，你 ...

Postiz Agent CLI：把 28 个社交平台的发布权交给你的 AI

John Doe
工具 , Agent
09 May, 2026

你写了一个能读 RSS、能总结论文、能生成配图的 AI Agent，结果发现最后一英里卡住了：它没法把内容发出去。不是技术问题，是生态断层。大多数社交媒体平台只给人类设计 UI，API 文档散落在 ...

生产环境的 ReAct：经得起跑题的推理循环

John Doe
架构 , ReAct
01 May, 2026

ReAct 是一个干净的想法：思考、行动、观察、循环。在生产环境里，循环本身才是最容易崩的部分。模型在前几步推理得还算合理，然后要么过度解释，要么对工具调用反复纠结，要么自说自话地认定任务已经完成。教 ...

用经典编程规则喂饱你的 AI 编码 Agent

John Doe
Tooling , Agent
07 May, 2026

AI Coding Agent 写代码的速度远超人类，但它们不天然知道什么代码算是好代码。没有明确约束，Agent 产出的代码在 demo 里看起来功能完整，三个月后在维护追索里看起来一团乱——函数过 ...

工具选择：什么时候该模型挑，什么时候该你挑

会用工具的 Agent 在 demo 里看起来很有力，因为模型在选下一步做什么。它在生产里看起来很脆弱，因为模型在选下一步做什么。可用工具的空间随特性线性增长，随边界情况二次增长——超过大约十二个工具 ...

Claude Code 102 教给学术研究者的五件事

John Doe
工具 , Agent
13 May, 2026

2026 年 5 月 11 日，Mushtaq Bilal, PhD 发布了《Claude Code 102 for Academic Researchers》，这是他教程系列的第二篇。第一篇 Cla ...

Dexter：为金融研究而生的自主 Agent

John Doe
Agent , 金融
07 May, 2026

金融研究是一个天然适合 AI Agent 的领域——数据公开、步骤可结构化、输出是分析而非行动。但多数通用 Agent 在这个场景里会暴露两个问题：碰到的数据格式太多太杂，每步都要重新理解上下文；缺少 ...

文件驱动的 Agent，不需要构建步骤

周五晚上还在排 pitch deck 格式的投行分析师，并没有在创造 alpha。他们在给数字画框——那些数字早就从 CapIQ 拉出来了，早就在模型里交叉验证过了，早就被 VP 批过了。横在数据和格 ...

OpenClaw 终于长出手和眼：Peekaboo v3

John Doe
Agent , 工具
11 May, 2026

OpenClaw 之前能接消息、能调 Agent、能把结果送到各个聊天渠道，但缺一双手和眼睛。Agent 在聊天框里给建议容易，要它实际操作桌面上的按钮、菜单、弹窗、输入框，之前没有可靠的本地执行层。 ...