多自主才算太自主

John Doe
架构 , 自主性
06 May, 2026

Agent 的自主性是一根滑杆，不是一个开关，正确档位由任务决定的多过由技术决定的。把滑杆推到”完全自主”的本能是真的，因为那样 demo 看起来很神奇。代价后来在客服队列里出现，那时一个 Agent 在不确定下执行了一个不可逆动作，没人在场抓住。

值得区分的几档

辅助端：Agent 建议，人类提交。监督端：Agent 行动，但每个有后果的动作都需要确认。受限自主端：Agent 在沙箱里行动——有限工具表面、有限范围、完全可逆。完全自主端：Agent 无监督运行，可靠性的负担完全压在系统上。多数生产 Agent 该住在”受限自主”，多数团队不知不觉漂移过了那一档。

你不会注意到的漂移

向更自主漂移的过程，是一个工具一个工具发生的。新增能力，因为有用户提了；移除确认步骤，因为用户抱怨摩擦；放宽权限，因为边界情况不在原来的边界里。每个改动都合理；累积漂移产出一个比任何人设计的都更自主的 Agent。

正确的自主级别，是你最坏情况事故仍可恢复的那一档。如果你回答不了”最坏情况事故是什么”，那你的 Agent 大概比该有的更自主。

Agent Harness：为什么你的模型不是问题所在

LangChain 在 TerminalBench 2.0 上从 30 名开外飙到了第 5 名。他们没有换模型。同一个 LLM。同样的参数。唯一改变的是包裹在模型外面的那层软件——Harness。 ...

Agent 记忆：情景、语义，以及该留下什么

Sam Wilson
架构 , 记忆
05 May, 2026

你建的第一个 Agent 没有当前对话之外的任何记忆，这能撑大约一周。然后用户回来，期望连续性，你开始往上贴记忆：一张数据库表、一个向量库、把过去会话的摘要塞进 system prompt。三个月后， ...

Multi-Agent 系统：协调才是真正的难点

Multi-Agent 架构很有诱惑力，因为它映射到人类组织工作的方式：专家、协调者、交接协议。第一次把复杂任务在"研究员"Agent 和"作者"Agent 之间拆分时，结果确实更好。第三次的时候，你 ...

Planner-Executor 拆分：什么时候该拆，什么时候该合

Sam Wilson
架构 , Agent
03 May, 2026

第一天，让单个模型同时做规划和执行，看起来很优雅。三个月后，trace 日志会讲一个不同的故事：Prompt 里负责规划的那部分在工具调用上下文中开始漂移，负责执行的那部分开始幻觉出从未被规划过的步骤 ...

生产环境的 ReAct：经得起跑题的推理循环

John Doe
架构 , ReAct
01 May, 2026

ReAct 是一个干净的想法：思考、行动、观察、循环。在生产环境里，循环本身才是最容易崩的部分。模型在前几步推理得还算合理，然后要么过度解释，要么对工具调用反复纠结，要么自说自话地认定任务已经完成。教 ...

多自主才算太自主

值得区分的几档

你不会注意到的漂移

标签 :

分享 :

相关文章

Agent Harness：为什么你的模型不是问题所在

Agent 记忆：情景、语义，以及该留下什么

Multi-Agent 系统：协调才是真正的难点

Planner-Executor 拆分：什么时候该拆，什么时候该合

生产环境的 ReAct：经得起跑题的推理循环

Agent 失败时：不会无限循环的恢复模式

没有标准答案的 Agent 怎么评测

工具选择：什么时候该模型挑，什么时候该你挑

文件驱动的 Agent，不需要构建步骤