Designing an agent harness that doesn't fight the model

Lorem ipsum dolor sit amet consectetur adipisicing elit. The harness around an agent matters more than the model behind it. A well-shaped harness can elevate a mediocre model; a clumsy one can ruin a great one.

Loop shape and termination

Nam ut rutrum ex, venenatis sollicitudin urna. Aliquam erat volutpat.

Excepturi repellendus consequatur quibusdam optio expedita praesentium.

Integer eu ipsum sem.

相关文章

多自主才算太自主

Agent 的自主性是一根滑杆,不是一个开关,正确档位由任务决定的多过由技术决定的。把滑杆推到"完全自主"的本能是真的,因为那样 demo 看起来很神奇。代价后来在客服队列里出现,那时一个 Agent ...

Agent 失败时:不会无限循环的恢复模式

Agent 的失败不抛异常。它们产出看起来合理但错误的输出,或者用稍微不同的方式悄悄重试同一个坏方法。把 Agent 包在 try/catch 里是错误的心智模型——Agent 没崩,它只是继续往一个 ...

没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent,是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理,直到第七步。标准的精确 ...

Agent Harness:为什么你的模型不是问题所在

LangChain 在 TerminalBench 2.0 上从 30 名开外飙到了第 5 名。他们没有换模型。同一个 LLM。同样的参数。唯一改变的是包裹在模型外面的那层软件——Harness。 ...

Agent 记忆:情景、语义,以及该留下什么

你建的第一个 Agent 没有当前对话之外的任何记忆,这能撑大约一周。然后用户回来,期望连续性,你开始往上贴记忆:一张数据库表、一个向量库、把过去会话的摘要塞进 system prompt。三个月后, ...

工具选择:什么时候该模型挑,什么时候该你挑

会用工具的 Agent 在 demo 里看起来很有力,因为模型在选下一步做什么。它在生产里看起来很脆弱,因为模型在选下一步做什么。可用工具的空间随特性线性增长,随边界情况二次增长——超过大约十二个工具 ...

文件驱动的 Agent,不需要构建步骤

周五晚上还在排 pitch deck 格式的投行分析师,并没有在创造 alpha。他们在给数字画框——那些数字早就从 CapIQ 拉出来了,早就在模型里交叉验证过了,早就被 VP 批过了。横在数据和格 ...