评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent，是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理，直到第七步。标准的精确 ...