质量
测试 LLM 应用:当输出非确定性时
- Sam Wilson
- 测试 , 质量
- 04 May, 2026
用确定性代码库的测试范式去测 LLM 应用,结果是周末挂、周一过的 flaky 测试。同样的输入,模型输出在多次调用之间并不稳定;即便温度为零,模型本身也会更新带来漂移。快照测试一直在响,没人再读;精 ...
用确定性代码库的测试范式去测 LLM 应用,结果是周末挂、周一过的 flaky 测试。同样的输入,模型输出在多次调用之间并不稳定;即便温度为零,模型本身也会更新带来漂移。快照测试一直在响,没人再读;精 ...