生产环境

重试、退避,以及延迟图里的幽灵

LLM 调用的重试逻辑是那种你以为很显然,直到它差点搞挂一个服务的事情。模型 API 返回的 429 不等同于缓存查询返回的 429。模型生成异常变慢导致 30 秒后超时,不等同于网络抖动。把它们当一 ...

LLM 应用的追踪:当什么都没崩时,该记什么日志

传统应用出问题时会崩溃。LLM 应用出问题时会返回一个自信的错误答案,并把成功计数器加 1。你标准的可观测性栈——指标、trace、异常追踪——会告诉你请求在 1.2 秒内完成,其余什么也不报告,而用 ...