稳定性

重试、退避,以及延迟图里的幽灵

LLM 调用的重试逻辑是那种你以为很显然,直到它差点搞挂一个服务的事情。模型 API 返回的 429 不等同于缓存查询返回的 429。模型生成异常变慢导致 30 秒后超时,不等同于网络抖动。把它们当一 ...