稳定性

LLM 调用的重试逻辑是那种你以为很显然，直到它差点搞挂一个服务的事情。模型 API 返回的 429 不等同于缓存查询返回的 429。模型生成异常变慢导致 30 秒后超时，不等同于网络抖动。把它们当一 ...