保护用户的限流,不只是保护上游

LLM 应用里的限流是一次解三个问题,多数实现只解一个。上游问题:模型 API 有配额,你不能超。成本问题:你自己代码里的失控循环,一个小时能花一千美元。用户保护问题:单个用户,无论是恶意还是无心,不 ...

部署 LLM 应用:那些不是模型的部分

部署 LLM 应用,多半不是部署模型。模型差不多就是一个托管 API 调用。你真正部署的是它周围的一切:prompt 管理、检索层、缓存、队列、限流、可观测性栈。多数团队会低估这块表面积,直到第二个月 ...