从外面看,流式输出很简单:token 到达,你追加,用户阅读。等到第一次有不完整的 JSON 块在渲染中途到达,或者代码块开了头但闭合的反引号四秒后才到,你才会理解为什么团队把流式输出当成 UX 问题 ...