Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 是大家的第一直觉,0 是第二直觉,多数项目就停在那里。真正的代价后面才出现:分类任务用着创意写作的 ...

Function Calling:当 Schema 比 Prompt 更重要

Function calling 第一次跑通的时候看起来像免费午餐。模型选了正确的工具、填了正确的参数,剩下的交给应用代码。等你上线之后,边角案例就来了:参数被凭空幻觉出来、函数被调用时类型合法但值毫 ...

Self-Consistency 采样:当你需要正确答案时的廉价可靠性

Self-consistency 采样听起来像研究员提的方案、生产工程师会忽略的那种东西。在非零 temperature 下对同一 prompt 采样 N 次,取多数答案,上线。它对有离散正确答案的任 ...

强制结构化输出而不削弱模型推理

JSON 模式和 Schema 约束看起来像免费午餐,直到它们不是。当模型第一次为一个复杂嵌套 Schema 输出合法 JSON,诱惑就来了:把所有东西都塞进结构化输出。等到第二次它输出结构合法但语义 ...

防御 Prompt 注入:在不毁掉自己 Prompt 的前提下

Prompt 注入是 LLM 应用的 SQL 注入,每个团队都用同一种方式学到这件事:用户在聊天里粘上 "ignore previous instructions",demo 在台上崩了。直觉反应是在 ...

上下文窗口管理:当 128k 还不够用时

更大的上下文窗口本来应该让上下文工程过时。它没有。大海捞针测试显示模型能在 128k token 里找到某个事实;真正的失败发生在你要求模型在多步推理链里使用那个事实的时候。召回不等于推理,两者之间的 ...

Few-shot 示例:像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt,几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队的错误是把示例当装饰——把几个明显的案例贴在 Prompt 顶部就完事。示例其实是你最接近测试用例的 ...

经得起流量压力的思维链提示

思维链(Chain-of-Thought)是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写出推理过程,这个想法在论文里非常稳健,但在生产环境中,同一个 Prompt 在 10 RPS 下表现 ...