Performance

更大的上下文窗口本来应该让上下文工程过时。它没有。大海捞针测试显示模型能在 128k token 里找到某个事实；真正的失败发生在你要求模型在多步推理链里使用那个事实的时候。召回不等于推理，两者之间的 ...