2023-2026.05 真实论文时间线复盘 如果你只看 pass@1,会觉得 RLVR 当然赢了;如果你把 pass@k、coverage、retention、steerability 一起放上来,结论就开始变复杂。 过去两年,后训练研究真正发生变化的,不是”谁更强”,而是”到底是谁在改模型的策略
在大模型领域里越来越火的技术——MoE(Mixture of Experts)。deepseekV