菜单

Ai知识站

SFT、RL、OPD 不是三种训练技巧,而是三种”策略分布塑形”方式

2023-2026.05 真实论文时间线复盘 如果你只看 pass@1,会觉得 RLVR 当然赢了;如果你把 pass@k、coverage、retention、steerability 一起放上来,结论就开始变复杂。 过去两年,后训练研究真正发生变化的,不是”谁更强”,而是”到底是谁在改模型的策略

cuilinsu 发布于 2026-05-30

长篇白话系列:大模型之MoE(Mixture of Experts)

在大模型领域里越来越火的技术——MoE(Mixture of Experts)。deepseekV

cuilinsu 发布于 2026-05-18