Ai知识站

训练相关

SFT、RL、OPD 不是三种训练技巧，而是三种”策略分布塑形”方式

2023-2026.05 真实论文时间线复盘如果你只看 pass@1，会觉得 RLVR 当然赢了；如果你把 pass@k、coverage、retention、steerability 一起放上来，结论就开始变复杂。过去两年，后训练研究真正发生变化的，不是”谁更强”，而是”到底是谁在改模型的策略

cuilinsu

发布于 2026-05-30

训练相关

长篇白话系列：大模型之MoE（Mixture of Experts）

在大模型领域里越来越火的技术——MoE（Mixture of Experts）。deepseekV

cuilinsu

发布于 2026-05-18