洞察 Insights

轨迹感知RL突破扩散模型瓶颈：AI推理范式的新统一与效率革命

TraceRL框架通过创新性地对齐扩散语言模型（DLM）的训练目标与推理轨迹，显著提升了DLM的性能与训练效率，使其在复杂推理任务上超越了更大规模的自回归模型，预示着AI推理能力与计算效率的深刻变革。这一创新及其开源框架dLLM-RL，正加速DLM成为下一代高效智能体的核心基石，开启“RL大一统”的新范式。

阅读全文