PG/PPO/DPO/GRPO/MDPO 公式推导 <think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO... · 2025-02-26