PG/PPO/DPO/GRPO/MDPO 公式推导

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...

· 2025-02-26

JJJYmmm's Blog. All Rights Reserved. Theme Jasmine by Kent Liao.