强化学习 | JJJYmmm's Blog

JJJYmmm's Blog
归档
关于
随机

切换模式
返回顶部

PG/PPO/DPO/GRPO/MDPO 公式推导

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标，包括比较经典的PPO、DPO，KIMI1.5中的MDPO...

· 2025-02-26

Simple Treasure

热门文章

最新评论

热门标签

网站链接

JJJYmmm's Blog. All Rights Reserved. Theme Jasmine by Kent Liao.

鄂ICP备2023004395号