PG/PPO/DPO/GRPO/MDPO 公式推导
<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...
· 2025-02-26
<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...
· 2025-02-26
趁着周末稍微补了一下RLHF-PPO的理论和trl实现,网上有很多关于这部分的讲解:磨菇书, PPO代码讲解等。所以这篇博客还是以补充...
· 2025-02-24
年前分享一篇关于Sequence Packing的论文:2107.02027 笔者认为Packing是Transformer架构训练时...
深度学习 · 2025-01-25
问题来自今日力扣 偶然发现使用std::function定义dfs函数比原生函数或auto定义慢很多,使用斐波那契简单计算一下时间,代...
其他 · 2024-08-16
Simple Treasure