<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...
· 2025-02-26
趁着周末稍微补了一下RLHF-PPO的理论和trl实现,网上有很多关于这部分的讲解:磨菇书, PPO代码讲解等。所以这篇博客还是以补充...
· 2025-02-24
年前分享一篇关于Sequence Packing的论文:2107.02027 笔者认为Packing是Transformer架构训练时...
深度学习 · 2025-01-25
Simple Treasure