PG/PPO/DPO/GRPO/MDPO 公式推导

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...

· 2025-02-26

RLHF-PPO/DPO中的一些细节

趁着周末稍微补了一下RLHF-PPO的理论和trl实现,网上有很多关于这部分的讲解:磨菇书, PPO代码讲解等。所以这篇博客还是以补充...

· 2025-02-24

元旦快乐!

发现上次写博客已经是去年8月份了,这小半年发生了很多事儿。 无论如何,希望新的一年可以多分享一些有趣的内容😊

说说 · 2025-01-01

c++中的dfs funciton定义

问题来自今日力扣 偶然发现使用std::function定义dfs函数比原生函数或auto定义慢很多,使用斐波那契简单计算一下时间,代...

其他 · 2024-08-16

JJJYmmm's Blog. All Rights Reserved. Theme Jasmine by Kent Liao.