PG/PPO/DPO/GRPO/MDPO 公式推导

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...

· 2025-02-26 · 置顶

看点量化 SmoothQuant/AWQ

为什么开始看量化了,我也不知道 量化原理 我们一般谈LLM的精度,会涉及到FP32,FP16,BF16,INT8,INT4等字样。这些...

深度学习 · 2024-03-18 · 置顶

PG/PPO/DPO/GRPO/MDPO 公式推导

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...

· 2025-02-26

RLHF-PPO/DPO中的一些细节

趁着周末稍微补了一下RLHF-PPO的理论和trl实现,网上有很多关于这部分的讲解:磨菇书, PPO代码讲解等。所以这篇博客还是以补充...

· 2025-02-24

元旦快乐!

发现上次写博客已经是去年8月份了,这小半年发生了很多事儿。 无论如何,希望新的一年可以多分享一些有趣的内容😊

说说 · 2025-01-01

c++中的dfs funciton定义

问题来自今日力扣 偶然发现使用std::function定义dfs函数比原生函数或auto定义慢很多,使用斐波那契简单计算一下时间,代...

其他 · 2024-08-16

JJJYmmm's Blog. All Rights Reserved. Theme Jasmine by Kent Liao.