JJJYmmm | JJJYmmm's Blog

JJJYmmm's Blog
归档
关于
随机

切换模式
返回顶部

正向/反向KL散度

首先我们知道KL散度具有不对称性，一般我们称$D_{KL}(p||q) = \mathbb E_{p(x)} \frac {p(x)}...

机器学习 · 2025-03-18

PG/PPO/DPO/GRPO/MDPO 公式推导

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标，包括比较经典的PPO、DPO，KIMI1.5中的MDPO...

· 2025-02-26

RLHF-PPO/DPO中的一些细节

趁着周末稍微补了一下RLHF-PPO的理论和trl实现，网上有很多关于这部分的讲解：磨菇书, PPO代码讲解等。所以这篇博客还是以补充...

· 2025-02-24

Packing in Transformer Training

年前分享一篇关于Sequence Packing的论文：2107.02027 笔者认为Packing是Transformer架构训练时...

深度学习 · 2025-01-25

元旦快乐！

发现上次写博客已经是去年8月份了，这小半年发生了很多事儿。无论如何，希望新的一年可以多分享一些有趣的内容😊

说说 · 2025-01-01

Simple Treasure

热门文章

最新评论

热门标签

网站链接

JJJYmmm's Blog. All Rights Reserved. Theme Jasmine by Kent Liao.

鄂ICP备2023004395号