PG/PPO/DPO/GRPO/MDPO 公式推导
<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...
· 2025-02-26 · 置顶
<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...
· 2025-02-26 · 置顶
最近写的一个Multi-task框架~ 项目地址:https://github.com/JJJYmmm/Pix2SeqV2-Pytor...
计算机视觉 · 2023-10-19 · 置顶
作品说明 对AssaultCube 1.3.0.2进行攻击,实现透视、自瞄类的作弊功能。 实验环境 调试工具:x64dbg(使用32位...
为什么开始看量化了,我也不知道 量化原理 我们一般谈LLM的精度,会涉及到FP32,FP16,BF16,INT8,INT4等字样。这些...
深度学习 · 2024-03-18 · 置顶
找到一个Github star比较多的CLIP跑起来玩一下。结果发现挺多坑的......(我发现Shariatnia好像很喜欢在Jup...
深度学习 · 2023-10-24 · 置顶
<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标,包括比较经典的PPO、DPO,KIMI1.5中的MDPO...
· 2025-02-26
趁着周末稍微补了一下RLHF-PPO的理论和trl实现,网上有很多关于这部分的讲解:磨菇书, PPO代码讲解等。所以这篇博客还是以补充...
· 2025-02-24
年前分享一篇关于Sequence Packing的论文:2107.02027 笔者认为Packing是Transformer架构训练时...
深度学习 · 2025-01-25
问题来自今日力扣 偶然发现使用std::function定义dfs函数比原生函数或auto定义慢很多,使用斐波那契简单计算一下时间,代...
其他 · 2024-08-16
Simple Treasure