JJJYmmm's Blog | Simple Treasure

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标，包括比较经典的PPO、DPO，KIMI1.5中的MDPO...

· 2025-02-26 · 置顶

最近写的一个Multi-task框架~ 项目地址：https://github.com/JJJYmmm/Pix2SeqV2-Pytor...

计算机视觉 · 2023-10-19 · 置顶

为什么开始看量化了，我也不知道量化原理我们一般谈LLM的精度，会涉及到FP32，FP16，BF16，INT8，INT4等字样。这些...

深度学习 · 2024-03-18 · 置顶

作品说明对AssaultCube 1.3.0.2进行攻击，实现透视、自瞄类的作弊功能。实验环境调试工具：x64dbg(使用32位...

逆向, 网安 · 2023-03-22 · 置顶

找到一个Github star比较多的CLIP跑起来玩一下。结果发现挺多坑的......(我发现Shariatnia好像很喜欢在Jup...

深度学习 · 2023-10-24 · 置顶

首先我们知道KL散度具有不对称性，一般我们称$D_{KL}(p||q) = \mathbb E_{p(x)} \frac {p(x)}...

机器学习 · 2025-03-18

<think> 这篇博客的主要目的是整理强化学习中几个XPO的优化目标，包括比较经典的PPO、DPO，KIMI1.5中的MDPO...

· 2025-02-26

趁着周末稍微补了一下RLHF-PPO的理论和trl实现，网上有很多关于这部分的讲解：磨菇书, PPO代码讲解等。所以这篇博客还是以补充...

· 2025-02-24

年前分享一篇关于Sequence Packing的论文：2107.02027 笔者认为Packing是Transformer架构训练时...

深度学习 · 2025-01-25

发现上次写博客已经是去年8月份了，这小半年发生了很多事儿。无论如何，希望新的一年可以多分享一些有趣的内容😊

说说 · 2025-01-01