JJJYmmm | JJJYmmm's Blog

JJJYmmm's Blog
归档
关于
随机

切换模式
返回顶部

stack<int> 底层容器连续性

今日力扣是关于单调栈的，刚开始我使用stack实现，最后题目要求返回vector，因为c++把stack视为容器而不是迭代器，所以使用...

其他 · 2024-05-24

RoPE两种实现方式

RoPEv1: chatglm/baichuan中使用 RoPEv2: Llama中使用两者区别 v1代码较为繁琐，但是和原始算法...

深度学习 · 2024-04-29

为什么均匀分布初始化标准差需要乘上Sqrt(3)

Pytorch中的kaiming_uniform中标准差stdv乘了一个因子$\sqrt{3}$ def kaiming_unifor...

深度学习 · 2024-04-16

GPT from Scratch

BPE -> Transformer -> Benchmark 非常好教程 https://github.com/karp...

深度学习, 说说 · 2024-04-05

Gumbel Softmax

非引流，实在觉得这两篇Gumbel Softmax讲的不错，也就没有自己写的必要了(并不是因为懒 https://zhuanlan.z...

说说 · 2024-03-27

Simple Treasure

热门文章

最新评论

热门标签

网站链接

JJJYmmm's Blog. All Rights Reserved. Theme Jasmine by Kent Liao.

鄂ICP备2023004395号