Packing in Transformer Training
年前分享一篇关于Sequence Packing的论文:2107.02027 笔者认为Packing是Transformer架构训练时...
深度学习 · 2025-01-25
年前分享一篇关于Sequence Packing的论文:2107.02027 笔者认为Packing是Transformer架构训练时...
深度学习 · 2025-01-25
关于CIDEr的介绍可以看这里,个人感觉讲的比较清楚 唯一有个问题是计算TF的时候,提供的公式是term_freq/sum(all t...
深度学习 · 2024-08-03
Pytorch中的kaiming_uniform中标准差stdv乘了一个因子$\sqrt{3}$ def kaiming_unifor...
深度学习 · 2024-04-16
BPE -> Transformer -> Benchmark 非常好教程 https://github.com/karp...
JJJYmmm Blog
鄂ICP备2023004395号