Pytorch中的kaiming_uniform中标准差stdv乘了一个因子$\sqrt{3}$ def kaiming_unifor...
深度学习 · 2024-04-16
BPE -> Transformer -> Benchmark 非常好教程 https://github.com/karp...
非引流,实在觉得这两篇Gumbel Softmax讲的不错,也就没有自己写的必要了(并不是因为懒 https://zhuanlan.z...
说说 · 2024-03-27
Simple Treasure