GPT from Scratch
BPE -> Transformer -> Benchmark 非常好教程 https://github.com/karp...
BPE -> Transformer -> Benchmark 非常好教程 https://github.com/karp...
非引流,实在觉得这两篇Gumbel Softmax讲的不错,也就没有自己写的必要了(并不是因为懒 https://zhuanlan.z...
说说 · 2024-03-27
挺有意思的一篇论文 Stealing Part of a Production Language Model(arxiv2403.06...
深度学习 · 2024-03-18
为什么开始看量化了,我也不知道 量化原理 我们一般谈LLM的精度,会涉及到FP32,FP16,BF16,INT8,INT4等字样。这些...
深度学习 · 2024-03-18
JJJYmmm Blog
鄂ICP备2023004395号