BPE -> Transformer -> Benchmark 非常好教程 https://github.com/karpathy/minGPT (semi-archived) https://github.com/karpathy/nanoGPT
论文地址 [1706.03762] Attention Is All You Need (arxiv.org) Abstract 目前的主流序列转译模型基本是编码器-解码器架构的复杂RNN或CNN网络(当然现在已经是Transformer了),本文提出了一个简单的网络结构——Transformer。Transformer完全基于注意力机制,在机器翻译上可以达到比RNN/CNN更好的效果,同时并行化效率更高,训练时间更少。作者测试了模型在英翻德/英翻法翻译任务的效果,并尝试证明了Transformer对其它任务的泛化能力。 Introduction 简单介绍了一下当前序列建模和预测的主流方法——LSTM/GRU。 RNN在每个时间步都会生成一个隐状态Ht,Ht中保存了以往单词的历史信息,使RNN在序列任务上表现较好。当然,Ht需要按时间步依次计算,并行度比较低,计算效率比较低。同时历史信息是逐步传递的,对于序列比较长的输入,较早时间步的信息有可能被遗忘,当然这个可以通过增加隐藏层单元来缓解,不过这也会进一步导致内存过大的问题。 Attention机制其实已
Axuanz
Updating as per fate.