简单介绍LoRA,并对LoRA官方源码进行解读,修复了一个bug(可能) Github: https://github.com/microsoft/LoRA Arxiv: https://arxiv.org/abs/2106.09685 简单介绍 在LLM微调领域常常听到LoRA及其各种变体,一直以来的印象就是参数量少,不影响推理。今天彻底看看相应的论文和实现。 总结LoRA其实很容易,整篇论文除去实验,只需要一张图和一个公式。 $$ h = W_0x + \Delta Wx = W_0x + B A x \label{eq1} \tag{1} $$ 简单来说,LoRA的灵感来自Aghajanyan等人1,他们发现预训练LLM具有较低的“instrisic dimension”,尽管随机投影到较小的子空间,但仍然可以有效地学习。 也就意味着式$\eqref{eq1}$中的$W$可能是低秩的,那么合理假设:在下游任务的微调过程中,模型权重改变量$\Delta W$也可能是低秩的,那么$\Delta W$就可以使用矩阵$A,B$进行建模。例如$A = matrix(d,r), B = m
Axuanz
Updating as per fate.