LoRA微调原理 | Java后端面试知识库

一句话答案

LoRA 冻结原始权重，在 Attention 层旁路添加低秩矩阵（A×B）训练，参数量减少 99%+，QLoRA 再加 4bit 量化。

核心要点

原理： W = W₀ + ΔW = W₀ + A×B（A: d×r, B: r×d, r<<d）

优势： 训练参数量极小 / 不改原始模型 / 可合并推理零开销

QLoRA： LoRA + 4bit量化，进一步减少显存

追问与易错

追问方向：

这个概念在你的项目中是怎么应用的？
和相关技术/方案相比有什么优劣？
如果出了问题你会怎么排查？

易错点：

❌ 只知道概念不知道原理——面试官会追问底层实现
❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

LoRA像给大模型贴"补丁"而不是重写整本书：冻结原始权重W0不动，在旁边加一条"旁路"（低秩矩阵AB，r远小于d），只训练这条旁路（参数量减少99%+）。推理时旁路可以合并回去（W=W0+AB），零额外开销。QLoRA再把原始模型压缩到4bit（量化），进一步省显存。核心公式：W = W0 + A(dr) * B(rd)。

一句话答案 ​

一句话答案