外观
一句话答案
LoRA 冻结原始权重,在 Attention 层旁路添加低秩矩阵(A×B)训练,参数量减少 99%+,QLoRA 再加 4bit 量化。
核心要点
原理: W = W₀ + ΔW = W₀ + A×B(A: d×r, B: r×d, r<<d)
优势: 训练参数量极小 / 不改原始模型 / 可合并推理零开销
QLoRA: LoRA + 4bit量化,进一步减少显存
追问与易错
追问方向:
- 这个概念在你的项目中是怎么应用的?
- 和相关技术/方案相比有什么优劣?
- 如果出了问题你会怎么排查?
易错点:
- ❌ 只知道概念不知道原理——面试官会追问底层实现
- ❌ 缺乏实际使用经验——结合项目场景回答更有说服力
💡 记忆锚点
LoRA像给大模型贴"补丁"而不是重写整本书:冻结原始权重W0不动,在旁边加一条"旁路"(低秩矩阵AB,r远小于d),只训练这条旁路(参数量减少99%+)。推理时旁路可以合并回去(W=W0+AB),零额外开销。QLoRA再把原始模型压缩到4bit(量化),进一步省显存。核心公式:W = W0 + A(dr) * B(rd)。