Skip to content
困难

一句话答案

LoRA 冻结原始权重,在 Attention 层旁路添加低秩矩阵(A×B)训练,参数量减少 99%+,QLoRA 再加 4bit 量化。

核心要点

原理: W = W₀ + ΔW = W₀ + A×B(A: d×r, B: r×d, r<<d)

优势: 训练参数量极小 / 不改原始模型 / 可合并推理零开销

QLoRA: LoRA + 4bit量化,进一步减少显存

追问与易错

追问方向:

  • 这个概念在你的项目中是怎么应用的?
  • 和相关技术/方案相比有什么优劣?
  • 如果出了问题你会怎么排查?

易错点:

  • ❌ 只知道概念不知道原理——面试官会追问底层实现
  • ❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

LoRA像给大模型贴"补丁"而不是重写整本书:冻结原始权重W0不动,在旁边加一条"旁路"(低秩矩阵AB,r远小于d),只训练这条旁路(参数量减少99%+)。推理时旁路可以合并回去(W=W0+AB),零额外开销。QLoRA再把原始模型压缩到4bit(量化),进一步省显存。核心公式:W = W0 + A(dr) * B(rd)。