外观
一句话答案
Transformer 基于自注意力机制(Q·K^T/√d→Softmax→V),Multi-Head Attention + FFN + 残差 + LayerNorm。
核心要点
核心组件:
- 自注意力:Q·K^T/√d → Softmax → ·V
- 多头注意力:多组 QKV 并行计算
- 前馈网络:两层全连接 + ReLU
- 残差连接 + LayerNorm
位置编码: 正弦/余弦函数(原始)/ 可学习位置编码 / RoPE(旋转位置编码)
追问与易错
追问方向:
- 这个概念在你的项目中是怎么应用的?
- 和相关技术/方案相比有什么优劣?
- 如果出了问题你会怎么排查?
易错点:
- ❌ 只知道概念不知道原理——面试官会追问底层实现
- ❌ 缺乏实际使用经验——结合项目场景回答更有说服力
💡 记忆锚点
Transformer的核心是自注意力机制,像一个"关注力分配器":每个词(Query)去问所有词(Key)"你和我多相关?",算出权重(QK^T/根号d→Softmax),然后按权重加权取值(乘V)。多头注意力是同时派多组"侦察兵"从不同角度关注。再加上FFN做非线性变换、残差连接防梯度消失、LayerNorm稳定训练,就组成了一个Transformer Block。