Skip to content
困难

一句话答案

Transformer 基于自注意力机制(Q·K^T/√d→Softmax→V),Multi-Head Attention + FFN + 残差 + LayerNorm。

核心要点

核心组件:

  1. 自注意力:Q·K^T/√d → Softmax → ·V
  2. 多头注意力:多组 QKV 并行计算
  3. 前馈网络:两层全连接 + ReLU
  4. 残差连接 + LayerNorm

位置编码: 正弦/余弦函数(原始)/ 可学习位置编码 / RoPE(旋转位置编码)

追问与易错

追问方向:

  • 这个概念在你的项目中是怎么应用的?
  • 和相关技术/方案相比有什么优劣?
  • 如果出了问题你会怎么排查?

易错点:

  • ❌ 只知道概念不知道原理——面试官会追问底层实现
  • ❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

Transformer的核心是自注意力机制,像一个"关注力分配器":每个词(Query)去问所有词(Key)"你和我多相关?",算出权重(QK^T/根号d→Softmax),然后按权重加权取值(乘V)。多头注意力是同时派多组"侦察兵"从不同角度关注。再加上FFN做非线性变换、残差连接防梯度消失、LayerNorm稳定训练,就组成了一个Transformer Block。