Transformer架构 | Java后端面试知识库

一句话答案

Transformer 基于自注意力机制（Q·K^T/√d→Softmax→V），Multi-Head Attention + FFN + 残差 + LayerNorm。

核心要点

核心组件：

自注意力：Q·K^T/√d → Softmax → ·V
多头注意力：多组 QKV 并行计算
前馈网络：两层全连接 + ReLU
残差连接 + LayerNorm

位置编码： 正弦/余弦函数（原始）/ 可学习位置编码 / RoPE（旋转位置编码）

追问与易错

追问方向：

这个概念在你的项目中是怎么应用的？
和相关技术/方案相比有什么优劣？
如果出了问题你会怎么排查？

易错点：

❌ 只知道概念不知道原理——面试官会追问底层实现
❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

Transformer的核心是自注意力机制，像一个"关注力分配器"：每个词（Query）去问所有词（Key）"你和我多相关？"，算出权重（QK^T/根号d→Softmax），然后按权重加权取值（乘V）。多头注意力是同时派多组"侦察兵"从不同角度关注。再加上FFN做非线性变换、残差连接防梯度消失、LayerNorm稳定训练，就组成了一个Transformer Block。

一句话答案 ​

一句话答案