2025 年 12 月 - 17 文章

Transformer 原理通俗讲解

  |   0 评论   |   0 浏览

一句话:Embedding + 位置编码 → N 层(多头自注意力 + 残差 + LayerNorm + 前馈)堆叠;若是序列到序列,再在 Decoder 加交叉注意力;用注意力权重决定“当前要看谁”,多头并行看不同关系,层数越深,语义抽象越强。