2025 年 12 月存档

多头自注意力是 Transformer 模型的核心创新技术。相比于循环神经网络（Recurrent Neural Network, RNN）和卷积神经网络（Convolutional Neural Network, CNN）等传统神经网络，多头自注意力机制能够直接建模任意距离的词元之间的交互关系。

Transformer 原理通俗讲解

2025-12-23 | 0 评论 | 0 浏览

一句话：Embedding + 位置编码 → N 层（多头自注意力 + 残差 + LayerNorm + 前馈）堆叠；若是序列到序列，再在 Decoder 加交叉注意力；用注意力权重决定“当前要看谁”，多头并行看不同关系，层数越深，语义抽象越强。

TechNomads

2025 年 12 月 - 19 文章

多智能体框架Swarms 源码分析 ^有更新！

提示词常见的优化策略 ^有更新！

对未来20年智能体分化和演进的若干思考-CCCF精选

什么是卷积核，在CNN里如何应用？ ^有更新！

为什么 Attention 是 O(n²)，能不能降？

Transformer 相比CNN和RNN有啥优势？

为什么大部分程序员成不了架构师？-读后感 ^有更新！

几种常见的Agent框架对比 ^有更新！

常见的5种Agent框架实现原理

RAG核心概念框架

人工智能发展史

什么是梯度下降

A2A协议拆解

扩展法则和涌现能力的关系是什么？

X支付杀入战场：马斯克的超级应用梦

AI Agent新时代的4大主流框架

向量索引HNSW和IVF的区别

为什么是多头自注意力机制 ^有更新！

Transformer 原理通俗讲解