Transformer架构精讲：从原理到GTE-Base-ZH的实践

张

张建站

2026/4/8 6:57:49

10分钟阅读

Transformer架构精讲从原理到GTE-Base-ZH的实践你是不是经常听到“Transformer”这个词感觉它很厉害但又觉得那些自注意力、多头机制的解释太抽象看完还是一头雾水别担心今天我们不谈那些让人犯困的数学公式就从一个工程师的视角把Transformer的核心部件拆开揉碎了讲给你听。更重要的是光说不练假把式。我们会用一个非常接地气的模型——GTE-Base-ZH向量模型——作为我们的“解剖对象”。这个模型专门为中文文本生成高质量的向量表示在很多实际场景里都能用上。我们会一边讲原理一边看它在代码里到底长什么样。目标很简单让你不仅能听懂还能看懂甚至能自己动手改一改。准备好了吗我们这就开始从最核心的那个“魔法”部件说起。1. 理解Transformer的心脏自注意力机制想象一下你在读一段话“苹果公司发布了新款手机它的设计非常惊艳。” 当你读到“它”这个字的时候你的大脑会瞬间明白“它”指的就是前面的“新款手机”。这个过程几乎是自动的你不需要刻意去分析语法。Transformer里的自注意力机制干的就是这个活儿。它让模型在处理一个词的时候能够“注意到”句子中所有其他的词并决定应该更关注谁。1.1 自注意力到底在算什么别被“注意力”这个词吓到。你可以把它理解成一场“词与词之间的相亲大会”。对于句子里的每一个词比如“苹果”自注意力机制会帮它计算一个“好感度分数”这个分数表示它和句子中其他每个词包括它自己的关联程度。这个计算过程在代码里通常体现为三个步骤生成Query、Key、Value然后进行匹配和加权。在GTE-Base-ZH这类模型的实现中你可能会看到类似下面的核心计算片段以伪代码形式展示其思想# 假设我们有一个输入序列的表示形状为 [batch_size, seq_len, hidden_dim] input_embeddings ... # 通过三个不同的线性变换得到Query, Key, Value query linear_q(input_embeddings) # [batch_size, seq_len, d_k] key linear_k(input_embeddings) # [batch_size, seq_len, d_k] value linear_v(input_embeddings) # [batch_size, seq_len, d_v] # 计算注意力分数Query和Key的点积衡量“匹配度” attention_scores torch.matmul(query, key.transpose(-2, -1)) / sqrt(d_k) # attention_scores形状: [batch_size, seq_len, seq_len] # 这个矩阵的每一行就代表一个词对所有词的“原始关注度” # 对分数进行缩放和归一化Softmax得到概率分布权重 attention_weights softmax(attention_scores, dim-1) # 用权重对Value进行加权求和得到最终的注意力输出 attention_output torch.matmul(attention_weights, value)看到没整个过程就像是在做信息检索Query是当前词发出的“问题”我想找谁Key是其他词的“标签”我是谁两者一匹配算出分数。最后根据分数从Value其他词携带的“信息”里提取有用的部分汇总给当前词。为什么这很强大传统模型比如RNN处理序列是一个接一个后面的词要等前面的词处理完。而自注意力让所有词都能同时“看到”彼此无论距离多远关联都能被直接捕捉到。这对于理解“它”指代“手机”这样的长距离依赖简直是降维打击。1.2 从单头到多头为什么需要多个“视角”只用一套Q/K/V来做一次注意力就像只用一种标准去评判所有人难免片面。Transformer引入了多头注意力。思路很简单我们准备多套不同的Q/K/V变换矩阵即多个“头”让每一头去学习关注不同方面的关系。比如在“苹果公司发布了新款手机它的设计非常惊艳”这句话里一个头可能专注于学习“苹果”和“公司”之间的修饰关系。另一个头可能专注于学习“手机”和“设计”之间的属性关系。还有一个头可能专门捕捉“它”和“手机”之间的指代关系。最后把所有头计算出的结果拼接起来再经过一个线性变换融合成最终的信息。这就好比一个团队协作有人看语法有人看语义有人看指代综合起来判断更全面。在GTE-Base-ZH的代码架构里你通常会找到一个MultiHeadAttention类它的forward函数大致实现了上述过程。2. 给词语注入位置感位置编码自注意力有个“先天缺陷”它把输入的词当成一个集合来处理完全忽略了词在序列中的顺序。“我打你”和“你打我”在它最初的眼里可能是一样的。这显然不行。所以Transformer必须额外告诉模型每个词的位置信息。这就是位置编码的使命。2.1 正弦余弦编码一种巧妙的方案原始Transformer论文提出了一种非常聪明且固定的位置编码方式使用不同频率的正弦和余弦函数PE(pos, 2i) sin(pos / 10000^(2i/d_model)) PE(pos, 2i1) cos(pos / 10000^(2i/d_model))这里pos是词的位置0, 1, 2...i是维度索引d_model是模型的隐藏层维度。这个设计妙在哪每个位置都有唯一编码不同pos会得到不同的向量。能表示相对位置对于固定的偏移量kPE(posk)可以表示为PE(pos)的线性函数这意味着模型能轻松学到“相邻”、“相隔几个词”这样的相对位置概念。可以外推到更长的序列因为使用的是周期函数即使遇到训练时没见过的长位置也能生成合理的编码。在实际的模型比如GTE-Base-ZH中这个位置编码矩阵通常是在初始化时就计算好的是一个固定的查找表。对于序列中的每个位置索引直接去表里取出对应的向量然后加到词嵌入向量上。# 概念性代码位置编码与词嵌入的相加 word_embeddings get_embeddings(input_tokens) # [batch_size, seq_len, hidden_dim] position_embeddings get_position_encodings(seq_len) # [1, seq_len, hidden_dim] # 将位置信息注入词语表示 input_with_position word_embeddings position_embeddings现在模型接收到的每个词向量都既包含了“我是谁”的语义信息也包含了“我坐在第几个位置”的顺序信息。3. 组装核心部件深入编码器结构理解了自注意力和位置编码我们来看看Transformer的编码器是怎么把它们组装起来的。编码器是GTE-Base-ZH这类“编码器-Only”模型的核心它的任务是把输入文本转换成一系列富含上下文信息的向量表示。一个标准的Transformer编码器层通常包含两个主要子层外面还包裹着一些重要的“辅助设施”。3.1 子层一带残差连接的多头注意力第一子层就是我们刚讲的多头注意力。但直接用它会有问题信息在多层传递中容易衰减或变形。所以这里引入了两个关键技术残差连接把子层的输入直接加到子层的输出上。公式是Output Sublayer(x) x。这相当于开辟了一条“高速公路”让底层的信息能无损地传到高层极大地缓解了深层网络训练中的梯度消失问题。层归一化对相加后的结果进行归一化稳定数据分布加速训练。通常残差连接和层归一化是放在一起的顺序可以是“先归一化再进子层”也可以是“先进子层相加后再归一化”。GTE-Base-ZH通常采用前者Pre-LN这在实践中更稳定。# 编码器层中注意力子层的伪代码示意Pre-LN结构 def attention_sublayer(x): # x: 输入张量 normalized_x layer_norm(x) # 第一步先对输入做层归一化 attention_output multi_head_attention(normalized_x) # 第二步做多头注意力 return x attention_output # 第三步残差连接3.2 子层二前馈神经网络经过注意力机制汇聚了全局信息后第二子层是一个简单的前馈神经网络。它通常由两个线性变换和一个激活函数如GELU组成。FFN(x) max(0, x * W1 b1) * W2 b2这个FFN的作用是什么你可以把它看作一个“信息加工厂”。注意力层负责从各处收集相关信息而FFN则负责对这些信息进行非线性变换、提炼和整合增强模型的表达能力。它独立地作用于序列中的每一个位置。同样FFN子层外面也包裹着残差连接和层归一化。3.3 堆叠的力量从一层到N层一个编码器层已经具备了强大的特征提取能力。而Transformer的魅力在于我们可以把这样的层堆叠起来比如GTE-Base-ZH可能用了12层。底层靠近输入的几层可能更多关注局部的语法、短语结构。中层开始融合更广的上下文信息理解句子内部的复杂关系。高层靠近输出的几层学习到的表示越来越抽象和任务相关。对于GTE-Base-ZH来说最高层的输出通常取[CLS]标记位置的向量或所有词向量的平均就是最终用来代表整个句子的“语义向量”。这种层级结构让模型能够从浅到深逐步构建出对文本的深度理解。4. 原理照进现实GTE-Base-ZH代码实践理论讲了这么多现在让我们打开“引擎盖”看看GTE-Base-ZH的代码里这些模块是如何具体实现的。这里我们以Hugging Facetransformers库的风格为例因为这是目前最流行的实践方式。4.1 模型整体结构概览当你加载GTE-Base-ZH模型时其核心通常是一个由多个TransformerEncoderLayer堆叠而成的TransformerEncoder。from transformers import AutoModel, AutoTokenizer model_name BAAI/bge-base-zh # GTE系列模型之一架构相似 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained(model_name) # 查看模型结构 print(model) # 你会看到类似这样的结构 # Embeddings (Word Position) # Encoder (由多个相同的Layer堆叠而成) # Pooler (用于提取句子向量)4.2 定位核心模块在模型的encoder.layer中你可以找到一个个我们之前分析的编码器层。# 假设我们取第一个编码器层来观察 encoder_layer_0 model.encoder.layer[0] print(encoder_layer_0) # 输出通常会显示 # LayerNorm (attention前的) # MultiHeadAttention (包含Q,K,V线性变换和注意力计算) # LayerNorm (FFN前的) # FeedForward Network (两个线性层GELU激活)4.3 跟踪一次前向传播让我们模拟一下文本“你好世界”是如何被处理的。# 1. 分词与编码 text “你好世界” inputs tokenizer(text, return_tensors“pt”, paddingTrue) # inputs 包含 ‘input_ids’, ‘attention_mask’ 等 # 2. 获取词嵌入和位置编码模型内部自动完成 # input_embeddings word_embeddings position_embeddings # 3. 进入编码器堆栈简化示意 hidden_states inputs_embeddings for layer in model.encoder.layer: # 子层1: 自注意力 (带Pre-LN和残差) attn_output layer.attention(layer_norm(hidden_states)) hidden_states hidden_states attn_output # 子层2: 前馈网络 (带Pre-LN和残差) ffn_output layer.ffn(layer_norm(hidden_states)) hidden_states hidden_states ffn_output # 4. 经过所有层后得到最终的序列表示 final_representations hidden_states # [batch_size, seq_len, hidden_size] # 5. GTE-Base-ZH通常对最后一个隐藏状态进行均值池化得到句子向量 sentence_vector final_representations.mean(dim1)通过这段概念性代码你可以清晰地看到layer.attention对应了我们讲的多头注意力模块。layer.ffn对应了前馈神经网络。layer_norm和 hidden_states的步骤完美体现了残差连接和层归一化。循环for layer in model.encoder.layer展示了层的堆叠。4.4 动手尝试修改注意力头数理解结构后你甚至可以尝试一些简单的魔改。比如你想看看减少注意力头数会有什么影响虽然通常不建议对预训练模型这么做但用于理解是可以的。# 注意以下为示意性代码直接修改预训练模型配置可能需重新训练 from transformers import AutoConfig # 加载原始配置 config AutoConfig.from_pretrained(model_name) print(f“原始注意力头数: {config.num_attention_heads}”) # 假设我们想创建一个只有4个头的小型版本原版可能是12头 config.num_attention_heads 4 config.hidden_size 256 # 通常hidden_size需要能被num_attention_heads整除 # 用新配置初始化一个模型这是一个未经训练的全新模型 from transformers import AutoModelForMaskedLM small_model AutoModelForMaskedLM.from_config(config) print(small_model)通过这样的实践Transformer架构对你来说就不再是黑盒了。你知道每一行代码背后对应着哪个理论模块也知道信息是如何从输入流经各个部件最终变成那个强大的句子向量的。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。