大模型原理 | Notion

大模型（Large Language Model，LLM）是近年来人工智能领域的革命性技术，其核心是通过海量数据训练和复杂的神经网络架构，实现对自然语言的理解、生成和推理。以下从多个关键维度详细解析大模型的原理及相关技术：

一、核心架构：Transformer

Transformer是大模型的“骨架”，由Google在2017年的论文《Attention Is All You Need》中提出，彻底改变了NLP（自然语言处理）领域的技术路线。

1. 为什么是Transformer？

替代传统架构：在Transformer之前，主流的NLP模型（如RNN、LSTM）依赖序列式计算，无法并行处理数据，效率低且难以捕捉长距离语义关联。
并行计算优势：Transformer基于自注意力机制，可对输入序列进行并行处理，大幅提升训练速度，为“大模型”的规模化提供了可能。

2. Transformer的结构

Transformer由编码器（Encoder） 和解码器（Decoder） 两部分组成（现代大模型如GPT系列多仅使用解码器）：

编码器：将输入文本转换为包含语义信息的向量表示（词嵌入），每一层包含：
- 多头自注意力机制（捕捉词与词之间的关联）；
- 前馈神经网络（对注意力输出进行非线性变换）；
- 残差连接和层归一化（稳定训练过程）。
解码器：基于编码器的输出生成目标文本（如翻译、回答），额外包含“编码器-解码器注意力”（关联输入与输出）。

二、核心机制：自注意力（Self-Attention）

自注意力是Transformer的“灵魂”，用于计算文本中每个词与其他词的关联强度，从而理解上下文语义。

1. 原理

输入转换：将每个词的嵌入向量转换为三个向量：查询（Query，Q）、键（Key，K）、值（Value，V）。
注意力得分：通过Q与K的点积计算词与词的关联度（得分越高，关联越紧密），公式为： $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ 其中$\sqrt{d_k}$是为了避免点积结果过大导致softmax梯度消失。
多头注意力：将Q、K、V拆分为多组（如12头、32头），每组独立计算注意力后拼接，可捕捉不同维度的语义关联（如语法、逻辑、情感）。

2. 举例

对于句子“猫追狗，它跑得很快”，自注意力会计算“它”与“猫”“狗”的关联度，最终确定“它”更可能指代“猫”或“狗”（结合上下文）。

三、训练过程：从数据到模型

大模型的训练分为预训练和微调两个阶段，核心是“预测下一个词”的自监督学习。