AI 学习实验室
大模型原理

Transformer 与大模型

拆解 Attention、Token、上下文窗口和生成式模型的基本机制。

学习状态

进行中 5%

当前 mock 进度:5%

学习单元

单元 1

Attention 如何分配注意力

用权重矩阵理解词与词之间的关系。

1. 概念阅读

Attention 让模型在生成某个位置时动态关注上下文里的其他位置,是 Transformer 的关键机制。

2. 动手练习

  • 观察 Attention 可视化
  • 解释一个高权重连接

3. 验收标准

解释 Query、Key、Value
读懂注意力热力图

学完后,用自己的话回答:这个概念解决了什么问题?它在实验里如何体现?