单元 1
Attention 如何分配注意力
用权重矩阵理解词与词之间的关系。
1. 概念阅读
Attention 让模型在生成某个位置时动态关注上下文里的其他位置,是 Transformer 的关键机制。
2. 动手练习
- 观察 Attention 可视化
- 解释一个高权重连接
3. 验收标准
解释 Query、Key、Value
读懂注意力热力图
学完后,用自己的话回答:这个概念解决了什么问题?它在实验里如何体现?
拆解 Attention、Token、上下文窗口和生成式模型的基本机制。
当前 mock 进度:5%
用权重矩阵理解词与词之间的关系。
1. 概念阅读
Attention 让模型在生成某个位置时动态关注上下文里的其他位置,是 Transformer 的关键机制。
2. 动手练习
3. 验收标准
学完后,用自己的话回答:这个概念解决了什么问题?它在实验里如何体现?