AI 学习实验室在线实验

大模型原理

Transformer 与大模型

拆解 Attention、Token、上下文窗口和生成式模型的基本机制。

学习状态

进行中 5%

当前 mock 进度：5%

学习单元

单元 1

Attention 如何分配注意力

用权重矩阵理解词与词之间的关系。

1. 概念阅读

Attention 让模型在生成某个位置时动态关注上下文里的其他位置，是 Transformer 的关键机制。

2. 动手练习

观察 Attention 可视化
解释一个高权重连接

3. 验收标准

解释 Query、Key、Value

读懂注意力热力图

学完后，用自己的话回答：这个概念解决了什么问题？它在实验里如何体现？