Transformer 与大模型
前端 运行
Attention 可视化
用热力图理解一个 token 如何关注上下文里的其他 token。
参数面板
前端计算
选择要优化的一维函数。
梯度更新步长,过大容易发散。
0.011
优化开始时的 x 位置。
最多迭代次数。
代码区
运行日志
等待运行。
图表结果
调整参数后点击运行,这里会显示轨迹、loss 曲线、指标和结论解释。
用热力图理解一个 token 如何关注上下文里的其他 token。
选择要优化的一维函数。
梯度更新步长,过大容易发散。
优化开始时的 x 位置。
最多迭代次数。
等待运行。