Attention 可视化

用热力图理解一个 token 如何关注上下文里的其他 token。

参数面板

前端计算

函数

选择要优化的一维函数。

square

learning_rate

梯度更新步长，过大容易发散。

0.12

0.011

initial_x

优化开始时的 x 位置。

iterations

最多迭代次数。

代码区

type FunctionId = "square" | "quadratic" | "sine";

function value(functionId: FunctionId, x: number) {
  if (functionId === "quadratic") return x * x + 3 * x + 2;
  if (functionId === "sine") return Math.sin(x) + 0.1 * x * x;
  return x * x;
}

function derivative(functionId: FunctionId, x: number) {
  if (functionId === "quadratic") return 2 * x + 3;
  if (functionId === "sine") return Math.cos(x) + 0.2 * x;
  return 2 * x;
}

for (let step = 0; step < iterations; step += 1) {
  const grad = derivative(functionId, x);
  x = x - learningRate * grad;
}

运行日志

等待运行。

图表结果

调整参数后点击运行，这里会显示轨迹、loss 曲线、指标和结论解释。