梯度下降优化

从 SGD 到 Adam:梯度下降算法的演进与数学原理。

zyssnh 2026/05/08

优化目标

机器学习训练可归结为参数优化问题:

θ=argminθL(θ)\theta^* = \arg\min_\theta L(\theta)

SGD 与变体

优化器更新规则特点
SGDθθηL\theta \leftarrow \theta - \eta \nabla L基础
Momentumvβv+ηLv \leftarrow \beta v + \eta \nabla L加速
Adam自适应学习率最常用
# Adam 优化器的简化实现
def adam_update(param, grad, m, v, t, lr=0.001):
    m = 0.9 * m + 0.1 * grad
    v = 0.999 * v + 0.001 * grad**2
    m_hat = m / (1 - 0.9**t)
    v_hat = v / (1 - 0.999**t)
    return param - lr * m_hat / (v_hat**0.5 + 1e-8), m, v

微积分入门 提供了梯度计算的数学基础。线性代数基础 在处理多维参数空间时不可或缺。

这些优化方法直接应用于机器学习概述中的各类模型训练。

反向链接 ←

0

暂无节点链接到此处

出链 0 入链 0