极限与连续性 函数 f(x)f(x)f(x) 在 x→ax \to ax→a 时的极限定义为: limx→af(x)=L\lim_{x \to a} f(x) = Llimx→af(x)=L 如果对任意 ϵ>0\epsilon > 0ϵ>0,存在 δ>0\delta > 0δ>0 使得 0<∣x−a∣<δ0 < |x-a| < \delta0<∣x−a∣<δ 蕴含 ∣f(x)−L∣<ϵ|f(x) - L| < \epsilon∣f(x)−L∣<ϵ。 导数 导数是函数变化率的度量: f′(x)=limh→0f(x+h)−f(x)hf'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h}f′(x)=limh→0hf(x+h)−f(x) 在机器学习中的应用 梯度下降优化 算法直接依赖偏导数计算损失函数的梯度。多元函数的梯度向量由偏导数组成: ∇f=[∂f∂x1,∂f∂x2,…,∂f∂xn]T\nabla f = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n} \right]^T∇f=[∂x1∂f,∂x2∂f,…,∂xn∂f]T 线性代数基础 中的矩阵运算为高效计算大规模梯度提供了工具。