微积分与优化 - 梯度下降算法详解

∇

偏导数与梯度

Partial Derivatives & Gradient

核心概念

偏导数描述函数在某个方向上的变化率，梯度是所有偏导数组成的向量，指向函数值增长最快的方向。

梯度定义

∇f(x,y) = (∂f/∂x, ∂f/∂y)

gradient points to steepest ascent

∂f/∂x

X方向偏导数

∂f/∂y

Y方向偏导数

⇒

链式法则

Chain Rule

复合函数求导

∂z/∂x = (∂z/∂u)(∂u/∂x) + (∂z/∂v)(∂v/∂x)

当z = f(u,v), u = g(x,y), v = h(x,y)时，链式法则帮助我们计算复合函数的偏导数。

λ

拉格朗日乘数法

Lagrange Multipliers

约束优化公式

∇f(x,y) = λ∇g(x,y)

g(x,y) = c

1

建立拉格朗日函数 L(x,y,λ) = f(x,y) - λ(g(x,y) - c)

2

求解梯度方程组 ∇L = 0

3

验证解的性质（最大值/最小值）

↓

梯度下降算法

Gradient Descent

BGD

批量梯度下降

稳定但慢

SGD

随机梯度下降

快速但噪声

MBGD

小批量梯度下降

平衡选择

算法收敛路径

Convergence Visualization

                关键观察
                • BGD路径平滑，直接朝向最优解
• SGD路径波动，但能逃离局部最优
• MBGD介于两者之间，实用性最强

            

∞

大规模模型优化

Large-Scale Optimization

Adam优化器

自适应学习率，适合大部分场景

ZeRO优化

内存优化，支持万亿参数模型

混合精度训练

FP16/FP32结合，加速收敛

2

二阶优化

Second-Order Methods

牛顿法

x_{k+1} = x_k - H^{-1}∇f(x_k)

O(n²)

计算复杂度

快速

收敛速度

使用海森矩阵信息，收敛更快但计算成本高

🎯

应用场景

Real Applications

机器学习

神经网络权重优化

深度学习

大模型参数调优

工程优化

约束条件下的最优设计

核心要点总结

Key Takeaways

                    理论基础
                    • 偏导数是梯度的基础
• 链式法则处理复合函数
• 拉格朗日法解约束优化

                

                    算法实践
                    • BGD稳定，SGD快速
• MBGD是实践首选
• Adam适合大规模训练

                

视频资源

Video Learning

Gradient Descent in 3 minutes

Visually Explained

推荐观看Khan Academy和3Blue1Brown的微积分系列视频，直观理解概念。

微积分与优化 Calculus & Optimization