损失函数与优化轨迹 =================== 高维损失函数 f(W) 的可视化(二维截面) ========================================= y轴 ↑ │ ● 全局最小值 │ /│\ │ / │ \ │ / │ \ │ / │ \ │ / │ \ │/_____|______\___ │ │ └──────→ x轴 梯度下降: 从高处逐步"滚"向最低点 动量方法: 惯性使粒子能够"冲"过局部最小值