策略产品经理必读系列— 第三讲梯度下降法

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

策略产品经理必读系列— 第三讲梯度下降法

搜广推策略James

2022-08-07

2 评论 6273 浏览 16 收藏

16 分钟

编辑导语：机器学习是策略产品经理需要了解的一个方面，而梯度下降法则是学习机器学习必须了解的思想，本文作者通过一个案例介绍了梯度下降法，一起来看一下吧。

策略产品经理必须要对机器学习有一定的了解，而梯度下降法则是学习机器学习必须要了解的思想，本篇通过一个生动的案例来为大家介绍到底什么是梯度下降法。

01 引入

我们先从一个案例入手，下图是一组上海市静安区的房价信息：

我们用Python在坐标系上面画出来如下图：

我们现在想拟合一个线性函数来表示房屋面积和房价的关系。我们初中都学过的一元一次函数表达式为：y=kx+b（k≠0）。很明显不可能有一对组合（k,b）全部经过上图7个点，我们只能尽可能地找到一对组合，使得该线性函数离上图7个点的总距离最近。

如上图所示，实际值与预测值之间差异的均方差我们把它称为损失函数，也有叫做成本函数或者代价函数的，意义都一样。我们希望找到一个组合（k，b）可以使得损失函数的值最小。

上述只有一个输入变量x，如果我们多加入几个输入变量，比如卧室的数量、离最近地铁站的距离。最终目标变量和损失函数我们用下述函数表达式来表达：

现在我们的任务就是求出一组θ，在已知【x，y】的前提下使得损失函数的值最小。那么如何计算出θ了，使用什么方法了？我们首先回到损失函数表达式本身，损失函数本身是一个y=x^2的形式，高中数学大家应该都学过这是一个开口向上的抛物线方程，大概长下图这样：

我们如何找到这个函数的最低点？上图是一个二维图，我们很轻松就可以肉眼看出x=0时，y最小。如果维度更多，比如z = (x-10)^2 + (y-10)^2，则得到下图：

我们如何定位出最小值，特别强调一点，这里的x是一个“大”参数的概念，x应该等于下述公式

大家要明确上图横坐标是x和y，函数表达式里的θ已经知道了，所以我们是找到最合适的（x,y）使得函数值最小。如果我们现在是已知样本（x,y），那么上图的变量就变为了θ_0和θ_i，并不是x_i，我们是以θ_0和θ_i作为输入变量做的图，x_i和y_i都是已知的固定值，这一点必须明确了。上图的纵坐标的值就变为损失函数的值。

我们的问题是已知样本的坐标（x,y），来求解一组θ参数，使得损失函数的值最小。我们如何找到上图中的最低点？因为找到最低点，那么最低点对应的横坐标所有维度就是我们想得到的θ_0和θ_i，而纵坐标就是损失函数的最小值。找到最低点所有答案就全部解出来了。

现在问题来了？有没有一种算法让我们可以慢慢定位出最小值，这个算法就是梯度下降法。

02 梯度下降法简介

1. 梯度下降法的思想

我们首先介绍梯度下降法的整体思想。假设你现在站在某个山峰的峰顶，你要在天黑前到达山峰的最低点，那里有食品水源供给站，可以进行能量补充。你不需要考虑下山的安全性，即使选择最陡峭的悬崖下山，你也可以全身而退，那么如何下山最快了？

最快的方法就是以当前的位置为基准，寻找该位置最陡峭的地方，然后沿该方向往下走。走一段距离后，再以当前位置为基准，重新寻找最陡峭的地方，一直重复最终我们就可以到达最低点。我们需要不停地去重新定位最陡峭的地方，这样才不会限于局部最优。

那么整个下山过程中我们会面临两个问题：

如何测量山峰的“陡峭”程度
每一次走多长距离后重新进行陡峭程度测量；走太长，那么整体的测量次数就会比较少，可能会导致走的并不是最佳路线，错过了最低点。走太短，测量次数过于频繁，整体耗时太长，还没有到达食品供给站就已经GG了。这里的步长如何设置？

Part1里面介绍了如何从一个开口向上的抛物线高点定位到最低点的问题和下山的场景是完全类似的，抛物线就相当于一个山峰，我们的目标就是找到抛物线的最低点，也就是山底。

最快的下山方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到抛物线中，就是计算给定点的梯度，然后朝着梯度相反的方向（ Part 2.3里面会解释为什么是朝着梯度相反的方向），就能让抛物线值下降的最快。同时我们也要和下山一样，不停地定位新位置，再计算新位置的梯度，然后按照新方向下降，最后慢慢定位到抛物线的最低点。

2. 梯度下降法算法

Part2.1里面已经介绍了梯度下降法的思想，遗留了两个问题。第一就是如何计算“陡峭”程度，我们这里把它叫做梯度，我们用∇J_θ来代替。第二个也就是步长问题，我们用一个α学习率来代表这个步长，α越大代表步长越大。知道了这两个值，我们如何去得到θ参数的更新表达式了？

J是关于θ的一个函数，假设初始时我们在θ_1这个位置，要从这个点走到J的最小值点，也就是山底。首先我们先确定前进的方向，也就是梯度的反向“-∇J_θ”，然后走一段距离的步长，也就是α，走完这个段步长，就到达了θ_2这个点了。表达式如下图：

我们按照上述表达式一直不停地更新θ的值，一直到θ收敛不变为止，当我们到达山底，此时函数的梯度就是0了，θ值也就不会再更新了，因为表达式的后半部分一直是0了。

整个下降过程中损失函数的值是一定在减少，但是我们想学习出来的参数值θ不一定一直在减小。因为我们需要找到损失函数最小时的坐标点，这个坐标点的坐标不一定是原点，很可能是（2，3）甚至是（4，6），我们找到的是最合适的θ值使得损失函数最小。下图我们用一个例子来进行说明：

上图的最低点很明显就是原点，我们通过梯度下降法来逼近这个最低点。我们可以看到损失函数的值在一直减少，θ的值也在往0这个值进行收敛。

3. 梯度下降法数学计算

Part1和2介绍了梯度下降的思想和θ更新的表达式，现在我们从数学层面进行解释：

1）为什么是向梯度相反的方向下降

上图应该很形象地显示为什么要朝着梯度的反方向了。梯度是一个向量，梯度的方向是函数在指定点上升最快的方向，那么梯度的反方向自然是下降最快的方向了。

2）泛化的θ参数更新公式

Part2.2里面的例子我们选择的是一个最简单的函数表达式，θ参数分为两种，一种是和输入变量x配对的参数θ_i，一种是固定的偏差θ_0。我们用已知的样本数据（x,y）来求解出使得损失函数最小的一组θ参数。下面我们来计算一个通用泛化的θ参数更新表达式。我们只需要用到高中数学中的导数知识即可，朋友们相信我真的很easy。

下图是对和输入变量x配对的参数θ_i更新表达式：