SVM介绍

摘要

SVM是神经网络兴起之前最常用的机器学习分类器，本篇主要介绍SVM的具体实现，包括硬间隔/软间隔、合页损失函数。PPT参考https://www.bilibili.com/video/BV1zq4y1g74J/?spm_id_from=333.788&vd_source=6e11e901eb83e70a9bb55225ac28b9d9

SVM推导

SVM一般用于解决数据的二分类问题，对于高维数据，就是找到一个超平面将两类数据分开。以二维平面为例，就是找到一条直线作为分割线。

当然有时候我们无法找到理想直线将两类数据分离，这个时候就需要用到非线性SVM，通过核函数将数据点映射到高维空间，以期望在高维空间找到一个超平面分离数据。

SVM的思想不仅是找到一个分割直线，它还希望这条直线离两类数据都尽可能远，也就是最大小下图中的$margin$。

$margin(W,b)$与直线参数$W,b$有关，形式化表示可以写成：
$$
max \space margin(W,b)=max\mathop{min}\limits_{i=1,2,...N} \frac{1}{||W||_2}|W^TX^{(i)}+b|
$$
$margin$的表达式为什么是直接将数据点$X^{(i)}$带入直线(高维数据时其实是超平面，但是为了描述方便之后都用直线方程替代)方程然后除以W的L2范数？推导如下，首先写出某个数据点到直线的距离方程，距离可以表达成W和数据点向量之间的点积除以W的模。假设$x^{(0)}$是平面上的一点(所以$W^TX^{(0)}+b=0$),那么距离H就可以表示为：
$$
\begin{aligned}
H &= |\frac{W}{||W||_2}(X^{(i)}-X^{(0)})|\\
&= |\frac{1}{||W||_2}(W^TX^{(i)}-W^TX^{(0)})|\\
&= |\frac{1}{||W||_2}(W^TX^{(i)}+b)|
\end{aligned}
$$

除了满足最大$margin$外，我们还希望这个超平面可以正确分割数据点，我们将数据点的标签标为1或-1，那么如果直线可以正确分类，那么满足以下两个条件：

进一步将优化问题转变成以下条件：

为了简化问题，我们将离直线最近的数据点$X^{(i)}$离直线的距离$|(W^TX^{(i)}+b)|$约束到1，那么优化问题就变成了下图，并且添加了一个约束条件。之所以可以这么优化，是因为对于原来的$margin$，$W,b$同时扩大N倍，都不会影响margin的结果，所以这里可以扩大(缩小)两者的值，使$|(W^TX^{(i)}+b)|$约束到1，从而简化问题。