支持向量机-线性不可分情况

2023-11-24 17:51:11

上节回顾

线性可分情况下，支持向量机寻找最佳超平面的优化问题可以表示为：
$\begin{aligned} 最小化 (Minimize): & \quad \frac{1}{2} \left\| \omega \right\| ^2 \\ 限制条件: & \quad y_i(\omega^Tx_i + b ) \geq 1 , (i = 1 \sim N) \end{aligned}$

线性不可分情况

如果训练样本集是线性不可分的，那么以上优化问题的解，是什么呢？

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ToZ6P3zX-1650462828364)(https://raw.githubusercontent.com/Qinqichen/imgStoreGitHub/main/img/202201262126256.png#pic_center)]

在稍微思考下，以上的问题，是没有解的。

即：不存在 $\omega \ 和 \ b$ 满足上面所有的 $N$ 个限制条件。

对于线性不可分的情况，我们要适当的放松限制条件。使上面的最优化问题变得有解。

放松限制条件的基本思路

$\begin{aligned} 放松限制&条件的基本思路 \\ &\Downarrow \\ 对每个训练样&本及标签(X_i,Y_i) \\ &\Downarrow \\ 松弛&变量\delta_i \\ (slack \ \ &variable) \end{aligned}$

于是，我们可以将上面的 $N$ 个不等式的限制条件放松为如下的 $N$ 个不等式。
$\quad y_i(\omega^TX_i + b) \geq 1 - \delta_i , (i = 1 \sim N )$
只要松弛变量足够的大，上面的N个不等式的限制条件，是一定能够成立的。

当然，我们还要加入一些新的限制。阻止 $\delta_i$ 无限制的扩大，让他限制在一定的合理范围之内。。

最终的优化版本
$\begin{aligned} 最小化: &\quad \frac{1}{2} \left|| \omega \right|| ^2 + C\sum^N_{i=1} \delta_i \ 或 \ \frac{1}{2} \left|| \omega \right||^2 + C \sum^N_{i=1}\delta_i^2 \\ 限制条件: &\\ &(1)\quad \delta_i \geq 0 , (i = 1\sim N) \\ &(2)\quad y_i(w^TX_i +b) \geq 1- \delta_i,(i=1\sim N) \end{aligned}$
限制条件一，保证了每个δi是大于等于零的；限制条件二，使以前难以达到的不等式变得容易达到。
$\begin{aligned} 以前的目标函数只需要最小化 \ \ & \frac{1}{2} \left|| \omega \right||^2 \\ 现在的目标函数增加了一项 \ \ \ & 所有 \delta_i 的和 \end{aligned}$
既要让 $\omega$ 越小越好，同时也要让 $\delta_i$ 越小越好。

其中，有一个比例因子 $C$ ，起到了平衡两项权重的作用。

在实际的应用当中，也可以取另一种目标函数，用 $\delta_i^2$ 代替 $\delta_i$ ，二者间的差距很小，可以看出，他们都是凸优化问题，都可以被高效的求解

其中比例因子 $C$ 是人为设定的，我们把人为设定的参数叫做算法的超参数（HYPER PARAMETER）。

在实验中，我们会不断变化 $C$ 的值，同时测试算法的识别率，选取效果最好的值作为超参数 $C$ 的取值。

可以看出，如果一个算法的超参数越多，那么手动调参的时间也就越多。这样，算法的自动性也会降低。

支持向量机是超参数很少的算法模型。

超参数很多的模型有人工神经网络，卷积神经网络等等。

以下，是在线性不可分的情况下应用支持向量机的例子。

这里， $C$ 取了 10000，让 $\delta$ 的权重别的很大，使得它本身的值在优化过程中变得很小，接近于零，使得超平面和线性可分情况保持基本一致。
$\begin{aligned} 在线性不可分情&况下应用支持向量机 \\ &取目标函数: \frac{1}{2} \left|| \omega \right|| ^2 + C\sum^N_{i=1} \delta_i \ , C = 10000 \\ &超平面和线性可分情况保持基本一致 \end{aligned}$

虽然支持向量机求出了一个超平面，但是这个解远远不能让人满意。分错了将近一半的训练样本，跟瞎猜没有区别。

那么问题出在哪里？

我们的算法模型是线性的，也就说我们假设分开两类的函数是直线或超平面，我们是在一簇直线或超平面中选择最适合分开两类样本的一条直线或超平面，但是线性模型的表现力是不够的，在这个例子中，很明显，能分开他们的是某种曲线，例如中间这个椭圆。

如果我们坚持分开两类的必须是直线，无论我们怎么选择，最终的结果都是不能使人满意的，因此，我们只能扩大可选的函数范围。

使他超越线性，才能使他应对各种复杂的线性不可分的情况。

思考

一个模型中的训练样本如下图所示，问能否对 $X_1,X_2$ 两个向量做某种非线性变换，把本来线性不可分的训练样本集变为线性可分？

低维到高维映射

如何扩大可选函数的范围，从而提高支持向量机处理非线性可分问题的能力？

支持向量机在这方面是独树一帜的，其他的算法比如人工神经网络、决策树等是直接产生更多可选函数。

例如在人工神经网络中，通过多层非线性函数的组合，能够产生类似于椭圆这样的曲线，从而分开这幅图中圆圈和叉。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AXjzWFaz-1650462439462)(https://raw.githubusercontent.com/Qinqichen/imgStoreGitHub/main/img/202201262128645.png)]

支持向量机却不是直接产生，而是通过将特征空间由低维映射到高维，然后在高维的特征空间中，仍然用线性的超平面对数据进行分类。下面给出两张直观的图片。

在这里插入图片描述

再给一个具体的例子，这是一个在低维线性不可分，而在高维中线性可分的例子。考察如下图所示的训练样本。

$x_1 = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \in C_1 \qquad x_2 = \begin{bmatrix} 1 \\ 1 \end{bmatrix} \in C_1 \qquad x_3 = \begin{bmatrix} 1 \\ 0 \end{bmatrix} \in C_2 \qquad x_4 = \begin{bmatrix} 0 \\ 1 \end{bmatrix} \in C_2 \qquad$

构造一个二维到五维的映射 $\varphi(x)$
$\varphi(x) : x = \begin{bmatrix} a \\ b \end{bmatrix} \rightarrow \varphi(x) = \begin{bmatrix} a^2 \\ b^2 \\a \\ b \\ ab \end{bmatrix}$
那么，可以得到如下经过变换的四个样本：
$\varphi(x_1) = \begin{bmatrix} 0 \\ 0 \\0 \\ 0 \\ 0 \end{bmatrix} \qquad \varphi(x_2) = \begin{bmatrix} 1 \\ 1\\1 \\ 1 \\ 1 \end{bmatrix} \qquad \varphi(x_3) = \begin{bmatrix} 1 \\ 0 \\1 \\ 0 \\ 0 \end{bmatrix} \qquad \varphi(x_4) = \begin{bmatrix} 0 \\ 1 \\0 \\ 1 \\ 0 \end{bmatrix} \qquad$
经过此变换，原问题变得线性可分。
$\begin{aligned} 设： \omega = \begin{bmatrix} -1 \\ -1 \\ -1 \\-1 \\ 6 \end{bmatrix} & \qquad b=1 \\ \omega^T\varphi(x_1)+b=1 \geq 0 & \qquad \omega^T\varphi(x_2)+b=3 \geq 0 \\ \omega^T\varphi(x_3)+b=-1 \lt 0 & \qquad \omega^T\varphi(x_4)+b=-1 \lt 0 \\ \\ 经由二维到&五维的映射\varphi(x) \\ 线性&不可分 \\ &\Downarrow \\ 线&性可分 \end{aligned}$
我们这里不加证明的给出一个定理。
$\begin{aligned} &\textbf{定理：} \newline \\ &&&在一个M维空间上随机取N个训练样本，随机的对每个训练样本赋予标签 +1 或 -1 \newline \\ &假设: \newline \\ &&&这些训练样本线性可分的概率为P(M) \newline \\ &&&当 \quad M \rightarrow \infty \quad 时，\quad P(M)=1 \end{aligned}$
当特征空间的维度 $M$ 增加时，待估计参数 $(\omega , b )$ 的维度也在跟随增加。

同时，整个算法模型的自由度也随之增加。

当然，这就更有可能分开低维空间无法分开的数据。
$\begin{aligned} 将训练样本&由低维映射到高维 \newline \\ &\Downarrow \newline \\ 增大线性&可分的概率 \end{aligned}$
那么如何设计这个 $\varphi(x)$ 就成为最关键的问题。

我们先放下对 $\varphi(x)$ 的具体形式的探讨，先假设 $\varphi(x)$ 已经确定。

来观察支持向量机优化问题将会做什么样的改变。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

支持向量机-线性不可分情况

上节回顾

线性不可分情况

放松限制条件的基本思路

思考

低维到高维映射

相关文章