SVR（支持向量机）用法介绍

2023-09-28 01:28:15

SVR介绍

支持向量机（Support Vector Machine，简称SVM）是一种常用的监督学习算法，主要用于分类和回归问题。其原理基于结构风险最小化的思想，通过在特征空间中找到一个最优的超平面来实现分类或回归任务。

支持向量机的原理包括以下几个关键概念：

分隔超平面：支持向量机试图寻找一个能够将不同类别样本完全分开的超平面。对于二分类问题，这个超平面是一个二维平面；对于多分类问题，可以通过一对一或一对多的方式构建多个二分类的超平面。
支持向量：支持向量指的是距离分隔超平面最近的样本点。它们对于确定超平面起到重要作用，因为它们决定了超平面的位置和间隔大小。
间隔最大化：支持向量机的目标是寻找一个分隔超平面，使得两个类别的支持向量到超平面的距离（即间隔）最大化。最大化间隔有助于提高模型的鲁棒性和泛化能力。
核函数：在实际应用中，样本可能存在线性不可分的情况。为了解决这个问题，支持向量机引入了核函数的概念，将样本从原始特征空间映射到高维特征空间，使得非线性可分的问题在高维空间中变为线性可分问题。常用的核函数包括线性核、多项式核和高斯径向基核等。
正则化参数：支持向量机还引入了一个正则化参数C，用于控制模型的复杂度和容错能力。较小的C值会导致更大的间隔但容错能力较低，较大的C值会导致较小的间隔但容错能力较高。

通过求解支持向量机的优化问题，可以得到一个最优的超平面来实现分类或回归任务。支持向量机在实际应用中具有良好的泛化性能和适应性，并且对于高维数据和样本量较小的情况表现优秀。

一、SVR回归介绍

SVR(Support Vector Regression)是支持向量机(SVM)在回归问题中的应用。与SVM分类模型相似，SVR也是一种非概率性算法，通过使用核函数将数据映射到高维空间，并在该空间上寻找最优的超平面与训练数据之间的间隔最大化，得到了回归模型。

与传统回归模型不同，SVR将回归问题转化为寻找一个函数逼近真实函数的过程。在实际应用中，可以使用不同的核函数和超参数来调整模型，以得到更好的拟合效果。

二、SVR回归模型建立

建立SVR回归模型的基本步骤如下：

1.数据预处理
SVR回归模型对数据的要求比较高，需要对数据进行预处理。首先需要对数据进行标准化处理，使其均值为0，方差为1。其次需要将数据进行归一化处理，将数据缩放到[0,1]范围内，以免特征之间的数据差异影响模型训练效果。

X_train = StandardScaler().fit_transform(X_train)
y_train = np.log1p(y_train) # 取对数归一化，提高拟合效果

2.模型训练
可以使用sklearn库中的SVR类来训练模型，其中需要指定核函数和超参数，例如:

clf = SVR(kernel='rbf', C=1, gamma=0.1, epsilon=0.1)
clf.fit(X_train, y_train)

其中，kernel参数是核函数类型，C是正则化参数，gamma是rbf核函数的带宽参数，epsilon是误差容忍度参数。

3.模型评估
可以使用sklearn库中的mean_squared_error函数来计算模型的均方误差(MSE)，评估模型的拟合效果，例如：

y_pred = clf.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

可以将mse与均值和标准差进行比较，以评估模型的拟合效果。

三、SVR回归模型调参

在SVR回归中，调参是一个非常重要的过程。常用的调参方法主要有网格搜索法和随机搜索法两种。

1.网格搜索法
网格搜索法通过遍历超参数的所有可能取值，从中选取最佳超参数的组合以获得最优的模型。可以使用sklearn库中的GridSearchCV类来进行网格搜索。

例如，可以定义参数网格，指定不同核函数、C和gamma值，以进行模型训练和评估：

param_grid = {'kernel': ['rbf'], 'C': [0.1, 1, 10], 'gamma': [0.1, 0.01, 0.001]}
grid_search = GridSearchCV(clf, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

2.随机搜索法
与网格搜索法不同，随机搜索法是按照概率分布从指定的超参数空间中采样，从而更快地找到最优的超参数组合。可以使用sklearn库中的RandomizedSearchCV类来进行随机搜索。

例如，可以定义超参数分布，指定不同核函数、C和gamma的取值分布，以进行模型训练和评估：

param_distribs = {'kernel': ['rbf'], 'C': reciprocal(20, 200000), 'gamma': expon(scale=1.0)}
rnd_search = RandomizedSearchCV(clf, param_distributions=param_distribs, n_iter=50, cv=5, scoring='neg_mean_squared_error')
rnd_search.fit(X_train, y_train)

四、SVR回归实战应用

SVR回归可以在多个领域中进行应用，例如股票预测、房价预测、人物关系预测等领域。下面以一个简单的房价预测为例，介绍SVR回归的实际应用。

1.数据收集和处理
首先需要收集房屋样本数据，包括房屋面积、房间数、卫生间数、厨房数、地理位置等。对数据进行预处理，包括特征缩放、标准化和分类编码等。

2.模型训练和调参
可以使用sklearn库中的SVR类来训练模型，并使用网格搜索法或随机搜索法调整超参数，以获得最佳的拟合效果。

param_grid = {'kernel': ['rbf'], 'C': [0.1, 1, 10], 'gamma': [0.1, 0.01, 0.001]}
grid_search = GridSearchCV(clf, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

3.模型测试和性能评估
使用测试数据对模型进行测试，并使用均方误差(MSE)、R方值等指标来评估模型的性能。可以使用sklearn库中的mean_squared_error和r2_score函数来进行评估：

y_pred = clf.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

五、SVR回归小结

本文从SVR回归的介绍、模型建立、调参和实战应用等方面进行了阐述。SVR回归是一种非常有用的回归模型，在多个领域中具有广泛的应用。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 数据结构入门5-1（树和二叉树）
下一篇 > 哈希函数简述

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce