python机器学习参数调优
前言
此系列文章旨在记录本人学习python过程中遇到的一些值得总结,方便之后及时复习的内容。
本篇博客介绍机器学习中参数调优的一些知识,即网格搜索,随即搜索等,以及一些pipeline的知识。
文章目录
- 前言
- 基础知识
- 回归问题建模
- 数据读取了解
- 简单模型建模
- 参数与超参数
- 参数寻优理论
- pipeline思维
- 参数寻优实战
- 分类问题建模
- 参数调优实战
- 混淆矩阵和ROC曲线
- 总结
- 参考文献
基础知识
有监督学习中根据因变量的连续与否,可以分为回归和分类问题:
- 回归:因变量是连续型变量,如:房价,体重等。
- 分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。
为了更好地叙述后面的内容,我们对数据的形式作出如下约定:
第 i i i个样本: x i = ( x i 1 , x i 2 , . . . , x i p , y i ) T , i = 1 , 2 , . . . , N x_i=(x_{i1},x_{i2},...,x_{ip},y_i)^T,i=1,2,...,N xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,N
因变量 y = ( y 1 , y 2 , . . . , y N ) T y=(y_1,y_2,...,y_N)^T y=(y1,y2,...,yN)T
第 k k k个特征: x ( k ) = ( x 1 k , x 2 k , . . . , x N k ) T x^{(k)}=(x_{1k},x_{2k},...,x_{Nk})^T x(k)=(x1k,x2k,...,xNk)T
特征矩阵 X = ( x 1 , x 2 , . . . , x N ) T X=(x_1,x_2,...,x_N)^T X=(x1,x2,...,xN)T
在学习机器学习中,我们经常使用scikit-learn简称sklearn工具库来探索机器学习项目,下面我们开始使用sklearn来进行讲解[1]。。
回归问题建模
数据读取了解
首先,我们先来看看有监督学习中回归的例子,我们使用sklearn内置数据集Iris数据集。sklearn中所有内置数据集都封装在datasets对象内:
返回的对象有:
- data:特征X的矩阵(ndarray)
- target:因变量的向量(ndarray)
- feature_names:特征名称(ndarray)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 在jupyter中通过下行才可方便绘图查看
%matplotlib inline
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
features = iris.feature_names
iris_data = pd.DataFrame(X,columns=features)
iris_data['target'] = y
iris_data.describe()
这里可以进行一个简单的可视化,如:
# 可视化特征
marker = ['s'
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
