机器学习 - 李宏毅笔记

2023-11-24 13:53:42

李宏毅机器学习笔记

1.机器学习简介
- 1.1 机器学习项目流程
- - 1.1.1 找到未知函数
  - 1.1.2 定义训练损失函数
  - 1.1.3 优化
2.机器学习攻略指南（实现一个好的模型）
- 2.1 训练集loss过大or过小
- - 2.1.1 如果train loss过大，如何判断是model bias还是optimize issue
  - 2.1.2 model bias解决方法
  - 2.1.3 Optimization issue解决方法
  - 2.1.4 Optimization优化器训练技巧：Batch与Momentum
- 2.2 测试集loss过大or过小
- - 2.2.1 如果test loss过大，如何判断是过拟合（overfit）还是是数据分布问题（mismatch）
  - 2.2.2 overfit
  - 2.2.3 mismatch

1.机器学习简介

其实机器学习项目，我们可以看成是一个找函数的过程，我们向函数输入一些数据，函数返回给我们一个结果.

在这里插入图片描述
针对不同类型的机器学习问题有不同的函数：

Regression

在这里插入图片描述

classification

1.1 机器学习项目流程

在这里插入图片描述
这里的调整，涉及到模型构建，定义loss很多，后面单独做分析。

从机器学习算法项目开发步骤来说，我们会先基于数据，找到构建一个稍微简单的模型，先从简单的模型入手，通过loss判断这个模型的好坏，去进行下一步模型的优化，改变。

1.1.1 找到未知函数

这里有一个函数
在这里插入图片描述
过去历史的喜欢人数数据，现在我们要通过这个数据，通过这个函数来产出（预测）未来的喜欢人数数值。

我们先简单构造一个函数
$y=b+wx_1$

1.1.2 定义训练损失函数

建设我们的模型参数 $w$ =0.5k， $b$ =1，k表示一个未知数，函数就为：
$y=0.5k+1x_1$

现在求训练loss：
我们训练集是2017/01/01 - 2020/12/31的数据。
用这个数据集 $x$ 训练出的模型( $f ()$ 函数)，再将这些数据集 $x$ 加入到这个函数中 $f ()$ ，产生的 $\hat y$ 与实际的 $y$ ，进行差值，也叫loss。
在这里插入图片描述
最后将每个时间点数据的loss按照不同的计算方式结合起来：

1.1.3 优化

优化的目的就是让我们的 $L$ （损失函数）值最小。可以看成这个猴子在找这条曲线的最低点。

简单解释一下这个公式：
$w^1\leftarrow w^0-\eta\frac{\partial L}{\partial w}|_{w=w^0}$
其实跟我们速度公式类似：
$v_1=v_0-at$
$\eta$ 就是速度的t， $a$ 就是 $\frac{\partial L}{\partial w}$
在这里插入图片描述

最后模型优化后的loss过小，或者过大，之后我们应该怎么样处理呢，这就是下文需要介绍的内容。

2.机器学习攻略指南（实现一个好的模型）

下次我们将讨论如何根据loss完善我们的模型，实现一个好的模型。
在这里插入图片描述

2.1 训练集loss过大or过小

一般是通过模型输出的物理意义、实际所需要的精度、自己期望的精度来衡量，没有具体的标准。不同的模型选择的loss函数也不同。

2.1.1 如果train loss过大，如何判断是model bias还是optimize issue

model bias（模型偏差）问题

在这里插入图片描述

optimize issue（优化）问题

在这里插入图片描述

如何判断train loss问题是model bias还是optimize issue：

这里就要用从train训练集中分离出一部分数据集为Valid验证集来判断

方法：构建一个简单的model（linear model）做看下loss，再构建一个深的model（比如神经网络）策略：通过二个模型判断是不是mode bias,构造不同模型复杂度的模型来对比training error1.如果当前的模型error比更复杂度的模型error对比是更小的，就说明是optimization issue2.如果当前的模型error比更复杂度的模型error对比是更大的，就说明是model bias

在这里插入图片描述

2.1.2 model bias解决方法

model bias问题，很好解决，要么是降低模型复杂度，要么如下增加模型复杂度。
在这里插入图片描述

2.1.3 Optimization issue解决方法

在这里插入图片描述
如上图所示从模型复杂度浅的模型开始，训练，对比loss
在神经网络中，理论上层越深loss越低，但是在上图中5 layer loss增大了。

这种问题就是：Optimization优化失败，简单说，就是Optimization梯度下降走到了临界点（梯度为0的critical point）。这个点一共有二种情况：

局部最低点（local minima）
鞍点（saddle point）

首先面临的一个问题就是，我们要判断这个梯度为零的点，是local还是saddle，这就需要我们去判断这个点附近的“地形”是什么样的，是高还是低。

我们可以看成是一个美女在山里寻找山的最低点，美女从当前的临界点（critical point）开始，往她周围的每个方向都走一点点。
在这里插入图片描述

如果每个方向的地形高度比临界点高了，就是局部最小点（local minima）
如果每个方向的地形高度比临界点低了，就是局部最大点（loocal maxima）
如果有些方向的地形高度比临界点高，有些方向的地形高度比临界点低，就是鞍点（saddle point）

计算高度的公式如下：
$L(\theta)=L(\theta^1)+(\theta-\theta^1)^Tg+\frac{1}{2}(\theta-\theta^1)H(\theta-\theta^1)$

学过速度位移的公式的可以把这个公式看成这个：
$x_1=x_0+v_0t+\frac{1}{2}at^2$

当前高度 $x_0$ 加上移动后的垂直距离得到 $x_1$
在这里插入图片描述
其中
$g=\frac{\partial L(\theta)}{\partial \theta}$ 可以看成速度里 $\frac{\partial x}{\partial t}$ ，也就是 $v$ 速度
$H=\frac{\partial^2}{\partial^2 \theta^2}L(\theta)$ ，可以看成速度里加速度求导公式：
$v=\frac{dx}{dt}$
$a=\frac{dv}{dt}$
$a=\frac{d(\frac{dx}{dt})}{dt}=\frac{d}{dt}*\frac{dx}{dt}=\frac{d}{dt}*\frac{d}{dt}*x$

g就表示当前的速度v，H就表示的加速度

由于我们求的是美女爬山的t1到t2的，这个时间间隔很小，因此可以忽略：
在这里插入图片描述
实际就只需要判断 $\frac{1}{2}(\theta-\theta^1)H(\theta-\theta^1)$ 大小就行。

2.1.4 Optimization优化器训练技巧：Batch与Momentum

Batch
假设训练集L有N个数据，我们把数据集拆分成数量相同的几份batch，其梯度下降计算方式如下：
在这里插入图片描述

batch大小的选取对模型的计算速度和loss也是有很大影响的，如图所示：

这里就直接给出一个结论了：
小的Batch v.s. 大的Batch
批量大小是一个必须确定的超参数.

	Small	Large
一次更新的速度（无并行）	快	慢
一次更新的速度（并行）	相同	相同
一次迭代的时间	慢	快
梯度	不稳定	稳定
优化	更好	更遭
泛化情况	更好	更糟

Momentum
Momentum的作用是保证美女只会在山里往下走，而不会往上走的。

这里这二张图片分别展示了没有使用Momentum与使用Momentum的效果，相信这二张图，应该大家就能看明白了

无Momentum
在这里插入图片描述
有Momentum

在模型训练中，数据集的划分也很重要涉及的内容：
数据集划分

2.2 测试集loss过大or过小

解决了训练集的问题，就可以把测试集的数据放入到模型中判断模型的效果了，同样的测试集loss过大过小，也是没有固定的标准的。

2.2.1 如果test loss过大，如何判断是过拟合（overfit）还是是数据分布问题（mismatch）

2.2.2 overfit

overfitting问题：
一个男的把所有精力都花在研究一个星座的女生了，最后分手了，他去认识一个其他星座的女生，就拿捏不了。
在这里插入图片描述
解决overfitting：
1.more training data（这种浪费时间）
2.data augmentation (自己创造数据)

但是要注意，机器跟人也是一样的，对于有反转倒置的图片，是不太很容易识别出的。

3.constrained model（比如说线性模型告诉模型是一个一元二次方程，或者像我们的神经网络一样，unet，alexnet都是限制了模型的结构）
4.更少的参数
5.dropout
6.正则化

2.2.3 mismatch

数据分布问题。

例如说一个班级学生成绩，你训练集里只有成绩好的学生，你的测试集里只有成绩差的学生

或者说图像
在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 李宏毅机器学习笔记——生成模型
下一篇 > 推荐一个好用的vscode git commit美化插件

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

机器学习 - 李宏毅笔记

李宏毅机器学习笔记

1.机器学习简介

1.1 机器学习项目流程

1.1.1 找到未知函数

1.1.2 定义训练损失函数

1.1.3 优化

2.机器学习攻略指南（实现一个好的模型）

2.1 训练集loss过大or过小

2.1.1 如果train loss过大，如何判断是model bias还是optimize issue

2.1.2 model bias解决方法

2.1.3 Optimization issue解决方法

2.1.4 Optimization优化器训练技巧：Batch与Momentum

2.2 测试集loss过大or过小

2.2.1 如果test loss过大，如何判断是过拟合（overfit）还是是数据分布问题（mismatch）

2.2.2 overfit

2.2.3 mismatch

相关文章