啃瓜记录(一)

1.2 基本术语

前面引言没什么好记录的,先从基本术语开始记录吧。
PS: 本文仅做自己学习记录所用,有错误欢迎指出。 

1.2.1 有关数据的术语

  1. 数据集(data set):包含多组关于一个事件或对象的描述的记录。
  2. 样本(sample):数据集中每一条记录都可以算作样本。
  3. 特征(feature):反映事件或对象在某个方面的表现或者性质的事项被称为特征。
  4. 维数(dimensionality):每个样本所具有的d个特征称为样本的维数。

1.2.2 有关模型学习过程的术语

  1. 训练集(training set):用于模型训练所使用的数据集。
  2. 假设(hypothesis):学得模型对应了关于数据的某种潜在规律。
  3. 测试集(testing set):学得模型后,使用其进行预测的样本称为测试集。

第一章后续的感觉没有什么好记录,主要还得结合书上的例子和语句自己理解。

2.1 经验误差与过拟合

  1. 误差(error):学习器的实际预测输出与样本的真实输出之间的差异称为误差(Error)。通俗来说就是你预测的输出和实际标签或者输出的差异。
  2. 训练误差(training error)或经验误差(empirical error):学习器的在训练集上的误差就被称作训练误差。
  3. 过拟合和欠拟合:过拟合和欠拟合是一组相反的概念,模型在训练集上表现得很好,但是在测试集上表现的不好,这种情况我们就可以认为学习器是一种过拟合状态。相反,对训练样本的一般性质尚未学好的情况被称为欠拟合。需要解释的是,无论何种情况,过拟合是无法彻底避免的,我们智能使用合适的方法手段,减少其风险。

2.2 几种数据集处理方法

方法名称方法介绍
留出法将数据集D划分为两个互斥的集合,按这种方式取很多次,得到的结果取平均值作为实验评估结果
交叉验证法先将数据集D划分为k个大小相似的互斥子集,然后每次使用k-1个子集的并集作为训练集,余下的做测试集,最终返沪这k个测试结果的均值

还有个自助法,我自己也没有很明确的理解,大致就是一种可重复采样的概念,将重复采样做多次取不同的数据。自助法在集成学习上比较常见。这边就不做记录,具体记录我就留在集成学习那部分里面。

2.3 性能度量

2.3.1 混淆矩阵

关于这一部分我觉得有几个概念真的很不好理解,但是真正理解了的话,其实也很好理解。反正就是只可意会,不可言传。下面就来介绍一下这几个概念。

  • 真正例(true positive):样本真实标签是正例,预测结果也是正例。
  • 假正例(false positive):样本真实标签是反例,预测结果是正例。
  • 真反例(true negative):样本真实标签是反例,预测结果也是反例。
  • 假反例(false negative):样本真实标签是正例,预测结果是反例。

下面是分类结果的混淆矩阵:
在这里插入图片描述
其他的一些相关度量标准

度量标准定义公式
错误率分类错误的样本数占样本总数的比例在这里插入图片描述
精度分类正确的样本数占样本总数的比例在这里插入图片描述
查准率(准确率)真正的正例样本占预测为正例样本的比例 T P T P + F P \frac{TP}{TP+FP} TP+FPTP
查全率(召回率)预测正确的正例样本占真正正例总样本的比例 T P T P + F N \frac{TP}{TP+FN} TP+FNTP

一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。关于这部分在我学习的时候有过相关讨论,关于下图查全率和查准率,是一条**不严格递减(非单调的、不平滑的)**的曲线,在下图中是比较理想化的状态,在一般的机器学习过程中,曲线总是会在某一局部会产生波动。
在这里插入图片描述
关于平衡点这个概念,其实是有计算方法的,就是看曲线和y=x这条直线的相交的点就是BEP点的值,也就是“查准率=查全率”的点。接下来的记录就记在下一节里面啦。
敬请期待,啃瓜记录(二)。

如果大家觉得感兴趣的话,可以关注一下我的公众号一颗程序树。
!](https://img-blog.csdnimg.cn/7b54f0a82bbb4dcdbf4757604126a06d.png)

在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部