任务1 - 线性回归算法梳理

2023-11-23 19:58:48

1. 机器学习的一些概念
（1）监督学习

监督学习（Supervised Learning）是使用已知正确类别的样本来训练网络的。具体来讲，是用已知某种或某些特性的样本（事先标记）作为训练集，通过不断地调整参数而建立一个数学模型，再用已建立的模型来预测未知的输入样本。

（2）无监督学习

无监督学习（Unsupervised Learning）的特点是训练样本没有标签，通过学习模型来推断出数据的一些内在结构。

常用于以下情况：

1）由于缺乏足够的先验知识，因而难以人工标注类别;

2）采用人工方式来标注类别的成本太高。

（3）泛化能力

泛化能力（Generalization Ability）是指机器学习算法对新鲜样本的适应能力。机器学习的基本问题是利用模型对数据进行拟合，学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。网络的性能主要用它的泛化能力来衡量。

通常期望经训练样本训练的网络具有较强的泛化能力，也就是对新输入的数据能给出合理响应的能力。应当指出并非训练的次数越多越能得到正确的输入输出映射关系。模型对训练集数据的误差称为经验误差，对测试集数据的误差称为泛化误差。

（4）过拟合与欠拟合

过拟合和欠拟合是导致模型泛化能力不高的两种常见原因，都是模型学习能力与数据复杂度之间失配的结果。

过拟合与欠拟合的区别：欠拟合在训练集和测试集上的性能都较差，而过拟合往往能较好地学习训练集数据的性质，而在测试集上的性能较差。在神经网络训练的过程中，欠拟合主要表现为输出结果的高偏差，而过拟合主要表现为输出结果的高方差。

1）“欠拟合”（Underfitting）常常在模型的学习能力较弱而数据的复杂度较高的情况出现，此时模型由于学习能力的不足，无法学习到数据集中的“一般规律”，因而导致该模型的泛化能力弱。

解决办法：

增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间；
添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强；
减少正则化参数，正则化的目的是用来防止过拟合的，但是模型出现了欠拟合，则需要减少正则化参数；
使用非线性模型，比如核SVM 、决策树、深度学习等模型；
调整模型的容量(capacity)，通俗地，模型的容量是指其拟合各种函数的能力；
容量低的模型可能很难拟合训练集；使用集成学习方法，如Bagging ,将多个弱学习器Bagging。

2）“过拟合”（Overfitting）常常在模型的学习能力过强的情况中出现ÿ

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

任务1 - 线性回归算法梳理

相关文章