关于机器学习的分类器整理

2023-11-24 16:24:37

机器学习中的 5 种流行的分类算法

线性回归（Linear Regression）

linear regression是假设数据服从线性分布的，这一假设前提也限制了该模型的准确率，因为现实中由于噪声等的存在很少有数据是严格服从线性的。

基于这种假设，linear regression可以通过normal equation求闭合解的方式求得y_predict

逻辑回归（Logistic Regression）

SGD

逻辑回归是一种用于预测二元结果的算法：要么发生，要么不发生。

公式：P(Y=1|X) 或 P(Y=0|X)

假设自变量为 X，该公式可以计算因变量 Y 的概率

朴素贝叶斯（Naive Bayes）

朴素贝叶斯计算一个数据点是否属于某个类别的可能性。在文本分析中，朴素贝叶斯可用于将单词或短语归类为是否属于预设的“标签”

P(A|B) = P(B|A) * P(A) /P(B)

K-最近邻（K-Nearest Neighbor）

K-最近邻 (k-NN) 是一种模式识别算法，通过训练数据集在未来示例中找到 k 个最近邻。

当 k-NN 用于分类时，你需要计算将数据放在哪个类别中（即最近邻的类别中）。如果 k = 1，那么数据将被放在最接近 1 的类别中。通过对其近邻的多轮进行计算，从而得出K值，进行分类。

决策树（Decision Tree）

决策树是一种监督学习算法，非常适合解决分类问题，因为该算法能够精确地对类别进行排序。其工作原理类似于流程图，一次性将数据点分成两个相似的类别，从“树干”到“树枝”，再到“叶子”，让这些类别在有限范围内变得更加相似。通过决策树，你可以在类别中创建类别，在有限的人工监督下进行有机分类。

随机森林（Random Forest）

随机森林算法是决策树的扩展，首先通过训练数据构建大量决策树，然后将新数据作为“随机森林”放入其中一棵树中。

从本质上讲，随机森林可以对数据进行平均，并将其连接到数据规模上最近的树。随机森林模型非常有用，因为它可以解决决策树在不必要的情况下，强制对数据点进行归类的问题。

支持向量机（Support Vector Machines）

支持向量机 (SVM) 使用算法训练，并分类不同极性的数据，使其超出 X/Y 的预测范围。

SVM是将低维无序杂乱的数据通过核函数（RBF,poly，linear，sigmoid）映射到高维空间，通过超平面将其分开

在sklearn包中默认配置中三种核函数的准确率大概是RBF>poly>linear

集成模型

random forest：随机抽取样本形成多个分类器，通过vote，少数服从多数的方式决定最终属于多数的分类器结果，分类器之间是相互去之间关联的

gradient boost：弱弱变强，最典型的代表是adaboost（三个臭皮匠，顶个诸葛亮），弱分类器按照一定的计算方式组合形成强的分类器，分类器之间存在关联，最终分类是多个分类器组合的结果

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 几个不错的c++面试题目
下一篇 > 【码云周刊第 12 期】走过微软20年，埋头并发编程15年，如何减少代码的认知负荷？...

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce