--随机森林--

2023-08-26 22:17:20

随机森林

随机森林：多棵决策树构建而成，每一棵决策树都是上一篇文章中的决策树的原理，只是“随机森林”将其集成（ensemble）到了一起，因此，随机森林是一种“集成算法”

随机森林API

随机森林API：class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, booststrap=True, rangdom_state=None)

n_estimators：integer，optional（default=10），森林中树木的数量
criterion：string，可选（default='gini'）分割特征的测量方法，也可选用entropy，上一篇中有写到两者计算方法略有不同，但是效果类似
max_depth：integer或None，可选，默认为“None”，树的最大深度
bootstrap：boolean，optional（default=True），是否在构建树时使用放回抽样

随机森林优点

准确率高
不会过拟合
适用于大数据集，较常用

随机森林实操

import numpy as np
from sklearn.ensemble import RangdomForestClassifier
import matplotlib.pyplot as plt
from sklearn import datasets
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifierwine = datasets.load_wine()

wine数据集介绍：

目标值分三类，target = 0，1，2；target_names = class_0, class_1, class_2

特征值有很多，feature_names: 'alcohol', 'malic_acid', 'alcalinity_of_ash', 'ash'......13种

data的shape = （178，13）

X = wine['data']
y = wine['target']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)clf = RandomForestClassifier()
clf.fit(X_train, y_train)
y_ = clf.predict(X_test)from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_)
# 1.0

由上述随机森林方法测出来的准确率是1.0

下面使用决策树方法

dt_clf = DecisionTreeClassifier()dt_clf.fit(X_train, y_train)dt_clf.score(X_test, y_test)
# 0.944444444

决策树方法测出来的准确率是0.944

score = 0 
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2)dt_clf = DecisionTreeClassifier()dt_clf.fit(X_train,y_train)score+=dt_clf.score(X_test,y_test)/100print('决策树多次运行准确率：',score)

决策树多次运行准确率： 0.909166666666666

score = 0 
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2)clf = RandomForestClassifier(n_estimators=100)clf.fit(X_train,y_train)score+=clf.score(X_test,y_test)/100print('随机森林多次运行准确率：',score)

随机森林多次运行准确率： 0.9808333333333332

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 京东VS天猫双十一猫狗大战再升级
下一篇 > 有趣且强大的随机森林

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

--随机森林--

随机森林

随机森林API

随机森林优点

随机森林实操

相关文章