Python风控数据分析学习笔记-分类模型的选择

2023-10-10 07:51:39

常见的Data Mining方法主要分为三大类：
Supervised Machine Learning：Regression，Classification
Unsupervised Machine Learning：Clustering
在信贷风控场景中最常见的就是分类问题，所以常用的方法有：Regression的逻辑回归，Classification；Clustering有时候也会采用，但解释起来比较复杂，所以用的比较少。
因此就几种常见的分类算法来依次学习一下。

1 逻辑回归（Logistic Regression）

>> 对于二元分类问题最常用的就是逻辑回归方法，它的基本适用条件是：
Y服从二项分布：Yi ∼ Binomial(ni, Pi)，即Y的结果为0,1；Logit(Pi) = β0 + β1X1i + β2X2i + …；
>> 对Logit(Pi)进一步解析：
Logit(Pi)=log(odds)，odds=Pi/(1-Pi)，
Pi=exp(β0 + β1X1i + β2X2i + …)/(1+exp(β0 + β1X1i + β2X2i + …))；
>> 当Pi越趋近于1时，就越可以估计Yi=1；当1-Pi越趋近于1时，就越可以估计Yi=0；
>> 如果样本值较少的话可以利用parametric bootstrap方法去生成更为可靠的样本分布得到更加准确的一些参数估计值；
>> 另外和逻辑回归函数类似的函数还有probit函数，cauchit函数，这些函数均可以用来处理二元分类问题，但在不同情况下效果会有一定差异。

2 多项式逻辑回归（Multinomial Logistic Regression）

>> 对于多元分类问题（多项分布问题）的解决，如果是属于线性问题的话，多项式逻辑回归是常用的方法；
>> 首先我们假设Y存在k类结果：1, 2, 3, …, k；因此我们可以建立类似于二元分类的逻辑回归，具体如下：
log(Pr(Y=1|X)/Pr(Y=k|X)) = α1 + β1X，log(Pr(Y=2|X)/Pr(Y=k|X)) = α2 + β2X，…；
相应的：
Pr(Y=1|X)，Pr(Y=2|X)，…, Pr(Y=k|X) 可以依次被参数α1，β1，αK−1，βK−1表示出来；
>> 对于参数的估计求解需要使用最大似然估计方法；
>> 如果P(Y=k|X)属于高斯分布，则可以采用LDA或QDA方法，LDA和QDA方法比较相似，除了两者的covariance matrix假设不一样。
>> 对于以上三个方法的选择，没有太多的区别，三个方法也很难说清楚孰优孰劣，最好就是三个方法都试验一下，然后比较三个方法的预测能力和模型效果，继而选出最优的模型出来。

3 非线性分类问题

>> 对于非线性分类问题，我们可以使用SVM(Support Vector Machine)方法或者CART等Classification类别的方法；
>> 对于SVM方法，常用的kernel参数有“linear”，“polynomial”，“radial”，“sigmoid”，可以跟据绘图来选择最合适的参数；
>> 对于CART方法，需要理解的几个关键词：
Root node：树的最顶部节点，唯一一个没有parents节点的节点；
Internal node：决策单元，评估决策函数以确定下一步访问哪个子节点；
Terminal node (leaf)：没有子节点，也没有与输入空间的某个分区相关联；
Depth of a tree：从根节点（root node）到叶节点（leaf node）的路径最大长度，深度并不是越大越好，太大的话会容易出现过拟合问题；
>> 此外，Classification类的方法除了CART方法，还有在此基础上进一步优化的Random Forest，Gradient boosting tree等方法。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 什么是非集计模型_非集计模型.ppt
下一篇 > 详解Logit/Probit模型中的completelydetermined问题

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Python风控数据分析学习笔记-分类模型的选择

1 逻辑回归（Logistic Regression）

2 多项式逻辑回归（Multinomial Logistic Regression）

3 非线性分类问题

相关文章