Python风控数据分析学习笔记-分类模型的选择

常见的Data Mining方法主要分为三大类:
Supervised Machine Learning:Regression,Classification
Unsupervised Machine Learning:Clustering
在信贷风控场景中最常见的就是分类问题,所以常用的方法有:Regression的逻辑回归,Classification;Clustering有时候也会采用,但解释起来比较复杂,所以用的比较少。
因此就几种常见的分类算法来依次学习一下。

1 逻辑回归(Logistic Regression)

>> 对于二元分类问题最常用的就是逻辑回归方法,它的基本适用条件是:
Y服从二项分布:Yi ∼ Binomial(ni, Pi),即Y的结果为0,1;Logit(Pi) = β0 + β1X1i + β2X2i + …;
>> 对Logit(Pi)进一步解析:
Logit(Pi)=log(odds),odds=Pi/(1-Pi),
Pi=exp(β0 + β1X1i + β2X2i + …)/(1+exp(β0 + β1X1i + β2X2i + …));
>> 当Pi越趋近于1时,就越可以估计Yi=1;当1-Pi越趋近于1时,就越可以估计Yi=0;
>> 如果样本值较少的话可以利用parametric bootstrap方法去生成更为可靠的样本分布得到更加准确的一些参数估计值;
>> 另外和逻辑回归函数类似的函数还有probit函数,cauchit函数,这些函数均可以用来处理二元分类问题,但在不同情况下效果会有一定差异。

2 多项式逻辑回归(Multinomial Logistic Regression)

>> 对于多元分类问题(多项分布问题)的解决,如果是属于线性问题的话,多项式逻辑回归是常用的方法;
>> 首先我们假设Y存在k类结果:1, 2, 3, …, k;因此我们可以建立类似于二元分类的逻辑回归,具体如下:
log(Pr(Y=1|X)/Pr(Y=k|X)) = α1 + β1X,log(Pr(Y=2|X)/Pr(Y=k|X)) = α2 + β2X,…;
相应的:
Pr(Y=1|X),Pr(Y=2|X),…, Pr(Y=k|X) 可以依次被参数α1,β1,αK−1,βK−1表示出来;
>> 对于参数的估计求解需要使用最大似然估计方法;
>> 如果P(Y=k|X)属于高斯分布,则可以采用LDA或QDA方法,LDA和QDA方法比较相似,除了两者的covariance matrix假设不一样。
>> 对于以上三个方法的选择,没有太多的区别,三个方法也很难说清楚孰优孰劣,最好就是三个方法都试验一下,然后比较三个方法的预测能力和模型效果,继而选出最优的模型出来。

3 非线性分类问题

>> 对于非线性分类问题,我们可以使用SVM(Support Vector Machine)方法或者CART等Classification类别的方法;
>> 对于SVM方法,常用的kernel参数有“linear”,“polynomial”,“radial”,“sigmoid”,可以跟据绘图来选择最合适的参数;
>> 对于CART方法,需要理解的几个关键词:
Root node:树的最顶部节点,唯一一个没有parents节点的节点;
Internal node:决策单元,评估决策函数以确定下一步访问哪个子节点;
Terminal node (leaf):没有子节点,也没有与输入空间的某个分区相关联;
Depth of a tree:从根节点(root node)到叶节点(leaf node)的路径最大长度,深度并不是越大越好,太大的话会容易出现过拟合问题;
>> 此外,Classification类的方法除了CART方法,还有在此基础上进一步优化的Random Forest,Gradient boosting tree等方法。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部