imbalance data分类解决办法

http://blog.csdn.net/u011414200/article/details/50664266

http://www.tk4479.net/a358463121/article/details/52304670

https://www.jiqizhixin.com/articles/2017-03-20-8

http://www.jianshu.com/p/3e8b9f2764c8

点击打开链接 LR模型常见问题小议

不平衡数据的场景也出现在互联网应用的方方面面,如搜索引擎的点击预测(点击的网页往往占据很小的比例),电子商务领域的商品推荐(推荐的商品被购买的比例很低),信用卡欺诈检测,网络攻击识别等等。

1.随机过采样


2.under sampling欠采样


加权


3.informed 欠采样

3.1EasyEnsemble算法


3.2BalanceCascade算法


基于聚类的过采样


4.ENN,最近邻规则(edited nearest neighbor: ENN)

NCL,领域清理规则 (neighborhod cleaning rule: NCL)

KNN


5.数据生成的合成抽样方法

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术

自适应合成抽样方法

Borderline-SMOTE算法

利用数据清洗技术的抽样

移除重复的样本,可以在训练集中建立良号定义的类簇,这反过来又可以为提高分类性能定义良好的分类准则。在这个领域中,典型的方法包括 OSS 方法简明近邻规则Tomek线(CNN+Tomek)集成方法基于编辑近邻(ENN)的近邻 清理规则(NCL)SMOTE 和ENN 的集成(SMOTE+ENN)以及 SMOTE 与 Tomek 线的集成(SMOTE+Tomek)


3.代价敏感学习算法(Cost-Sensitive Learning)

AdaCost算法


4.集成

基于bagging

基于boosting

自适应 boosting——Ada Boost

 梯度树 boosting

XGBoost



  • 算法层面的处理方法
  • 样本层面的处理方法,利用适当的方法重构训练样本,以提高分类性能
  • 将算法和样本处理相结合使用,更能提高分类器的性能


  • 评价指标



    本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

    相关文章

    立即
    投稿

    微信公众账号

    微信扫一扫加关注

    返回
    顶部