算法模型该如何解释?
最近时晴又发现了个炼丹神器Shapash,就迫不及待的要推荐给大家.这是个python的开源库,可以让炼丹师们在炼丹过程中理解自己为什么能练出"好"丹.相信诸位炼丹师和我一样,不仅追求一个好的模型,同时也追究模型的可解释性,废话不多说,我们看看"太阳女神"如何解释我们的模型吧.
Shapash
shapash适用于很多模型:Catboost,Xgboost,LightGBM,Sklearn Ensemble等.可以简单的用pip进行安装:
$pip install shapash我们用一个实际的例子来说明shapash的用法.我们先训练一个回归模型,用于预测房价.数据下载链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
先用shapash读入数据:
import pandas as pd
from shapash.data.data_loader import data_loading
# house_dict里面是特征名到特征含义的映射house_df, house_dict = data_loading('house_prices')
y_df=house_df['SalePrice'].to_frame()
X_df=house_df[house_df.columns.difference(['SalePrice'])]看下数据如下:

对类别特征进行编码:
from category_encoders import OrdinalEncodercategorical_features = [col for col in X_df.columns if X_df[col].dtype == 'object']
encoder = OrdinalEncoder(cols=categorical_features).fit(X_df)
X_df=encoder.transform(X_df)我们可以看到,所有特征都变成数值了:

找个任意的回归模型训练,这里我用随机森林:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
Xtrain, Xtest, ytrain, ytest = train_test_split(X_df, y_df, train_size=0.75)
reg = RandomForestRegressor(n_estimators=200, min_samples_leaf=2).fit(Xtrain,ytrain)
#预估测试集
y_pred = pd.DataFrame(reg.predict(Xtest), columns=['pred'], index=Xtest.index)这里我们不探讨该模型效果,直接看看如何用"太阳女神"解释该模型:
from shapash.explainer.smart_explainer import SmartExplainer
xpl = SmartExplainer(features_dict=house_dict) # Optional parameter
xpl.compile(x=Xtest,model=reg,preprocessing=encoder,# Optional: use inverse_transform methody_pred=y_pred # Optional
)然后使用一行代码,就可以解释模型了:
app = xpl.run_app()我们可以看到特征重要性:

已经特征多大程度影响预估:

当我们选择特征重要性最低的特征时,可以发现该特征影响的样本较少,影响值的范围也小了很多(-2000~2000).

此外还有一些可视化的特性等待大家探索:
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
