datawhale WIDEDEEP学习笔记

datawhale WIDE&DEEP学习笔记

CTR就是广告点击率,click through rate
deepcrossing的特征交叉,是能够实现一种记忆能力的,它能够记住共现频率高的特征组合,但是不能基于此探索新的特征组合。针对前面的deepcrossing存在的:有一些特征没有被充分学习,因此产生的embedding 向量不准确,因此会导致模型泛化过度的问题,WIDE&DEEP这一模型就被引进,该模型围绕记忆性和泛化性,能从历史数据中学习到高频共现的特征组合。

模型的memorization:指的是模型能够从历史数据中学习高频出现的特征组合的能力。
模型的generalization:指的是模型能利用特征之间的传递性去探索新的特征组合。

wide%deep模型的结构原理

就是这个模型分为wide和deep两个部分,我们要有选择的将特征放入wide或者deep部分。
怎么样构建特征组合呢?比如说将是否是大学生和是否拥有爱奇艺会员作为两个特征,将其合并,那么只有同时满足是大学生和是爱奇艺会员这个新特征才是1,否则这个新特征的值就是0,这就实现了两个特征的组合。

在线学习
在线学习算法的特点就是每来一个训练样本,就用该样本产生的loss和梯度对模型迭代一次,一个一个数据地进行训练,因此可以处理大数据量训练和在线训练。常用的有在线梯度下降(OGD)和随机梯度下降(SGD)等,是对单个数据的损失函数进行梯度下降,但是并不是每一步的方向都是最优的。

wide层

wide层使用了FTRL算法,这个算法使得通过wide层的特征尽量少,也就是让wide部分尽量稀疏,因此能通过wide层的特征都属于很重要的特征,wide层输入的特征可能是单一特征也可以是组合特征。wide部分体现了模型的记忆能力,他提取的特征属于那种直接的、显然的关联规则。
wide层其实就是将已经存在的单一特征或者组合特征进行一种选择吧,现有的所有的特征能通过wide层的都必然会被保留着进入模型,这就体现出了模型的记忆能力,对原始特征的一种保留。

deep层

deep层就是深度学习模型,数值特征直接输入DNN,类别特征要经过embedding然后在输入模型。DEEP层体现出了wide&deep模型的一种泛化能力,因为我们可以知道,随着dnn模型层数增加,提取出的特征就越抽象,因此模型的泛化能力会越高。DNN模型作者使用了深度学习常用的优化器AdaGrad

wide与deep的结合

wide部分增强了模型的记忆能力,其保留了模型原来就有的那些单一特征或者组合特征;deep模型增强了模型的泛化能力,随着层数的增加,学习出来的特征就越抽象,这些特征就会增强模型的泛化性能。
因此wide&deep模型将这两部分输出的特征一起进行训练,使用一个逻辑回归做最终的预测,就会保持记忆和泛化能力。
因为Wide侧的数据是高维稀疏的,所以作者使用了FTRL算法优化,而Deep侧使用的是 Adagrad

FTRL算法
link
这个连接里面,对fobos,rda,ftrl都做了说明

ADAGRAD

思考题
1、在你的应用场景中,哪些特征适合放在Wide侧,哪些特征适合放在Deep侧,为什么呢?
一些明显的直接的特征,能够发现高频、常见模式的特征应该放在wide层,但是如果我们想要从某些特征中学习出一些新特征,我们就要将其放入deep层。比如说预测广告的点击概率,性别、年龄、学历、地区和性别、、、这些就放入WIDE层,像是家里是否有老人、是否有小孩、每天工作时间、、、、这些想要从中提取出能帮助预测的特征的就将其放入deep层。
2、为什么Wide部分要用L1 FTRL训练?
应该是为了尽量让特征稀疏,筛选出那些最具有代表性的特征。
3、为什么Deep部分不特别考虑稀疏性的问题?
因为deep部分筛选出来的特征是一种抽象的特征,是为了从原来的特征里发现一些新的联系,从已经存在的特征里发现暗含的一种新特征,所以是不需要考虑特征的稀缺性的。

代码实现:

#导入需要的库
import warnings
warnings.filterwarnings("ignore")
import itertools
import pandas as pd
import numpy as np
from tqdm import tqdm
from collections import namedtupleimport tensorflow as tf
from tensorflow.keras.layers import *
from tensorflow.keras.models import *from sklearn.model_selection import train_test_split
from sklearn.preprocessing import  MinMaxScaler, LabelEncoderfrom utils import SparseFeat, DenseFeat, VarLenSparseFeat# 简单处理特征,包括填充缺失值,数值处理,类别编码
#dense_features指的是数值特征数据,sparse指的是类别型数据
def data_process(data_df, dense_features, sparse_features):data_df[dense_features] = data_df[dense_features].fillna(0.0)#这一步是为了实现数值的平滑for f in dense_features:data_df[f] = data_df[f].apply(lambda x: np.log(x+1) if x > -1 else -1)data_df[sparse_features] = data_df[sparse_features].fillna("-1")#补充缺失值for f in sparse_features:lbe = LabelEncoder()data_df[f] = lbe.fit_transform(data_df[f])#fit()是为了求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性#transform():在fit的基础上,进行标准化,降维,归一化等操作#fit_transform():部分数据先拟合fit,找到该part的整体指标,如均值、方差、#最大值最小值等等(根据具体转换的目的),然后对该trainData进行转换transform,从而实现数据的标准化、归一化等等。return data_df[dense_features + sparse_features]##这步其实就是输出字典查看我们一共有多少个原始的特征
def build_input_layers(feature_columns):"""构建输入层param feature_columns: 数据集中的所有特征对应的特征标记值"""# 构建Input层字典,并以dense数值型特征和sparse类型特征两类字典的形式返回dense_input_dict, sparse_input_dict = {}, {}for fc in feature_columns:if isinstance(fc, SparseFeat):sparse_input_dict[fc.name] = Input(shape=(1, ), name=fc.name)elif isinstance(fc, DenseFeat):dense_input_dict[fc.name] = Input(shape=(fc.dimension, ), name=fc.name)return dense_input_dict, sparse_input_dict##embedding层只是输入类别特征,数值型特征是不进行embedding的
##embedding层将类别特征进行探索,发现这些特征的内在关系,这是一种泛化性的提升
def build_embedding_layers(feature_columns, input_layers_dict, is_linear):# 定义一个embedding层对应的字典embedding_layers_dict = dict()# 将特征中的sparse特征筛选出来sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), feature_columns)) if feature_columns else []# 如果是用于线性部分的embedding层,其维度为1,否则维度就是自己定义的embedding维度if is_linear:for fc in sparse_feature_columns:embedding_layers_dict[fc.name] = Embedding(fc.vocabulary_size + 1, 1, name='1d_emb_' + fc.name)else:for fc in sparse_feature_columns:embedding_layers_dict[fc.name] = Embedding(fc.vocabulary_size + 1, fc.embedding_dim, name='kd_emb_' + fc.name)return embedding_layers_dict# 将所有的sparse特征embedding拼接
def concat_embedding_list(feature_columns, input_layer_dict, embedding_layer_dict, flatten=False):# 将sparse特征筛选出来sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), feature_columns))embedding_list = []for fc in sparse_feature_columns:_input = input_layer_dict[fc.name] # 获取输入层 _embed = embedding_layer_dict[fc.name] # B x 1 x dim  获取对应的embedding层embed = _embed(_input) # B x dim  将input层输入到embedding层中# 是否需要flatten, 如果embedding列表最终是直接输入到Dense层中,需要进行Flatten,否则不需要if flatten:embed = Flatten()(embed)embedding_list.append(embed)return embedding_list # DNN残差块的定义
class ResidualBlock(Layer):def __init__(self, units): # units表示的是DNN隐藏层神经元数量super(ResidualBlock, self).__init__()self.units = unitsdef build(self, input_shape):out_dim = input_shape[-1]self.dnn1 = Dense(self.units, activation='relu')self.dnn2 = Dense(out_dim, activation='relu') # 保证输入的维度和输出的维度一致才能进行残差连接def call(self, inputs):x = inputsx = self.dnn1(x)x = self.dnn2(x)x = Activation('relu')(x + inputs) # 残差操作return x# block_nums表示DNN残差块的数量
def get_dnn_logits(dnn_inputs, block_nums=3):dnn_out = dnn_inputsfor i in range(block_nums):dnn_out = ResidualBlock(64)(dnn_out)# 将dnn的输出转化成logitsdnn_logits = Dense(1, activation='sigmoid')(dnn_out)return dnn_logitsdef DeepCrossing(dnn_feature_columns):# 构建输入层,即所有特征对应的Input()层,这里使用字典的形式返回,方便后续构建模型dense_input_dict, sparse_input_dict = build_input_layers(dnn_feature_columns)# 构建模型的输入层,模型的输入层不能是字典的形式,应该将字典的形式转换成列表的形式# 注意:这里实际的输入与Input()层的对应,是通过模型输入时候的字典数据的key与对应name的Input层input_layers = list(dense_input_dict.values()) + list(sparse_input_dict.values())# 构建维度为k的embedding层,这里使用字典的形式返回,方便后面搭建模型embedding_layer_dict = build_embedding_layers(dnn_feature_columns, sparse_input_dict, is_linear=False)#将所有的dense特征拼接到一起dense_dnn_list = list(dense_input_dict.values())dense_dnn_inputs = Concatenate(axis=1)(dense_dnn_list) # B x n (n表示数值特征的数量)# 因为需要将其与dense特征拼接到一起所以需要Flatten,不进行Flatten的Embedding层输出的维度为:Bx1xdimsparse_dnn_list = concat_embedding_list(dnn_feature_columns, sparse_input_dict, embedding_layer_dict, flatten=True) sparse_dnn_inputs = Concatenate(axis=1)(sparse_dnn_list) # B x m*dim (n表示类别特征的数量,dim表示embedding的维度)# 将dense特征和Sparse特征拼接到一起dnn_inputs = Concatenate(axis=1)([dense_dnn_inputs, sparse_dnn_inputs]) # B x (n + m*dim)# 输入到dnn中,需要提前定义需要几个残差块output_layer = get_dnn_logits(dnn_inputs, block_nums=3)model = Model(input_layers, output_layer)return model
if __name__ == "__main__":# 读取数据data = pd.read_csv('./data/criteo_sample.txt')# 划分dense和sparse特征columns = data.columns.valuesdense_features = [feat for feat in columns if 'I' in feat]sparse_features = [feat for feat in columns if 'C' in feat]# 简单的数据预处理train_data = data_process(data, dense_features, sparse_features)train_data['label'] = data['label']# 将特征做标记dnn_feature_columns = [SparseFeat(feat, vocabulary_size=data[feat].nunique(),embedding_dim=4)for feat in sparse_features] + [DenseFeat(feat, 1,)for feat in dense_features]# 构建DeepCrossing模型history = DeepCrossing(dnn_feature_columns)history.summary()history.compile(optimizer="adam", loss="binary_crossentropy", metrics=["binary_crossentropy", tf.keras.metrics.AUC(name='auc')])# 将输入数据转化成字典的形式输入train_model_input = {name: data[name] for name in dense_features + sparse_features}# 模型训练history.fit(train_model_input, train_data['label'].values,batch_size=64, epochs=5, validation_split=0.2, )


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部