datawhale WIDEDEEP学习笔记

2023-12-08 06:23:56

datawhale WIDE&DEEP学习笔记

CTR就是广告点击率，click through rate
deepcrossing的特征交叉，是能够实现一种记忆能力的，它能够记住共现频率高的特征组合，但是不能基于此探索新的特征组合。针对前面的deepcrossing存在的：有一些特征没有被充分学习，因此产生的embedding 向量不准确，因此会导致模型泛化过度的问题，WIDE&DEEP这一模型就被引进，该模型围绕记忆性和泛化性，能从历史数据中学习到高频共现的特征组合。

模型的memorization：指的是模型能够从历史数据中学习高频出现的特征组合的能力。
模型的generalization：指的是模型能利用特征之间的传递性去探索新的特征组合。

wide%deep模型的结构原理

就是这个模型分为wide和deep两个部分，我们要有选择的将特征放入wide或者deep部分。
怎么样构建特征组合呢？比如说将是否是大学生和是否拥有爱奇艺会员作为两个特征，将其合并，那么只有同时满足是大学生和是爱奇艺会员这个新特征才是1，否则这个新特征的值就是0，这就实现了两个特征的组合。

在线学习
在线学习算法的特点就是每来一个训练样本，就用该样本产生的loss和梯度对模型迭代一次，一个一个数据地进行训练，因此可以处理大数据量训练和在线训练。常用的有在线梯度下降（OGD）和随机梯度下降（SGD）等，是对单个数据的损失函数进行梯度下降，但是并不是每一步的方向都是最优的。

wide层

wide层使用了FTRL算法，这个算法使得通过wide层的特征尽量少，也就是让wide部分尽量稀疏，因此能通过wide层的特征都属于很重要的特征，wide层输入的特征可能是单一特征也可以是组合特征。wide部分体现了模型的记忆能力，他提取的特征属于那种直接的、显然的关联规则。
wide层其实就是将已经存在的单一特征或者组合特征进行一种选择吧，现有的所有的特征能通过wide层的都必然会被保留着进入模型，这就体现出了模型的记忆能力，对原始特征的一种保留。

deep层

deep层就是深度学习模型，数值特征直接输入DNN，类别特征要经过embedding然后在输入模型。DEEP层体现出了wide&deep模型的一种泛化能力，因为我们可以知道，随着dnn模型层数增加，提取出的特征就越抽象，因此模型的泛化能力会越高。DNN模型作者使用了深度学习常用的优化器AdaGrad

wide与deep的结合

wide部分增强了模型的记忆能力，其保留了模型原来就有的那些单一特征或者组合特征；deep模型增强了模型的泛化能力，随着层数的增加，学习出来的特征就越抽象，这些特征就会增强模型的泛化性能。
因此wide&deep模型将这两部分输出的特征一起进行训练，使用一个逻辑回归做最终的预测，就会保持记忆和泛化能力。
因为Wide侧的数据是高维稀疏的，所以作者使用了FTRL算法优化，而Deep侧使用的是 Adagrad

FTRL算法
link
这个连接里面，对fobos,rda,ftrl都做了说明

ADAGRAD

思考题：
1、在你的应用场景中，哪些特征适合放在Wide侧，哪些特征适合放在Deep侧，为什么呢？
一些明显的直接的特征，能够发现高频、常见模式的特征应该放在wide层，但是如果我们想要从某些特征中学习出一些新特征，我们就要将其放入deep层。比如说预测广告的点击概率，性别、年龄、学历、地区和性别、、、这些就放入WIDE层，像是家里是否有老人、是否有小孩、每天工作时间、、、、这些想要从中提取出能帮助预测的特征的就将其放入deep层。
2、为什么Wide部分要用L1 FTRL训练？
应该是为了尽量让特征稀疏，筛选出那些最具有代表性的特征。
3、为什么Deep部分不特别考虑稀疏性的问题？
因为deep部分筛选出来的特征是一种抽象的特征，是为了从原来的特征里发现一些新的联系，从已经存在的特征里发现暗含的一种新特征，所以是不需要考虑特征的稀缺性的。

代码实现：

#导入需要的库
import warnings
warnings.filterwarnings("ignore")
import itertools
import pandas as pd
import numpy as np
from tqdm import tqdm
from collections import namedtupleimport tensorflow as tf
from tensorflow.keras.layers import *
from tensorflow.keras.models import *from sklearn.model_selection import train_test_split
from sklearn.preprocessing import  MinMaxScaler, LabelEncoderfrom utils import SparseFeat, DenseFeat, VarLenSparseFeat# 简单处理特征，包括填充缺失值，数值处理，类别编码
#dense_features指的是数值特征数据，sparse指的是类别型数据
def data_process(data_df, dense_features, sparse_features):data_df[dense_features] = data_df[dense_features].fillna(0.0)#这一步是为了实现数值的平滑for f in dense_features:data_df[f] = data_df[f].apply(lambda x: np.log(x+1) if x > -1 else -1)data_df[sparse_features] = data_df[sparse_features].fillna("-1")#补充缺失值for f in sparse_features:lbe = LabelEncoder()data_df[f] = lbe.fit_transform(data_df[f])#fit（）是为了求得训练集X的均值，方差，最大值，最小值,这些训练集X固有的属性#transform（）：在fit的基础上，进行标准化，降维，归一化等操作#fit_transform():部分数据先拟合fit，找到该part的整体指标，如均值、方差、#最大值最小值等等（根据具体转换的目的），然后对该trainData进行转换transform，从而实现数据的标准化、归一化等等。return data_df[dense_features + sparse_features]##这步其实就是输出字典查看我们一共有多少个原始的特征
def build_input_layers(feature_columns):"""构建输入层param feature_columns: 数据集中的所有特征对应的特征标记值"""# 构建Input层字典，并以dense数值型特征和sparse类型特征两类字典的形式返回dense_input_dict, sparse_input_dict = {}, {}for fc in feature_columns:if isinstance(fc, SparseFeat):sparse_input_dict[fc.name] = Input(shape=(1, ), name=fc.name)elif isinstance(fc, DenseFeat):dense_input_dict[fc.name] = Input(shape=(fc.dimension, ), name=fc.name)return dense_input_dict, sparse_input_dict##embedding层只是输入类别特征，数值型特征是不进行embedding的
##embedding层将类别特征进行探索，发现这些特征的内在关系，这是一种泛化性的提升
def build_embedding_layers(feature_columns, input_layers_dict, is_linear):# 定义一个embedding层对应的字典embedding_layers_dict = dict()# 将特征中的sparse特征筛选出来sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), feature_columns)) if feature_columns else []# 如果是用于线性部分的embedding层，其维度为1，否则维度就是自己定义的embedding维度if is_linear:for fc in sparse_feature_columns:embedding_layers_dict[fc.name] = Embedding(fc.vocabulary_size + 1, 1, name='1d_emb_' + fc.name)else:for fc in sparse_feature_columns:embedding_layers_dict[fc.name] = Embedding(fc.vocabulary_size + 1, fc.embedding_dim, name='kd_emb_' + fc.name)return embedding_layers_dict# 将所有的sparse特征embedding拼接
def concat_embedding_list(feature_columns, input_layer_dict, embedding_layer_dict, flatten=False):# 将sparse特征筛选出来sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), feature_columns))embedding_list = []for fc in sparse_feature_columns:_input = input_layer_dict[fc.name] # 获取输入层 _embed = embedding_layer_dict[fc.name] # B x 1 x dim  获取对应的embedding层embed = _embed(_input) # B x dim  将input层输入到embedding层中# 是否需要flatten, 如果embedding列表最终是直接输入到Dense层中，需要进行Flatten，否则不需要if flatten:embed = Flatten()(embed)embedding_list.append(embed)return embedding_list # DNN残差块的定义
class ResidualBlock(Layer):def __init__(self, units): # units表示的是DNN隐藏层神经元数量super(ResidualBlock, self).__init__()self.units = unitsdef build(self, input_shape):out_dim = input_shape[-1]self.dnn1 = Dense(self.units, activation='relu')self.dnn2 = Dense(out_dim, activation='relu') # 保证输入的维度和输出的维度一致才能进行残差连接def call(self, inputs):x = inputsx = self.dnn1(x)x = self.dnn2(x)x = Activation('relu')(x + inputs) # 残差操作return x# block_nums表示DNN残差块的数量
def get_dnn_logits(dnn_inputs, block_nums=3):dnn_out = dnn_inputsfor i in range(block_nums):dnn_out = ResidualBlock(64)(dnn_out)# 将dnn的输出转化成logitsdnn_logits = Dense(1, activation='sigmoid')(dnn_out)return dnn_logitsdef DeepCrossing(dnn_feature_columns):# 构建输入层，即所有特征对应的Input()层，这里使用字典的形式返回，方便后续构建模型dense_input_dict, sparse_input_dict = build_input_layers(dnn_feature_columns)# 构建模型的输入层，模型的输入层不能是字典的形式，应该将字典的形式转换成列表的形式# 注意：这里实际的输入与Input()层的对应，是通过模型输入时候的字典数据的key与对应name的Input层input_layers = list(dense_input_dict.values()) + list(sparse_input_dict.values())# 构建维度为k的embedding层，这里使用字典的形式返回，方便后面搭建模型embedding_layer_dict = build_embedding_layers(dnn_feature_columns, sparse_input_dict, is_linear=False)#将所有的dense特征拼接到一起dense_dnn_list = list(dense_input_dict.values())dense_dnn_inputs = Concatenate(axis=1)(dense_dnn_list) # B x n (n表示数值特征的数量)# 因为需要将其与dense特征拼接到一起所以需要Flatten，不进行Flatten的Embedding层输出的维度为：Bx1xdimsparse_dnn_list = concat_embedding_list(dnn_feature_columns, sparse_input_dict, embedding_layer_dict, flatten=True) sparse_dnn_inputs = Concatenate(axis=1)(sparse_dnn_list) # B x m*dim (n表示类别特征的数量，dim表示embedding的维度)# 将dense特征和Sparse特征拼接到一起dnn_inputs = Concatenate(axis=1)([dense_dnn_inputs, sparse_dnn_inputs]) # B x (n + m*dim)# 输入到dnn中，需要提前定义需要几个残差块output_layer = get_dnn_logits(dnn_inputs, block_nums=3)model = Model(input_layers, output_layer)return model
if __name__ == "__main__":# 读取数据data = pd.read_csv('./data/criteo_sample.txt')# 划分dense和sparse特征columns = data.columns.valuesdense_features = [feat for feat in columns if 'I' in feat]sparse_features = [feat for feat in columns if 'C' in feat]# 简单的数据预处理train_data = data_process(data, dense_features, sparse_features)train_data['label'] = data['label']# 将特征做标记dnn_feature_columns = [SparseFeat(feat, vocabulary_size=data[feat].nunique(),embedding_dim=4)for feat in sparse_features] + [DenseFeat(feat, 1,)for feat in dense_features]# 构建DeepCrossing模型history = DeepCrossing(dnn_feature_columns)history.summary()history.compile(optimizer="adam", loss="binary_crossentropy", metrics=["binary_crossentropy", tf.keras.metrics.AUC(name='auc')])# 将输入数据转化成字典的形式输入train_model_input = {name: data[name] for name in dense_features + sparse_features}# 模型训练history.fit(train_model_input, train_data['label'].values,batch_size=64, epochs=5, validation_split=0.2, )

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

datawhale WIDEDEEP学习笔记