【NLP】情感分析：BERT vs Catboost

2023-06-25 23:55:48

作者 | Taras Baranyuk

编译 | VK
来源 | Towards Data Science

介绍

情感分析是一种自然语言处理（NLP）技术，用于确定数据是积极的、消极的还是中性的。

情感分析是基础，因为它有助于理解语言中的情感基调。这反过来又有助于自动排序评论、社交媒体讨论等观点，让你做出更快、更准确的决定。

虽然情感分析在近几年已经非常流行，但是从本世纪初开始，情感分析的研究就一直在进行中。

传统的机器学习方法，如朴素贝叶斯、Logistic回归和支持向量机（SVMs）由于其良好的可扩展性，被广泛应用于大规模情感分析。深度学习（Deep learning，DL）技术已被证明能为各种NLP任务（包括情绪分析）提供更好的准确性；然而，它们的学习速度和使用往往更慢、更昂贵。

在这个故事中，我想提供一个鲜为人知的结合了速度和质量的替代方案。对于推荐方法的结论和评估，我需要一个基线模型。我选择了久经考验的BERT。

数据

社交媒体是一个以前所未有的规模产生大量数据的来源。我将用于这个文章的数据集是冠状病毒tweets NLP：

https://www.kaggle.com/datatattle/covid-19-nlp-text-classification

正如我所看到的，这个模型没有那么多的数据，乍一看，似乎没有一个预训练好的模型是不行的。

由于训练样本的数量较少，我们将它们结合起来，将类的数量减少到3个。

基线BERT模型

让我们使用TensorFlow Hub。TensorFlow Hub是一个经过训练的机器学习模型库，可以在任何地方进行微调和部署。只需几行代码就可以重用像BERT和Faster R-CNN这样的训练模型。

!pip install tensorflow_hub
!pip install tensorflow_text

small_bert/bert_en_uncased_L-4_H-512_A-8-Smaller BERT模型。这个是一个较小的BERT模型，论文（https://arxiv.org/abs/1908.08962）。

Smaller BERT模型适用于计算资源有限的环境。它们可以按照与原始BERT模型相同的方式进行微调。然而，它们在知识蒸馏的环境中是最有效的。

bert_en_uncased_preprocess-BERT的文本预处理。这个模型使用从维基百科和书库中提取的英语词汇。文本输入采用了“不区分大小写”的方式进行规范化，这意味着在将标记转换为单词片段之前，文本是小写的，并且去掉了任何重音标记。

tfhub_handle_encoder = \"https://tfhub.dev/tensorflow/small_bert/bert_en_uncased_L-4_H-512_A-8/1"
tfhub_handle_preprocess = \"https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3"

我不会选择参数和优化，以避免复杂的代码。同样，这是基准模型，不是SOTA。

def build_classifier_model():text_input = tf.keras.layers.Input(shape=(), dtype=tf.string, name='text')preprocessing_layer = hub.KerasLayer(tfhub_handle_preprocess, name='preprocessing')encoder_inputs = preprocessing_layer(text_input)encoder = hub.KerasLayer(tfhub_handle_encoder, trainable=True, name='BERT_encoder')outputs = encoder(encoder_inputs)net = outputs['pooled_output']net = tf.keras.layers.Dropout(0.1)(net)net = tf.keras.layers.Dense(3, activation='softmax', name='classifier')(net)model = tf.keras.Model(text_input, net)loss = tf.keras.losses.CategoricalCrossentropy(from_logits=True)metric = tf.metrics.CategoricalAccuracy('accuracy')optimizer = Adam(learning_rate=5e-05, epsilon=1e-08, decay=0.01, clipnorm=1.0)model.compile(optimizer=optimizer, loss=loss, metrics=metric)model.summary()return model

我已经创建了一个参数不到3000万的模型。

我分配了30%的训练数据用于模型验证。

train, valid = train_test_split(df_train,train_size=0.7,random_state=0,stratify=df_train['Sentiment'])y_train, X_train = \train['Sentiment'], train.drop(['Sentiment'], axis=1)
y_valid, X_valid = \valid['Sentiment'], valid.drop(['Sentiment'], axis=1)y_train_c = tf.keras.utils.to_categorical(y_train.astype('category').cat.codes.values, num_classes=3)
y_valid_c = tf.keras.utils.to_categorical(y_valid.astype('category').cat.codes.values, num_classes=3)

epoch的数量是凭直觉选择的

history = classifier_model.fit(x=X_train['Tweet'].values,y=y_train_c,validation_data=(X_valid['Tweet'].values, y_valid_c),epochs=5)

BERT Accuracy: 0.833859920501709

这里是基准模型。显然，该模型还可以进一步改进。但是让我们把这个任务作为你的家庭作业。

CatBoost模型

CatBoost是一个高性能的开源库，用于在决策树上进行梯度增强。从0.19.1版开始，它支持在GPU上进行文本分类。

主要优点是CatBoost可以在数据中包含分类函数和文本函数，而无需额外的预处理。对于那些重视推理速度的人来说，CatBoost预测的速度是其他开源梯度增强库的20到40倍，这使得CatBoost对于延迟关键任务非常有用。

!pip install catboost

我不会选择最佳参数，那是你的另一个作业。让我们编写一个函数来初始化和训练模型。

def fit_model(train_pool, test_pool, **kwargs):model = CatBoostClassifier(task_type='GPU',iterations=5000,eval_metric='Accuracy',od_type='Iter',od_wait=500,**kwargs)return model.fit(train_pool,eval_set=test_pool,verbose=100,plot=True,use_best_model=True)

使用CatBoost时，我建议使用池。这个池是一个方便的包装器，它结合了特征、标签和元数据，比如分类特征和文本特征。

train_pool = Pool(data=X_train,label=y_train,text_features=['Tweet']
)valid_pool = Pool(data=X_valid, label=y_valid,text_features=['Tweet']
)

text_features -文本列索引(指定为整数)或名称(指定为字符串)的一维数组。参数是一个二维特征矩阵(有以下类型之一:list, numpy.ndarray, pandas.DataFrame, pandas.Series)。

如果将该数组中的任何元素指定为名称而不是索引，则必须提供所有列的名称。为此，可以使用该构造函数的feature_names参数显式地指定它们，或者在data参数中传递一个指定列名的pandas.DataFrame。

支持的训练参数：

tokenizers-tokenizer用于在创建字典之前预处理文本类型特征列。
dictionaries-用于预处理文本类型特征列的字典。
feature_calcers—特征分解器，用于根据预处理的文本类型特征列计算新特征。

我直观地设置了所有的参数；调整它们将再次成为你的作业。

model = fit_model(train_pool, valid_pool,learning_rate=0.35,tokenizers=[{'tokenizer_id': 'Sense','separator_type': 'BySense','lowercasing': 'True','token_types':['Word', 'Number', 'SentenceBreak'],'sub_tokens_policy':'SeveralTokens'}      ],dictionaries = [{'dictionary_id': 'Word','max_dictionary_size': '50000'}],feature_calcers = ['BoW:top_tokens_count=10000']
)

准确率

LOSS

CatBoost model accuracy: 0.8299104791995787

结果非常接近于基线BERT模型所显示的结果。因为我几乎没有训练的数据，而且模型是从零开始学习的，所以在我看来，结果令人印象深刻。

额外

我得到了两个模型，结果非常相似。这能给我们提供什么有用的信息吗?这两种模式在核心上几乎没有共同点，这意味着它们的结合将产生协同效应。检验这一结论的最简单方法是将结果取平均值，然后看看会发生什么。

y_proba_avg = np.argmax((y_proba_cb + y_proba_bert)/2, axis=1)

提升很不错。

Average accuracy: 0.855713533438652

结尾

在这个故事中，我：

利用BERT建立基线模型；
创建了一个CatBoost模型；
平均两个模型的结果会发生什么。

在我看来，在大多数情况下，复杂和缓慢的SOTA是可以避免的，特别是在速度是一个关键需求的情况下。

CatBoost提供了很好的情感分析功能。对于Kaggle、DrivenData等竞赛爱好者来说，CatBoost可以提供一个好的模型，既可以作为基线解决方案，也可以作为模型集合的一部分。

本文中的代码可以在这里查看：

https://github.com/sagol/catboost_sentiment/blob/main/catboost_sentiment_analysis.ipynb


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808，加入微信群请扫码：

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【NLP】情感分析：BERT vs Catboost

介绍

数据

基线BERT模型

CatBoost模型

额外

结尾

相关文章