【NLP】中文酒店评论语料文本数据分析
文本数据分析
- 学习目标
- 1. 获得训练集和验证集的标签数量分布
- 2. 获取训练集和验证集的句子长度分布
- 3. 获取训练集和验证集的正负样本长度散点分布
- 4. 获得训练集与验证集不同词汇总数统计
- 5. 获得训练集上正负的样本的高频形容词词云
- 6. 获得验证集上正负的样本的形容词词云
- 数据集下载
学习目标
-
了解文本数据分析的作用.
-
掌握常用的几种文本数据分析方法.
-
文本数据分析的作用:
- 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.
-
常用的几种文本数据分析方法:
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
-
说明:
- 我们将基于真实的中文酒店评论语料来讲解常用的几种文本数据分析方法.
- 中文酒店评论语料:
- 属于二分类的中文情感分析语料, 该语料存放在"./cn_data"目录下.
- 其中train.tsv代表训练集, dev.tsv代表验证集, 二者数据样式相同.
-
train.tsv数据样式:
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
