影评情感分类(基于IMDB数据集)
回顾以前的笔记
在keras中,内置了imdb电影评分数据集,来进行评价预测
安装keras
conda install keras
conda就帮依赖全部搞定,记得加源
导入imdb
from keras.datasets import imdb
数据集简要说明
- 一个长长的英文句子,有的有几千单词,有的有几十,分类成好的评价和不好的评价
在数据中不是单词,而是单词的索引
一共就5万句子
import keras
from keras import layers
import matplotlib.pyplot as plt
%matplotlib inline
data = keras.datasets.imdb
max_word = 10000
# 加载前10000个单词 最大不超过10000
(x_train, y_train), (x_test, y_test) = data.load_data(num_words=max_word)
查看数据
x_train.shape, y_train.shape
OUT:
((25000,), (25000,))
x_train[0]
y_train[0]
OUT:
输出的是
词汇的index
输出的是
array([1, 0, 0, ..., 0, 1, 0], dtype=int64)
1 代表 正面评价 0 代表负面怕评价
加载index和词汇的对应关系
#加载词汇
word_index = data.get_word_index()
#将index和value 互换
index_word = dict((value, key) for key
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
