DAY5综合大作业
综合大作业需要注意的几点:
第一是字体下载的地方需要参考DAY3的字体下载
第二是需要自己加入一个明星的txt,我这里使用的是star.txt,具体内容如下,需要自己上传到目录,以便读取。

第三就是需要自己上传一个高频词所需要放置的背景图,背景图需要使用白的底,可以使用之前方法paddlehub进行图像的抠图,我这里使用的是百度的logo.

以上几点需要自己手动添加,添加后按如下代码操作就好。
最后效果如图所示

综合大作业
第一步:爱奇艺《青春有你2》评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)
- 爬取任意一期正片视频下评论
- 评论条数不少于1000条
第二步:词频统计并可视化展示
- 数据预处理:清理清洗评论中特殊字符(如:@#¥%、emoji表情符),清洗后结果存储为txt文档
- 中文分词:添加新增词(如:青你、奥利给、冲鸭),去除停用词(如:哦、因此、不然、也好、但是)
- 统计top10高频词
- 可视化展示高频词
第三步:绘制词云
- 根据词频生成词云
- 可选项-添加背景图片,根据背景图片轮廓生成词云
第四步:结合PaddleHub,对评论进行内容审核
需要的配置和准备
- 中文分词需要jieba
- 词云绘制需要wordcloud
- 可视化展示中需要的中文字体
- 网上公开资源中找一个中文停用词表
- 根据分词结果自己制作新增词表
- 准备一张词云背景图(附加项,不做要求,可用hub抠图实现)
- paddlehub配置
!pip install jieba !pip install wordcloud
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
