详细介绍使用wordCloud设计词云

2023-12-08 02:18:13

wordCloud git地址：https://github.com/amueller/word_cloud

wordColud examples地址:https://github.com/amueller/word_cloud/tree/master/examples

文章中的例子主要借鉴wordColud的examples，在文章对examples中的例子做了一些改动。

一、wordColud设计中文词云乱码

使用wordColud设计词云的时候可能会产生乱码问题，因为wordColud默认的字体不支持中文，所以我们只需要替换wordColud的默认字体即可正常显示中文。

1、下载字体(支持中文)

字体下载链接:http://www.font5.com.cn/zitixiazai/1/151.html,我们使用simhei(黑体)来替换wordColud的默认字体。

2、替换默认字体

a、在字体文件*.tff字体文件(simhei.tff)拷贝到wordColud安装的文件夹中，文件夹路径：anaconda(python)-->lib-->site-packages-->wordcolud，如下图：

其中矩形框出来的是wordColud默认的字体，椭圆形框的是我们下载的字体。

b、修改wordcolud.py文件中的字体设置，打开改路径下的wordcolud.py文件，找到下图的所示的框出来的这一行(29行)

将系统的DroidSansMono.tff修改为simhei.tff即可。

二、wordColud示例

1、设计一个简单的圆形词云

import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud,STOPWORDS
from PIL import Image
from os import path
import matplotlib.pyplot as plt
#用来正常显示中文
plt.rcParams["font.sans-serif"]=["SimHei"]
#用来正常显示负号
plt.rcParams["axes.unicode_minus"]=False
import os
import random,jieba'''
绘制单个词一个圆形的词云
'''
def single_wordColud():text = "第一 第二 第三 第四"#产生一个以(150,150)为圆心,半径为130的圆形maskx,y = np.ogrid[:300,:300]mask = (x-150) ** 2 + (y-150) ** 2 > 130 ** 2mask = 255 * mask.astype(int)wc = WordCloud(background_color="white",repeat=True,mask=mask)wc.generate(text)#将x轴和y轴坐标隐藏plt.axis("off")plt.imshow(wc,interpolation="bilinear")plt.show()

2、以图片形状作为背景设计词云

下面以蜡笔小新的这张图片作为背景来设计一个词云，我们通过读取一个txt文件，文件中包含了很多段落，然后通过jieba对句子进行分词，去除停用词之后，生成一张词云的照片。

a、读取文件内容

使用jieba分词后，词之间需要通过空格进行分割，不然在产生词云的时候回变成一个词。

'''
中文分词
'''
def segment_words(text):article_contents = ""#使用jieba进行分词words = jieba.cut(text,cut_all=False)for word in words:#使用空格来分割词article_contents += word+" "return article_contents

b、读取停用词

停用词包括一些标点符号，和一些没有实际意义的词，我们需要将这些词都去除。

'''
从文件中读取停用词
'''
def get_stopwords():dir_path = path.dirname(__file__) if "__file__" in locals() else os.getcwd()#获取停用词的路径stopwords_path = os.path.join(dir_path,"txt/stopwords.txt")#创建set集合来保存停用词stopwords = set()#读取文件f = open(stopwords_path,"r",encoding="utf-8")line_contents = f.readline()while line_contents:#去掉回车line_contents = line_contents.replace("\n","").replace("\t","").replace("\u3000","")stopwords.add(line_contents)line_contents = f.readline()return stopwords

c、生成词云图片

def drow_mask_wordColud():#获取当前文件的父目录d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()mask = np.array(Image.open(path.join(d,"img/test.jpg")))text = open(path.join(d,"txt/test.txt"),"r",encoding="utf-8").read().replace("\n","").replace("\t","").replace("\u3000","")#对文本进行分词text = segment_words(text)#获取停用词stopwords = get_stopwords()#创建词云'''max_words:显示词的数量mask:背景stopwords:停用词,是一个set集合margin:词之间的间隔background_color:词云图片背景颜色'''wc = WordCloud(max_words=100,mask=mask,background_color="white",stopwords=stopwords,margin=10,random_state=1).generate(text)default_colors = wc.to_array()# #保存词云图片# wc.to_file("a_new_hope.png")plt.imshow(default_colors,interpolation="bilinear")plt.axis("off")plt.show()

3、自定义词云的颜色

from wordcloud import WordCloud,get_single_color_func
import matplotlib.pyplot as plt'''
定义一个字体颜色设置类
'''
class GroupedColorFunc(object):def __init__(self,color_to_words,default_color):self.color_func_to_words=[(get_single_color_func(color),set(words))for (color,words) in color_to_words.items()]self.defalt_color_func=get_single_color_func(default_color)def get_color_func(self,word):try:#设置每个词的颜色color_func = next(color_func for (color_func,words) in self.color_func_to_wordsif word in words)except StopIteration:#词的默认颜色color_func = self.defalt_color_funcreturn color_funcdef __call__(self,word,**kwargs):return self.get_color_func(word)(word,**kwargs)if __name__ == "__main__":text = "第一 第二 第三 第四 第五 第六"#创建词云wc = WordCloud(collocations=False,background_color="white").generate(text)#设置词的颜色color_to_words={#使用RGB来设置词的颜色"#00ff00":["第一","第五"],"red":["第三","第六"],"yellow":["第二"]}#设置词默认的颜色default_color = "blue"grouped_color_func = GroupedColorFunc(color_to_words,default_color)#设置词云的颜色wc.recolor(color_func=grouped_color_func)#显示词云图plt.figure()plt.imshow(wc,interpolation="bilinear")plt.axis("off")plt.show()

通过词的颜色设置类，来设置不同词的颜色。

4、自定义突出词的重要程度

在生成词云的时候，默认使用的是使得词频高的词更加突出，突出的词会比较大，有时候我们已经计算出了词的权重，想通过词云图来突出权重大小的差别。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import numpy as npdef get_mask():x,y = np.ogrid[:300,:300]mask = (x-150) ** 2 + (y-150) ** 2 > 130 ** 2mask = 255 * mask.astype(int)return maskif __name__ == "__main__":#每个词的权重text = {"第一":0.1,"第二":0.2,"第三":0.3,"第四":0.4,"第五":0.5}wc = WordCloud(background_color="white",mask=get_mask())wc.generate_from_frequencies(text)plt.axis("off")plt.imshow(wc,interpolation="bilinear")plt.show()

5、保存词云图片

wc.to_file("test.png")

git项目地址:https://github.com/steelOneself/NLP_learn/tree/master/wordColud_curse

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 「PyTorch深度学习入门」4. 使用张量表示真实世界的数据（下）
下一篇 > APIJSON-以坚持和偏执，回敬傲慢和偏见

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

详细介绍使用wordCloud设计词云

一、wordColud设计中文词云乱码

二、wordColud示例

相关文章