基于jieba库实现中文词频统计

2023-08-28 22:58:44

要实现中文分词功能，大家基本上都是在使用 jieba 这个库来实现，下面就看看怎样实现一个简单文本分词功能。

安装

python的工具，安装当然是使用pip安装了。

pip install jieba

使用

先看一个小例子，下面的代码是从一个文本文件中分词并统计出现频率最高的10个单词，并打印到控制台。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
import jieba.analyse
import codecs
import re
from collections import Counterclass WordCounter(object):def count_from_file(self, file, top_limit=0):with codecs.open(file, 'r', 'utf-8') as f:content = f.read()content = re.sub(r'\s+', r' ', content)content = re.sub(r'\.+', r' ', content)return self.count_from_str(content, top_limit=top_limit)def count_from_str(self, content, top_limit=0):if top_limit <= 0:top_limit = 100tags = jieba.analyse.extract_tags(content, topK=100)words = jieba.cut(content)counter = Counter()for word in words:if word in tags:counter[word] += 1return counter.most_common(top_limit)if __name__ == '__main__':counter = WordCounter()result = counter.count_from_file(r'/tmp/abc.txt', top_limit=10)for k, v in result:print k, v

代码说明：

代码首先从一个文本文件读入文本，并作了一些简单的替换，比如替换多个空格为单空格等。
使用关键词提取功能，提取权重最高的10个关键词。
使用精确模式对文件内容分词。
根据关键词和分词结果，统计词频。
排序并返回词频最高的单词和出现次数。

多说两句

分词模式

jieba 分词有三种模式：精确模式、全模式和搜索引擎模式，且分词结果返回的是一个生成器。：

精确模式: jieba.cut(str) 默认实现。
全模式: jieba.cut(str, cut_all=True) 全模式是把文本分成尽可能多的词。
搜索引擎模式: jieba.cut_for_search(str, cut_all=True)

关键词提取功能

jieba提供了关键词提取功能，使用方法如下：

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

使用并行分词模式

# 开启并行分词模式，参数为并发执行的进程数
jieba.enable_parallel(5)# 关闭并行分词模式
jieba.disable_parallel()

使用用户字典分词

jieba.load_userdict('user_dict.txt')

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > C++定义Student类，计算全班总分和平均分
下一篇 > 秒懂Flutter Widgets之Tabs构建 (TabBar,TabBarView, TabController)

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce