对指定关键词进行词频统计

2023-08-05 14:54:06

过往的词频统计都是针对整个文档进行的，而如果研究中需要知道单条评论或某个研究单元内某些词的词频，那么就需要进行额外的处理。原理非常的简单，就是遍历筛选，具体做法为去除停用词的逆运算。

Step1:分词

最基本的处理的就不做多余的赘述，直接上码：

def seg_word(data):seg_result=[]stop_list = open('哈工大停用词表.txt','r',encoding='utf-8').read()for sentence in data:c_words=jieba.cut(sentence)seg_result.append([word for word in c_words if word not in stop_list and len(word) >1])#不要忘记了加[]，输出要为list格式return seg_result

Step2：遍历筛选核心关键词

def flitter(seg_result):key_words=open('key_words.txt','r',encoding='utf-8').read()result=[]for i in seg_result:for j in i:if j in key_words:result.append(j)return result

这里需要注意的有两点：

（1）第一步中的分词结果是list of list 的格式，我们需要对内层即第二层的内容进行统计，因此需要用第二层的内容对key_words进行遍历。即两个for循环。

（2）key_words的读取格式要为string，所以是.read()而不是.readlines，否则不会起作用，停用词列表类同。

Step3：词频统计

实现方法（1）

def count_words(result):count={}for i in result:if len(i)>=2:#排除单个词count[i]=count.get(i,0)+1#类似一个循环判断,get的第二个空格是默认值，如果不在list里面就是返回NONE或者数字0return count

实现方法（2）

count={}
for i in seg_result:if i not in count:count[i]=0#键和值一起存进了count，只是没有的话值为0else:count[i]+=1

实现方法（3）

count=data.value_counts()#默认降序count=data.value_counts(ascending=True)#升序排列

此外，还可以进行排序

items = list(count.items())#list里面为元组
items.sort(key=lambda x:x[1],reverse=True)#key指要执行什么，冒号后面是排序的依据，对应索引中的索引应该是1，（键为0值为1）

Step4:数据测试

在定义好了函数后，就可以进行主函数的书写和函数的调用啦

data = open('test.txt','r',encoding='utf-8').readlines()
seg_result=seg_word(data)
result=flitter(seg_result)
count=count_words(result)

补充：这样的筛选结果是以词为单元的，每一个符合筛选要求的词语占一行。但有时候用词频做细粒度分析的时候需要知道原本每一行所包含关键词的情况。那么这时候就需要换一种结构：

主要的区别在于函数仅仅考虑单条评论的处理方式，至于自己的数据全部在主函数中进行使用。

import jieba
import pandas as pd
#定义函数
#结巴分词
def seg_word(sentence):seg_list = jieba.cut(sentence)seg_words=[]for i in seg_list:seg_words.append(i)stoplist=open(r'C:\Users\64884\Desktop\相似度训练\哈工大停用词表.txt','r',encoding='utf-8').read()seg_result=[]for word in seg_words:if word not in stoplist:seg_result.append(word)return seg_result#主题词过滤
def flitter(seg_result):key_words=open(r'C:\Users\64884\Desktop\相似度训练\key_words.txt','r',encoding='utf-8').read()result=[]for i in seg_result:if i in key_words:result.append(i)return result#输入自己的数据
data = open(r'C:\Users\64884\Desktop\相似度训练\物流评论.txt','r',encoding='utf-8').readlines()
seg_result=[]
for i in data:seg_result.append(seg_word(i))result=[]
for i in seg_result:result.append(flitter(i))

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > [17]岛屿数量和电话号码的字母组合
下一篇 > AppsFlyer 研究（三）OneLink平台归因、跳转、深度链接

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

对指定关键词进行词频统计

相关文章