NLP词典切分算法

2023-10-24 06:30:16

一、词典的加载

加载HanLP附带的迷你核心词典

from pyhanlp import *def load_dictionary():"""加载HanLP中的mini词库:return: 一个set形式的词库"""#JClass 函数是连通Java和Python的桥梁，用来根据Java路径名得到--个Python类#利用Jclass取得了HanLP中的IOUtil工具类IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')#取得HanLP的配置项config中的词典路径，我们写在配置文件中的条目最终会被读入这个结构中#比如配置文件写作CoreDictionaryPath=data/dictionary/CorelNatureDictionary.txt，该配置将被读人HanLP.Config.CoreDictionaryPath。#这里我们想要加载mini词典，因为其体积更小，加载起来更快#将这个路径替换为mini词典的路径path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')#像对待普通Python 工具类一样调用了工outil的静态方法loadDictionary#该方法支持将多个文件读人同一个词典中，因此需要传入一个list。#它返回一个Java Map对象dic = IOUtil.loadDictionary([path])#只取它的键keyset，并将其转换为一个 Python 原生的set对象return set(dic.keySet())if __name__ == '__main__':dic = load_dictionary()print(len(dic))#词典大小print(list(dic)[0])#取词典第一个词

85584
悲痛

二、切分算法

2.1 完全切分

完全切分指的是找出一段文本中所有的单词，并不是标准意义上的分词

def fully_segment(text, dic):word_list = []for i in range(len(text)):                  # i 从 0 到text的最后一个字的下标遍历for j in range(i + 1, len(text) + 1):   # j 遍历[i + 1, len(text)]区间word = text[i:j]                    # 取出连续区间[i, j]对应的字符串if word in dic:                     # 如果在词典中，则认为是一个词word_list.append(word)return word_listif __name__ == '__main__':dic = load_dictionary()print(fully_segment('商品和服务', dic))#由于词库中含有单字，所以结果中出现了一些单字

['商', '商品', '品', '和', '和服', '服', '服务', '务']

2.2 正向最长匹配

完全切分的输出并不是中文分词，我们更需要那种有意义的词语序列，而不是所有出现在词典中的单词所构成的链表。为了达到这个目的，需要完善一下我们的规则，考虑到越长的单词表达的意义越丰富，于是我们定义单词越长优先级越高。

最长匹配算法：以某个下标为起点递增查词的过程中，优先输出更长的单词

正向最长匹配：在最长匹配算法的基础上从前往后匹配

def forward_segment(text, dic):word_list = []i = 0while i < len(text):longest_word = text[i]                      # 当前扫描位置的单字for j in range(i + 1, len(text) + 1):       # 所有可能的结尾word = text[i:j]                        # 从当前位置到结尾的连续字符串if word in dic:                         # 在词典中if len(word) > len(longest_word):   # 并且更长longest_word = word             # 则更优先输出word_list.append(longest_word)              # 输出最长词i += len(longest_word)                      # 正向扫描return word_listif __name__ == '__main__':dic = load_dictionary()print(forward_segment('就读北京大学', dic))print(forward_segment('研究生命起源', dic))

['就读', '北京大学']
['研究生', '命', '起源']

2.3 逆向最长匹配

正向最长匹配：在最长匹配算法的基础上从前往后匹配

def backward_segment(text, dic):word_list = []i = len(text) - 1while i >= 0:                                   # 扫描位置作为终点longest_word = text[i]                      # 扫描位置的单字for j in range(0, i):                       # 遍历[0, i]区间作为待查询词语的起点word = text[j: i + 1]                   # 取出[j, i]区间作为待查询单词if word in dic:if len(word) > len(longest_word):   # 越长优先级越高longest_word = wordbreakword_list.insert(0, longest_word)           # 逆向扫描，所以越先查出的单词在位置上越靠后i -= len(longest_word)return word_listif __name__ == '__main__':dic = load_dictionary()print(forward_segment('就读北京大学', dic))print(forward_segment('研究生命起源', dic))

['就读', '北京大学']
['研究生', '命', '起源']

2.4 双向最长匹配

正向/逆向最长匹配歧义对比

在这里插入图片描述

由上图可以看出正向和逆向匹配都存在无法消除歧义的情况

启发式算法：在搜索最优解的过程中利用到原来搜索过程中得到的信息，且这个信息会改进我们的搜索过程。

双向最长匹配：
一种融合两种匹配方法的复杂规则集，流程如下。

同时执行正向和逆向最长匹配，若两者的词数不同，则返回词数更少的那一个。
否则，返回两者中单字更少的那一个。当单字数也相同时，优先返回逆向最长匹配的结果。

def count_single_char(word_list: list):  # 统计单字成词的个数return sum(1 for word in word_list if len(word) == 1)def bidirectional_segment(text, dic):f = forward_segment(text, dic)b = backward_segment(text, dic)if len(f) < len(b):                                  # 词数更少优先级更高return felif len(f) > len(b):return belse:if count_single_char(f) < count_single_char(b):  # 单字更少优先级更高return felse:return b                                     # 都相等时逆向匹配优先级更高if __name__ == '__main__':dic = load_dictionary()print(bidirectional_segment('研究生命起源', dic))

['研究', '生命', '起源']

3. 速度测评

Python的运行速度比Java慢
正向匹配和逆向匹配的速度差不多，是双向匹配的两倍

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce