用C++顺序查找处理中文字符串

2023-10-07 05:04:45

大家都知道WPS中，Word文档在输入过程中会自动统计字符。

受博主@一头小山猪所撰写的经典算法专栏启发，决定利用所有查找算法中最基本的顺序查找，检索一段汉字中同一关键字出现的位置，以及总出现次数。

正文开始

一、问题分析

与一般的英文字符串不同，单个中文汉字占据了两个字节大小。此外中国人的语言习惯是不使用空格作为分隔符，而是使用中文标点符号分割。因此，这虽然为统计带来了麻烦，但极大地方便了输入操作。

并且，中文输入有语法逻辑，不需要进行排序。

二、解决思路

1.中文字符段落长度一般较短，而字符串数组本身不容易实现动态数组的操作，故通过数组大小设置最多不能输入超过1000字。（2000字节）（char a[2000];)

2.中文的关键字会以字符串形式存储，加上结尾的'\0'，总计3个字节（char b[3];)

3.中文字符的查找需要遍历整个输入数组a的实际长度，而比对则需要将每两个字节与关键字字符串数组逐一比对，故使用for循环+if嵌套的结构：只有第一个字节相同，才会比对第二个字节，若两个字节都相同，则说明是同一个汉字。

4.每个字符占两个字节，肉眼看来，其位置就是（数组下标+1）/2（加一的原因是数组从a[0]开始）

5.需要一个计数器（num），统计总出现次数，请注意，这个计数器与数组遍历的计数器不可以重合。

三、代码实现

C++源代码如下：

运行结果：

四、算法时间复杂度与缺点

1.该算法需要遍历所有“有效字节”，故时间复杂度为o（n）；

2.该算法的缺点也很明显，最大输入字数有限；无法用文件直接导入；无法处理双语混合字符串。

欢迎指正与完善！

the end；

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 查找算法（I）顺序查找二分查找索引查找
下一篇 > 数据结构与算法——10. 顺序查找

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

用C++顺序查找处理中文字符串

相关文章