拍照搜题功能服务端（php）开发——simhash

2023-08-28 09:08:10

近期接到的项目中有一个功能——手机拍照搜索试题。首先进行分析，客户端调用ocr接口识别照片中的文字，服务端拿到文字去题库进行搜索。对后端开发的我来说，问题就变为如何根据关键词搜索匹配度较高的题目。一个全新的问题，之前没有接触过，此时内心有些崩溃，不知道能不能实现，而且要给出开发工期，要怎么办？姑且先给5天吧，如果调研失败，我有最后的保留方案——用mysql全文索引实现（在类似需求中应用过，有局限性，不是根据语义分析而是根据标点拆分文章，看句子是否在题目中出现过）。

调研开始发现百度App有拍照搜题的功能，既然人家能实现，说明这个问题是有解的，进一步增强了自己的信心。

后来发现很多关于simHash的文章，其中一篇：simhash算法原理及实现。用简单的话解释一下simhash：这个算法可以把任何文章都哈希成一个64位的二进制码，语义越相近的文章，获得的二进制码的汉明距离越小。如果感兴趣，大家可以深入研究一下。

基于这个理论，经过大量尝试（其中不乏开源代码，在此非常感谢），终于完成了下面的类。simhash第一步首先要分词，故这个类用到了php的scws这个拓展。

如果想要了解scws怎样安装，点这

', '"', '\'','?','[', ']', '{', '}', '\\','|', '+', '=', '_', '^','$', '~', '`', '"', '"',';', '.');return str_replace($DBC, $SBC, $str);}function hashCode($str) {if(empty($str)) return '';$mdv = md5($str);$mdv1 = substr($mdv,0,16);$mdv2 = substr($mdv,16,16);$crc1 = abs(crc32($mdv1));$crc2 = abs(crc32($mdv2));$code =  decbin(bcmul($crc1,$crc2));$code = str_repeat('0',64 - strlen($code)).$code;return $code;}function hashCode64($str) {$len = 8;$md5 = substr(md5($str), 0, $len);$seed = 31; $hash = 0;for($i = 0; $i < $len; $i++) {  $hash = $hash*$seed+ord($md5{$i});}$hash = $hash & 0x7FFFFFFF;$hash = decbin(bcmul($hash,$hash));$hash = str_repeat('0',64 - strlen($hash)).$hash;return $hash;}//采用scws分词function getSimHash($text){$so = scws_new();$so->set_charset('utf8'); //编码$so->set_duality(0);  //散字二元$so->set_ignore(0); //忽略标点符号$so->set_multi(0);$str = $this->replace_DBC2SBC($text);//过滤字符$filter = [',','.','-','_','`','、','"',"'",":",';','<','>','{','}','(',')'];$so->send_text($str);$keyList = array();while($words = $so->get_result()){foreach($words as $word){$s = $word['word'];$weight = intval($word['idf'])*20;if(!in_array($s,$filter)  && $weight){$hash = array();$hash_code = $this->hashCode64($s);for($i=0;$i<64;$i++){$value = intval(substr($hash_code,$i,1));if($value==1){$hash[] = $weight;}else{$hash[] = -$weight;}}$keyList[] = $hash;}}}$finCode = '';for($i=0;$i<64;$i++) {$code = 0;if(empty($keyList)) {break;}foreach($keyList as $key) { $code+=intval($key[$i]);}if($code>0) {$finCode .= '1';} else {$finCode .= '0';}}return $finCode;}
}

创建倒排索引数据表

CREATE TABLE `simhash_syintelligence` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,`hashcode16` char(16) NOT NULL DEFAULT '' COMMENT '16位2进制hash',`dp` text NOT NULL  COMMENT '倒排字段 内容：(题目id:hashcode位置;题目id:hashcode位置)',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8

接下来，如何实现就非常明了了。现将接收到的关键词做一次simHash，然后将值分隔成4段，去表中分4次查询，找到位置对应的题目id即可。

以上是猜想，基于ocr准确识别的情况，但联调时发现，照片识别不是很准确，经常出现类似“问”识别为“间”的情况。simHash是基于语义分析的，我上面的方案必须保证分割的4块中其中一块完全相同，错一字，汉明距离就变大好多，导致可能匹配不到。还有一种情况是，会返回毫不相关的文章，因为这样做返回文章的汉明距离为0-48，于是又改变了策略，调整表的设计：

CREATE TABLE `simhash_syintelligence` (`id` BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT,`ques_id` INT(10) NOT NULL DEFAULT '0' COMMENT '题目id',`hashcode64` CHAR(64) NOT NULL DEFAULT '' COMMENT '64位2进制hash',PRIMARY KEY (`id`),KEY `hashcode64` (`hashcode64`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8

将题目内容完整hash记录下来，不再做切割。拿到关键词，先做一次simHash，然后轮询表，两两比较汉明距离，如果汉明距离小于某个特定值，则将题目返回回来。

算是一种思路，但是实际应用中发现哈希碰撞的概率挺高的，搜索一段英文，完全没有联系的中文被搜出来的，效果不太理性；

可以换成es全文搜索引擎做

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 如何从错误中成长？
下一篇 > canvas学习笔记（一）：弹跳的小球

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

拍照搜题功能服务端（php）开发——simhash

相关文章