PHP 扩展 trie-tree, swoole过滤敏感词/违禁词方案
原文地址:http://blog.41ms.com/post/39.html
使用php扩展trie_filter,利用词库,过滤敏感词
关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。
安装步骤
下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。
安装libdatrie依赖库
Bash
$ tar zxvf libdatrie-0.2.4.tar.gz
$ cd libdatrie-0.2.4
$ make clean
$ ./configure --prefix=$LIB_PATH
$ make
$ make install
安装trie_filter扩展 (https://github.com/wulijun/php-ext-trie-filter)
Bash
$ $INSTALL_PHP_PATH/bin/phpize
$ ./configure --with-php-config=$INSTALL_PHP_PATH/bin/php-config --with-trie_filter=$LIB_PATH
$ make
$ make install
然后修改php.ini,增加一行:extension=trie_filter.so,然后重启PHP。
PHP测试实例
PHP
$v) {trie_filter_store($resTrie, $v);
}
trie_filter_save($resTrie, __DIR__ . '/blackword.tree');
$resTrie = trie_filter_load(__DIR__ . '/blackword.tree');$str = '王玉鹏的媳妇叫刘敏,王玉鹏的邮箱地址是wangyupeng@jiayuan.com,想不想知道他的QQ号呢?';
$arrRet = trie_filter_search_all($resTrie, $str);print_all($str, $arrRet);function print_all($str, $res) {//print_r($res);echo "$str\n";foreach ($res as $k => $v) {echo $k."=>{$v[0]}-{$v[1]}-".substr($str, $v[0], $v[1])."\n";}
}
测试效果,输出格式(顺序值=>该敏感词出现的位置-该敏感词的长度-敏感词)
执行效率,高高高,超级高,速度非常快。

注意事项
dict.txt 为敏感词库,一个词一行

优化建议
把文本词库生成tree的过程需要时间,该步骤可以异步实现,过滤过程只需要加载tree即刻。
PHP需要5.2以上版本
相关下载:
http://linux.thai.net/pub/thailinux/software/libthai/
https://github.com/wulijun/php-ext-trie-filter
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
