Download the PHP package abelzhou/php-trie-tree without Composer
On this page you can find all versions of the php package abelzhou/php-trie-tree. It is possible to download/install these versions without Composer. Possible dependencies are resolved automatically.
Please rate this library. Is it a good library?
abelzhou/php-trie-tree
Rate from 1 - 5
Rated 4.33 based on 3 reviews
Rated 4.33 based on 3 reviews
Informations about the package php-trie-tree
PHP-TrieTree
composer安装
这是一个PHP的字典树
- v1.0
- 命中一个后返回
- v2.0
- 支持命中多个返回
- 支持在树梢增加自定义数组 [替换内容]
- 性能提升10倍
- v3.0
- 增加删除特性
- 删除整棵关键词树
- 解决命中不全BUG
- 3.1
- 增加词库数量统计
- 3.5
- 清除词库数量统计 [没有什么意义]
- 增加Suggestion特性 根据某个word提取相关的词语
- 所有检索依据字典
- 提取关联词均为从左至右原则
- 因为个人更倾向其为一个“组件服务”,所以增加拼音索引需要主动增加
- 3.6
- 修正一个关联词的小bug
- 增加demo httpserver
- 增加删除特性
使用场景
- 敏感词过滤
- 内链建设
- 搜索框提示
DEMO
- 需要swoole扩展,直接运行swoole_server.php
- 测试内容为5000个人名
性能
test目录下有个1.5w左右的敏感词。
mac下检索耗时2~5毫秒左右
这些敏感词来自网络,不是很全。
感知提取50个词以内1ms以内,500个词在3ms左右
最近再尝试改成AC自动机,但中英文差异性比较大。英文单节点变化度可控(26+10)所以比较合适AC自动机,中文会带来额外的性能开销,所以该算法暂时不采用。
注意
- 在即时场景中(即时更新关键词),如果关键词数量较大,到十万甚至百万级别,尽量不要使用CGI模式,首次加载需要较大的性能开销,多个进程同时使用会造成一定的内存浪费,整体性能会下降,会拖垮web服务。这种情况下建议使用swoole单独封装服务,目前十万级别的关键词,已经在生产环境中验证过并运行良好。
- 要严格控制关键词深度,关键词不宜过长,汉字的话最好10个汉字以内。
- 在非即时场景中可以使用计划任务、常驻脚本等方式对内容进行处理。
计划
- [ ] 重新修订命名
- [ ] 协承版本
代码示例
All versions of php-trie-tree with dependencies
PHP Build Version
Package Version
Requires
php Version
>5.3.0
The package abelzhou/php-trie-tree contains the following files
Loading the files please wait ....