Download the PHP package lizhichao/word without Composer
On this page you can find all versions of the php package lizhichao/word. It is possible to download/install these versions without Composer. Possible dependencies are resolved automatically.
Please rate this library. Is it a good library?
Informations about the package word
VicWord 一个纯php的分词
QQ交流群: 731475644
安装
分词说明
- 含有3种切分方法
getWord
长度优先切分 。最快getShortWord
细粒度切分。比最快慢一点点getAutoWord
自动切分 。效果最好
- 可自定义词典,自己添加词语到词库,词库支持文本格式
json
和二级制格式igb
二进制格式词典小,加载快 dict.igb
含有175662个词,欢迎大家补充词语到dict.txt
,格式(词语 \t idf \t 词性)- idf 获取方法 百度搜索这个词语
Math.log(100000001/结果数量)
,如果你有更好的方法欢迎补充。 - 词性 [标点符号,名词,动词,形容词,区别词,代词,数词,量词,副词,介词,连词,助词,语气词,拟声词,叹词] 取index ;标点符号取0
- idf 获取方法 百度搜索这个词语
- 三种分词结果对比
分词速度
机器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord
每秒140w字
getShortWord
每秒138w字
getAutoWord
每秒40w字
测试文本在百度百科拷贝的一段5000字的文本
制作词库
- 词库支持utf-8的任意字符
- 词典大小不影响 分词速度
只有一个方法 VicDict->add(词语,词性 = null)
demo
该作者的其他软件
All versions of word with dependencies
PHP Build Version
Package Version
Requires
php Version
>=5.6.0
The package lizhichao/word contains the following files
Loading the files please wait ....