mmseg&coreseek编辑词典并重新索引

想增加繁体词库,网上没有找到可用的繁体词库,用mmseg自带的简体词库转繁体,word里有简转繁,但是转的太慢,可以用这个转:http://www.aies.cn/

转好繁体后,转成mmseg的格式,粘贴到mmseg3/etc/unigram.txt后面,有个点需要注意,词和权重中间的那个空格是\t,不是普通空格,正确的mmseg格式如下:

关键词\t权重\r\nx:权重

然后用mmseg讲文本词库转成lib文件:

/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt

执行后会生成unigram.txt.ini.uni文件,直接改名为uni.lib

然后重新索引

/usr/local/coreseek/bin/indexer –config /usr/local/coreseek/etc/csft.conf –rotate –all

然后重启searchd服务

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft.conf

这个时候就完成字典重建和重新索引了,目前只试了简繁词典,下次试一下其他语言,比如泰语等小语种,不知道是不是也可以