logo头像
Snippet 博客主题

ShootSearch 中文分词组件 070312 [C#][开源]

本文于 3437 天之前发表,文中内容可能已经过时。

ShootSearch 分词组件(c#开源)

大小:970KB

版本:1.0 bate 070312

授权:开源GPL

平台:.Net1.1

技术支持:support@shootsoft.net

http://www.shootsoft.net

分词算法:词库+最大匹配

词库来自www.jesoft.cn,已经过一定的修改

使用说明:

先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择!

可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配!

sDict.txt的编码为UTF-8!

2007-03-12—-1.0 bate 070312

修正了几个文章末尾分词不正确的bug

支持Lucene

2006-8-30—-1.0 bate 060830

修正了两个增加双分隔符的bug

2006-8-9—-1.0 bate 060809

支持英文、数字、中文(简体)混合分词

常用的数量和人名的匹配

超过22万词的词库整理

实现正向最大匹配算法

智能数字,日期,人名识别

猛击这里下载