Quantcast
Channel: OSCHINA 社区最新新闻
Viewing all articles
Browse latest Browse all 44787

ansj 中文分词 5.0.1 发布

$
0
0

ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上.

更新内容:

  1. 需改歧义词典的格式,修复%作为量词存在

  2. 对新词的新词发现提供了词性分析功能,不再词性全部标注为nw

  3. 重新训练新词发现模型,针对机构名做了大量调优,

测试地址:http://www.nlpcn.org/demo.jsp




Viewing all articles
Browse latest Browse all 44787

Trending Articles