ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上.
更新内容:
需改歧义词典的格式,修复%作为量词存在
对新词的新词发现提供了词性分析功能,不再词性全部标注为nw
重新训练新词发现模型,针对机构名做了大量调优,
测试地址:http://www.nlpcn.org/demo.jsp
ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上.
更新内容:
需改歧义词典的格式,修复%作为量词存在
对新词的新词发现提供了词性分析功能,不再词性全部标注为nw
重新训练新词发现模型,针对机构名做了大量调优,
测试地址:http://www.nlpcn.org/demo.jsp