由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用 CRF 实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及 CRF 的分词工具有CRF++,Stanford分词工具。
Bakeoff 是一个国际中文处理比赛,有多个语料,所以每个语料都有排名。只有部分优秀的 Bakeoff 工具开源。介绍了以下18种分词工具(大部分是基于java语言)。 阅读原文 »

1 收藏


直接登录

推荐关注