目录
自然语言处理(Natural Language Processing)
中文分词(Chinese Word Segmentation),英文是由单词组成,并使用空格来分开每个单词,而中文以字为单位,由字组成词,字于词的含有可能完全不同,因此,中文分词NPL相比英文分词要复杂的多。
中文分词技术主要使用场景有哪些:
全文索引 (也称全文检索)是目前搜索引擎使用的一种关键技术。
全文索引是利用分词技术,首先将一段文本中的关键词提取出来,同时获得该词在文本中出现的位置。然后对提取的关键词做索引。
当用户查询关键词,并且命中的时候,返回查询结果。同时记录关键词的查询频率,再进行词频优化,以便下次命中率更高。