Home | 简体中文 | 繁体中文 | 杂文 | Github | 知乎专栏 | 51CTO学院 | CSDN程序员研修院 | OSChina 博客 | 腾讯云社区 | 阿里云栖社区 | Facebook | Linkedin | Youtube | 打赏(Donations) | About
知乎专栏多维度架构

第 20 章 自然语言处理

目录

20.1. 全文索引(full-text index)
20.2. 人机对话
20.3. 情感分析
20.4. 常用的 Python 分词库
20.5. 结巴中文分词
20.5.1. 分词演示
20.5.2. 日志设置
20.5.3. 返回 generator
20.5.4. 返回 list
20.5.5. 精准模式与全模式比较
20.5.6. 精准模式与搜索引擎模式比较
20.5.7. 词性标注
20.5.8. 词典管理
20.5.9. 抽取文本标签
20.5.10. 返回词语在原文的起止位置
20.6. wordcloud
20.6.1. wordcloud_cli
20.6.2. WordCloud 对象配置参数
20.6.3. 与分词共用
20.6.4. 遮罩图
20.7. Transformers 自然语言处理
20.8. 汉字转拼音
20.8.1.
20.8.2. pypinyin

自然语言处理(Natural Language Processing)

中文分词(Chinese Word Segmentation),英文是由单词组成,并使用空格来分开每个单词,而中文以字为单位,由字组成词,字于词的含有可能完全不同,因此,中文分词NPL相比英文分词要复杂的多。

中文分词技术主要使用场景有哪些:

20.1. 全文索引(full-text index)

全文索引 (也称全文检索)是目前搜索引擎使用的一种关键技术。

全文索引是利用分词技术,首先将一段文本中的关键词提取出来,同时获得该词在文本中出现的位置。然后对提取的关键词做索引。

当用户查询关键词,并且命中的时候,返回查询结果。同时记录关键词的查询频率,再进行词频优化,以便下次命中率更高。