分词

Elasticsearch之分词

Analyze API

Standard Analyzer
- 默认分词器
- 其组成如图，特性为：
- 按词切分，致辞多语言
- 小写处理
Simple Analyzer
- 器组成如图，特性为：
- 按照字母切分
- 小写处理
Whitespace Analyzer
- 其组成如图，特性为：
- 按照空格切分
Stop Analyzer
- Stop Word 指武器助词等修饰性的词语，比如the、an、这等等
- 其组成如图，特性为：
- 相比Simple Anlyzer 多了Stop Word 处理
Keyword Analyzer
- 器组成如图，特性为：
  - 不分词，直接将输入作为一个单词输出
  -
Pattern Analyzer
- 其组成如图，特性为：
  - 通过正则表达式自定义分隔符
  - 默认是\W+,即非字词的符号作为分隔符
Language Analyzer
- 提供30+常见语言的分词器

常用分词系统
- IK
- 实现中英文单词的切分，支持ik_smart、ik_maxword等模式
- 可自定义词库，支持热更新分词字典
- https://github.com/medcl/elasticsearch-analysis-ik
jieba
- python 中最流行的分词系统，支持分词和词性标注
- 支持繁体分词。自定义词典，并行分词等
- https://github.com/huaban/elasticsearch-analysis-jieba
基于自然语言处理的分词系统
- Hanlp
- 由一系列模型与算法组成的java工具包，目标是普及自然语言处理在生产环境中的应用
- https://github.com/hankcs/HanLP
- THULAC
- THULAC (THU Lexical Analyzer for Chinese) 是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。
- https://github.com/microbun/elasticsearch-thulac-plugin

分词会在如下两个时机使用：
- 创建或者更新文档是（Index Time）, 会对相应的文档进行分词处理
- 查询是（Search Time）,会对查询语句进行分词
索引是分词是通过配置Index Mapping中每个字段的analyzer属性实现的，如下：
- 不指定分词时，使用默认standard
查询是分词的指定方式有人如下几种：
- 查询的时候通过analyzer指定分词器
- 通过index mapping 设置search_analyzer
一般不需要特别指定查询时分词器，直接使用索引时分词器即可，否则会出现无法匹配的情况