ES-搜索的相关性算分

1、相关性和相关性算分

● 相关性 – Relevance

                       ● 搜索的相关性算分,描述了⼀个⽂档和查询语句匹配的程度。ES 会对每个匹配查询条件的结

                        果进⾏算分 _score

                       ● 打分的本质是排序,需要把最符合⽤户需求的⽂档排在前⾯。ES 5 之前,默认的相关性算分采⽤ TF-IDF,现在采⽤ BM 25

ES-搜索的相关性算分

2、词频 TF

● Term Frequency:检索词在⼀篇⽂档中出现的频率

                  ● 检索词出现的次数除以⽂档的总字数

● 度量⼀条查询和结果⽂档相关性的简单⽅法:简单将搜索中每⼀个 词的 TF 进⾏相加

                  ● TF(区块链) + TF(的) + TF(应⽤) 

● Stop Word

                  ● “的” 在⽂档中出现了很多次,但是对贡献相关度⼏乎没有⽤处,不应该考虑他们的 TF

3、逆⽂档频率 IDF

ES-搜索的相关性算分

4、TF-IDF 的概念

ES-搜索的相关性算分

5、Lucene 中的 TF-IDF 评分公式

ES-搜索的相关性算分

6、BM 25

ES-搜索的相关性算分

7、定制 Similarity

ES-搜索的相关性算分

8、通过 Explain API 查看 TF-IDF

ES-搜索的相关性算分

9、Boosting Relevance

ES-搜索的相关性算分