ES-搜索的相关性算分
1、相关性和相关性算分
● 相关性 – Relevance
● 搜索的相关性算分,描述了⼀个⽂档和查询语句匹配的程度。ES 会对每个匹配查询条件的结
果进⾏算分 _score
● 打分的本质是排序,需要把最符合⽤户需求的⽂档排在前⾯。ES 5 之前,默认的相关性算分采⽤ TF-IDF,现在采⽤ BM 25
2、词频 TF
● Term Frequency:检索词在⼀篇⽂档中出现的频率
● 检索词出现的次数除以⽂档的总字数
● 度量⼀条查询和结果⽂档相关性的简单⽅法:简单将搜索中每⼀个 词的 TF 进⾏相加
● TF(区块链) + TF(的) + TF(应⽤)
● Stop Word
● “的” 在⽂档中出现了很多次,但是对贡献相关度⼏乎没有⽤处,不应该考虑他们的 TF
3、逆⽂档频率 IDF
4、TF-IDF 的概念
5、Lucene 中的 TF-IDF 评分公式
6、BM 25
7、定制 Similarity
8、通过 Explain API 查看 TF-IDF
9、Boosting Relevance