IR&IE笔记:倒排索引表与布尔模型

1. 一些基础概念

两个检索有效性参数:
IR&IE笔记:倒排索引表与布尔模型
IDF逆向文件频率 (Inverse Document Frequency)
for term Tj
IR&IE笔记:倒排索引表与布尔模型
d f j df_j dfj (document frequency of term Tj) is number of documents in which Tj occurs.
可以暂且理解为,某个单词出现次数越小,那文档中出现此单词的概率越小,信息量越高。
dfj=1, idfj=logN
dfj=N, idfj=log1=0
High IDF term favors precision
如果某个term经常出现在单个文档中,但很少出现在集合的其余部分中,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF词频(Term Frequency)
这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
t f i j tf_{ij} tfij:the number of occurrences of Tj in Di.
T F w = 在 某 一 类 词 条 中 w 出 现 的 次 数 该 类 中 所 有 的 词 条 数 目 TF_w = \frac{在某一类词条中w出现的次数}{该类中所有的词条数目} TFw=w

IDF + TF
fulfil both the recall and the precision

weight wij of a term Tj in a document ti
IR&IE笔记:倒排索引表与布尔模型

2. 布尔模型

词项-文档关联矩阵
IR&IE笔记:倒排索引表与布尔模型
IR&IE笔记:倒排索引表与布尔模型
IR&IE笔记:倒排索引表与布尔模型

3. 倒排索引

为什么要建立倒排索引呢?
因为词项-文档关联矩阵具有高度的稀疏性。
IR&IE笔记:倒排索引表与布尔模型
倒排索引的就基本思想如下图所示:
IR&IE笔记:倒排索引表与布尔模型
左部称为词项词典。每个词项都有一个记录出现在该词项的所有文档的列表,该表中的每个元素记录的是词项在某文档中的一次出现信息,这个表中的每个元素通常称为倒排记录。每个词项对应的整个表称为倒排记录表倒排表。所有词项的倒排记录表一起构成全体倒排记录表
IR&IE笔记:倒排索引表与布尔模型

参考文献:
《信息检索导论》人民邮电出版社