IR&IE笔记:倒排索引表与布尔模型
1. 一些基础概念
两个检索有效性参数:
IDF逆向文件频率 (Inverse Document Frequency)
for term Tj
d
f
j
df_j
dfj (document frequency of term Tj) is number of documents in which Tj occurs.
可以暂且理解为,某个单词出现次数越小,那文档中出现此单词的概率越小,信息量越高。
dfj=1, idfj=logN
dfj=N, idfj=log1=0
High IDF term favors precision
如果某个term经常出现在单个文档中,但很少出现在集合的其余部分中,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF词频(Term Frequency)
这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
t
f
i
j
tf_{ij}
tfij:the number of occurrences of Tj in Di.
T
F
w
=
在
某
一
类
词
条
中
w
出
现
的
次
数
该
类
中
所
有
的
词
条
数
目
TF_w = \frac{在某一类词条中w出现的次数}{该类中所有的词条数目}
TFw=该类中所有的词条数目在某一类词条中w出现的次数
IDF + TF
fulfil both the recall and the precision
weight wij of a term Tj in a document ti
2. 布尔模型
词项-文档关联矩阵
3. 倒排索引
为什么要建立倒排索引呢?
因为词项-文档关联矩阵具有高度的稀疏性。
倒排索引的就基本思想如下图所示:
左部称为词项词典。每个词项都有一个记录出现在该词项的所有文档的列表,该表中的每个元素记录的是词项在某文档中的一次出现信息,这个表中的每个元素通常称为倒排记录。每个词项对应的整个表称为倒排记录表或倒排表。所有词项的倒排记录表一起构成全体倒排记录表。
参考文献:
《信息检索导论》人民邮电出版社