[笔记-0]写在最前+笔记大纲
0. 废话
上这门课半学期了,从刚开始的一头雾水,到现在非常喜欢它,收获很大。
教授是在这个领域很有经验,课程设计很合理,讲得也很有条理很清晰。Jamie人也超可爱的~
打算最近把前半学期的内容按照Jamie给的系统示意图中的模块整理出来,避免考完了就还给他了…
好啦,不多讲啦,开始正题~
-----------------------------------------------------------------------------------------------------
1. 总述
上图是search的大纲。
一个信息检索过程(information retrieval process)中:
- 先从文档端开始看:
原文档根据一些表示规则,选取出具有代表性的词汇(terms)描述这篇文档;
这些terms通过一系列处理后,形成搜索引擎系统的索引对象(index object)
- 再从用户端(左边)开始看:
用户首先要有信息需求(information need), 通过一系列的规则,用query描述他的信息需求;
query只是对信息需求的大概描述,它们两个是不同的~
- 根据一些规则(如VSM,BM25,Indri等),选取出满足query的documents(retrieved objects),返回给用户;
- 根据对返回结果的评估和反馈,可以:
1)改进query
2)改进选取返回结果的规则
3)改进索引的内容/结构等
2. 课程章节
1. Course Overview
术语;
文本的统计特性
2. Introduction to search: Exact-match retrieval
文档表示,主要讲基本数据结构(对应右边的Representation);
Exact match检索(comparison)
3. Introduction to search: Query processing
Index - term dictionary (右边的Representation);
Query处理(Comparison);
Query Operators(左边的representation/Query/Comparison)
4. Introduction to search: QryEval
5. Evaluating search effectiveness (Evaluation)
Cranfield methodology(一种评价搜索引擎的方法论)
简介;测试集;评价指标
6. Evaluating search effectiveness (Evaluation)
创建测试集
动态环境(dynamic environment)中的系统评估
7. Document representation (右边的Representation)
8. Best-match retrieval: VSM, BM25(Comparison)
VSM
BM25
9. Best-match retrieval: Language models
language model简介
Query likelihood
Kullback-Leibler(KL)Divergence
Indri
10. Query structure: Information needs and queries (Information need/Query)
信息需求
查询和查询语言
查询处理和查询重构(reformulation)
11. Query structure: Relevance and pseudo relevance feedback (Feedback)
Relevance feedback
Pseudo Relevance Feedback
12. Index creation(Index)
在单个processor上简历倒排列表
倒排文件的压缩与优化
前向索引
13. Index creation(Index)
文档结构的存储
14. Index creation (Index)
Web搜索:Web文档集特征和计算机集群;
分布式索引:
Partitioned index
Tiered index
index construction
15. Document structure (右边Representation)
Fields
Multiple representations of meaning
Hierarchical structure(XML documents)