文本挖掘与分析课程笔记_Week1

前言

概念区分:

  • 文本检索与搜索引擎:大量数据→少量有用数据
  • 文本挖掘:少量有用数据→提炼出有用知识并应用

ps:越深层次的数据挖掘往往鲁棒性不够,准确率不够高,同时依赖人工的介入,但更能获取高质量的分析结果。


第一周笔记


从某种意义上来讲,人类可以比做一个观察器,但这个观察器输出的是文本,我们可以通过几个方面对文本进行分析:

  • 对文本结构进行分析,可以获得与语言有关的知识(语法等)
  • 对观察者的文本进行分析,可以获得与观察者有关的知识(个人特点)
  • 对文本信息的分析,可以获得与实体有关的知识

文本挖掘与分析课程笔记_Week1
文本挖掘与分析课程笔记_Week1

NLP(自然语言处理)对计算机来说是困难的:

  • 人类进行语言交流是基于一些共有的基础知识,而计算机缺少这方面的知识
  • 词和句子的多义和歧义,计算机难以识别这种模糊性

文本挖掘与分析课程笔记_Week1

文本挖掘的各层次及相应可用的分析方法,应用如下:

文本挖掘与分析课程笔记_Week1
文本挖掘与分析课程笔记_Week1

基础词类关系:聚合(paradigmatic)和组合(syntagmatic)

  • 聚合指同类词,其特点是相似度高,或者说相互可替代性高
  • 组合是词的联合,配对,即一起出现的概率大

文本挖掘与分析课程笔记_Week1

计算词的相似度:VSM,相似度函数(将抽象的相似性问题转化为对高维向量距离的求解)

  • x1,x2,…,xn分别表示文档中单词正则化后出现的概率

文本挖掘与分析课程笔记_Week1

EOWC(共同词期望),这里的点积用于计算文档中,两个随意选择的词完全一样的概率(可用于测量文档相似度):

文本挖掘与分析课程笔记_Week1

EOWC的一些缺点及对应解决方法:

  • TF用于一个文档中
  • IDF用于多个文档(文库)
  • TF-IDF是一种用于资讯检索的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降

文本挖掘与分析课程笔记_Week1

TF(词频,某个词在该文件中出现的次数)及BM25(出现越频繁的权重越低,但不会超过x=y)转换的具体形式:

文本挖掘与分析课程笔记_Week1

IDF(反文档频率)

  • M是总文件数
  • k是包含该词的文件数
  • IDF越大,则说明该词具有很好的类别区分能力

文本挖掘与分析课程笔记_Week1

用BM25来挖掘组合关系:

  • 参数b用于调整文档长度对相关性影响,b越大,则文档长度的对相关性得分的影响越大

文本挖掘与分析课程笔记_Week1


课后测验

文本挖掘与分析课程笔记_Week1
文本挖掘与分析课程笔记_Week1