基于模式的同义词和反义词提取(阅读笔记)
【其实论文看到一半就觉得好像有点不对劲,因为我们的任务是做wordnet,这个是在已经有了wordnet情况下,根据特定的语料库来提取同义词和反义词……不过我觉得思想应该是差不多的,就继续看了】
【啊看完了,后面要实现的话要用wordnet,提取出候选词,所以我们目前做不到啦】
了解动词之间的潜在关系是很有用的,在不同领域中,在一般上下文中同义的动词可能表示特定上下文中细微但重要的差异(例如在生物医学领域),所以我们的学习不仅要依赖于一般的词典,如WordNet,而且要分析领域特定的文本语料库
动词间关系学习—> 信息提取问题(eg:位置名称提取和下位词提取)
—> 我们可以用基于模式的方法提取
—> 挑战:同一句中,人们使用同义动词的频率远小于使用相关名词和反义动词的频率
前人文献广泛描述了基于模式的信息提取:
1.下位词提取(NP–名词短语 hyponymy relationship–上下义关系 )
eg:
“Students, such as sophomores”— > “学生,如大二学生”
— > 推断出"大二学生"是一种类型的"学生"
上面方法的拓展:[应用于Web级语料库中动词间关系提取]
- 收集高度相关的动词作为候选
2)通过用动词对实例化预定义的模式来制定Web搜索查询
— > 什么叫实例化预定义的模式???
注意点:
动词对与模式同时出现的频率越高,它与模式所指示的关系的可能性就越大。 两种方法都依赖于人为发现的模式,并且不能保证这些模式是全面而完整的。
2.已知事实中探索学习模式。
[使用置信度分数来指定学习模式的良好程度----Ravichandran等人]
与动词对相关联的所有模式中得分最高的模式用于指示一种关系
优点:解决了单个模式的可靠性问题
缺点:当找到具有多个模式的动词对时,如何累积置信度就成为了问题
— > 累积置信度 ???
3.使用单个术语的上下文信息
- 分布假设指出相似的词通常共享相似的上下文
- 通过分布特征测量上下文相似度,并利用支持向量机(SVM)将同义词对与其他对分离。----Hagiwara
- 使用基于模式的方法和分布方法来收集术语对候选者,然后训练SVM分类器以保持正确的对。 但是,许多分布相似性计算在计算上效率低下,因为它们涉及耗时的句子解析以构造依赖关系树。----Mirkin
论文作者的方法:
1)使用反义词提取示例演示我们的概率方法(同义词提取是类似的)
2) ANT动词对提取:在给定的文本语料库S中找到一组反义词对Cant(S)
3)【Cant(S)是由候选动词对V Pi组成的集合,其中反义关系的概率p(Relant | V Pi)大于阈值t】
4)引入基于模式的条件概率来间接计算p(Relant | V Pi)
---- 某些模式可以指示反义词(例如: 模式 “either V B1 or V B2” ”是一个很好的指示,例如 “either live or die”。)
假设我们有q个反义词模式:
-
p(Relant | Patj):在模式Patj发生的情况下,关系Relant发生的概率【就是条件概率】
-
p (Patj | vpi)表示动词对 vpj 可以与模式 Patj 共现的概率( 参见公式3和4)
-
p(Relant | Patj)× p(Patj | V Pi):计算动词对V Pi被一个单一模式Patj指示为反义词对的概率
-
p(Relant | V Pi):动词对VPi相对于Relant的总体概率【反义关系的概率】是q模式上所有概率的总和
-
N(j):Patj的总频数
-
Nant(j):Patj和Relant并发的频数【联合概率】
-
F(i):V Pi的总频数
-
FPatj(i):Patj和V Pi共现的频数
我们假设许多模式对于我们的通用语言使用是通用的,即它们可以在不同的领域中使用,即使参与模式的动词几乎没有重叠,训练语料库和测试语料库也将共享相似的模式分布,所以我们可以得到:
我们将模式定义为有限长度的连续元素序列(含单词和POS标签),SYN或ANT动词对将被其相应的POS标记替换;其他单词将保留它们在原语句子中的表面形式。然后应用大小为3、4和5的窗口详尽地构造所有可能的模式
例如,在解析的语句“Abacha/NNP can/MD either/RB accept/VB or/CC reject/VB”中,将生成以下模式: “ or ”, “either or ”,“can either or ”(我们选择保留动词形式的时态信息,因为它可能对所表示的关系类型很重要)
我们定义Rel={Rel SYN,Rel ANT,Rel other},其中Rel是一组关系,Relsyn是同义关系,Relant是反义词关系,Relother是SYN/ANT以外的关系。在扫描整个语料库后,可以得到与反义词共现的模式集Psyn;同样,我们可以得到Psyn,并且我们定义了P,Psyn和Pant的并集。我们发现许多模式都可以表示上述三种关系
以模式“ and ”为例,“维护和保留文化的根”是同义词示例,“下载和上传文件”是反义词示例,“来和玩”显示非SYN/ANT关系。由于模式不能总是表示关系,因此我们使用每个< Pi,Relj > 对的置信分数来表示模式Pi∈P导致关系Relj∈Rel的概率。
- V P2PatternTrain:一个m乘n的矩阵,表示所有动词对和模式的共现计数
- m:训练语料库中动词对的总数
- n:P.fi的大小
- j:动词对V Pi与模式Pj共现的次数
- Rel2Pattern:一个3乘n的矩阵,表示Rel中所有关系和P中模式的共现计数
例如,我们通过以下方法获得同义行向量:
类似的,计算创建反义词向量和表示其他关系的向量。
Rel2Pattern中的第一行向量描述了与属于Relsyn的所有动词对共存的每个模式的总频率。同样地,我们将关系相关的第二行向量和关系相关的第三行向量。从Rel2Pattern矩阵的频率计数中,我们得到p(Reli | Pj),即给定模式Pj的关系Reli的条件概率,如等式7所示。
观察到频率计数更偏向于Relother,我们基于等式7中的Rel2Pattern对Relsyn和Relant-by-row对应的行进行归一化。Rel2Pattern的Relother行中的绝对频率计数远大于其他两行中的值的原因如下:属于Relother的动词对数远远大于属于Relsyn和Relant的动词对数。此外,我们只能识别那些可以在WordNet中找到的SYN/ANT动词对。其他SYN/ANT动词最初将被错误分类为row Relother。然后,将基于列的规范化应用于rel2模式,从而根据等式8得到p(Reli | Pj)。
现在,经过上述计算(公式5,6,公式7,8),rel2模式变成一个由0到1的单元格值组成的矩阵。每个单元格Rel2Patterni,j表示模式Pj表示Reli的概率,其中Reli∈{syn,ant,other}。
前面,我们从训练语料库中获得了表示特定关系的每个模式的置信值。在这里,从测试语料库中收集模式频率信息后,我们将从测试语料库中整合并提取新的同义词和反义词动词。使用公式5中提到的相同方法,我们从测试语料库中收集动词对和模式的共现频率信息,并将其命名为V p2patternetest。然后,应用等式7中提到的基于行的归一化,但是V P2PatternTrain的行维度与V P2PatternTest的行维度不同。前者是训练语料库中与set P中模式共现的动词对总数,后者是测试语料库中的动词对总数。现在,V p2patternetest i,j表示给定一个动词对V Pi,它与模式Pj关联的概率是多少。我们根据
(Rel2PatternTrain)T是Rel2PatternTrain的转置。 每个像元V P2Reli,j表示动词对V Pi属于关系j的概率。 任何行i的总和P3 j = 1 V P2Reli,j等于1,因为任何动词对都必须处于syn,ant或其他关系之一。
WordNet是机器可读的词汇词典,可以看作是 < f, s >对的集合,其中f是表面形式(例如“ go”),而s表示同义词集 ,代表一个术语可以传达的所有可能的意义
**WordNet中提取的种子动词对……**我完了