论文阅读 | MIX: Multi-Channel Information Crossing for Text Matching
MIX: Multi-Channel Information Crossing for Text Matching
(腾讯2018 KDD)
主要特点:
- 1.本文中对于句子匹配,考虑了很多不同层面的:词,短语,句法,词频和权重,语法信心等信息
- 2.通过多通道将所有信息整合起来,其中包括:
- (1)semantic information:unigrams,bigrams,trigrams(用于相似度匹配)
- (2)structure information:词的权重,词性,实体(作为注意力机制)
模型具体细节
1.local matching
(1)unigram可能会存在相同但其实意义不同的情况
(2)故增加使用bigrams,trigrams
2.local and global matching
2.1 使用idf
作为attention
其中的idf组成的attention矩阵:使用两个词的idf相乘作为其值
举例来说,对于一个问题:What year did Lebron James win his first MVP?
(1)对于回答1:Steve Curry won his first MVP in 2014.
尽管其他词的匹配度很高,但是关键词Lebron James却没有匹配成功,使得这个回答其实不是真正的回答
图a在his,first等词上匹配度很高,乘以b中tfidf组成的attention矩阵后,这些非重要词的重要度下降
(2)而对于回答2:Lebron James was rated as the best player in 2009
尽管其他词的匹配不高,但关键词Lebron James的匹配度非常高,通过这种手段,突出了重要词的匹配度
2.2 Part-of-speech
抽出句子中的实体
,对于Person tag,Verb,wh_pronoun(英文中存在),time,number
给与注意力
2.3 词的位置
问答中,一般问题和回答中,第一个字和第一个字的匹配度会比第一个字和第七个字的匹配度高。
通过训练一层attention可以看到如上图所示,句子位置的注意力程度是不一样的
3.多通道融合
通过3D CNN进行卷积