中文标题:精确的文本增强的知识图谱表示学习
发表会议:NAACL 2018
文章链接:Accurate Text-Enhanced Knowledge Graph Representation Learning
源代码:无
1 Introduction
1.1问题陈述 :
以往的知识图谱表示在不同的三元组中以唯一的表示形式表示相同的实体/关系,而不考虑关系和实体的模糊性。这样带来了两个问题:
关系是模糊的,特定三元组中关系的准确语义与同一三元组中的实体相关。例如,关系“ parentOf ”可能指的是两个不同的意思。“父亲”和“母亲”),这取决于三元组中的实体。
由于不同的关系可能关系到一个实体的不同属性,同一实体可能在不同的三元组中表达不同。例如,在描述“ 巴拉克•奥巴马 ”时,不同的词应该用关系 “ parentOf ” 和 “ professionOf ” 来强调。
1.2 解决办法:
本文提出了一种准确的文本增强知识表示模型,该模型通过为每个三元组加入准确的文本信息来增强实体和关系的表示。为了学习给定三元组的表示,我们首先从文本语料库中提取出其准确的关系,这反映了它的头实体和尾实体之间的具体关系。在此基础上,提出了关系提及与实体描述之间的相互注意机制,以增强实体和关系的表示。
1.3 贡献
第一个同时利用关系提及和实体描述来处理关系和实体的模糊性。
提出一种相互注意机制,该机制利用关系和实体的文本表示来相互增强。
本文在两个最广泛使用的基准上实现了三元组分类任务的最新性能。
2 Methodology
2.1 文本信息抽取
给定一个三元组,首先从文本语料库中抽取其关系准确的文本提及。
2.1.1 实体链接
给定一个句子D = ⟨ w 1 … w i … w m ⟩ {D}=\left\langle w_{1} \ldots w_{i} \ldots w_{m}\right\rangle D = ⟨ w 1 … w i … w m ⟩ 和一个实体集E = ⟨ e 1 … e i … e m ⟩ {E}=\left\langle e_{1} \ldots e_{i} \ldots e_{m}\right\rangle E = ⟨ e 1 … e i … e m ⟩ 通过实体链接工具自动标注知识图谱KG中的实体,获得一个新的句子D ′ = ( w 1 , … , e 1 , … , e m , … , w n ) \mathcal{D}^{\prime}=\left(w_{1}, \dots, e_{1}, \dots, e_{m}, \dots, w_{n}\right) D ′ = ( w 1 , … , e 1 , … , e m , … , w n ) ,其中w i w_i w i 代表D D D 的第i i i 个词,e j e_j e j 表示E E E 中第j j j 个实体。
2.1.1 关系提及抽取
为了抽取特定三元组中准确的关系文本提及,首先收集包含三元组的两个实体的所有句子作为候选文本提及。在此基础上,计算了基于 WordNet 的文本提及与关系之间的相似度。例如,对于三元组 (Steve Jobs , / people / person / parents , Paul Jobs ),我们只在句子包含两个实体和至少一个关系的下义词/同义词的情况下,才将句子视为其准确的关系提及。
通过这种方法,我们可以提取出精度较高的三元组的准确关系提及。但是,如果一个关系提到不包含任何关系的下义词/同义词,我们的方法将无法识别它。例如:"In 1961 Obama was born in Hawaii, US"表达了/people/person/nationality这样的关系,但是句子中没有它的下义词/同义词。为此,进一步使用词嵌入来计算相似性。使用后两个词的预训练嵌入向量的平均向量表示关系,然后,如果句子中的单词与关系表示之间的相似度高于阈值,则提取一个句子作为给定三元组的准确关系提及,而单词与关系之间的相似度则通过其表示的余弦相似度来计算 。
2.2 学习文本表征
2.2.1 嵌入层
给定一个关系提及m = { w 1 , w 2 , w 3 , … , w n } m=\left\{w_{1}, w_{2}, w_{3}, \dots, w_{n}\right\} m = { w 1 , w 2 , w 3 , … , w n } ,通过词嵌入矩阵将每个词w i w_i w i 转换为向量e i → ∈ d w \overrightarrow{e_{i}} \in d^{w} e i ∈ d w 。
2.2.2 BiLSTM层
使用不同的BiLSTM网络编码关系提及和实体描述。
2.2.3 相互注意力层
相互注意力层的两个目标:
识别在同一三元组中与实体描述相关的关系提及中的词语。
识别实体描述中的被关系强调的词语。
为了实现上述目标,首先利用关系表示作为注意力来推断实体描述的表示:
a i ( e ) = exp ( score ( h ⃗ i , r ⃗ ′ ) ) ∑ i ′ exp ( score ( h i ′ → , r ⃗ ′ ) ) score ( h i → , r ′ → ) = h i T → W e r ′ → \begin{array}{c}
a_{i}(e)=\frac{\exp \left(\operatorname{score}\left(\vec{h}_{i}, \vec{r}^{\prime}\right)\right)}{\sum_{i^{\prime}} \exp \left(\operatorname{score}\left(\overrightarrow{h_{i}^{\prime}}, \vec{r}^{\prime}\right)\right)} \\
\operatorname{score}(\overrightarrow{h_{i}}, \overrightarrow{r^{\prime}})=\overrightarrow{h_{i}^{T}} W_{e} \overrightarrow{r^{\prime}}
\end{array} a i ( e ) = ∑ i ′ exp ( s c o r e ( h i ′ , r ′ ) ) exp ( s c o r e ( h i , r ′ ) ) s c o r e ( h i , r ′ ) = h i T W e r ′
其中,r ′ → ∈ d w \overrightarrow{r^{\prime}} \in d^{w} r ′ ∈ d w 是对BiLSTM所有隐藏向量求的平均值得到的关系提及的表示。r i → \overrightarrow{r_{i}} r i 是w i w_i w i 的隐藏表示,w e ∈ d w × 2 × h w_e \in d^{w \times 2 \times h} w e ∈ d w × 2 × h 是训练后的矩阵参数。
实体描述的关系敏感表示为:
e ∗ → = tanh ( a ⃗ e T H e ) e^{\overrightarrow{*}}=\tanh \left(\vec{a}_{e}^{T} H_{e}\right) e ∗ = tanh ( a e T H e )
其中,a e ⃗ ∈ d m \vec{a_e} \in d^m a e ∈ d m 是实体描述中单词上的关系特异性注意向量,d m d^m d m 是描述的长度,H e ∈ d m × h H_e \in d^{m \times h} H e ∈ d m × h 是BiLSTM 生成的隐藏表示矩阵,e ∗ ⃗ ∈ d h \vec{e^*} \in d^h e ∗ ∈ d h 是描述的表示。这样就学习到了头实体e h ∗ ⃗ ∈ d h \vec{e^*_h} \in d^h e h ∗ ∈ d h 的实体描述的表示和尾实体e t ∗ ⃗ ∈ d h \vec{e^*_t} \in d^h e t ∗ ∈ d h 的注意关系表示。
以上两个实体描述表示作为注意力来学习三元组敏感关系提及:
e ⃗ = e h ∗ → + e t ∗ → a i ( r ) = exp ( score ( h ⃗ i , e ⃗ ) ) ∑ i ′ exp ( score ( h i ′ , e ⃗ ) ) score ( h i → , e ⃗ ) = h i → T W r e ⃗ \begin{array}{c}
\vec{e}=e_{h}^{\overrightarrow{*}}+e_{t}^{\overrightarrow{*}} \\
a_{i}(r)=\frac{\exp \left(\operatorname{score}\left(\vec{h}_{i}, \vec{e}\right)\right)}{\sum_{i^{\prime}} \exp \left(\operatorname{score}\left(h_{i^{\prime}}, \vec{e}\right)\right)} \\
\operatorname{score}(\overrightarrow{h_{i}}, \vec{e})=\overrightarrow{h_{i}}^{T} W_{r} \vec{e}
\end{array} e = e h ∗ + e t ∗ a i ( r ) = ∑ i ′ exp ( s c o r e ( h i ′ , e ) ) exp ( s c o r e ( h i , e ) ) s c o r e ( h i , e ) = h i T W r e
其中,e h ∗ ⃗ \vec{e^*_h} e h ∗ 和e t ∗ ⃗ \vec{e_{t}^{*}} e t ∗ 是头实体描述和尾实体描述的表示,h i ⃗ \vec{h_i} h i 是文本中每个词w i w_i w i 的隐藏向量,W r ∈ d w × 2 × h W_r \in d^{w \times 2 \times h} W r ∈ d w × 2 × h 是训练好的参数矩阵。
三元组敏感关系提及:
r ∗ → = tanh ( a r T → H r ) \overrightarrow{r^{*}}=\tanh \left(\overrightarrow{a_{r}^{T}} H_{r}\right) r ∗ = tanh ( a r T H r )
其中,a r T → ∈ d n \overrightarrow{a_{r}^{T}} \in d^n a r T ∈ d n 是关系提及中单词的三元敏感注意力向量,d n d^n d n 是关系提及的长度,H r ∈ d m × h H_r \in d^{m \times h} H r ∈ d m × h 是BiLSTM 生成的隐藏表示矩阵,r ∗ ⃗ ∈ d h \vec{r^*} \in d^h r ∗ ∈ d h 是提及的表示。通过这种方式学习了所有文本提及的三元注意表示。
2.3 文本增强表示学习
对于每个给定的三元组及其精确的文本信息,我们将基于实体e h ∗ → ∈ d h e_{h}^{\overrightarrow{*}} \in d^{h} e h ∗ ∈ d h 、e t ∗ → ∈ d h \overrightarrow{e_{t}^{*}} \in d^{h} e t ∗ ∈ d h 和关系r ∗ ⃗ ∈ d h \vec{r^*} \in d^h r ∗ ∈ d h 的文本表示。增强的关系和实体表示如下:
Re ( r ⃗ a t e ) = α ⋅ Re ( r ⃗ k g ) + ( 1 − α ) ⋅ r ∗ → , 0 ≤ α ≤ 1 Re ( h ⃗ a t e ) = α ⋅ Re ( h ⃗ k g ) + ( 1 − α ) ⋅ e h ∗ → , 0 ≤ α ≤ 1 Re ( t ⃗ ate ) = α ⋅ Re ( t ⃗ k g ) + ( 1 − α ) ⋅ e t ∗ → , 0 ≤ α ≤ 1 \begin{array}{l}
\operatorname{Re}\left(\vec{r}_{a t e}\right)=\alpha \cdot \operatorname{Re}\left(\vec r _{kg}\right)+(1-\alpha) \cdot \overrightarrow{r^{*}}, 0 \leq \alpha \leq 1 \\
\operatorname{Re}\left(\vec{h}_{a t e}\right)=\alpha \cdot \operatorname{Re}\left(\vec h_{k g}\right)+(1-\alpha) \cdot e_{h}^{\overrightarrow{*}}, 0 \leq \alpha \leq 1 \\
\operatorname{Re}\left(\vec{t}_{\text {ate}}\right)=\alpha \cdot \operatorname{Re}\left(\vec{t}_{k g}\right)+(1-\alpha) \cdot \overrightarrow{e_{t}^{*}}, 0 \leq \alpha \leq 1
\end{array} R e ( r a t e ) = α ⋅ R e ( r k g ) + ( 1 − α ) ⋅ r ∗ , 0 ≤ α ≤ 1 R e ( h a t e ) = α ⋅ R e ( h k g ) + ( 1 − α ) ⋅ e h ∗ , 0 ≤ α ≤ 1 R e ( t ate ) = α ⋅ R e ( t k g ) + ( 1 − α ) ⋅ e t ∗ , 0 ≤ α ≤ 1
其中,α \alpha α 是结构化表示的权重,和r k g → ∈ d h r_{k g}^{\rightarrow} \in d^{h} r k g → ∈ d h 、h k g → ∈ d h h_{k g}^{\rightarrow} \in d^{h} h k g → ∈ d h 和t k g → ∈ d h t_{k g}^{\rightarrow} \in d^{h} t k g → ∈ d h 分别是r r r 、h h h 和t t t 从知识图谱中学习的表示向量,r ∗ → ∈ d h \overrightarrow{r^{*}} \in d^{h} r ∗ ∈ d h 、e h ∗ ∈ d h e_{h}^{*} \in d^{h} e h ∗ ∈ d h 和e t ∗ ∈ d h e_{t}^{*} \in d^{h} e t ∗ ∈ d h 表示从文本学习到的表示向量,r ⃗ a t e ∈ d h \vec{r}_{a t e} \in d^{h} r a t e ∈ d h h ⃗ a t e \vec{h}_{a t e} h a t e 和t ⃗ a t e \vec{t}_{a t e} t a t e 是精确的文本增强的关系、头实体和尾实体表示。
2.4 模型训练
L = ∑ g ∈ K G ∑ q ′ ∈ K G ′ max ( 0 , γ + f ( q ) − f ( q ′ ) ) L=\sum_{g \in K G} \sum_{q^{\prime} \in K G^{\prime}} \max \left(0, \gamma+f(q)-f\left(q^{\prime}\right)\right) L = g ∈ K G ∑ q ′ ∈ K G ′ ∑ max ( 0 , γ + f ( q ) − f ( q ′ ) )
3 Experiments
3.1 数据集:
WN11,WN18,FB13 和 FB15k。
3.2 任务:
3.2.1 链接预测
3.2.2 三元组分类