论文阅读 Training Neural Machine Translation To Apply Terminology Constraints

一. 

该方法是在模型训练层面解决术语注入的问题。

二.

训练阶段主要是改变数据的处理方式:

1. 原始数据层面(增加注释,0无关,1源语术语,2目标语言术语)

论文阅读 Training Neural Machine Translation To Apply Terminology Constraints

2.bpe层面

将原始数据的注释推广到bpe切分后的token上,eg:如果Stellvertreter_2切分成了a、b,则a_2,b_2。

3.embedding层面

论文阅读 Training Neural Machine Translation To Apply Terminology Constraints

将注释向量和词向量进行拼接。

4. 术语覆盖度问题

为了保证没有包含术语的句子也能正确翻译,限制包含术语的句子在训练语料10%。

5. 术语匹配问题

在训练语料中定位术语时采用近似匹配,可以解决单复数多次解码的问题。