论文阅读 Training Neural Machine Translation To Apply Terminology Constraints
一.
该方法是在模型训练层面解决术语注入的问题。
二.
训练阶段主要是改变数据的处理方式:
1. 原始数据层面(增加注释,0无关,1源语术语,2目标语言术语)
2.bpe层面
将原始数据的注释推广到bpe切分后的token上,eg:如果Stellvertreter_2切分成了a、b,则a_2,b_2。
3.embedding层面
将注释向量和词向量进行拼接。
4. 术语覆盖度问题
为了保证没有包含术语的句子也能正确翻译,限制包含术语的句子在训练语料10%。
5. 术语匹配问题
在训练语料中定位术语时采用近似匹配,可以解决单复数多次解码的问题。