F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media 论文翻译
基于F-Score的最大边际神经网络在中文社交媒体命名实体识别中的应用
摘要
我们专注于中国社交媒体的命名实体识别。针对大量未标记文本和标记语料有限的情况,提出了一种基于BLSTM神经网络的半监督学习模型。为了充分利用传统的神经网络方法,如CRF,我们在模型中结合了转移概率和深度学习。为了弥补NER的标记精度与F-score之间的差距,我们构建了一个可以直接训练F-score的模型。考虑到F score驱动方法的不稳定性和标签精度提供的有意义信息,提出了一种综合训练F-score和标签精度的方法。我们的集成模型比以前的最新结果有了实质性的改进。
1 介绍
随着互联网的发展,社交媒体在信息交流中发挥着重要作用。社交媒体上的自然语言处理任务更具挑战性,引起了许多研究者的关注(Li and Liu,2015;Habib and van Keulen,2015;Radford et al.,2015;Cherry and Guo,2015)。作为许多下游应用的基础(WEISSENBEN等人,2015;DelgADO等人,2014;HajigrZi等人,2013),如信息提取,命名实体识别(NER)值得在流行的和具有挑战性的社会媒体文本中进行更多的研究。NER的任务是识别文本中的名称并分配具有特定类型的名称(Sun等人,2009;Sun,2014;Sun等人,2014;He和Sun,2017)。社交媒体的非正规性阻碍了净入学率系统的准确性。虽然英语方面的努力缩小了社交媒体与正式领域之间的差距(Cherry and Guo,2015),但汉语方面的任务仍然具有挑战性。它是由汉语中缺乏许多线索来表明一个词是否是一个名字,例如资本。标记不足的中国社交媒体语料库使任务更具挑战性(Neelakantan和Collins,2015;Skeppstedt,2014;Liu等人,2015)。
为了解决这个问题,一种方法是使用从大量未标记的文本中学习的词汇嵌入。为了更好地利用未标记文本,Peng和Dredze(2015)对三种类型的中文文本嵌入进行了评估,并通过实验证明了位置字符嵌入的有效性。考虑到分词在汉语内NER的价值,另一种方法是构建一个集成模型,联合训练用于预测分词和NER的学习表示(Peng和Dredze,2016)。然而,上述两种方法都是在CRF模型中实现的。我们构造了一个基于B-LSTM神经网络的半覆盖模型,利用大量未标注文本提供的词汇信息,从有限标注的语料库中学习。为了缩小标签精度与F-Score之间的差距,我们提出了一种直接训练F-Score的方法,而不是在我们的模型中训练标签精度。此外,我们还提出了一种综合的方法来训练F分数和标签的准确性。具体而言,我们的贡献如下:
•我们提出了一种直接训练FScore的方法,而不是训练标签的准确性。此外,我们还提出了一种综合的方法来训练F分数和标签的准确性。
•我们将转换概率与基于BLSTM的最大边际神经网络相结合,形成神经网络的结构化输出。
•我们评估了两种方法在神经网络中使用未标记文本的词汇嵌入。
2模型
我们建立了一个基于B-LSTM神经网络的半监督模型,并结合转移概率形成结构化输出。在我们的模型中,我们提出了一种直接训练F分数的方法。此外,我们还提出了一种综合的方法来训练F分数和标签的准确性。
2.1转移概率
B-LSTM神经网络可以从过去的输入特征中学习,LSTM层使其更有效(Hammerton,2003;Hochreiter and Schmidhuber,1997;Chen et al.,2015;Graves et al.,2006)。然而,B-LSTM不能学习句子级的标签信息。Huang等人(2015)结合通用报告格式使用句子级标签信息。我们将转换概率结合到我们的模型中,以获得句子级的标签信息。为了将转换概率结合到B-LSTM神经网络中,我们在B-LSTM的基础上构造了一个最大边缘神经网络(MMNN )(Pei等人,2014)。标签位置t的预测如下:
F-Score Trigger Function TNER任务的主要判断标准是F-Score,然而,高的标记准确度并不意味着高F分数。例如,如果每个命名实体的最后一个字符都是labeledas O,那么标签的准确度可以很高,但是精确率、召回率和F-score都是0。利用修正后的标签序列和预测后的标签序列之间的F Score函数作为触发函数,对训练样本的F值进行优化。我们的新结构性边缘损失可以描述为:其中FScore是校正后的标签序列和预测的标签序列之间的F-Score。
**F-Score和标签精度触发函数:**F-Score在某些情况下可能相当不稳定。例如,如果一个句子中没有命名实体,无论预测的标签序列如何,F-Score都将始终为0。为了利用标签精度提供的有意义信息,我们引入了一个集成触发函数,如下所示:
其中β是调整标签准确度和F值权重的一个因素。
因为F-Score依赖于整个标签序列,所以我们使用beam搜索来查找k标签序列伴随最高句子水平分数(x,l,θ)的序列,然后使用触发函数重新排列k标签序列并选择最佳。
2.3分词表示
分词在中文文本处理中占有重要的地位。Peng和Dredze(2015)和Peng和Dredze(2016)都表明了分词在社交媒体中对汉语网络学习者的价值。提出了两种在神经网络模型中利用分词信息的方法。
字符和位置嵌入结合分词信息 : 我们附加每个字符的位置标记。这种方法是为了区别词语中同样的字的不同位置。我们需要对文本进行分词,并从分词后的文本中学习位置字符的嵌入。
字嵌入和单词分割特征:在神经网络模型中,分词可以看作是离散的特征。离散特征可以很容易地融入到神经网络模型中(Collobert等人,2011)。我们使用MSRA 2006语料库中预训练的LSTM中的单词嵌入来初始化分词特征。
3 实验与分析
3.1数据集
我们在中国社交媒体中使用了一个修改过的标记语料库[1]作为NER的Peng和Dredze(2016)。数据详情见表1。我们还使用了与中国新浪微博服务的Peng和Dredze(2016)相同的未标记文本,并使用中文分词系统Jieba2对文本进行分词,如Peng和Dredze(2016),以便我们的结果与他们的结果更具可比性。
3.2参数估计
我们使用word2vec(Mikolov等人,2013)和跳过gram训练模型对嵌入进行了预训练,没有负采样和其他默认参数设置。比如Mao等人。(2008),我们使用bigram特性如下:
我们使用窗口方法(Collobert等人,2011)从单词特征向量中提取更高层次的特征。我们将bigram特征视为神经网络的离散特征(Collobert等人,2011)。我们的模型是用带有L2正则化的随机梯度下降训练的。
对于模型中的参数,嵌入窗口尺寸为5,嵌入窗口尺寸、特征嵌入窗口尺寸和隐藏向量窗口尺寸均为100,边际损失discount为0.2,超参数L2为0.000001。在学习率方面,初始学习率为0.1,衰减率为0.95。对于集成模型,β为0.2。我们训练了20层,并选择了最佳预测进行测试。
3.3结果与分析
我们评估了两种融合分词信息的方法。两种方法的结果如表2所示。我们可以看到位置特征嵌入在神经网络中表现得更好。这可能是因为位置字符嵌入方法可以从未标记文本中学习分词信息,而分词只能使用训练语料库。
在接下来的四个模型中,我们采用了位置字符嵌入。我们的第一个模型是BLSTM神经网络(基线)。为了利用CRF等传统模型(Chieu和Ng,2002;Mccallum等人,2001),我们在基于B-LSTM的MMNN中结合了转移概率。在第三个模型F-Score-driven模型I中,我们设计了一个F-Score驱动的训练方法。我们在第四个模型F-分数驱动模型II中提出了一种综合训练方法。模型的结果如图1(a)所示。从图中,我们可以知道我们的模型性能更好,时间损失也很小。
表3显示了测试集上的NER结果。在表3中,我们还显示了微观F1分数(总体)和词汇外实体(OOV)的朝晖路。Peng and Dredze(2016)是中国社交媒体中最先进的内质网系统。通过比较B-LSTM模型和B-LSTM+MTNN模型的计算结果,我们可以看出过渡概率对内耗的影响是显著的。与B-LSTM+MMNN模型相比,F-Score驱动的模型I提高了命名实体的命名结果,并且在命名实体的命名过程中也有一定的损失。综合训练模式(F-Score-Driven model II)兼顾了标签准确性和F-Score,在中国社交媒体中实现了一个新的最先进的NER系统。我们的集成模型在命名实体和命名提及方面有更好的性能。
为了更好地理解β这个因素的影响,我们在图1(c)中用不同的β值展示了我们的集成模型的结果。从图1(c),我们可以知道β是平衡F值和准确度一个重要的因素。我们的整合模型可能有助于减轻中国社交媒体中的噪声影响。
4 结论和今后的工作
我们的实验结果也为今后的工作提出了方向。我们可以观察到,表3中的所有模型的召回率都远低于精确度(Pink等人,2014年)。所以我们需要设计一些方法来解决这个问题。