Knowledge Guided Short-Text Classification For Healthcare Applications
论文相关内容(这个严格来说不能算是知识图谱的,暂且放这里吧)
使用领域知识进行医疗健康相关的短文本分类
在许多文本挖掘应用程序特别是医疗保健应用程序中,出现了对短文本分类的需求。在这些应用中,较短的文本意味着语言的歧义限制了语义的表达,这反过来又会使典型的方法不能准确地捕捉稀缺词的语义。在医疗领域尤其如此,当文本包含特定领域或出现频率较低的单词时,由于缺乏训练数据,这些单词的嵌入不易学习。深度神经网络凭借其强大的表示能力,在提高这类问题的性能方面显示出了巨大的潜力。我们提出了一种双向长短期记忆(BI-LSTM)循环网络,以解决可在两种设置中使用的短文本分类问题。首先,在有知识词典的情况下,采用众所周知的注意机制,利用词典中的领域知识指导网络的训练。其次,针对领域知识词典不可用的情况,提出了一种多任务模型,对领域知识词典进行联合学习,同时完成文本分类任务。
1、 DKGAM
双向LSTM
用word2vector学的词嵌入来进一步通过双向LSTM得到的短文本的表示,最后使用聚合函数把它们聚合起来。
2、实体词替换机制
本文提出用实体词的类型代替实体词,实体类型比实体对文本分类的贡献更大
attention model
attention中的实体类型嵌入d与实体词替换机制中的实体类型嵌入e是同一实体中的两种不同嵌入模式,有不同的用处,前者是为了指导网络去关注关键点(实体类型),后者是为了捕捉文本中的语义关系。
当文本表示直接可以用的时候,可以直接加一个softmax层把s转换到一个条件概率分布
然后得到交叉熵损失用来评价文本分类任务的
实体类型的正则化
在损失函数中加入cosine相似度作为正则化项、
使得实体类型尽可能分开。
损失函数如下:
MTDKGAM
名称实体识别
名称实体识别是文本挖掘领域的一项基础性工作。它的目标是将文本中的命名实体定位并分类为预定义的类别,如人员、组织、位置等。
我们通过线性链条件随机场来实现名称实体的发现
由于文本分类的执行依赖于“实体候选”的正确性。我们添加一个权衡超参数在第一方程在Eq10来平衡“实体候选”的重要性和隐藏向量。
最后损失函数如下:
总结
1、相关背景:对短文本的需求以及短文本的语言歧义性限制了语义的表达,从而典型的方法不能捕捉到稀有词的精确语义,故缺乏相关的训练数据不易进行嵌入。深度神经网络的强大表示能力有助于提高这些问题的性能。
2、问题是什么:短文本分类问题。
3、现有解决方案:手工设计特征或利用成熟的机器学习算法手工设计特征,但是它们都没有利用文本背后的领域知识。
4、作者的核心思想、创新点在哪里:提出了实体词替换机制(把实体替换为实体类型,对分类更有帮助还可以加速模型的收敛)、DKGAM(领域知识可用时,可通过BILSTM和Attention去分类)和MTDKGAM(领域知识不可用时,同时进行实体发现和分类)。
5、通过什么样的实验进行验证:在CHOCP和ATIS数据上使用多个baseline进行多组实验。
6、对我的启发:要懂得利用事物后的本质信息。