基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会

基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
(论文题目:A Literature-Based Knowledge Graph Embedding Method for Identifying Drug Repurposing Opportunities in Rare Diseases)
论文来源: http://dx.doi.org/10.1101/727925
罕见疾病因为存在人群数目较少,市场较小,因此药物开发的时间和资金限制了新药的发展。一些药物可能存在于原始治疗目标不同的作用,也就是这些药物可以再利用去治疗其他疾病。这种药物再利用对于罕见疾病的药物发现有很大的应用前景。为了系统和全面的方式产生药物再使用的假设,需要整合来自药理学、遗传学和病理学文献的信息。这篇文章利用了一个新开发的知识图谱, the Global Network of Biomedical Relationships (GNBR)。GNBR是一个大型的、异构的知识图谱结构,由药物、疾病和基因(或蛋白质)实体组成。应用了一种知识图嵌入方法,该方法明确地建模与文献衍生关系相关的不确定性,并使用链接预测来生成药物再使用假设。
文章主要工作步骤:
1、根据罕见病的药物再利用潜力、数据的可获得性和治疗需求的当前状态,对罕见病进行优先排序。
2、设计了一个基于嵌入的药物再利用方法的知识图,该方法产生的治疗假设在文献中有强有力的证据,并使用gold-standard的药物适应症来评估结果。
3、将模型应用于产生新的药物再利用假设,并使用多种来源评估结果的科学有效性。
4、对于得分最高的假设,阐明了有助于预测的反复出现的网络模式,并证明了它们能够提供机制解释的能力。
数据:
数据包含{gene, drug,disease}集合中的两个实体和实体之间的关联,和一个表示从文本中派生出的这两个实体之间相关性的支持分值(0<分值<1)。实体之间的关系被派生到32种高层语义主题,被分为四种类别。通过处理最后包流量63,252个节点和583,685条边。
分类和主题总结如下图,图片来自原论文。
基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
基于嵌入的预测方式:
数据存储为三元组(h,r,t),h是边的头节点,t是尾节点,r是连接h和t。给定一个三元组(h,r,t),一个得分g被对应的嵌入向量***h,r,t***定义为:
基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
分值被映射到[0,1]之间,通过bounded rectier函数:

基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
**w,b是学习参数,最终预测的置信分值为f(l) 为:
基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
为了准确地对候选三元组进行排序并避免ties,在测试的时候去掉了bounded rectier函数得到的最大,最小值。对于每一个三元组在训练的时候,一个对应得负样本三元组是通过破坏尾节点并重新采样一个假设支持分值为0的随机节点。用联合目标函数最小化预测的平方差的和,f(l),和支持,Sl,对于每个三元组
l
:
基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
基于文献的知识图谱嵌入方法识别药物在罕见疾病中的再利用机会
将药物再利用形式化为连接预测的任务,用学习嵌入的方法预测{Drug,‘Treatment’, Disease}形式的高置信度三元组。