禁忌关系抽取
禁忌关系抽取
数据来源
寻医问药网站爬取的所有药物按照药物名称去重之后的药物数据集,共有12318个药物
抽取方法
在寻医问药中的禁忌关系共有四种,其中
- 药物-禁忌-成分、药物-禁忌-疾病、药物-禁忌-药物三种禁忌关系的抽取方法为:如果某种成分、疾病、药物的表达出现在了该药物的禁忌关系这一标签下,则认为该药物的对于这种成分、疾病、药物存在禁忌关系;
- 药物-禁忌-病人属性的禁忌关系的抽取方法为:在该药物的妇女儿童这一标签下如果出现“禁忌”、“禁用”等词语时认为该药物对于妇女儿童存在禁忌关系,在该药物的中老年人用药这一标签下出现“禁忌”、“禁用”等词语时认为该药物对于中老年人存在禁忌关系,在该药物的儿童用药这一标签下出现“禁忌”、“禁用”等词语时认为该药物对于儿童存在禁忌关系,在该药物的禁忌这一标签下如果出现“运动员”、“高空作业”等特殊人群的描述方法时认为该药物对于这些特殊人群存在禁忌关系。
结果展示
从寻医问药中共存在禁忌关系29165个,展示结果如下图
药物知识图谱
叮当快药知识图谱(妇科)
叮当快药知识图谱本体
![image_1dd5ck2k4qqq97mgpt17311ihcp.png-56.6kB][17]
知识图谱说明
- 实体
实体 | 数量 | 简介 | 示例 |
---|---|---|---|
药品 | 470 | 药品sku | 10698301 |
商品一级分类 | 1 | 商品的第一级分类 | 中西药品 |
商品二级分类 | 2 | 商品的第二级分类 | 妇科用药、感冒用药 |
商品三级分类 | 11 | 商品的第三级分类 | 乳腺疾病、更年期、清热解毒、头痛发烧 |
OTC标识分类 | 4 | OTC的的分类标签 | 双轨处方、OTC甲类 |
药物分类 | 2 | 药物的中西药分类 | 中成药、化学药品 |
疾病 | 170 | 粒度比较粗的病人体征 | 乳腺增生、乳腺外科、乳腺增生 |
病症 | 387 | 粒度比较细的病人体征 | 经期乳胀,有结块,月经不调,量少, |
成分 | 395 | 药物的中药材成分或化学式成分 | 浙贝母,当归,赤芍,漏芦 ,茜草,香附、醋酸甲羟孕酮,炔雌醇葡萄糖酸钙,维生素E,维生素A,维生素D |
- 关系
关系 | 数量 | 简介 | 示例 |
---|---|---|---|
药物-禁忌-病人 | 714 | 某药物不能用于患某种病的患者 | 阿莫西林胶囊-‘药物-禁忌-病人’-孕妇 |
药物-禁忌-药物 | 0 | 某种药物不能和另外一种药物同时服用 | 磺胺药-‘药物-禁忌-药物’-酵母片 |
药物-禁忌-疾病或症状 | 3618 | 患有该疾病的病人不能服用某种药物 | 阿苯达唑颗粒-‘禁忌-药物-疾病或症状’-心功能不全 |
药物-禁忌-成分 | 1148 | 该药物不能和某种中药材或者化学式共同服用 | 头孢克洛分散片-‘药物-禁忌-药物’-酒精 |
包括 | 7496 | 在数据中存在的上下位关系 | 中西药品-包括-妇科用药、妇科用药-包括-乳腺疾病 |
治疗 | 6609 | 某药物的可以治疗疾病或症状 | [同仁堂]乳核内消液-治疗-乳腺增生、[同仁堂]乳核内消液-治疗-经期乳胀、[同仁堂]乳核内消液-治疗-有结块 |
导致 | 13699 | 细粒度的症状导致了粗粒度的疾病 | 经期乳胀-导致-乳腺增生、有结块-导致-乳腺增生 |
包含 | 19 | 在临床用药数据中的科室与部位的上下位关系 | 头部-包含-眼部、头部-包含-口部 |
- 属性
所属实体 | 属性名 | 数量 | 示例 |
---|---|---|---|
药品 | 商品名称 | 470 | 药品1的商品名称是阿莫西林胶囊 |
药品 | 通用名称 | 470 | 药品1的通用名称是阿莫西林 |
药品 | 规格 | 470 | 药品1的规格是100mgx6粒 |
数据说明
- 构建知识图谱过程中用到哪些数据
- 叮当快药提供的实例文档
- 寻医问药网站爬取的药品说明书数据
- 临床药品使用中的科室、部位层级结构数据
- 构建知识图谱过程(构建逻辑)
- 将叮当快药中的实体与属性提取出来放在neo4j数据库总
- 将寻医问药中的禁忌关系全部抽取出来放在CSV文件中
- 默认当寻医问药中的禁忌关系数据中的药品名称与叮当快药中的商品名称或通用名称相同时,认为该禁忌关系也相同,则在neo4j数据库中搜索对应的禁忌关系节点,当禁忌关系节点为病人属性、成分、疾病或症状时,如果在现在的neo4j数据库中存在则直接连接形成禁忌关系,如果不存在则新建该节点并连接形成禁忌关系;当禁忌节点为药物时,如果在现有neo4j 数据库中不存在该节点则跳过该关系
- 一些需要注意的事情或者临时小调整
- 可以调整在导入禁忌关系时是否添加那些在现有neo4j数据库中不存在的禁忌关系节点
- 在连接禁忌关系时,使用的是药品名是否相同来进行判断,这种做法准确率有待验证
- 在从寻医问药数据中抽取禁忌关系时,对于药物-禁忌-疾病或症状与药物-禁忌-成分粗暴的采用了疾病或症状或成分是否出现在了药物的禁忌关系这一标签下的方法,这种方法的准确性有待验证
- 在提取禁忌关系时,采用的字典是基于规则清洗的,字典准确性有待提高