Knowledge Discovery from Massive Healthcare Claims Data

作者

橡树岭国家实验室

Varun Chandola
Sreenivas R. Sukumar
Jack Schryver

摘要

大数据在解决美国和世界其他地方的医疗体系中的需求的作用得到了政府、私人和学术部门的响应。对来自私人和政府健康保险的大量医疗数据进行数据分析一直饱受重视。但由于需要领域协作，这种类型的数据在数据挖掘领域只进行了有限的探索。本文的目的有两个：首先，大规模医疗保险索赔数据挖掘的新兴领域，其次，我们描述了在使用最先进的方法分析这些数据时的成功和挑战。具体来说，我们将医疗保健数据分析转换成了一些在数据挖掘社区中著名的问题，比如社会网络分析、文本挖掘、时序分析和高阶特征构造。并描述了如何利用这些领域的进步来了解医疗保健领域。每个案例研究说明了数据挖掘和医疗保险的独特交集，其共同目标是通过挖掘机会来改善医疗运营，减少可能的欺诈、浪费和滥用的部分。

背景

不同类型的医疗保健数据：

Knowledge Discovery from Massive Healthcare Claims Data

Health Insurance Data

本文主要关注在 health insurance data，传统的医保支付模型是 Fee-for-service（FFS）模型。
Knowledge Discovery from Massive Healthcare Claims Data

数据

用于案例分析的数据有一下三种类别：

claims data
provider enrollment data
fraudulent providers （有标签的数据）

文本分析

cliam data 可以用作大规模的文本分析，可以用于分析病人的疾病分布情况，从而将其归为不同的组别。
本文根据数据构造了 document-term matrix，从而可以使用 Latent Dirichlet Allocation（LDA）方法来分析文本的主题。
从而可以比较欺诈与正常行为在不同 topic 上的分布情况，如下图所示：
Knowledge Discovery from Massive Healthcare Claims Data