Knowledge Discovery from Massive Healthcare Claims Data
作者
橡树岭国家实验室
- Varun Chandola
- Sreenivas R. Sukumar
- Jack Schryver
摘要
大数据在解决美国和世界其他地方的医疗体系中的需求的作用得到了政府、私人和学术部门的响应。对来自私人和政府健康保险的大量医疗数据进行数据分析一直饱受重视。但由于需要领域协作,这种类型的数据在数据挖掘领域只进行了有限的探索。本文的目的有两个:首先,大规模医疗保险索赔数据挖掘的新兴领域,其次,我们描述了在使用最先进的方法分析这些数据时的成功和挑战。具体来说,我们将医疗保健数据分析转换成了一些在数据挖掘社区中著名的问题,比如社会网络分析、文本挖掘、时序分析和高阶特征构造。并描述了如何利用这些领域的进步来了解医疗保健领域。每个案例研究说明了数据挖掘和医疗保险的独特交集,其共同目标是通过挖掘机会来改善医疗运营,减少可能的欺诈、浪费和滥用的部分。
背景
不同类型的医疗保健数据:
Health Insurance Data
本文主要关注在 health insurance data,传统的医保支付模型是 Fee-for-service(FFS)模型。
数据
用于案例分析的数据有一下三种类别:
- claims data
- provider enrollment data
- fraudulent providers (有标签的数据)
文本分析
cliam data 可以用作大规模的文本分析,可以用于分析病人的疾病分布情况,从而将其归为不同的组别。
本文根据数据构造了 document-term matrix,从而可以使用 Latent Dirichlet Allocation(LDA)方法来分析文本的主题。
从而可以比较欺诈与正常行为在不同 topic 上的分布情况,如下图所示:
使用的方法是 Mahout 实现的 collapsed variational Bayesian inference(cvb)算法。
社交网络分析
构造 provider network
下表为可以计算出的网络属性:
从而可以比较欺诈与正常机构之间的差异
时序分析
通过 Statistical Proess Control 技术来检测拐点。
常用技术:
- cumulative sum
时序特征构造
本文为了避免泄露特征造成故意避免欺诈检测,并没有透露具体采用了哪些特征。
使用模型:
- binary logistic regression
评价指标:
AUC