Healthcare Fraud Detection Based on Trustworthiness of Doctors

论文传送门

作者

山东大学

  • Haoyi Cui
  • Qingzhong Li
  • Hui Li
  • Zhongmin Yan

摘要

大数据现在正在迅速扩展到各种领域,如银行、保险和电子商务。数据分析和相关研究引起了更多关注。在医疗保险中,滥用诊断是一种关键的欺诈行为,这损害了被保险人的利益。为了解决这个问题,许多研究都集中在这个主题上。本文开发了一种基于医生的可信赖性的医疗欺诈检测方法,能够分辨出欺诈案件与正常记录。与传统的方法相比,我们的方法可以在仅使用数据的少量特征信息且不侵犯隐私的条件下很好地检测医疗欺诈。这种方法结合了加权HITS频繁模式挖掘算法来计算某种疾病的合理治疗模式。另外本文还介绍了在治疗病人序列中的"copy precision behavior",这是了解医生信任度的关键指标。利用该方法在医疗保险数据集上进行数值验证,可以成功检测出医疗保健中的误诊。

Introduction

Healthcare fraud

  • misdiagnosis
  • abuse of diagnosis

本文使用频繁模式挖掘(Graph-Mining with Frequent Pattern, GM-FP)来训练一个关于特定疾病的 Rational Treatment Model (RTM)。
然后GM-FP从记录中分析出每位病人的 latent copying prescription behavior(CPB),这是分配病人和医生之间边权的一个重要指标。
利用加权HITS算法,我们能学习到每位医生的可信赖度。另外,GM-FP可以挖掘出每位医生RTM。通过分析未知记录与模型的相似度,可以判断该记录是否是欺诈。通过实验,GM-FP在F-score上比现有方法高。

贡献:

  • 提出了一个结合图中频繁模式挖掘的异常检测方法
  • 给予可信赖度和频繁模式,为每位医生构造了一个合理的治疗模型,通过计算未知记录与模型的相似度来分辨是否是异常

Graph-Mining with Frequent Pattern

Healthcare Record Sequence Diagnosis

  • Healthcare Record (HR)
    • hr = {patient, doctor, time, items}
  • Healthcare Record Sequence of a Patient (PHRS)
    • PHRS = (phr1, phr2, …, phrm)
  • Copying Prescription Behavior (CPB)
    • CPB(i,j)={1, doctori doctorjsim(i,j)γ0, doctori doctor jsim(i,j)<γ0, doctor i= doctor j\operatorname{CPB}(i, j)=\left\{\begin{array}{l}1, \text { doctor}_{i} \neq \text { doctor}_{j} \wedge \operatorname{sim}(i, j) \geq \gamma \\ 0, \text { doctor}_{i} \neq \text { doctor }_{j} \wedge \operatorname{sim}(i, j)<\gamma \\ 0, \text { doctor }_{i}=\text { doctor }_{j}\end{array}\right.

HRMS (X,Y)=i=1nexiyin(X, Y)=\frac{\sum_{i=1}^{n} e^{-\left|x_{i}-y_{i}\right|}}{n}
{X=(x1,x2xn),Y=(y1,y2yn)}\left\{X=\left(x_{1}, x_{2} \ldots x_{n}\right), Y=\left(y_{1}, y_{2} \ldots y_{n}\right)\right\}

Trustworthiness Learning of Doctors

  • Doctor-Patient Graph (DPG)
    • Healthcare Fraud Detection Based on Trustworthiness of Doctors
  • Healthcare Record Set of a Doctor (DHRS)
    • DHRS = (dhr1, dhr2, …, dhrm)
  • Frequent Pattern of a Doctor (DFP)
    • DFP={dfpITEMsupprot(dfp)minsup}D F P=\{d f p \subset I T E M \mid \operatorname{supprot}(d f p) \leq \operatorname{minsup}\}
  • Rational Treatment Model (RTM)
    • RTM=jTD(doctorj)×R T M=\sum_{j} T D\left(\text {doctor}_{j}\right) \timesDHRPList(doctorj)\left(\text {doctor}_{j}\right)

Comparison with baseline methods

  • BP-Growth (Behavior Patterns-Growth)
  • LOF ( Local Outlier Factor )
  • FindFPOF (Find Frequent Pattern Outlier Factor)

思考

Critical thinking:
模型的好坏与数据质量密切相关

Creative thinking:
利用节点或边的feature来辅助判断

How to apply it to our work:
本文较好地对医保数据以及问题进行了形式化的定义,今后分析类似的问题时可以参考