COVID-19 Artificial Intelligence Diagnasis using only Cough Recordings

对COVID-19 Artificial Intelligence Diagnasis using only Cough Recordings的理解

欢迎来看我的第一篇博客

今天讲一个关于诊断新冠肺炎的故事,MIT AutoID Laboratory中Jordi Laguarta、Ferran Hueto,Brian Subirana三位大神9月29日,在IEEE Open Journal of Engineering in Medicine and Biology上发表了一篇文章。

文章给出了一个模型,输入是咳嗽音频,二分类输出是否患有新冠肺炎

新冠肺炎的背景就不用再介绍了,这里简述下音频二分类的解决方法。通用框架首先是提取出特征,然后将特征再输入到机器学习或深度学习轮子中进行分类识别

dataset

有意思的是,他们建了一个网站(https://opensigma.mit.edu/)来收集咳嗽音频,网站页面如下:
COVID-19 Artificial Intelligence Diagnasis using only Cough Recordings

全球的网友可以上传自己的咳嗽音,在上传完咳嗽音频之后,会有一个个人信息表单填写,内容包含发烧、咳嗽、腹泻等新冠肺炎的症状,以及是否患有新冠的结论,患也不患是个人评估还是官方测试。表单长这样:COVID-19 Artificial Intelligence Diagnasis using only Cough Recordings
他们从患有新冠肺炎的受试者中选择了2660名,从剩下的不患有新冠肺炎的受试者中,随机选择了2660名,组成了共5320名受试者的一个数据集。

目前这个数据集是咳嗽识别肺炎领域中最大的数据集。

统计出数据集中受试者具体的症状和诊断结果信息如下表所示。(注:他们的研究没有集中在某一个年领群体上,涵盖了所有年领段的受试者。)
COVID-19 Artificial Intelligence Diagnasis using only Cough Recordings
他们报道了98.5%的敏感性和94.2%的特异性,这个结果是建立在血清检测测试者的基础上。

更有意思的是,他们报道了的无症状感染者100%的敏感性,和83.2%的特异性。100%的敏感性意味着,如果有100个无症状感染者的受试者进行检测,那么模型会识别到100个人全患有新冠肺炎。83.2%的特异性表示,如果有500个不患有新冠肺炎的无症状受试者进行检测模型会识别到416个人不患有新冠肺炎。

100%和83.2%有比较大的一个数据差异,如果不是模型的问题,那么我个人认为在数据集方面可能存在类别的分布不均匀的问题,并且在文章中作者也没有明确指出两个类别使用的数据集大小,使得模型可能更倾向于输出患有新冠肺炎这个类别。

model

疫情爆发之前,他们研究团队就在研究诊断阿尔兹海默症(AD)早期患者,下面这个模型就是他们用于诊断阿尔兹海默症早期患者的一个模型。

COVID-19 Artificial Intelligence Diagnasis using only Cough Recordings
阿尔兹海默症是一种神经系统退行性疾病,不仅与记忆力衰退有关,还与声带减弱等神经肌肉退化有关。他们使用这个模型来区分不同声带强度所产生的声音,具体包括了4个生物标志:肌肉衰退,声带长度,肺和呼吸道的变化,情绪状态,检测AD早期患者,模型能够达到93.8%的准确性。

新冠肺炎爆发之后,有证据表明新冠感染患者会发生一些类似的神经系统症状,比如暂时性神经肌肉损伤。他们思考这个模式能否通过迁移学习应用于新冠肺炎诊断。

他们将咳嗽音频化分为6秒的音频片段,从中提取出mfcc特征,经过泊松分布变化,再输入到三个并行ResNet50网络,再聚合,最后输出一个雷达图,根据雷达图的维度指标得到二分类结果。

实验结果图全是关于生物标志物的,我没细看这一部分,感兴趣的小伙伴可在https://ieeexplore.ieee.org/document/9208795下载paper自行食用。

In the future

  1. 他们可能会研究某个年领群体的新冠诊断
  2. 考虑加上cough segmentation,能否提高模型性能

MIT团队已经在考虑与财富100强的企业合作,将该模型整合到手机APP中