论文:Scalable and accurate deep learning for electronic health records研读笔记

参考链接:https://www.cnbeta.com/articles/tech/703459.htm

https://blog.csdn.net/cskywit/article/details/79192855

http://tech.sina.com.cn/roll/2018-02-04/doc-ifyreuzn2571006.shtml

https://www.linuxprobe.com/depeen-study.html

https://blog.csdn.net/qq_40954115/article/details/79554051

邓侃解读:深度学习病历分析前沿进展

--------------------- 本文来自 yimixgg 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/yimixgg/article/details/79849563?utm_source=copy

作者:邓侃

【新智元导读】上周,谷歌公布了首篇电子病历相关论文,由Jeff Dean率队联合众多大牛和*医学院完成。然而,不少业内人士,包括康奈尔大学副教授王飞博士都认为该论文质量一般。但是,本文作者,大数医达创始人、CMU博士邓侃指出,这篇论文的意义在于完整地披露了Google Medical Brain项目的目标、方法、规划和进展,并且为“深度学习在医疗领域的应用”定义了一套标准。正所谓“三流企业做产品,二流企业做服务,一流企业做标准”,做AI跟着谷歌老大哥走不会错,而现在谷歌既已公开了这套标准,动作快跑在前面还可能赢!因此,这篇论文,还得细细研读。

论文:Scalable and accurate deep learning for electronic health records研读笔记

上周,2018年1月24日,Google Brain 大神 Jeff Dean,率领另外 30 余号人,联名发表了一篇论文,题为 “Scalable and accurate deep learning for electronic health records”,业界反响热烈。

反响热烈的原因,大致有以下几条,

1. Google Brain 大神 Jeff Dean 亲自出马,可见此文重要性很高。

2. 这是谷歌医疗大脑项目组的第一篇论文。

3. 论文联名作者,很可能涵盖了谷歌医疗大脑(Google Medical Brain)项目组的主要成员。其中包括 Claire Cui,她是 Larry Page 斯坦福师妹,不仅在谷歌资历深,而且职位很高,是 Google Brain 的中枢人物。

论文:Scalable and accurate deep learning for electronic health records研读笔记

但是,这篇论文的争议也不少。总结来看:

1. 这篇论文的实验结果,不是特别抢眼。

2. 与传统算法的对比实验,不够完整。只对比了最基本的传统算法,没有对比改进版传统算法。

3. 超过 20 万 GPU 小时,深度学习算法的计算成本太高。

4. 总共只收集了 21.6 万条住院病历数据,训练数据量太小。

但是,有一点可能被不少人忽视了:这篇论文实际上把 Google Medical Brain 项目的目标、方法、规划和目前进展,介绍得相当完整。

个人理解,这篇论文的重点,正是在于介绍 Google Medical Brain 项目的目标、方法和规划。至于目前已经取得的阶段性成绩,并不是评判这篇论文的唯一着眼点。

 

关键意义:给出 Google Brain 版深度学习医疗标准

Google Medical Brain 这篇论文,定义了以下几个问题。

1. 定义了深度学习医疗要解决的问题:预测三个方面指标,

治疗疗效,譬如在院死亡率,和计划外的复诊率;

医疗成本,譬如住院天数;

诊断精度,譬如出院诊断。

2. 定义了深度学习医疗的基本方法:Google Medical Brain 摈弃了人工智能医疗的传统方法,不再从医学文献中整理权威的临床规则,而是转移到从海量病历中整理实际的临床经验。换句话说,改传统的演绎法为经验归纳法。

收集海量病历;

把每一个病历转换成一条临床路径时间序列;

用深度学习算法,预测时间序列。包括用病情描述,预测疾病诊断,预测死亡率。用病情描述加治疗方案,预测复诊率和住院天数等等。

3. 定义了预测精度的评估指标:评估指标用 AUROC,而不是用 F1。

4. 总结了传统的预测方法:明确定义了治疗疗效、医疗成本、和诊断精度,这三类指标,传统方法用哪些因子和公式来预测。

5. 规定了整合多源异构病历数据的标准:沿用开源的 FHIR 标准。

6. 提出了一种解释深度学习结果的可视化方法:把病历展开为可视化的时间轴,高亮对预测有显著作用的重要因子,以此来解释深度学习在预测时,更看重哪些因子。虽然“看重”不能严谨地表达预测的全部逻辑,但能解释局部逻辑,总比没有强。

7. 提出了几种处理临床路径时间序列的深度学习算法:其中,个人感觉,an attention-based time-aware neural network model (TANN),最值得深入研究。

 

AI“带头大哥”谷歌已经公布自己的标准,掉队还是超越看你选择

三流企业做产品,二流企业做服务,一流企业做标准。

在人工智能领域,谷歌是实际的标准制订者之一。

在人工智能医疗领域,最值得关注的,是谷歌旗下两个部门的工作,一个是 Google Medical Brain,另一个是 Google DeepMind。

 

DeepMind 打败所有人类围棋高手以后,转场去研究人工智能家庭医生。以英国为例,家庭医生从业人数不足,人力成本高昂,临床水平参差不齐。但迄今为止,DeepMind 没有完整地披露人工智能家庭医生项目的目标、方法、规划。

因此,谷歌大脑这首篇电子病历论文的意义在于,不仅完整地披露了 Google Medical Brain 项目的目标、方法、规划和进展,还实际上给 “深度学习在医疗领域的应用”,定义了一套标准。

跟着带头大哥走就好了,别掉队。

走快点,跑起来,跑到前面去了,就赢了。

http://www.sohu.com/a/141786948_390227

FHIR作为核心数据模型

在过去几年中,我们一直在与学术医疗中心进行合作,利用机器学习的方法“去识别”(de-idenTIfied)医疗记录(即剥离任何个人身份信息,以预测未来可能的情况,可以在症候出现前预知患者的需求。),很明显我们需要正视医疗保健数据中的复杂性。事实上,机器学习对于医疗数据来说非常有效,因此我们希望能够更加全面地了解每位患者随着时间的推移发生了什么。作为红利,我们希望拥有一个能够直接应用于临床环境的数据表示。

 

尽管FHIR标准能够满足我们的大多数的需求,但是使用医疗数据将比“传统”的数据结构更容易管理,并且实现了对立于供应商的大规模机器学习。我们相信缓冲区的引入可以帮助应用程序开发人员(机器学习相关)和研究人员使用FHIR。

协议缓冲区的当前版本

我们已经努力使我们的协议缓冲区表示能够通过编程式访问以及数据库查询。提供的一个示例显示了如何将FHIR数据上传到Google Cloud的BigQuery(注:BigQuery 是 Google 专门面向数据分析需求设计的一种全面托管的 PB 级低成本企业数据仓库。)并将其提供给外部查询。我们也正在添加其他直接从批量数据导出并上传的示例。我们的协议缓冲区遵循FHIR标准(它们实际上是由FHIR标准自动生成的),但也可以采用更优雅的查询方式。

目前的版本还没有包括对训练TensorFlow模型提供支持,但未来将更新。我们的目标是尽可能地开源我们最近的工作,以帮我们的研究,使其更具可重复性并能够适用于现实世界的场景当中。此外,我们正与Google Cloud中的同事进行密切合作,研究更多用于管理医疗保健数据的工具。

 

 

谷歌欲用FHIR进行医疗预测,「AI+医疗」时代来袭

 

论文:Scalable and accurate deep learning for electronic health records研读笔记

论文:Scalable and accurate deep learning for electronic health records研读笔记

图:pixabay

Google渴望将其深度学习能力和对FHIR的熟悉程度,应用于医疗保健预测分析的问题。

为了不断追求增强机器学习准确性和效果,科技巨头的研究人员们正在扩大与领先医疗机构的合作伙伴关系,以创建更先进的预测分析。

谷歌正与芝加哥大学、斯坦福大学和加州大学旧金山分校开展合作,利用深度学习与创新的数据标准——比如FHIR(Fast Health Interoperable Resources,快速医疗互操作性资源),解决一些医疗保健最难处理的成本、质量和患者安全问题。

深度学习、机器学习、认知计算,或者说人工智能,在过去一段时间里已经取得了突飞猛进的发展,因为所有行业的开发人员将资源投入其数据科学部门。

医疗保健是这一趋势的早期受益者,来自Google和其他企业的许多项目都突出了机器学习用于诊断和预测分析的价值。

今年3月,Google研究人员发表了一篇名为论文《Detecting Cancer Metastases on Gigapixel Pathology Images》的论文(https://drive.google.com/file/d/0B1T58bZ5vYa-QlR0QlJTa2dPWVk/view),解释机器学习如何通过与人类病理学家一样准确地识别转移癌症组织,在病理学中发挥重要作用。

论文:Scalable and accurate deep learning for electronic health records研读笔记

深度学习算法产生了非常大的活检图像的“热图”,以识别肿瘤细胞的存在。鉴别乳腺癌已经扩散到淋巴结时,算法的准确率达到89%,而人类病理学家的准确度仅为73%,在鉴别任务上花费了30个小时。

斯坦福大学的研究人员也利用了Google机器学习的功能来识别皮肤癌。在今年的《自然》杂志发表的一篇名为《Dermatologist-level classification of skin cancer with deep neural networks》论文(https://www.nature.com/nature/journal/v542/n7639/full/nature21056.html)中,该团队指出,人工智能算法与21名传统皮肤科医师的诊断性能相符。

论文:Scalable and accurate deep learning for electronic health records研读笔记

Google Brain团队的Katherine Chou认为,这些举措只是机器学习可以为患者服务的开始。

“我们准备做更多的事情,机器学习已经足够成熟,可以准确预测医疗事件,例如病人是否住院,住院多久,以及在治疗尿路感染、肺炎或是心脏衰竭时,患者的病情是否恶化。” Katherine Chou在Google博客中公布了与芝加哥大学最新的医疗研究合作伙伴关系时写到。

“高级机器学习可以检测‘去识别’(de-identified)的医疗记录 (即剥离任何个人身份信息),以预测未来可能的情况,可以在症候出现前预知患者的需求。”

她补充说,这些大数据分析工具的需求是“紧迫而巨大的”。虽然行业近年来在改善患者安全和减少可避免再入院方面取得了重大进展,但仍有更多工作要做。

“美国每年因医疗事故感染致死的患者多达 99000 人,因不当药物治疗导致的伤残和死亡患者超过 77 万人,因病情复发导致再次住院的医疗花费高达170亿美元。”Katherine Chou指出:“在世界范围内该问题同样紧迫:每年有4300 万人因医疗失误受到伤害,多数集中在中低收入国家。”

机器学习会成为开发算法的关键,提供更主动的警报、全面的临床决策支持和预测分析,使供应商能够预防昂贵的危机事件的发生。

但是,即使是Google也无法逃脱数据分析无情的敌人——缺乏信息治理、互操作性和数据完整性,这使得收集和处理来自不同组织的大量数据变得非常困难。

“不同医疗中心的独特数据记录方法使得从不同诊所的检查结果中总结互通性非常困难,” Katherine Chou说到,“缺乏数据标准性和互通性也使得这些差异的解决非常耗费时间和人力。”

Google正在通过将其深度学习技术与FHIR相结合来克服这些障碍,从而使组织和技术障碍之间的数据流动顺利进行。

在2017年初,Google通过与HL7 FHIR基金会合作,宣布对FHIR的承诺。谷歌云医疗保健副总裁Greg Moore表示:“FHIR基金会和Google Cloud将共同合作,支持FHIR开发生态系统,并为医疗保健生态系统的数据互操作铺平道路。”

“这种合作是帮助开发人员快速构建基于FHIR的体验的重要一步,而不需要担心底层基础设施—这就是云的关键优势。”他补充说。

“这些努力加上Google与学术研究中心的持续合作,可能会在未来几个月和几年内带来许多新的进展。” Katherine Chou说。

开发可以使用EHR数据、声明数据、患者生成的健康数据、成像数据和其他信息来源进行预测分析和诊断的算法,将成为在护理连续体*享知识、数据和思想的关键。

“我们相信,只有当医学界和深度学习的专家密切合作时,使用机器学习的临床突破才会到来。”她说。

“我们大多数在Google工作的人都不是医生,但每个人都生过病或受过伤,甚至失去了亲人。我们在Google有各自的独特优势,我们可以为改善医疗条件做出贡献,所以我们必须尝试。我们期待着增加我们的医疗保健合作伙伴,希望能够共同提高全球数百万人的健康水平。”