如何克服安全障碍去解锁医疗数据
医疗保健行业是数据最丰富的行业之一,但由于严格的隐私和安全法律,数据科学家无法利用这些数据做太多事情。但现在,由于云计算中强大的安全设置和隐私保护分析技术的使用,Providence健康公司开始解开数据科学家的“手铐”,并在大医疗数据上展开创新。
Providence健康与服务公司拥有52家医院、1000多家诊所和约12万名员工,是美国最大的医疗保健集团之一。与大多数医疗保健公司一样,Providence健康公司采取措施维护患者数据的完整性。毕竟,没有人想要违反HIPAA(Health Insurance Portability and Accountability Act 健康保险携带和责任法案/医疗电子交换法案),每违反一次就要罚款5万美元。
在这家总部位于华盛顿伦顿(Renton)的公司着手更新其数据分析架构时,安全问题是他们最关心的问题,首先是将老旧的SQL Server数据仓库迁移到微软Azure云上。Providence的数据科学总监林赛·米科表示,该公司在2019年底与Databricks和其他公司合作建立新的数据环境时,采取了额外的预防措施,以确保对数据保持严格的控制。
“Providence为安全云设置了一个独特的高标准,”米科说。“与我合作的每一家科技公司....认为这就是安全云的样子。然后他们开始与我们合作,他们很快就会对标准的设定产生疑虑。我们与微软和Databricks携手合作,打造新的部署架构,我们需要一些与公共互联网隔绝的东西能够妥善保护患者数据。”
Snowflake也参与了Providence新的基于云的数据架构。最初的项目是将老化的SQL Server仓库迁移到Snowflake数据仓库中,后者将为分析业务和临床数据提供一个更可伸缩的系统。Providence足够大,可以容纳多个数据仓库中的用户,因此Databricks和Snowflake环境是独立存在的。
成本控制是Providence新云仓库的一个重要目标,该云仓库用于传统分析以及构建和运行机器学习模型。作为一家非营利性天主教医院,Providence的使命是帮助穷人和有需要的人,它有责任提供负担得起的医疗服务,而分析可以在这方面提供帮助。
“我们还知道,医疗保健存在成本泡沫。病人的费用一直在上涨。医疗保健系统的利润极其微薄。这是双输,”他说。“因此,找到利用数据和分析控制成本的方法——这是整个医疗保健体系的存在价值。”
一些最初的用例涉及到使用机器学习模型来预测患者需求,包括像发病率和住院时间等。这些预测被输入到一个人员配置模型中,该模型告诉Providence,在接下来的两个月里,服务人员需求可能会是什么样子。
云端的无限弹性是公司之前使用的一个重大升级。虽然数据仓库迁移在COVID-19大流行之前就开始了,但米科和他的团队在大流行期间完成了大部分工作。这家医疗保健公司利用了Epic Systems公司的电子病历(EMR)软件自带的几个开箱即用的机器学习模型,这些模型运行良好。作为Epic最大的用户,机器学习模型的成功对Epic的研发团队来说是个好兆头。
同时它加速了下一代系统的部署,包括远程医疗。“我们已经准备好了。我们有一个非常强大的基础设施来处理远程医疗。能够向远程医疗转移大量的数据。它还推动了预测分析的发展。围绕死亡风险、ICU住院时间和大流行早期的一些其他模型部署了一些模型。这些都是内置在Epic中的应用。这只是漫长旅程的第一步。人工智能在改善临床护理方面有更多的机会。”米科说。
例如,该公司正在对源自Epic的健康级别7 (HL7)医疗文件进行实时分析。使用Spark Streaming处理这些数据,然后将其实时加载到Databricks仓库的表单中。
他说:“这项工作一开始是为了建立我们所说的任务控制中心,它可以实时查看医院的情况。”
任务控制中心的早期用例之一是获得对单个医院资源的可见性,以确定它是否能够处理传入的病人。这是有助于防止医院人满为患的有用工具,在COVID-19疫情高峰期,医院人满为患是一个非常现实的威胁。
利用分析和人工智能改善业务和临床运营,他说:“这是一个很好的起点,一旦你对医疗保健系统正在发生的事情有了实时的了解——谁在那里,你需要什么,并与他们的图表联系起来——你就可以开始预测接下来会发生什么。你可以开始优化关于临床护理或手术的决策。所以我对任务控制非常感兴趣。”
该公司正在考虑利用一些更强大的人工智能技术,包括深度学习,以进一步优化其运营和改善医疗服务。具体来说,它正在与John Snow实验室及其Spark NLP模型合作,以便能够从医生的病历中提取有意义的数据。
在处理这种级别的敏感数据时,安全性和隐私性是最重要的,因此Spark NLP的首要任务是去识别关于患者的医生记录。这家医疗保健公司正在使用来自John Snow实验室的经过预先训练的模型,该模型可以识别日期、姓名、地址和邮政编码等标识符。
Providence旗下的技术和服务公司Tegria的高级数据科学家纳达·泰亚布(Nadaa Taiyab)说,“它的工作效果令人惊讶地好。”
在标记标识符之后,Providence用虚拟数据替换数据,从而消除了私人健康信息(PHI)的风险。这一过程使Providence能够使用聚合的医疗数据进行高级分析和训练机器学习模型。
Taiyab说,虽然混淆步骤降低了PHI落入错误之手的风险,但有时需要真实的患者数据,特别是在使用机器学习模型时。“如果你把它聚合起来,就不能把它用于机器学习,如果你试图在病人的水平上预测一些东西。”“如果你想在群体水平上预测它,这是一回事。但你需要有患者级别的数据”来进行患者级别的预测。
Providence还可以通过系统生物学研究所(ISB),将其患者数据用于进一步的医学研究。ISB是一家位于华盛顿州西雅图的医学分析公司,由人类基因组计划的研究人员之一Leroy Hood博士创建。Providence所做的数据安全工作使其能够与2016年收购的ISB共享数据。
米科表示,ISB挖掘Providence的大型医疗数据仓库的能力对ISB对健康状况的研究非常重要,例如长期COVID-19。“这只是一个例子,说明当你能够在安全的云环境中部署和集成数据时意味着什么。”他说。
随着Providence探索使用高级分析和人工智能的其他方法来改善其医疗保健使命,对构建安全云数据架构的投资有望获得回报。
“Providence已经为医疗保健的安全云设计了一幅蓝图,”米科说。“这需要大量的反复练习,大量的学习,与我们的合作伙伴进行大量的合作。在每一步都在改进它。当我们学习新东西时,部署模型会发生变化。但我们认为有一个非常可靠的蓝图。”获取数据仍然是这方面取得进展的主要障碍之一。Providence为降低安全和隐私风险所做的工作是良好的第一步,但还有更多的工作要做。