影视聚合站 科技 文章内容

周末文摘 | 基于云架构下多中心真实世界研究数据平台安全性设计要点分析

发布时间:2021-08-06 22:18:39来源:中国食品药品监管杂志

引用本文

杜金源,胡黎明,裴云飞*.基于云架构下多中心真实世界研究数据平台安全性设计要点分析[J].中国食品药品监管,2021(3):80-87.

基于云架构下多中心真实世界研究数据平台安全性设计要点分析

AnalysisoftheEssentialsaboutSecurityDesigninaMulti-centerRealWorldDataPlatformBasedonCloudArchitecture

杜金源

阿里健康科技(中国)有限公司

DUJin-yuan

AliHealthTechnology(China)Co.,Ltd.

胡黎明

阿里健康科技(中国)有限公司

HULi-ming

AliHealthTechnology(China)Co.,Ltd.

裴云飞*

阿里健康科技(中国)有限公司

PEIYun-fei

AliHealthTechnology(China)Co.,Ltd.

摘要/Abstract

近年来,基于真实世界研究(RWS)的证据结果在评价药物安全性及有效性方面的应用成为一个焦点问题。真实世界研究涉及研究设计和研究数据。其中,研究数据包括数据来源、数据标准、数据质量、数据共享、数据基础建设等。各种用于处理真实世界数据的研究平台被不断开发应用,尤其是基于云架构的研究平台可有效整合多研究中心的数据。然而若要保证云架构下临床真实世界数据的安全及隐私,需要一整套的安全方案来进行包装。从数据采集、数据存储、数据处理到数据共享,都需要严格的软硬件安全方案。当前,针对基于云技术支持真实世界研究的安全方案的讨论较少。本文介绍一种基于云架构的多中心真实世界数据平台的建设安全方案,以期为监管机构、企业界以及学术界提供一个可参考案例,助力真实世界研究在药物研发以及药物安全等不同领域的更多应用。

Inrecentyears,theapplicationofevidence-basedresultsfromrealworldstudies(RWS)toevaluatethesafetyandefficacyofdrugshasbecomeafocusissue.Realworldresearchinvolvesresearchdesignandresearchdata.Amongthem,researchdataincludesdatasources,datastandards,dataquality,datasharing,datainfrastructure,etc.Variousresearchplatformsforprocessingrealworlddataareconstantlybeingdevelopedandapplied.Inparticular,researchplatformsbasedoncloudarchitecturecaneffectivelyintegratedatafrommultipleresearchcenters.However,thesecurityandprivacyofclinicalrealworlddataunderthecloudarchitecturerequireawholesetofsecuritysolutionstopackage.Fromdatacollection,datastorage,dataprocessingtodatasharing,strictsoftwareandhardwaresecurityschemesarerequiredtoensuredatasecurity.Currently,securityschemesbasedoncloudtechnologytosupportrealworldresearcharerarelydiscussed.Thispaperintroducesasecurityschemeofmulti-centerrealworlddataplatformbasedoncloudarchitecture,inordertoprovidereferenceforregulators,enterprisesandacademia,andfacilitatemoreapplicationsofrealworldresearchindifferentfieldssuchasdrugdevelopmentanddrugsafety.

关键词/Keywords

真实世界研究;云架构;多中心数据平台;数据安全;医疗大数据

realworldresearch;cloudarchitecture;multi-centerdataplatform;datasecurity;medicalbigdata

临床研究以患者为主要研究对象,进而理解疾病的病因、诊断、治疗及预后。临床研究主要包括随机对照试验(randomizedcontrolledtrial,RCT)和真实世界研究(realworldstudy,RWS)[1]。在有效评估药品的安全性和有效性方面,真实世界研究产生的真实世界证据(realworldevidence,RWE)被认为是随机对照试验的一个非常好的补充。随机对照试验和真实世界研究的核心都是基于研究对象的各项数据进行分析,从而得出研究结论。研究数据包括前瞻性研究数据和回顾性研究数据,不仅包含研究对象的临床数据还包含随访数据、结局数据、日常健康数据等不同维度的数据。当前临床研究涉及的研究样本量越来越大,很多研究项目往往多中心并行开展,如何规范且按照统一标准收集并处理数据显得尤为重要。

在一些真实世界研究中,各种临床数据平台得到较多发展与应用,尤其是多家医疗机构乃至整个区域医疗机构的数据互联互通。得益于互联网及云端架构技术的不断发展,为了提高数据采集与管理的效率尤其是多中心临床研究项目的采集效率,多中心临床数据平台开始借助云端技术系统部署数据自动采集、数据存储、管理等[2]。

临床数据平台的数据涵盖大量的隐私信息,如何保证云架构数据平台的数据安全十分重要。云架构下的数据安全涉及大量信息安全的专业与技术,而不同临床数据平台又涉及较多临床数据标准、多源数据交互、逻辑核查等业务功能。如何在满足临床研究复杂业务流程的同时保障云上数据安全,成为一个难题。本文拟从云架构角度探讨多中心数据平台的安全方案,以期为临床研究乃至新药研发提供新的思路。

01

云平台医疗数据安全架构

2006年8月9日,谷歌前CEO埃里克·施密特在搜索引擎大会(SESSanJose2006)上提出了“云计算(cloudcomputing)”的概念。从2006年至今,云计算快速发展,目前市场主流的云服务有3种,包括公有云、私有云和混合云。

公有云是为外界用户、个人或企业提供的云基础设施。私有云是云计算的另一种形式,为企业或组织提供专用的云环境。混合云是一种云计算模型,通过安全连接组合一个或多个公有云和私有云环境,从而允许在不同云环境之间共享数据和应用程序。多中心数据平台可以根据用户的需求,基于公有云、私有云或者混合云的架构来建设云上的临床科研医疗大数据平台,并在这些云计算的动态环境中,构建和运行可弹性扩展的应用。展望云计算的未来,云原生场景的无服务器计算将会兴起、混合云将会在市场中占据主要地位,人工智能在数据中心的应用会越来越广泛,相信未来云计算和临床科研医疗也会碰撞出更多火花。

多中心数据平台是一个依托于云计算技术建立的临床科研医疗大数据平台。平台集成了当前云计算领域的计算资源优势和OneData大数据建模思想,并结合海量科研医疗专业数据,大大提升了医学科研工作者诊疗数据收集、整理、纳排检索等日常科研工作的效率。

多中心数据平台的核心安全技术能力主要体现在分中心数据采集、数据仓库建模、搜索引擎、统计分析、自然语言处理(naturallanguageprocessing,NLP)算法等技术模块中。由于医疗数据的医学专业性、敏感隐私性,技术架构的每一个环节必须全方位保障患者数据安全。针对医疗数据维度众多且复杂、数据清洗归一难度大、数据来源复杂等难点,多中心数据平台定制了一站式的数据技术架构和数据安全解决方案(图1)。

图1多中心数据技术架构方案

云平台安全架构:云平台参照国内外监管标准和行业最佳实践,将众多的合规控制点融入云平台内控管理和产品设计中,按照技术和管理双重管控并行的方式建立数据安全机制。云平台在安全合规架构、三级等保和个人信息保护方面取得了国家级认证。

数据采集安全:多中心数据平台在多家分中心的数据采集中,沉淀和积累了很多数据脱敏和采集安全保障的经验,在数据上行之前进行院内数据脱敏和加密,数据上行之后进行数据脱敏校验,双重措施保障了云上的数据是没有隐私的数据。

数据建模安全:基于OneData数据建模思想结合传统的医疗数据通用标准,通过医疗数据建模和数据清洗、归一化,再结合基于专科数据的深度学习实体识别技术,定制化输出结构化的医疗数据结果。

数据存储计算安全:数据存储计算分为分中心场景和云上场景。分中心场景主要借助于和医院信息科一同制定的数据安全策略来保障数据隐私;云上场景借助DataWorks实现安全保障。DataWorks的数据安全功能针对数据资产管理,提供数据识别、敏感数据发现、数据分类分级、脱敏、访问监控、风险发现预警与审计能力。

数据搜索安全:分布式搜索引擎的数据安全,是结合云平台强大的安全技术和商业版X-pack插件,提供企业级权限管控、实时系统监控等强大服务。保障医疗数据的加密,维护数据的隐私和安全。

数据传输安全:在技术方案的每一个环节中,都贯穿了数据的处理和计算,所以需要在系统的每一个环节保障数据安全,保护患者或者用户的隐私。

数据共享安全:可用不可见技术、差分隐私或者基于硬件的可信环境技术的发展,使得数据在充分保密的情况下进行数据的价值交换成为可能。

下文将介绍多中心数据技术在科研场景中的应用。

02

数据采集安全

2.1医院数据采集概况

目前,多中心数据平台在各家分中心做数据采集时,所遇到的前置数据平台的类型一般分为医院信息集成平台和医院数据备库两种形式。与这两种不同类型的前置数据平台对接也需要对应的数据抽取方案。多中心数据平台在分中心数据采集时采用了去中心化的架构,所有底层数据的脱敏、清洗、标准化均放在分中心进行,相当于将传统数据仓库的临时层(stage,STG)下沉到分中心。数据通过一系列数据抽取任务之后,最后汇聚到中心化的数据仓库中进行数据仓库建模。

目前,我国大部分医院在信息化建设当中缺少系统性的规划,主要体现在医院信息化建设分布不均匀,在实际的信息系统建设规划上主要集中在部分省份和地区,一线城市较多。这一现象导致一线城市与二线、三线城市在医疗信息化水平上发展明显不平衡[3]。

目前不同区域医院之间信息化程度处于不均衡的状态,所以在设计数据采集系统中遇到的最大问题是医院所用信息厂商不同带来的数据结构和标准不同。构建统一的信息化管理系统能够实现对数据信息的有效应用,加强各部门对大数据信息的有效把握,促进数据集成和信息共享,有效提升医院信息化发展水平。在构建统一化的标准体系过程中,要注重对现阶段医学术语标准体系的把握,做好数据编码工作,从而使医学专用术语更加标准,实现对医院数据信息的归类化处理。

针对数据结构不统一的问题,多中心数据平台结合科研业务的属性,基于不同的分中心数据结构,制定了统一规范的科研医疗数据采集标准集。并且针对敏感隐私数据,结合相应法律法规,在数据采集标准里制定了相应的数据脱敏方案,严防敏感信息和个人信息泄漏。

2.2院内数据采集

医院集成平台(clinicaldatarepository,CDR)是以患者维度打通院内不同信息系统间的诊疗数据。集成平台通常以消息队列或者超文本传输协议(hypertexttransferprotocol,HTTP)接口作为对外的数据开放接口。通过医院前置机上采集CDR或者不同信息系统数据,多中心数据平台通过院内部署的数据脱敏加密组件和数据读取上行组件进行数据脱敏上行至多中心数据平台。

多中心数据平台依托云平台在云计算上的计算和安全优势进行构建。参照国内外监管标准和行业最佳实践,将众多的合规控制点融入云平台内控管理和产品设计中,按照技术和管理双重管控并行的方式建立数据安全机制。总体安全策略包含全天24小时安全扫描(代码、交互、网站、移动端、基线、流量检测),并且提供了强大的安全服务,包含基础安全服务、虚拟防火墙安全组、分布式拒绝服务(distributeddenialofservice,DDoS)和基础防护服务。所有实体组件系统(entitycomponentsystem,ECS)都通过随机存取存储器(randomaccessmemory,RAM)访问控制。通过不同安全策略,进一步保障临床数据的采集、传输,以及云上安全。

03

数据建模安全

3.1隐私信息脱敏

在医院的患者病案首页,患者信息和医嘱单信息中存在患者身份证号、医保ID、家庭住址、个人手机号、家庭联系人等个人敏感信息字段。这些敏感字段的范围参考了美国《医疗电子交换法案》(HealthInsurancePortabilityandAccountabilityAct,HIPAA)以及我国对临床数据安全的要求,主要包括数据资产识别、敏感数据发现、敏感数据识别规则等内容[4]。对于这些敏感的隐私信息,平台主要通过编写自定义函数(userdefinefunction)、敏感数据识别规则配置和敏感数据发现来过滤敏感字段。在数据采集时自动删除敏感字段,从根源去除敏感信息的上行。

电子病历(electronicmedicalrecord,EMR)是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的医疗记录,用以取代手写纸张病历。电子病历会记录患者从入院到出院病历的普通记录和手术操作等事件。由于文本大多比较详细,所以难免会涉及患者的隐私信息,如姓名、职业、地域等信息。针对这些文本中的敏感信息,通常会根据医院提供的脱敏患者维度,来遍历所有病历文本,将匹配上的患者信息用特殊符号(如“*”号)来做混淆。

从患者挂号时在系统中留下入院记录开始,医院就会给患者分配一个患者ID和住院号。而医生在做科研时往往会从患者ID或者住院号识别,或者从系统查询出这个患者的真实信息,造成患者信息泄漏。因此,程序对所有进入索引的患者都使用不可逆的加密算法进行了ID加密,该ID在系统内具有唯一性和一致性。加密后的ID只能在本系统里查询到病历,外部任何系统都无法获取到用户信息[5]。

3.2专病字段的安全等级划分

多中心数据平台涉及不同中心的人员使用,且临床科研需要不同角色协同完成,如临床主要研究者(principalinvestigator,PI)、临床协调员(clinicalresearchcoordinator,CRC)、随访助手等。不同查询场景的用户权限大小会影响该用户所能查询到的数据范围。基于这个场景,平台根据科研字段的敏感性对字段进行了安全等级划分,每一个权限等级的用户只可以查询到该用户权限层级的字段,从而实现根据用户等级进行数据分级访问的权限管控。

04

数据存储计算安全

移动互联、三网合一扩大了网络的涵盖范围,互联网正面临一场新的变革,云计算的产生使得一个平台多种应用成为可能。同时,随着网络带宽等技术的发展,通过网络访问非本地的计算服务(包括数据处理、存储和信息服务等)的条件越来越成熟,推进了云计算技术的发展[6]。

云计算技术的普及,对云计算存储的安全带来巨大考验。存储数据安全的要求,可以用信息安全基本三要素“CIA”来概括,即机密性(confidentiality)、完整性(integrity)和可用性(availability)。机密性专指受保护数据只可以被合法的(或预期的)用户访问,其主要实现手段包括数据的访问控制、数据防泄露、数据加密和密钥管理等手段;完整性是保证只有合法的(或预期的)用户才能修改数据,主要通过访问控制来实现,同时在数据的传输和存储中可以通过校验算法来保证用户数据的完整性;数据的可用性主要体现在云上环境整体的安全能力、容灾能力、可靠度,以及云上各个相关系统(存储系统、网络通路、身份验证机制和权限校验机制等)的正常工作保障。

临床科研平台系统的建设大大节省了临床科室收集数据的时间。同时,针对一些复杂的检索条件,可以简单便捷地过滤相关病历数据,也可以查看和搜索查询出的病历,有助于临床科研工作[7]。

05

数据搜索安全

科研数据平台的产品核心竞争力是基于医疗专科数据的实时多维分析和搜索引擎,依托于ElasticSearch实时分布式的搜索与分析引擎的计算能力,用户可以快速地近乎准实时地存储、查询和分析海量医疗数据集。支持构建复杂的查询特性和高性能索引,是医疗应用领域强有力的基础搜索引擎。支持用户基于病历和患者维度,进行多维数据分析和搜索查询。根据用户的复杂查询逻辑,构建查询搜索逻辑树,在语义上保证数据分析结果的准确性,实现了基于医疗专科数据的实时多维分析和搜索功能。、

搜索引擎主要基于商业版X-pack插件来保障搜索安全,提供企业级权限管控、实时系统监控等强大服务。可弹性扩展到上百台服务器规模,处理PB级结构化或非结构化数据。

多中心数据平台建立了自己的用户权限管理体系,通过账户的分中心属性来管理用户的查询权限。在搜索引擎的搜索逻辑设计上,对不同分中心的用户账户提供了相对应中心数据的访问权限,从查询操作上保障了分中心数据的权限独立性。医院需做科研的医生没有经过授权允许,不能访问其他医院的数据。

06

数据传输安全

多中心数据是敏感数据,要求数据传输过程安全且不易受到劫持。鉴于此,多中心数据通过《SSH文件传输协议》(SSHFileTransferProtocol,SFTP),或者是《安全文件传输协议》(SecureFileTransferProtocol),保证数据传输过程安全可靠[8]。

临床研究数据获取及存储现状表明,电子医疗信息获取存在困难,仍需要大量的手工数据转录,缺少安全考虑的存储方式以及多系统来源数据合并困难,这都给临床数据的可溯源、准确性、完整性等带来严重问题,特别是在面向真实世界数据的情况下,亟待基于真实世界数据来源、通过数据治理来构建方便安全高效的临床研究数据管理体系[9]。多中心数据平台通过软硬件、流程机制以及云平台本身的安全机制共同保证数据平台的数据采集、数据存储、数据共享使用等不同过程的安全及可控,为临床研究数据平台建设提供新的思路。

07

数据共享安全

多中心数据平台集合了多家医疗机构中心的数据。数据仅仅是一个基础,只有被安全共通及共享,才能体现数据的价值。通过技术手段打通数据壁垒,能保护数据的隐私,为更好地应用多中心数据平台的数据提供支持。

传统方式的数据共享方案是各方将数据汇集到数据中心平台,通过申请账户使用,这会导致数据分配不均、数据隐私保护不够等问题。此时,区块链技术应运而生。区块链技术指的是各方都遵守一个共识机制[10],链式的数据结构保证了分布式数据库的不可篡改。区块链实现了交易透明、隐私保护、数据自治,保证了上链数据的真实准确性,使多个参与方都能建立信任关系。

多中心数据平台采用区块链技术,打通医疗机构,实现区块链技术在医疗领域的软着陆,对权限控制、数据隐私保护、数据多方共享使用等都做了较好的控制,精简了数据的输入及输出过程,为电子病历流通和临床科研提供了技术支撑。

08

结论

本文介绍了一种基于云架构的多中心真实世界数据平台的数据采集、数据建模、数据存储计算、数据搜索、数据传输、数据共享方面定制一站式数据技术架构和数据安全解决方案。该方案有效保障了临床研究数据平台的云上数据安全,期望其数据平台设计以及安全方案可为监管机构、企业界以及学术界提供一个新的参考思路,助力临床研究尤其是真实世界研究更有效、更节约的多领域应用。

第一作者简介

杜金源,硕士,阿里健康科技(中国)有限公司,高级大数据专家。专业方向:大数据技术,数据仓库,实时计算

通讯作者简介

裴云飞,博士,阿里健康科技(中国)有限公司,资深运营专家。专业方向:健康医疗大数据

本文参考文献请扫描二维码查阅

你“在看”我吗?

© 2016-2017 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-2 )