隐私计算解决方案

当前位置: 首页 > 隐私计算解决方案

隐私计算解决方案

隐私计算解决方案

什么是隐私计算

隐私计算(Privacy compute 或Privacy computing)是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用、不可见”的目的;在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。

隐私计算分类

隐私计算是涵盖众多学科的交叉融合技术,目前主流的隐私计算技术主要分为三大方向:

第一类是以多方安全计算为代表的基于密码学的隐私计算技术;

第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;

第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。 

 

以多方安全计算为代表的基于密码学的隐私计算技术

基本方案架构

多方安全计算(Secure Multi-party Computation,MPC)是指在无可信第三方的情况下,多个参与方共同计算一个目标函数,并且保证每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入数据(除非函数本身可以由自己的输入和获得的输出推测出其他参与方的输入)

wps38.jpg

如图所示,从底层硬件来说,多方安全计算以通用硬件作为底层架构设计基于密码学的算法协议来实现隐私计算。从算法构造来说,多方安全计算是多种密码学基础工具的综合应用,除混淆电路、秘密分享、不经意传输等密码学原理构造的经典多方安全计算协议外,其它所有用于实现多方安全计算的密码学算法都可以构成多方安全计算协议。从算法应用来说,多方安全计算根据其可在各方不泄露输入数据的前提下完成多方协同分析、处理和结果发布这一技术特点,广泛应用于联合统计、联合查询、联合建模、联合预测等场景,也可以支持用户自定义计算逻辑的通用计算需求。

技术特点

多方安全计算能够在不泄漏任何隐私数据的情况下让多方数据共同参与计算,然后获得准确的结果,可以使多个非互信主体在数据相互保密的前提下进行高效数据融合计算,达到“数据可用不可见”。最终实现数据的所有权和数据使用权相互分离,并控制数据的用途和用量,即某种程度上的“用途可控可计量”。多方安全计算具有很高的安全性,要求敏感的中间计算结果也不可以泄漏,并且在近 40 年的发展中其各种核心技术和构造方案不断接受学术界和工业界的检验,具有很高的可信性,其性能在各种研究中不断提升,现在在很多场景下已经达到了产业能实际应用接受的程度。

 

以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术

基本方案架构

联邦学习(Federated Learning,FL)是实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练。联邦学习参与方一般包括数据方、算法方、协调方、计算方、结果方、任务发起方等角色,根据参与计算的数据在数据方之间分布的情况不同,可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。

wps39.jpg

如图所示,从底层硬件来说,联邦学习一般以通用硬件作为底层基础设施。从算法构造来说,常应用同态加密、差分隐私技术以及包括基于秘密分享、不经意传输、混淆电路等密码学原理的各类多方安全计算协议和其它用于保证隐私计算的密码学技术来提升安全性。从算法应用角度来说,随着产业应用的需求,联邦学习框架也可与可信执行环境配合使用,提供安全性、应用性更强的综合解决方案。由于联邦学习是基于人工智能的技术工具,为提升用户隐私和数据安全前提下的联合 AI 模型训练效果而提出,因此广泛应用于联合建模、联合预测等场景中。

技术特点

联邦学习针对传统的由建模方(计算方)收集明文数据并进行人工智能模型训练存在的泄露训练数据隐私的问题而提出,通过对各参与方间的模型信息交换过程增加安全设计,使得构建的全局模型既能确保用户隐私和数据安全,又能充分利用多方数据,是解决数据孤岛和数据安全问题的重要框架,其强调的核心理念是“数据不动模型动,数据可用不可见”。

 

以可信执行环境为代表的基于可信硬件的隐私计算技术

基本方案架构

可信执行环境(Trusted Execution Environment,TEE)通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。

目前主要的通用计算芯片厂商发布的 TEE 技术方案包括 X86 指令集架构的 Intel SGX(Intel Software Guard Extensions)技术、AMD SEV(Secure Encrypted Virtualization)技术以及高级 RISC 机器(Advanced RISC Machine,ARM)指令集架构的 TrustZone 技术。而国内计算芯片厂商推出的 TEE 功能则包括兆芯 ZX-TCT(Trusted Computing Technology)技术、海光 CSV(China Security Virtualization)技术,以及 ARM 架构的飞腾、鲲鹏也已推出自主实现的 TrustZone功能。

wps40.jpg

如图所示,从底层硬件来说,TEE 将多方数据集中到可信硬件构建的可信执行环境中一起进行安全计算。TEE 中可信硬件一般是指可信执行控制单元已被预置集成的商用 CPU 计算芯片。从基础算法来说,为了保证传输至可信环境中的数据的安全性,TEE 常结合相关密码学算法来实现加密和验证方案。从应用角度来说,作为通用的计算平台,TEE 可以在可信执行环境中对多方数据完成联合统计、联合查询、联合建模及预测等各种安全计算。

技术特点

TEE 通过隔离的执行环境,提供一个执行空间,该空间有更强的安全性,比安全芯片功能更丰富,提供代码和数据的机密性和完整性保护。另外,与纯软件的密码学隐私保护方案相比,TEE 不会对隐私区域内的算法逻辑语言有可计算性方面的限制,支持更多的算子及复杂算法,上层业务表达性更强。利用TEE提供的计算度量功能,还可实现运行在其内部的身份、数据、算法全流程的计算一致性证明。


隐私计算的场景

政务场景

政务数据规模大、种类多,涉及公安、司法、交通、水利、税务、电力、环境等关系社会生产的方方面面,政务数据的流通和共享将发挥巨大的作用。但各机构间的数据孤岛难以快速消除,数据合规和安全管控要求严格,因此如何让政务各部门间、政务与企业间进行数据共享应用,是当前面临的主要问题。

在隐私计算政务应用场景中,主要有政务数据共享(如使用公共数据平台)和政务数据开放两种形式。数据提供方多是政府、医疗机构、金融机构、运营商等,数据使用方则是政府、医疗机构、金融机构、企业等,主要用于金融风控、商业选址、健康医疗、群租房、劳动就业、人口迁移等方面。目前,主要的应用场景如下图所示。

wps41.jpg 

医疗场景

医学研究、临床诊断、医疗服务和基因分析等工作依赖大量数据的累积,这些数据多是个人健康数据,分散在各个医疗机构和业务系统内,数据开放共享和联合应用难度大。因此,机构间数据如何安全流通,实现医疗应用场景的创新是当前面临的难题。

在隐私计算医疗应用场景中,数据融合应用主要有两种形式,一是跨医疗机构之间的数据共享流通,二是医疗开放数据与政企等单位数据的融合应用。数据提供方多是医疗机构、基因测序机构、科研机构等,数据使用方则是医疗机构、科研机构、制药企业等,主要用于基因组学分析、群体遗传学分析等医学研究、药物研发、辅助诊疗和疫情防控等方面。目前,主要的应用场景如下图所示。

wps42.jpg 

 

金融场景

金融行业作为数字化应用最为广泛的行业之一,在数据采集、生产、挖掘中有着丰富的积累与需求,数据价值贯穿于金融风控、营销、运营等全业务流程。随着数据合规、信息安全、隐私保护的要求趋严,隐私计算在金融行业呈现出较大的应用空间。

在隐私计算金融场景应用中,金融机构一般作为数据需求方,通过隐私计算技术引入外部数据提高普惠金融、风控管理、精准营销等效果。数据提供方主要是金融机构、互联网平台、运营商、政府部门等。由于金融场景广泛、复杂,本文以联合风控、联合营销两个大场景举例,根据细分场景的业务逻辑及目标结果,可通过不同的隐私计算算法完成。

wps43.jpg