随着大数据时代的到来,数据渗透到当今每一个行业和业务职能领域,成为关键的生产要素之一,如何更好的存储数据并挖掘其中的潜在价值成为了当前相关行业的研究重点。人们逐渐意识到,大数据的价值在于多源数据的融合,只有各类不同源的数据更好的开放、流通、共享,才能更好的提取其中的价值。否则,独立存在、互不共享的数据源只会形成一个个数据孤岛。 早在2017年大数据产业峰会上,中国工程院院士、中国互联网协会理事长邬贺铨就表示“数据资源的流动性和可获取性是大数据应用和产业发展的基础,直接关系到大数据价值的实现情况”。 目前,随着云计算、物联网、机器学习等技术的逐步成熟,大数据的产生、采集、存储、处理等问题都得到了很好的解决,但数据开放共享所面临的问题远比想象的复杂。 首先,数据所有者是否愿意共享数据,如何保证共享过程中一些隐私数据不会泄露?其次,目前的数据存储及处理技术如数据库、云计算等都是基于中心化服务的思想而设立的,这必然导致数据高度集中,形成数据垄断,那么如何在数据所有权和数据共享之间找到合适的平衡点? 人们开始思考如何联合其它技术来解决这些问题。 区块链 + 大数据? 第一,区块链技术可使数据具有更高的可信度。将区块链看作一种分布式数据的存储技术,数据从产生、采集到流通、处理的每一步的关键信息都可以记录在链上,而信息一旦上链,区块链所使用的密码技术可保证其不被篡改,这使得数据可拥有前所未有的可信度,从而使得后期对数据分析处理的结果也具有更高的可靠性。 第二,区块链可为数据提供更好的流通方式,利用智能合约等技术可为数据所有者和潜在的使用者提供交易平台,进一步促进数据的开放和流通。 但是,以上所述都没有解决数据的隐私保护问题,如何在保护隐私的前提下更好的采集、使用数据是区块链行业新的机遇和挑战。 目前的解决思路基本为将数据的关键信息存储在利用区块链技术搭建的相关平台上,再使用各类隐私计算技术来对这些数据进行分析,使数据可用不可见,既可以对数据的私密性进行保护,又可以安全共享。 隐私计算 隐私计算方案按技术大致可分为安全多方计算技术(Secure Multi-Party Computation, MPC) 和可信执行环境(Trusted Execution Environment, TEE) 两种。下面将分别对这两类技术进行介绍。 1. 安全多方计算(MPC) 1982年,姚期智院士提出了一个“百万富翁”问题:两个百万富翁想知道谁的钱更多,但是他们都不想让对方知道自己到底有多少钱,如何在不借助第三方的情况下,让他们知道谁更有钱。在这个经典问题之下,诞生了安全多方计算这一密码学分支。 简单来说,如图1所示,安全多方计算研究的是在无可信第三方的情况下,如何安全地计算一个约定函数的问题。这一方法能够在不泄露数据的情况下,对多方的数据进行联合计算并得到计算结果,最终实现数据的所有权和数据使用权的分离,被认为是解决保护隐私的协同计算问题的良药。 图 1安全多方计算 目前,安全多方计算技术的实现方法主要包括同态加密 (Homomorphic Encryption,HE)、不经意传输 (Oblivious Transfer, OT)、混淆电路(Garbled Circuit, GC)、秘密共享 (Secret Sharing, SS) 等。 同态加密(HE) 同态加密是一种可直接对加密数据进行处理的技术,即对密文的计算结果与直接对明文进行计算的结果一致。按照支持密文运算的种类和次数,又可再进一步分为部分同态加密(Partially Homomorphic Encryption)、类同态加密(Somewhat Homomorphic Encryption)和完全同态加密(Fully Homomorphic Encryption)。 在实际中,目前多数算法仅能支持操作次数有限的加法同态或乘法同态,难以做到同时支持加法和乘法操作、完成运算次数不受限制的全同态加密,这大大限制了其应用。而现有的全同态算法常常会产生大量噪声,不支持非线性运算,并且计算开销较为昂贵。 秘密共享(SS) 图 2秘密共享 秘密共享的思想是将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与者管理,单个参与者无法恢复秘密信息,只有若干个参与者一同协作才能恢复秘密消息,如图2所示。 秘密共享方案还应具有一定的容错性,即当一定数量的参与者出问题时,秘密仍可以完整恢复。此类方法常常需要参与者之间的多轮通信,通信开销相对较高。 不经意传输(OT) 图 3 不经意传输 不经意传输是一种可保护隐私的双方通信协议,通信双方可以使用一种选择模糊化的方式传输消息。 此处以2选1不经意传输(1-out-of-2 Oblivious Transfer)为例,此方法可保护接收方的隐私不被发送方所知:如图3所示,Alice发送一个信息对给接收者Bob, Bob只选择其中一个接收,在协议结束时,Alice并不知道Bob是否接受了消息、接收了哪一条消息,而Bob能得到信息。 在实际应用中,还会使用公钥加密等技术进一步对不经意传输进行进一步扩展。 混淆电路(GC) 图 4 电路计算 混淆电路是姚期智院士在上世纪80年代所提出的一种密码协议。如图4所示,此协议中参与者在进行多方计算时,会先将计算问题转换为由与门、或门、非门所组成的布尔逻辑电路,再通过公钥加密、不经意传输等技术加密和扰乱这些电路的值来掩盖信息,最后在不泄露隐私的前提下算出计算结果。 混淆电路和不经意传输的具体实现方法相对复杂,在这里不再详细叙述。使用这两种方法的方案由于需对电路中每个门进行几个对称密钥操作,计算复杂度相对也较高,并且当扩展到多方时会更加复杂。 值得注意的一点是对于所有的全同态加密、通用函数的两方及多方安全计算协议都是采用的电路观点。这里的电路观点是指一种计算复杂度的计算模型,用于衡量解决问题所需要的资源。电路模型会接触到所有的输入数据,但此过程中不会泄露任何信息。 综合看来,多方计算技术所需的计算复杂度通常较高,虽然人们常常会通过节点间通讯来降低加密运算的复杂度,但代价则是增加了通讯的复杂度。目前多方计算方案的速度与明文计算相比有大于1至2个数量级的差距。 2. 可信执行环境(TEE) 与MPC这一完全基于密码技术来实现隐私计算的方式不同,TEE的信任主要依赖于对硬件方面的设定,例如Intel的SGX,ARM的TrustZone等。 以SGX为例,其核心思想为在CPU中内置一组指令代码,允许用户或操作系统定义实现一个受保护的被称为enclave的容器,此容器内的代码和数据的机密性和完整性受到严格的保护, 可免受拥有特殊权限的恶意软件的破坏。 相比基于密码技术的MPC,使用TEE技术的方案计算效率相对较高,大致与直接对明文计算的效率相当,可达到实际应用的级别。但由于此类技术的信任根在于提供TEE硬件的厂商,需要相信商家在生产过程中没有留任何后门。此外,TEE容易受到侧信道攻击。 目前,在基于区块链的隐私计算方面已出现一些落地项目,其主要思路都是在区块链上部署任务合约,再利用现有的隐私计算技术搭建链下计算网络完成计算任务。但此类项目大多仍处于起步阶段,在计算效率、所支持的计算类型等方面仍存在许多问题亟待解决。 本文来源:数秦科技 —- 编译者/作者:数秦科技 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
区块链+大数据——隐私计算
2020-06-10 数秦科技 来源:火星财经
LOADING...
相关阅读:
- Binance CEO’su:“以太坊KatiliDe?iliz”2020-10-29
- Coinbase在美国推出Cryptocurrency Visa卡2020-10-29
- 【跟着勇哥柒学知识122】加密行业成长为万亿美元行业的核心是信任,2020-10-29
- 瑞波币价格预测:XRP至0.255美元阻力,分析师2020-10-29
- USDT如何消解美元霸权2020-10-29