区块链技术基于去中心化的全网络节点,把加密算法、时序数据和共识机制相结合,来保障分布式数据库的连贯和持续,使数据能够即时验证、可追溯、匿名、难以篡改和无法屏蔽,从而形成一套高效、节约、隐私、安全的共享价值体系。因此,区块链技术的这种共享、平等、安全、海量算力等特性,为解决人类基因组数据存储与共享的问题,提供了全新的角度。
区块链技术的加密协议与密钥功能,确保数据的加密和传输而不会有第三方以任何方式进行干扰,并有限制的获取用户的健康数据。
区块链技术的智能合约机制,将为个体用户主动分享自己的基因组和健康数据提供信心,并保障奖励机制的公平公正;
区块链的去中心化存储技术,将为平等地共享基因组和健康数据进行研究提供坚实的平台;
区块链去中心化的全网络节点,使分布式网络以安全可靠的方式达成共识,为基因和健康数据提供海量的存储空间。
基于以上区块链的优势,基因源码链基金会将打造基因源码链系统,搭建去中心化基因组数据及健康数据的存储和应用平台,期望以此为中心建立起一套人类大健康数据生态系统。与此同时创造出一个经济机制,鼓励用户在该生态系统内共享基因组数据和健康数据,为研究者提供充分的数据支持,为数据使用者提供友好的使用接口。
基因源码链系统将打造全球首个提供基因数据和个体健康数据的分布式存储网络公链系统。健康和医疗服务商,包括医院、慢病管理机构、健康咨询服务商都可以采用基因源码链系统来打造DApp。这些应用在用户许可的前提下将根据基因组和健康数据,为用户提供个性化的精准健康服务。
基因源码链系统的生态体系
1. 生态体系中的构成单位
在这个生态系统内,将主要由以下抽象参与方组成:
(1)数据贡献者
(2)数据使用者
(3)存储提供方
(4)服务提供方
2. 生态体系中构成单位的解释
(1)数据贡献者
数据贡献者,在生态系统中持续贡献基因组和健康数据,前期仅限个体用户贡献者。个人需首先明确其持续贡献健康数据信息的意愿,并签署电子协议,随后可通过下载智能健康管理助手DApp或其他健康服务DApp,这些DApp在为用户服务的同时,将逐步共享运动,饮食、体检、病历等信息。基因源码链上的智能合约保证数据信息自动、及时、验证、加密存储在分布式存储体系中,并将相应Gene币转入用户钱包,简单方便。
生态系统建设初期,基因源码链系统会通过智能健康助手DApp根据用户提供信息的数量、质量和信任程度,发放对应的Gene币。分配和获取Gene币有以下原则:
原则一:个体数据价值递减
单独个体健康数据的价值,会随着规模化数据的增加而减少。即越早贡献数据,可以获得越多的Gene币。
原则二:数据维度价值递增
个体健康数据的价值将随着贡献数据纬度的增加而增加。健康数据有多个维度,例如基因组数据,运动数据,体检数据,病历数据等等,每个维度下还有细分维度,这些数据维度的丰富度,对于交叉学科研究来说价值巨大。因此,个体提供的健康数据维度越多,将可以获得越多的Gene币。
原则三:数据持续提供价值递增
持续性地提供个人健康数据将获得更多的Gene币。例如运动记录、饮食等,当超过一定的阈值时,如连续提供60天以上,将获得系统额外奖励的Gene币,以此类推。
原则四:基因组数据、体检数据和病历数据价值倍增
贡献基因组数据、体检数据和病例数据将获得更多的Gene币。基因组数据、体检数据和病历数据是电子健康记录体系的核心,也是基因源码链体系的基础数据,贡献这些信息将获得更多的Gene币奖励。
以上原则,是基因源码链系统通过智能健康助理DApp为数据贡献者提供价值回报,是Gene币的评估原则,将通过智能合约来完成。
生态系统逐步建立后,基因源码链系统将搭建开发SDK,并激励生态体系中大量个性化健康管理DApp,采用Gene币来进行App体系内的经济系统激励,并通过统一的加密脱敏机制和数据标准接口,保证统一的基因组合健康数据的积累。
同时数据贡献者,还可以通过Gene币,购买基因源码链体系中服务提供方,提供的各种以基因组和健康数据为中心的健康服务,例如:测序服务、健康咨询服务、遗传病咨询服务、运动营养建议,乃至于将来可能出现的种类繁多的各种基于基因组数据的其它类型的服务。
(2)数据使用者
首先数据使用者,在经过严格的合规性认定后, 可以通过使用智能健康管理助手App发布研究项目,从而招募特定的数据贡献者,深度定向提供更丰富的个体健康数据。同时基因源码链系统将为数据使用者开放更多权限,如对服务提供商API的直接调用,使用基因源码链数据平台所提供的生物信息数据工具和人工智能挖掘模块等。
数据使用者将分为企业使用者和科研使用者,基因源码链系统会对认证的科研使用者提供数据折扣价格,来鼓励科研的数据使用。目前,各个大学和企业的实验室和研发机构,对健康和基因组数据的需求非常明显,尤其是标注明确且连续的数据集合。
(3)存储提供方
存储提供方通过提供存储空间获得Gene币。前期,存储提供方获得的Gene币由基因源码链系统提供,后期将由存储数据的需求方提供。服务提供方、数据贡献者、数据使用者都有可能需要数据存储服务。所有的数据都将在严格加密后进行存储,并采用标准数据脱敏方式保存。
(4)服务提供方
包括测序公司,数据分析公司, 医院,细分领域健康管理公司等,可以基于基因源码链系统开发生态体系,通过开发个体化健康服务DApp来为用户提供服务。用户将可以使用Gene币获得服务提供方的各类健康服务。
区块链解决方案
1. 基因源码链架构设计
基因源码链采用简洁的四层技术模型,自下而上包括:数据层、存储层、激励层和数据应用层。
每个层面具体由以下部分组成:
数据层:由链式结构和健康数据脱敏、加密等协议组成
存储层:主要基于IPFS和StarFS去中心化存储系统搭建,解决存储分配问题
激励层:由基于图灵完备的智能合约机制组成
数据应用层:由基因组和健康数据支持体系和数据服务支持体系组成
2. 数据层架构方案
数据层是区块链标准配置部分,由一个个带有时间戳的区块(BLOCK)顺序连接而成,每个区块主要由区块头和交易数据两部分组成。数据层采用了标准的区块链链式结构、Merkle树、哈希函数、非对称加密、时间戳等技术。
如下图所示:
具体区块的设计上,我们将用每个区块保存用户交易记录,时间戳和上一个区块的哈希摘要码,我们将可能选择IPFS定位资源相同的摘要码。我们通过区块链记录用户基因、健康数据的哈希值与Gene币的交易历史,从而实现一个用来交易基因组和健康大数据的去中心化系统。此系统目前针对于基因和健康大数据采集和交换,未来将可以应用于各类体系化数据。
在共识算法的设计上,分布式账本的共识算法决定由哪个Gene币生态系统的参与者用自己记录的账本版本生成区块。
基因源码链公链将采用自主设计的混合共识机制Athena来达成整体系统共识。
在12月推出的市场版Dapp中, 我们将基于EOS侧链的DPoS+PBFT机制共识算法,DPoS算法是EOS采用的共识算法,这个共识算法的高效性给区块链用户留下了深刻的印象。但是,这个共识算法在处理区块链分叉方面仍然不尽如人意。当有区块生产者故意作恶时,他可以在一个区块后加入多个内容截然不同的区块,影响分布式系统达成共识。之后的区块生产者会沿着不同的分支生产区块链,直到一个分支的区块链高度超过其他分支,所有生产者才会选择这个分支进行生产。从共识被破坏到再次产生共识的周期相对较长。而我们采用的DPoS+PBFT可以很好的解决这个问题。
DPoS+PBFT算法与DPoS类似,在众多节点中选出若干节点作为候选区块生产者。然后所有的持有基因币的节点可以给候选生产者投票。计票的时候按照投票人的资产进行加权。
为了防止有区块生产者扮演拜占庭节点故意生产内容截然不同的两个区块,使区块链产生分支,DPoS+PBFT算法要求每个区块产生的时候要在所有生产者中间进行共识。共识的算法采用PBFT,PBFT要求所有区块产生者广播自己版本区块的Hash码。当2/3的生产者的Hash码相同的时候,产生共识。当前时间片的区块生产者只能产生共识决定的区块内容。这样避免了区块链产生分支的问题。
在链式结构的基础上,基因源码链会整合定义全球最通用的基因组数据格式和健康数据格式,并定义其中缺失的类型,把各种类型的数据和定义,整合进基因源码系统的体系中。同时还将把基因组和健康数据脱敏机制,和领先的数据压缩机制整合进数据层的设计体系中。
3. 存储层架构方案
基因源码链的存储层主要基于IPFS分布式存储体系。通过点对点的分布式版本文件系统,将所有具有相同文件系统的计算设备连接在一起。使用基于内容的地址,也就是用户寻找的是储存在某个地方的内容,通过这样可以让各个存储节点的访问速度更快更安全。
当基因和健康数据被添加到基因源码链的节点上,它得到一个新的名字。这个名字实际上是一个加密哈希,它是从文件内容中被计算出来。通过加密保证该哈希始终只表示该文件的内容。哪怕只在文件中修改一个比特的数据,哈希都会完全不同。
由于基因组信息,尤其是二代测序的结果,重复测序的数据可能会有不同,这样同一个人的数据哈希值将会不同,基因源码链基因会设计了二代测序全基因组和全外显子的简化分段存储格式以及个人辨识存储机制,让基因组可以在区块链中存储成为可能。
基因源码链的分布式存储方案,存储限制更少。它服务的文件可大可小,对于一些大的文件,它会自动将其切割为一些小块,使其节点不仅仅可以像HTTP一样从一台服务器上下载文件,而且可以从多服务器上进行同步下载。同时将会添加分级的存储机制,以适用于海量健康数据的调用和存储。
基因源码链的分布式存储方案,还解决了数据共享与传输问题。用户可以通过分布式内容摘要表(DHT)快速地通过一个区块的内容摘要码找到区块的URL地址,并且通过P2P技术将区块数据高速的传输给请求的客户端。
同时,我们还将研发StarFS服务系统,这个文件系统可以让我们创建一个空间可以无限拓展的虚拟硬盘存储器。无论未来要存储的数据有多大,网络中只需要不断的加入新的运行StarFS服务的服务器即可拓展存储空间。StarFS也可以创建冗余存储,在硬件存储设备发生故障的时候,最大程度保证数据不会发生丢失。
虽然在P2P网络,所有数据都会被若干节点保存,一段数据在P2P网络上彻底消失的概率非常低。但是基因和健康数据依然需要更可靠的存储,我们将采用存储凭证算法不断检查数据存在性,以保证第一时间发现和解决出现概率极小的数据下线问题,让存储更加安全可靠。新的存储凭证算法层出不穷,Storj和Genaro采用Proof of Retrievability算法,在加密打包的区块中间安插若干Sentinel区块,然后通过周期性的检查这些Sentinel在存储节点的完整度来判断整个文件的完整度。Sia通过Proof of Storage算法,周期性的检查连续若干区块的完整性来确定文件完整性Filecoin通过Proof of Replication算法,发现采用虚拟身份,外包,压缩用户数据的存储节点。
基因源码链系统将调研整合目前流行的存储凭证算法的优势, 独立打造应用于基因源码链的存储凭证算法Apollo。
在基因源码链生态系统上共享的数据将采用Pegasus进行动态授权。这个动态数据授权算法将采用多种动态加密算法,包括Proxy re-encryption等技术进行实现,共享的数据无需重复加密。动态授权的同时,还将在数据中加入数字水印,以对线下售卖数据的被授权人进行追责。
4. 激励层架构方案
激励层由基于智能合约的数据分享激励机制组成,解决Gene币的分配机制的问题。基因源码链基金会将通过多方位评估和调研,确定初始启动体系中四方的经济平衡机制,从而最终确定对数据贡献者和存储提供方的Gene币激励机制,并同时确保数据使用者和服务提供方,在整个生态体系中也得到足够的初始间接激励,最终在智能合约体系中,实现整体的激励和利益平衡分享。
5. 应用层架构方案
基因源码链应用层,是由基因源码链基础数据支持体系和服务提供商数据开放接口体系组成。基因源码链基础数据支持体系包括数据验证系统DVS、数据分类系统(DCS),基因组分析系统(GAS),健康数据模型分析系统(HDMA)。这四大系统将支撑基因源码链基本的数据应用。
基因源码链还将提供给数据服务提供商和数据使用者使用的数据开放接口体系, 为将来引入数据服务商的各种服务提供完善的数据体系支持。
6. DApp生态——个人智能健康管理助手DApp作为概念验证
DApp是去中心化应用程序的简称。传统的C/S架构的网络应用程序是由前端与服务器组成。而DApp是由前端与智能合约组成。智能合约并不运行于单一的服务器而运行于P2P网络的所有节点之上,读写的数据并不来自于数据库而是来自于区块链。拥有这些特征的网络应用程序就是DApp。基因源码链系统将会提供一个运行DApp的平台,以及一套开发工具。开发者可以利用基因源码链运行自己开发的DApp。
智能健康管理助手是基因源码链系统的一个扩展模块,是面向大众的一款DApp。这将是全球首款基于个体基因数据和多维度健康数据的综合健康管理DApp。这款App将以智能健康管理助手的形式,向大众推出。智能健康管理助手将分为两个版本,首先将推出推广版,实现和主链结合以外的部分功能,在主链上线后再结合主链实现其余功能。
同时基因源码链基金会将会和各大健康服务机构展开合作,共同推进其DApp在基因源码系统上开发和推广。
在完善基因源码系统的各项功能和应用之后,基金会的下一个目标是建立通用分布式系统,一个通用的数据存储和交换的区块链系统。企业和部分个人用户将可以在此通用分布式系统的基础上,建立和设立各类细分的数据交换区块链系统,完全独立的设定规则和设立不同的基于数据的DApp生态体系。
关于更多基因源码链信息:http://gscchain.org/
更多区块链信息:http://www.qukuaiwang.com.cn/news/
风险提示:区块链投资具有极大的风险,项目披露可能不完整或有欺骗。请在尝试投资前确定自己承受以上风险的能力。区块网只做项目介绍,项目真假和价值并未做任何审核!