Algatha之命名发想于电影关键报告(The Minority Report)。电影中的未来世界,所有犯罪事件都可被预测并防止,全仰赖警方的高科技先知预视系统。此系统结合了三位基因突变的超能力者,其中,女孩阿嘉莎(Agatha Lively)是预测能力最强的先知。先知们的预知结果被高科技设备读取分析,警方借此预防犯罪,人们也非常爱戴他们。
Algatha团队并没有超能力,却有长年的人工智能开发经验。虽然电影中的犯罪预防确实可以是人工智能的应用,Algatha的目标却是更全面的:我们希望透过人工智能,为人们实现各种创意、解决生活中的疑难杂症。放眼当下,人工智能的应用往往仰赖高深的信息能力与昂贵硬件,导致科技资源主要掌握于少数科研单位或财力雄厚的团体。
我们认为,任何有理念的人都不该被海量数据的运算延宕成长,也不该因昂贵的硬件苦恼。我们开创,简单的执行平台,让人人能拥有自行研发与解决问题的能力。我们相信,人工智能可以不仅是口号、不仅是少数人掌握的技术。我们预见,人工智能能扎实地运用在日常生活,为人们解决多元化的问题,让每个人都有能力成为先知。
AIgatha系统架构
AIgatha是建构在区块链上的云端服务系统,上面搭载着AIgatha的分散式计算平台DistComp@Home,透过与区块链的结合,提出一个简易的API对接窗口,让使用者能够开发算法进行项目运算,并透过区块链将项目任务送至矿工进行计算。
而在分布式运算平台的基础建设上,建构一套简单易用的人工智能服务平台(iMLOv),只要搜集到足够的数据,就能透过这个AI平台取出重要的参数,更进一步的进行预测。如果是开发者iMLOv也设计了一个算法的API接口,让开发者可以测试自行开发的人工智能算法,进而找到许多问题的人工智慧解决方案,最终能够在iMLOv平台上贩卖自己的算法给使用者。此外AIgatha在人工智能服务平台上,建立自己的抗体预测平台。透过这个抗体预测平台降低制药的尝错率,为制药市场开启新的里程。
AIgatha的网络构架
AIgatha的网络构架包括使用者(User)、矿工(Miner)与时空堡垒节点(Chromos Fortress)。系统架构则是由三层平行结构组成,分别是使用者与矿工组成的应用层、时空堡垒节点群的服务层以及区块链的纪录层。
使用者或矿工必须透过邻近的时空堡垒节点与区块链沟通。传统在区块链上进行验证的数据内容是交易的代币数值,也就是金流,AIgatha系统将原本的金流取代成数据流。
当使用者上传一个项目到时空堡垒,时空堡垒将会记录项目的信息(项目编号、任务编号、项目发起人信息、项目叙述、项目档案大小、上传日期),当时空堡垒将项目分割成任务时,被矿工获取任务的过程也会被时空堡垒上传并详细记载在区块链里面。所以使用者与矿工的所有行为都会被公开透明化,任何人可以清楚了解哪些项目曾经被哪些矿工运算。
AIgatha技术
分布式运算与人工智能是AIgatha团队已运用多年的核心技术,对于如何在区块链上建置及活用这两大技术平台,AIgatha有独到的解决之道。
1.分布式运算服务(DistComp@Home)
分布式运算有两大类型,一是个人式布署,另一是网络服务商的云端运算。要建置个人式布署的分散运算系统(如Apache Spark),建置者必须具备相当好的软硬体操作技术,布署完成后,要在该系统上实作项目,也需要专业的程序设计能力。而云计算如Google、Amazon则是无法将云端上的系统移植到自己的电脑上运作。
因此,我们开发了一个跨平台的分散式运算API,称为DistComp@Home,让分布式运算系统建置极简化、分散表达式项目程序开发无痛化,任何看得懂简单的文本程序语言的人都有能力掌握。
另外,我们提出了一个称为霭运算(mist computing)的崭新云计算构架,有别于传统模式,解决了云计算缺乏安全性、隐私性以及衍生依赖性等问题。与已知的云、雾、霾运算不同,使用者只要学会如何在区块链上使用我们的分布式运算平台,便能以最低成本与时间在家用相同模式建构自己的私有云。利用AIgatha technology所提供的分布式家用套组(包含Server、Node端应用程序以及与区块链版本相同的使用者API)轻松串联自家电脑。
DistComp@Home霭运算基本构架、原理
DistComp@Home的完整结构包括任务流管理(Task logger)、任务分派(Servers)、任务运算节点(Nodes)、使用者端程序(Client API)四大部分。
分别对应AIgatha之区块链分散表达式系统的区块链(Block chain)、主节点(Master nodes)、矿工节点(Miner nodes)及使用者端程序(ClientAPI),基本运作方式一致。使用者透过API发送实作的分散运算代码与资料至任务分派中心,再由该中心派送给各运算节点,各节点将运算结果交还任务中心组装完整后回传给使用者,整个过程都由任务流管理加以记录、监控。
DistComp@Home应用成果
AIghtha团队已运用DistComp@Home开发出相当多科学运算系统解决蛋白质结构生物学之议题。例如所建立的iSARST系统,自2009年至今都是全球最快速且准确度最高的复合式蛋白质结构比对系统。CPred自2012年以来,一直是全球最快且最精准的蛋白质环形结构重组切位分析系统。正准备发表的imSuper与CirPred则是全球最快速精准的蛋白质二级结构预测与环形重组结构预测系统。
2.DistComp应用程序接口(API)
AIgatha的分散表达式系统配备图形化API、纯文字模式API,提供使用者最无痛的项目开发环境,且将程序设计的难度降至最低。
举例而言,如果我们要用PHP程序语言将1~100共100个数字分成10组,交由10个运算元件帮我们算出每个数字的三次方并显示在电脑画面上,若不使用AIgatha的DisComp API,程序要写成这样:
其中充满复杂的巢状结构及分散运算逻辑,需要专业的程序设计能力才容易写作。但若使用AIgatha的DisComp API,程序只要两列,程序设计初学者都能轻松完成:
分散表达式程序设计无痛化,可为使用者大幅节约系统开发之金钱及时间成本,且让原本只有专业人士与企业才有实力或资金解决并从中获利的议题,现在一般人都有办法解决与获利。
3.人工智能服务平台(iMLOv)
人工智能(Artificial Intelligence,AI)是由机器所表现出来的拟人智慧,通常是透过计算机程序实现的仿人类思维或行为的技术,包括学习、预测、规划、交流、推理、感知、组织信息、操作物体等。其中,机器学习与预测是帮助分析、归纳数据的重要技术,有助人们依据过往数据对未知结果做出预测,是大数据分析和人工智能的关键技术,也是其他多项人工智能领域的底层技术。我们的iMLOv(integrated Machine Learning and Optimization server)人工智能平台,便是个能应用于各类数据预测与规划求解,协助人们做出精准决策的机器学习与预测系统。
在这个大数据时代,当所有类型的信息呈爆炸性成长,分析量远超过人力所能负荷时(例如:蛋白质结构数据、图像分析辨识、公共卫生数据等),不难想像人工智能与机器学习将成为各行各业攀上时代尖端的必备武器。
然而,大多数机器学习软件或系统,用户需要熟悉操作系统或纯指令操作环境,并且透过编写程序来处理输入与输出数据,甚至,必须理解算法细节与参数设定理论。另外,多数软件的预测结果呈现方式相当复杂,没有信息或数据分析的专业背景将不易理解。因此,我们希望创造一个友善的用户界面。让没有信息技术背景的人,也能轻松掌握机器学习这项利器。
一旦机器学习成为每个人的基本能力,各种学术与应用领域的大发现和技术爆炸都将随之到来。我们的iMLOv系统,正是个能让所有人简单上手的机器学习系统。目前,已整合的算法包括决策树、支持向量机、类神经网络、随机森林、基因算法等。除了大数据预测,亦能透过AIgatha的专利演算法来协助用户分析各类原始数据的关键性程度,让使用者不仅获得答案,更知道原因。
在此之前,我们运用iMLOv系统,已经在蛋白质结构生物学领域取得了一些进展,如环状结构重组(circular permutation)和结构域交换现象(3Ddomain swapping)。这些结构现象难以用传统的方法加以研究,我们早年曾针对这两主题,开发过专门的分析算法,简称为CPSARST和DS-SARST,然而由于这些算法准确度有限,在从事蛋白质大数据分析与精准数据库建置时,无法带来真正的便利。以结构域交换现象为例,建置数据库的过程有超过20万笔数据旧版DS-SARST算法无法精准判定,需要人工分析。为解决庞大人力损耗,我们导入了iMLOv系统到新版的上述算法中,使CPSARST的结构搜寻比对精度从52.9%提高到87.3%,DS-SARST则从76.6%提高到95.2%。
根据先前的使用经验,我们相信AIgatha的人工智能服务平台iMLOv将能扎实地运用在每个人的日常生活里,为人们解决各式各样的问题,精准预测、轻松决策,让人工智不再只是口号或少数专业人士才能拥有的武器。
4.iMLOv实际的预测结果画面
最初始版本的iMLOv系统是个函式库,只能透过程序编程引用。新版本的iMLOv系统则配备了一个完整的Web Server,并强调其友善易操作的介面。我们简化了人工智能软件的操作流程与复杂的参数设定,使用者只需要搜集历史数据并提供简单的数据格式,透过直觉化的图形操作界面,即可使用复合式人工智能算法,来获得预测模型、数据分析与重要特征值挑选。
iMLOv系统是一个广域型的人工智能服务平台,透过我们的独家开发的决策机制,针对不同领域的议题,整合各类人工智能算法的预测结果,集各家之所长做出精准的判断。所以任何问题丢上来都有相当的准确率。
目前释出的iMLOv版本,在二元分类的议题里,平均准确率约80%~ 90 %,对于某些领域的议题可以达到95 %以上的准确度。为了展示其广用性,我们寻找了几个不同领域的议题来做演练,以下是iMLOv系统实际演练的示例结果,相关数据集数据可从UC Irvine Machine Learning Repository获得。
5.iMLOv网站服务界面
iMLOv的使用者界面非常简洁易用。用户可按照网站所说明的格式上传数据文件,其中最简单的是用Excel(或类似软件)所创建的csv文件。数据上传后,对一般使用者而言,参数设置无需调整,基本上只要持续用鼠标点击「下一步」即可进行人工智能计算。结果页面提供简明的叙述来帮助使用者理解预测结果。
以往的技术应用案例
以下介绍AIgatha已从事的部分研究成果,这些研究过程中所创建的网络系统,都是构架在我们的人工智能与分布式运算平台上,用以解决目前生物医学上的许多实际问题。
1.高效率蛋白质结构比对系统
为了帮助全球研究者研究蛋白质间的特殊结构现象并据此发展新型态的蛋白质工程技术,我们曾于2009年发表了全球最快速且能侦测蛋白质环形结构重组现象的蛋白质结构搜寻比对系统iSARST。现在,我们大程度扩充此系统:(1)新功能:侦测蛋白质结构域交换现象。(2)大幅提升准确度:在各算法中引入先进的iMLOv人工智能系统。(3)运算速度强化:全平台透过DistComp@Home分布式运算系统建置,整合更多运算单元,有效缩短运算时间。相信此系统将极有助于蛋白质研究与相关工程技术之发展。
iSARST的初始版本是建构在一个以NFS(Network FileSystem)为数据分享机制的分布式运算环境中。其算法设计概念是「快筛后优化」,因而得以同时保有其所使用的搜寻引擎(包括SARST与CPSARST)的高速特性,及所使用的结构比对引擎的高精确度(FAST,TM-align与SAMO)。
虽然此版本的iSARST独步全球,首创对蛋白质环形结构重组现象之侦测能力,却未能提供足以让使用者轻松判断蛋白质间环形结构重组程度的指标。为了确认结构重组程度,使用者必须自行检视蛋白质结构,过程需要深厚的结构生物学经验。由于蛋白质结构信息量正爆炸性增长,此版本的分散运算构架已渐难负荷,再者,若结构分析最终仰赖人工,将不切实用。
于是,我们开发了新版的iSARST,其底层分布式运算环境是我们团队自行研发的DistComp@Home系统,全系统的运作速度与稳定度因而大幅提升。另外,在所有快筛算法中增加了人工智能运算,所使用的套件是我们自行研发的iMLOv,使快筛阶段的准确度大幅提升,甚至超越了优化阶段所使用的结构比对引擎。此iMLOv系统之应用带来一个绝佳优点:对所侦测的每一个结构现象,都提供了一个简单的可信度指标,让使用者轻松判断信息可信度。
iSARST 2017年版的一项新功能是侦测蛋白质结构域交换(3D domain swapping)现象之能力。结构域交换是蛋白质形成寡聚合体的机制之一。具有此现象的蛋白质可被视为具备两种结构状态:形状相对封闭的单体状态,以及形状开展的寡聚体状态。了解结构域交换现象或有助人们找到蛋白质沉积性疾病(如狂牛症、阿兹海默症等)的治疗方法,更有助开发能自主聚合的生物材料。然而,此现象难以透过一般的蛋白质结构比对分析软件加以侦测。我们在iSARST中新增的结构域交换现象侦测算法(称为DS-SARST),精准度高达95.2%,比当前最准确的算法ADiDoS的76.6%高出甚多。
欲使用iSARST 2017,使用者可以一次上传多个蛋白质结构代号或档案,针对每一个上传的结构,iSARST会回报一系列结构类似物或有特殊结构关联性的蛋白质。另提供方便好用的互动式的结构叠合展示,以利使用者进行结构分析、检视。iSARST是全球第一个能大批量侦测蛋白质特殊结构关联性的系统。期前一代系统已运作8年,共为人们分析过一万两千多个蛋白质。截至目前,iSARST与其相关算法已被全球期刊引用超过百次,且至少已有一个蛋白质结构数据库及一个蛋白质工程产物是因使用iSARST而开发完成。
2.CPred
蛋白质环形结构重组现象可被视为蛋白质的原始开头与结尾两端被串连后,在中间某位置切开,形成新的开头与结尾。环形结构重组蛋白跟未重组前的亲源蛋白通常结构极为相似,功能与活性也高度保留,甚至可能拥有比亲原蛋白更高的稳定度、更强的活性或更广用的功能。因此,蛋白质环形结构重组已被发展成一种蛋白质工程技术,应用在许多领域,例如研究蛋白质折叠、改良酵素活性、设计双联蛋白质等。由于蛋白质环形结构重组实作起来非常昂贵,而且蛋白质上并非任何位置都能进行此类结构重组,若能开发精准的蛋白质环状重组切位预测方法,将对生物科技之发展大有助益。在此之前,全球最精准的此类预测方法是依据蛋白质结构特征指标“closeness”所开发的,以DHFR(二氢叶酸还原酶)标准数据作验证,其精准度分数AUC为0.70(满分1.0);以CPDB(蛋白质环状结构重组数据库)做大规模测试,灵敏度指标sensitivity为0.63(最高1.0)。我们在2012年开发了一个预测系统称为 CPred,透过整合四种人工智能算法与46个蛋白质特征指标,使得预测精准度在DHFR高达0.91,灵敏度在CPDB为0.72。
2012年版的CPred只能对已确定结构的蛋白质做分析,然而目前绝大多数蛋白质的结构其实尚未解出。为了拓展蛋白质环形重组的应用,我们开发了新一代CPred,此版本可对只知道胺基酸序列而结构未知的蛋白质做精准预测。在开发CPred 2016的过程中,我们挑选了28项蛋白质胺基酸序列特征指标,并使用iMLOv人工智能系统整合了三种机器学习算法来做分析。透过一个以科技文献为基础建置而成的标准数据集(正面答案数:反面答案数=75:101),以及一个去重复的CPDB数据集(1,059个正面答案)加以训练,再用DHFR(正面答案数:反面答案数= 76:83)与lipase(脂肪酶B)数据集(正面答案数:反面答案数= 63:33),以及一个去重复的GDB数据集(蛋白质重组结构数据库,4,765个正面答案)加以验证。上述任两数据集之间的序列相同度都低于40%。结果,我们的AUC对DHFR数据集为0.83,对lipase B数据集为0.72,对GDB的灵敏度为0.71,比起许多以结构为基础的预测方法都要精准。
自前一版本CPred发表以来,已被相关科学著作引用20次且至少有一个结构重组蛋白是因为使用CPred而开发成功。而今,新版本CPred以序列为基础的预测能力已达实用水平,我们相信将更有助于推动蛋白质环形结构重组技术之应用。
CPred的使用方式非常简单,使用者只须上传一个蛋白质结构或胺基酸序列即可进行预测。结果页面对蛋白质上每一个位置都提供了重组切位可行性指标。如果所上传的是个结构档案,所有可行性指标在结构展示界面上有清晰的整合式图标。如果所上传的是个胺基酸序列,CPred还会顺带预测各胺基酸的二级结构类型。新版以序列为基础的预测程序在2015年七月就已加入CPred网站,供研究与教育用途,目前已有超过5,000个蛋白质被分析过。
3.CirPred
在这份研究中,我们为「蛋白质环形结构重组技术」开发了全球第一个结构预测与「连接子」预测系统。
蛋白质环形结构重组现象可被视为蛋白质的原始开头与结尾两端被串连后,在中间某位置切开,形成新的开头与结尾。此现象已被人为创造成一种蛋白质工程技术,应用在许多领域,例如研究蛋白质折叠、改良酵素活性、设计连合蛋白质等。环形结构重组实作上比一般的蛋白质工程技术(如突变、删除、新增胺基酸)困难且昂贵。另外,由于蛋白质上并非每个位置都可以成功成为环形重组切位(某些位置切开后蛋白质将失去稳定结构),环形结构重组作为一种蛋白质技术,开发过程往往涉及多次尝试错误,致使造价更加高昂。我们过去曾开发精准的环形重组切位预测系统,然而,环形重组切割后的蛋白质会有什么样的结构,目前并无任何有效的办法可以预测,因此,什么切位可以制造出开发者想要的活性或具备良好工业应用价值的蛋白质也难以预知。此外,许多蛋白质在实作环形重组的过程中必须增添一段「连接子」来串连原始的开头与结尾端点,目前没有任何系统可以帮忙预测或设计连接子,只能靠试误。
CirPred提供三种操作模式:1.基本型环形重组结构预测2.重度变异型环形重组结构预测3.连接子设计。如果使用者已自行设计好连接子,可以使用模式1。如果使用者在原始蛋白质上做了重度人为修改,模式2将提供非常大帮助,因实测结果显示,即使90%的原始胺基酸序列都已被改动,CirPred仍能精准预测出改动后的蛋白质结构。如果连接子是必要的但使用者不知如何设计,可以活用模式3。在此模式下,CirPred会自动设计出30种可行的连接子方案,且每一种都预测出结构能量供开发者参考。使用时CirPred时,须提供原始蛋白质结构并告知所标明的切位。运算完成后,详细的结构预测结果,以及新结构与原始结构的差异,会有非常简易详实且互动化的图形化呈现。如果「退火」功能没有被启用,一般预测在3分钟内即可完成。
根据对CPDB(蛋白质环形结构重组数据库)中的4,169组数据的实际测试,CirPred预测出来的结构跟实际结构的平均重合程度高达91.3%,且平均结构偏差只有3.35A。即便待预测结构与亲源蛋白质的胺基酸序列相同度低于10%,平均重合程度仍高达87.9%,平均结构偏差仅3.92A。
CirPred的最初版本开发于2011年11月,且已经过数次更新。目前共测试过至少9,600个蛋白质,有七个科研团队曾参与其测试。
4.imSuper
蛋白质二级结构预测有非常多实际应用。虽然这是个「古老」的学术研究主题,且已有非常多算法被开发出来,但预测准确度仍有相当大改善空间。截至目前,只有少数几个算法能够达到80%以上的预测准确度,且单一笔运算往往耗时几十分钟乃至数小时。
我们开发了一个高效率二级结构预测系统,简称为imSuper,且预期将成为所有需要从是蛋白质结构分析预测的研究者的重要工具。此系统可快速且精准地对大量蛋白质序列做二级结构预测。经过严格的机器学习训练后(仅使用500个蛋白质),透过CASP12与TS115标准数据集的测试(与训练数据集的相同度皆低于25%),其平均准确度高达93.5%,已接近二级结构预测的理论极限。
imSuper的高准确度是因为我们设计了一组非常好的特征值,并以我们开发的人工智能系统iMLOv为机器学习与预测的算法后盾。此外,我们的DistComp@Home分散运算系统也被应用来加速整个运算流程,使单一蛋白质的平均计算时间小于1分钟。就我们所知,imSuper是当前最精准的二级结构预测系统,且其速度为常见算法的数十倍快。由于准确度与速度是二级结构在科研应用上的最大限制因子,我们相信imSuper之诞生将大有益于各类蛋白质基础科学与科技应用的进展。
使用者只需输入纯文字的蛋白质胺基酸序列即可透过imSuper进行预测。无论8分类型或3分类型的二集结构imSuper都可预测。其结果画面非常简明且充分图形化,对每一个胺基酸都提供了预测信心指标,有助使用者检视与进阶分析。另外,我们还设计了一个纯文字的操作界面,方便专业的研究者或欲从事大批量分析的使用者运用。
imSuper的原型系统在2017年二月便已开发完成,目前已分析超过9,000个蛋白质且共有11个研究团队参与其开发和测试。
关于更多AIgatha信息:https://aigatha.com/
文章来源:http://www.qukuaiwang.com.cn/news/9584.html 原文作者:AIgatha 特别申明:区块链行业ICO项目鱼龙混杂,投资风险极高;各种数字货币真假难辨,需用户谨慎投资。blockvalue.com只负责分享信息,不构成任何投资建议,用户一切投资行为与本站无关。