作者:Fred Ehrsam,Coinbase 前联合创始人、GoldmanSachs 前交易员 靠基于区块链上市场数据进行训练的机器学习模型,有潜力创造出世界上最强大的人工智能。因为它们会兼具两个强大的基元:一是私有机器学习,可以完成数据训练的同时,避免暴露敏感的私人信息;二是基于区块链的激励,可以吸引最好的数据和模型,让这些系统更聪明。最终结果将会出现一个开放的市场,每个人都可以出售其数据,同时又保持数据的私密性,而开发者则能使用激励来为他们的算法吸引最好的数据。 要建立这些系统很具挑战性,同时也有待建立相应的区块。但是简单的最初版本看上去已经正在变成现实可能。我相信这将带领我们从 Web 2.0 缘由 这一想法来源于 2015 年与 Numerai 的理查德之间的一场谈话。Numerai 是一家对冲基金,负责将加密市场数据提供给任何想要参与竞争为股票市场建模的数据科学家。Numerai 将上交的最好的模型加入「元模型」,卖掉元模型,然后给表现好的数据科学家提供报酬。 构造一个实例 举个例,我们先试着为去中心化交易平台建立一个完全去中心化的加密货币交易系统。这是诸多建造可能性之一: 数据:数据提供者以数据为股份,将其提供给建模师。 建模:建模师选择用何种数据搭建模型。 模型的数据训练是通过一种安全的计算方法,模型获得了训练,又不会暴露所使用的数据。模型同时也是股份。 元模型建造:元模型建立在将每一种模型的 staking 都考虑在内的一种算法基础之上。 是否创建元模型是可选择的,你也可以设想使用那些没有被组合进元模型的模型。 使用元模型:通过智能合约,将元模型和交易在链上的去中心化交易机制里程序化地进行运行。 分散收益 / 损失:一段时间以后,交易产生利润或损失。这些利润和损失将依据元模型的智能化程度,由贡献者们共同承担。带来负面效益的模型将损失掉部分或全部押注资金。而模型又转头将类似的分成或风险细分给它们的数据提供者。 可验证计算:计算的每一步,或者是中心化但可以用例如 Truebit 这样的论证游戏来验证或挑战,或者是去中心化的但使用的是安全的多方计算。 托管:数据和模型或者托管在 IPFS 上,或者托管在一个安全的多方计算网络的节点上,因为链上储存成本太昂贵。 什么让这个系统强大? 可以吸引全球最好数据的激励:能够吸引数据的激励体系是该系统最重要的部分,因为对机器学习来说,很大程度上数据是最具限制性的因素。比特币用公开的激励,建造出一个承载了世界上绝大多数算力且正在成型的系统。一套精心编程的针对数据的激励结构,会把最适用于你的应用的数据引向你。同时,这样有着成千上万、上百万来源的数据流系统几乎是不可能被关闭的。 算法之间的竞争:在模式 / 算法之间生成前所未有的公开竞争。想象一下,一个去中心化的 Facebook,拥有成千上万种相互竞争的新闻供应算法。 回馈的透明度:数据和模型的提供者能看到自己获得了公平的价值,因为所有计算都是可证实的,这让他们更有可能参与其中。 自动化:在链上运行、以代币直接产生价值,生成了一个自动化的、去信任的闭环。 网络影响:用户、数据提供者和数据科学家之间的多方网络影响使得系统具有自我加强能力。它的运行表现越好,就能吸引更多资金,这意味着更多潜在的奖金,这又能吸引更多的可以让系统更高效的数据提供者和数据科学家,然后更多的资金,如此正向循环。 很好地解决隐私问题 在上述优点外,还有一个主要特点是隐私性。它让人们可以上传在其他情况下都太私密而不适宜共享的数据,同时,阻止数据和模型的经济价值流失。如果让数据或模型未加密地公开,它们就会被免费复制,然后被那些并没有做出任何贡献的人利用,即出现「免费搭车」问题。 针对免费搭车问题的部分解决方案可以是悄悄地出售数据。这种情况下,即使购买者选择再次出售或再次租赁数据,其价值都将随着时间折减。但是,这种方法只适用于短期应用案例,同时仍将产生典型的隐私问题。这就导致人们需要一个使用安全计算形式的更复杂且有力的方法。 多方计算是目前最广泛使用的安全计算方法 安全计算方法可以在提供数据训练模型的同时避免暴露数据。当前有 3 种正在使用和正在研究的安全计算方法:同态加密 HE、安全多方计算 MPC、零知识证明 ZKPs。目前,私人机器学习使用最广泛的是多方计算,因为同态加密速度太慢,而如何将零知识证明应用于机器学习还不明显。安全计算方式是电脑科学研究中最前沿的领域。它们通常是比常规计算更慢的巨量指令,这对系统而言也是主要瓶颈,但最近几年状况也得到改善。 「终极推荐者系统」成为可能 要想解释私人机器学习的潜力,不妨设想有一款叫做「终极推荐者系统」的应用,它把你在设备上所做的一切都看在眼里:你的浏览历史,你在应用里所做的一切事情,你手机上的照片,定位数据,消费历史,可穿戴感应器,短信,家里的摄像头,你未来 AR 眼镜的摄像头,等等等等。然后它会给你提出建议:下一个将要浏览哪个网址,读哪一篇文章,听哪一首歌,买哪样产品。 这个推荐系统将无比强大,比现存的任何 Google、Facebook 的筒仓式数据,或者其他任何可能的形态都要更强大,因为它对你有最大程度的纵向了解,同时它还可以从那些在任何其他情况下都太私人而无法分享的数据中学习。与之前的加密货币交易系统例子一样,它的运行建立在一个允许专注于不同领域的模型进行交易的市场,比如网址推荐、音乐,相互间通过竞争来获取你的加密数据,再对你进行推荐,甚至还可能为你提供的数据或者你收到推荐后转化的注意力来提供报酬。 Google 的同盟学习 federated learning 和 Apple 的差分隐私技术 differential privacy 都是私人机器学习研究中的一个步骤,但它们都要求信任,做不到允许用户直接检查其安全性,数据也是筒仓式隔离的。 目前可见的区块链应用 现在在该领域的应用非常初始,没几个团队有大的进展,仅有的几个也只是尝试解决一个个小小问题。 Algorithmia初创公司 Algorithmia 提供了一个简单的构造,可以为精确性高于某个回测阙值的模型提供奖励。下图展示了该构造的工作原理: 图中说明各方如何利用 Algorithmia 进行交易: 从上至下: 购买者 / 以太坊区块链 / 机器学习工程师 从左至右: 购买者建立一个新合同例如:要求: 区分欺诈订单 w/> 90% 的正确率 数据:20k 订单样本 收益:价值 200 美元的以太合同被公布在以太坊区块链上机器学习工程师下载数据、训练 AI/MI 模型递交模型,使用合同里的数据在以太坊区块链里跑一下如果模型可以满足合同的要求,模型将被发给买家,报酬被支付给工程师
Numerai该公司正在从三个步骤上更向前进一步:使用加密数据(尽管不是完全同态加密),将众包模型混合进元模型,并基于未来的表现对模型进行奖励,而不是通过一个叫 Numeraire 的本地以太坊代币进行回测。数据科学家会基于未来表现而不是回测表现来获得激励。但是,它目前还是中心化分发数据,限制了最重要的发展元素。
The Ocean还目前还没有谁已经建立好一个成功立足于区块链的数据市场。在这个领域,Ocean Protocol 做了一些早期尝试。
OpenMined还有其他一些人正在开始建立安全的计算网络。OpenMined 正在建立一个多方计算网络,适用游戏开发平台 Unity,以训练机器学习模型,它可以适用任何设备,包括游戏主机,再扩展以确保 MPC 的安全。Enigma 也有着类似的做法。 一个令人向往的最终状态是元模型由数据提供者和模型提供者共同所有,其所占比例由双方对系统效率的贡献程度而决定。这样的模型可以代币化,能够长期提供分红,还可能由那些训练它们的人来监督。 哪些方法最有可能首先成功? 我并不是说自己知道具体哪一个建构是最好的,只是有一些想法。 我用于评估区块链的一个理论是:物理性本地、电子化本地和区块链本地这些维度中,越能实现区块链本地越好。越少程度的区块链本地,越需要引入被信任的第三方,约增加复杂性,同时,减少了易用性。 这意味着,如果一个系统创造的价值能够被量化,就更能发挥效力,理想状态下应该直接以货币的形式创建,当然,以代币的形式创建会更好,这将允许一个干净的闭环系统。可以拿加密货币交易系统的例子和能够检查肿瘤的 X 光的例子进行一个对比,对于后者,你需要说服一个保险公司相信 X 光的模型是有价值的,对于到底有多少价值讨价还价,然后赋予一小拨人,让他们来验证模型的成功或失败。 诸如之前所说的推荐系统会发挥无比巨大的作用。如果和数据综合处理市场相连接,例如,模型可以在链上采取程序化行动,而系统的回报是代币,如此创建了一个干净的闭环。尽管现在看上去还很抽象,但是我预见,区块链本地化任务的王国会随着时间推移而扩张。 影响如何? 首先,去中心化的机器学习市场能消除当下科技巨头们的数据垄断。过去 20 年里,这些巨头们在互联网上对价值创造的主要源头进行标准化和商业化,专有数据网络和强大的网络效应环绕着它们,结果是,价值创造从「数据」转移到了「算法」。 科技领域里的标准化和商业化循环,而我们正处于数据垄断网络时代的末期,图表来源 Placeholder 或者说,它们为人工智能创造了一种直接的商业模式,都需要提供数据,并以此为基础进行训练。 其次,它们创造了世界上最强大的人工智能系统,通过直接的经济激励吸引到最好的数据和模型。它们的力量通过多方网络效应得以增强。 第三,正如推荐系统案例所展示的,搜索的逻辑被前后倒置了。不是顾客寻找产品,而是产品寻找并为顾客竞争。每个人都可能有各自的综合数据处理市场,在那里,推荐系统相互竞争,将最契合的内容提供出来,而契合度由个人决定。 第四,它们让我们从强大的机器学习为基础的服务中获得同样利益,就像我们所习惯的从谷歌、Facebook 这样的公司获取的服务一样,区别是我们并没有将我们的数据拱手让人。 第五,机器学习能够进化得更快,因为任何工程师都可以进入数据的公开市场,而并不仅仅是 Web 2.0 时代的大公司的工程师们。 挑战 首先以及最重要的,目前安全计算方法的运算速度非常缓慢,而机器学习的计算已经愈发昂贵。但硬币的另一面是,对安全计算方法的研究兴趣也在提升,其性能表现也在提升。在过去六个月里,我见到了能显著提升 HE、MPC 和 ZKPs 性能的新方法。 如何计算一组具体的数据或一个具体的模型对元模型的贡献,并不容易。 清理并将众包数据格式化很有挑战性。我们很有可能看到一些组合工具、一些标准和小企业出现,以解决这一问题。 最后且比较讽刺的是,为这一系统建立通用结构的商业模式并不清晰,这一情况在加密世界中很常见。 长期潜力巨大,但也令人恐惧 将私人机器学习和区块链激励相结合,可以在各种各样的应用中创造最强的机器智能。现有的重大技术挑战在将来都有可能得到解决。它们的长期潜力是巨大的,会改变现有互联网巨头对数据垄断的格局,这一转变颇受人欢迎。但同时,有一点也令人恐惧:它们依靠自己的力量诞生,可以自我加强,使用私有数据,会变得几乎不可能被关闭,这都让我不自禁地怀疑创造它们是否是在召唤一个前所未有的强大莫洛克大神。但无论如何,这都是加密货币如何缓慢地发展,然后突然地进入各行各业的实例。 链闻小福利 请关注链闻 ChainNews 微信公众号 ChainNewsCom,发送信息「MLETH」,即可获得 Algorithmia 最新发表论文(英文),该论文提出了如何利用以太坊、通过调用智能合约,评估并交换机器学习的模型。 —- 编译者/作者:链闻ChainNews 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
链闻深度:一篇读尽区块链机器学习市场的发展现状与未来
2020-11-21 链闻ChainNews 来源:链闻
LOADING...
相关阅读:
- 链闻独家 | Amber AI 声明:OKEx 需对三项重大异常行为接受监督,排查市场2020-11-21
- 链闻精选好文|DeFi:2019 不可绕开的区块链话题2020-11-21
- 链闻今日必读丨直视那些影响区块链效率、成本以及用户体验的技术瓶2020-11-21
- 11.21以太坊506-508多单止盈提醒2020-11-21
- 观点 | 弄清区块链的技术本质与应用,警惕区块链项目可能形成的烂尾2020-11-19