LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 币圈百科 > [Coinbase] 事件发生后的事态:2021年5月19日

[Coinbase] 事件发生后的事态:2021年5月19日

2021-05-27 wanbizu AI 来源:区块链网络

布莱恩特·考(Bryant Khau)和莱昂纳多·里扎(Leonardo Zizzamia)

概括

5月19日(星期三)太平洋时间上午5:50至7:38,coinbase.com,Coinbase移动应用程序和Coinbase Pro出现连接问题。 在这段时间内,许多用户在尝试访问Coinbase时遇到了缓慢的加载时间和错误,包括购买,出售和交易等功能。 这篇文章将详细介绍中断情况,解释造成故障的原因,并描述我们为防止类似故障而进行的更改。

断电

由于许多用户对导致此事件的加密市场突然下跌的价格做出了反应,导致流量激增(ETH下跌了20%,BTC下跌了25%)。 一组待命工程师召集起来,因为他们对多种服务的错误率很高。

受影响的服务是:

注销Web服务器:这导致未登录的用户在访问coinbase.com时遇到错误页面。GraphQL服务:这导致移动应用程序的某些部分加载非常缓慢,并且错误率约为10%。Coinbase Pro API:这导致Coinbase Pro部分无法访问。非美国卡付款处理服务:这导致非美国客户尝试使用卡购买加密货币而被拒绝。

一旦确定了这些问题,工程师将分为不同的小组,以并行调查每个问题并确定后续行动的优先级。

根本原因分析

自停电以来的几天里,我们重新构建了第一分钟以来发生的情况的清晰图片。

由于实例开始出现故障,并且花费了40多分钟才能恢复到正常状态,因此Logged Out的coinbase.com页面在很大程度上无法访问。 请求的快速增加最终达到Nginx路由器连接的最大阈值,在事件发生时手动增加了该阈值。 这最终解决了瓶颈。

NodeJS HTML响应

2.我们看到了GraphQL服务的超时和增加的延迟,该服务聚集了来自基础服务的数据。 超时是由于GraphQL自动扩展速度太慢所致。 自动缩放最终陷入困境,错误消失了,从而将功能恢复到了移动应用程序和已登录的用户。

GraphQL错误

3.我们看到,为Coinbase Pro交换提供支持的数据库具有较高的延迟和CPU负载。 此外,运行我们的市场数据供稿的API服务器处于高CPU负载下。 我们提高了在数据库上配置的操作吞吐量,还配置了更多的API服务器。

Coinbase Pro API响应时间

4.在我们的非美国卡支付处理服务中,随着处理队列的积压,失败的支付数量增加了。 我们增加了队列工作人员的数量,并且卡支付开始成功。

队列大小改进

在Coinbase,我们已投入大量资源来提高可靠性,包括定期进行负载测试以为高流量做好准备。 但是,此事件已确定了一些盲点需要解决,尤其是在交通突然中断的情况下。

围绕此事件中的多个失败的一个共同主题是自动缩放规则,这些规则未针对加密市场可能导致的流量激增的性质进行调整。 我们正在努力调整负载测试,以更好地模拟现实世界的情况,例如突然的流量高峰。 这将有助于在受控测试期间发现更多问题,例如未调整的自动缩放规则。

我们正在投资的另一个改进是为客户端应用程序的某些部分实现了终止开关的实现,这样,当发生故障时,我们可以在解决故障的同时保持应用程序中未受影响的部分正常工作。

我们非常重视基础架构的正常运行时间和性能,我们正在努力支持选择Coinbase来管理其加密货币的数百万客户。如果您有兴趣解决此处提出的扩展挑战,请与我们合作。

事件发生后的事态:2021年5月19日最初发布在The Coinbase Blog on Medium上,人们通过突出并回应这个故事来继续对话。

>>在Coinbase上查看

加入我们的电报

在推特上关注我们

在Facebook上关注我们

帖子 [Coinbase] 事件发生后的事态:2021年5月19日首次出现在AZCoin新闻上。

—-

原文链接:https://azcoinnews.com/coinbase-incident-post-mortem-may-19-2021.html

原文作者:Coinbase News

编译者/作者:wanbizu AI

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

LOADING...
LOADING...