分布式存储系统主流是Hadoop,分为以下几个架构。 传统大数据架构 数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。依然保留了ETL的动作,将数据经过ETL动作进入数据存储。数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。 流式架构 在传统大数据架构的基础上,流式架构数据全程以流的形式处理,在数据接入端将ETL替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。存储部分在外围系统以窗口的形式进行存储。适用于预警、监控、对数据有有效期要求的情况。 Lambda架构 Lambda架构算大数据系统里面举足轻重的架构,数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。适用于同时存在实时和离线需求的情况。 Kappa架构 Kappa架构在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。 Unifield架构 Unifield架构将机器学习和数据处理揉为一体,在流处理层新增了机器学习层。数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。适用于有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划的情况。 —- 编译者/作者:余心乐 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
Hadoop的架构分类
2020-01-05 余心乐 来源:区块链网络
LOADING...
相关阅读:
- 比特币:链上数据支持即将到来的牛市预期2020-08-01
- 链上数据显示,比特币被低估,而BTC价格刚刚突破11,600美元的阻力位2020-08-01
- 这些数据创新高时比特币曾暴涨3.5倍历史会重演吗?2020-08-01
- Chainlink (LINK)将韩国顶级银行的外汇汇率数据引入 DeFi,有望打开一个2020-08-01
- 以太坊 2.0 测试网参与验证节点数量已达到原定要求2020-08-01