本文共 746 字,大约阅读时间需要 2 分钟。
大数据:指无法在一定时间范围内用常规软件进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力,洞察发现力,和流程优化的能力的海量、高增长率和多样化的信息资产。
主要解决海量数据的存储,海量数据的分析计算:TB,PB,EB
特点:大量(volume),高速(velocity),多样(variety),低价值密度(value), 4v
1.高可靠性:底层维护多个数据副本
2.高扩展性:在集群间分配任务,可方便扩展,不用停掉已开启的服务器 3.高效性:并行工作,MapReduce 4.高容错性:自动将失败的任务从新分配yarn:
Resource Manager(RM)
1.处理客户端请求 2.监控Node Manage 3.启动或监控ApplicationMaster 4.资源分配和调度Node Manager(NM)
1.管理单个节点的资源 2.处理来自Resource Manager的命令 3.处理来自applicantMaster的命令ApplicationMaster(AM)
1.负责数据的切分 2.为应用程序申请资源并分配给内部的任务 3.任务的监控与容错Container
是yarn中资源的抽象, 封装了某个节点的多维度资源,如内存,cpu,磁盘,网络等MapReduce
转载地址:http://nwjmf.baihongyu.com/