hadoop相关介绍-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

hadoop相关介绍

阅读量：2071 次

发布时间：2019-04-29

本文共 746 字，大约阅读时间需要 2 分钟。

一.简介

大数据：指无法在一定时间范围内用常规软件进行捕捉，管理和处理的数据集合，需要新处理模式才能具有更强的决策力，洞察发现力，和流程优化的能力的海量、高增长率和多样化的信息资产。

主要解决海量数据的存储，海量数据的分析计算：TB，PB，EB

特点：大量(volume），高速(velocity)，多样(variety)，低价值密度(value), 4v

二.组织架构

大数据部门组织架构

平台组：偏向运维，高级，编辑源码

三.hadoop优势

1.高可靠性：底层维护多个数据副本

2.高扩展性：在集群间分配任务，可方便扩展，不用停掉已开启的服务器

3.高效性：并行工作，MapReduce

4.高容错性：自动将失败的任务从新分配

四.hadoop组成

hadoop组成

hdfs:

NameNode: 存储文件的元数据，如目录，文件名，文件属性

DataNode：文件数据，块数据的校验和

Secondary NameNode（2nn）

yarn：

Resource Manager(RM)
1.处理客户端请求
2.监控Node Manage
3.启动或监控ApplicationMaster
4.资源分配和调度

Node Manager(NM)
1.管理单个节点的资源
2.处理来自Resource Manager的命令
3.处理来自applicantMaster的命令

ApplicationMaster(AM)
1.负责数据的切分
2.为应用程序申请资源并分配给内部的任务
3.任务的监控与容错

Container
是yarn中资源的抽象，封装了某个节点的多维度资源，如内存，cpu，磁盘，网络等

MapReduce

Map：并行处理输入数据

Reduce：对map结果进行汇总

五.大数据生态体系：

大数据生态系统

六.推荐系统框架

在这里插入图片描述

转载地址：http://nwjmf.baihongyu.com/

你可能感兴趣的文章

Linux下Tomcat重新启动

使用HttpClient请求另一个项目接口获取内容

HttpClient get和HttpClient Post请求的方式获取服务器的返回数据

net.sf.json Maven依赖配置

Could not initialize class net.sf.json.JsonConfig错误解决

Java编程思想重点笔记（Java开发必看）

eclipse 创建maven 项目动态web工程完整示例

前端JSP与Spring MVC交互实用例子

使用maven一步一步构建spring mvc项目

hadoop map reduce 阶段笔记

java jackcess 操作 access

Git问题Everything up-to-date解决

Hadoop HDFS文件操作的Java代码

Hadoop学习笔记—3.Hadoop RPC机制的使用

Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

JTS Geometry关系判断和分析

GIS基本概念

Java文件操作①——XML文件的读取

java学习总结之文件操作--ByteArrayOutputStream的用法

Java生成和操作Excel文件

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-21 16:53:14 当前IP: 18.191.28.247 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我