Chiriri's blog Chiriri's blog
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)

Iekr

苦逼后端开发
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)
  • Hadoop

    • Hadoop
      • hadoop 三大发行版
      • Hadoop 的优势
      • Hadoop 组成
        • HDFS 架构
        • YARN 架构
        • MapReduce 框架
        • 大数据技术生态体系
    • 环境安装
    • HDFS
    • winutils
    • IDEA中创建hadoop项目
    • Java操作
    • HDFS的数据流
    • NameNode 工作机制
    • DataNode
    • MapReduce
    • MapReduce原理
    • Yarn
    • Hadoop企业优化
    • Hadoop 新特性
    • 日志
    • Hadoop HA高可用
  • Zookeeper

  • Hive

  • Flume

  • Kafka

  • Azkaban

  • Hbase

  • Scala

  • Spark

  • Flink

  • 离线数仓

  • 青训营

  • DolphinScheduler

  • Doris

  • 大数据
  • Hadoop
Iekr
2021-08-30
目录

Hadoop

# Hadoop

Hadoop apache 基金会开发的分布式系统基础架构

主要解决 海量数据的存储和海量数据的分析计算问题

广义来说,hadoop 通常是指一个更广泛的概念 hadoop 生态圈

# hadoop 三大发行版

apache 版本 最原始 (基础) 的版本 入门学习较好

http://archive.apache.org/dist/hadoop/core/

cloudera 内部集成了很多大数据框架 对应产品 CDH

hortonworks 文档较好 对应产品 HDP

cloudera 和 hortonworks 目前两家已经合并

# Hadoop 的优势

  1. 高可靠性
  2. 高扩展性
  3. 高效性
  4. 高容错性

# Hadoop 组成

image-20210830194222175

# HDFS 架构

  1. NameNode (nn) 存储文件的元数据 如文件名,目录结构 文件失效 以及每个文件的块列表和块所在的 DataNode
  2. DataNode (dn) 在本地文件系统存储文件块数据 以及块数据的校验和
  3. Secondary NameNode (2nn) 每隔一段时间对 NameNode 元数据备份 不是热备份 2nn 是 nn 的辅助

# YARN 架构

负责资源调度 CPU 和内存资源

image-20210906150832140

# MapReduce 框架

  • Map 阶段并行处理输入数据 分发
  • Reduce 阶段对 Map 结果进行汇总

image-20210906150912856

# 大数据技术生态体系

image-20210906151009421

编辑 (opens new window)
#Hadoop
上次更新: 2023/12/06, 01:31:48
环境安装

环境安装→

最近更新
01
k8s
06-06
02
进程与线程
03-04
03
计算机操作系统概述
02-26
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Iekr | Blog
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式