Hadoop
# Hadoop
Hadoop apache 基金会开发的分布式系统基础架构
主要解决 海量数据的存储和海量数据的分析计算问题
广义来说,hadoop 通常是指一个更广泛的概念 hadoop 生态圈
# hadoop 三大发行版
apache 版本 最原始 (基础) 的版本 入门学习较好
http://archive.apache.org/dist/hadoop/core/
cloudera 内部集成了很多大数据框架 对应产品 CDH
hortonworks 文档较好 对应产品 HDP
cloudera 和 hortonworks 目前两家已经合并
# Hadoop 的优势
- 高可靠性
- 高扩展性
- 高效性
- 高容错性
# Hadoop 组成

# HDFS 架构
- NameNode (nn) 存储文件的元数据 如文件名,目录结构 文件失效 以及每个文件的块列表和块所在的 DataNode
- DataNode (dn) 在本地文件系统存储文件块数据 以及块数据的校验和
- Secondary NameNode (2nn) 每隔一段时间对 NameNode 元数据备份 不是热备份 2nn 是 nn 的辅助
# YARN 架构
负责资源调度 CPU 和内存资源

# MapReduce 框架
- Map 阶段并行处理输入数据 分发
- Reduce 阶段对 Map 结果进行汇总

# 大数据技术生态体系

编辑 (opens new window)
上次更新: 2023/12/06, 01:31:48