Chiriri's blog Chiriri's blog
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)

Iekr

苦逼后端开发
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)
  • Hadoop

    • Hadoop
    • 环境安装
    • HDFS
      • 命令行操作
        • HDFS 到 HDFS
        • 本地 到 HDFS
        • HDFS 到 本地
    • winutils
    • IDEA中创建hadoop项目
    • Java操作
    • HDFS的数据流
    • NameNode 工作机制
    • DataNode
    • MapReduce
    • MapReduce原理
    • Yarn
    • Hadoop企业优化
    • Hadoop 新特性
    • 日志
    • Hadoop HA高可用
  • Zookeeper

  • Hive

  • Flume

  • Kafka

  • Azkaban

  • Hbase

  • Scala

  • Spark

  • Flink

  • 离线数仓

  • 青训营

  • DolphinScheduler

  • Doris

  • 大数据
  • Hadoop
Iekr
2021-09-06
目录

HDFS

# HDFS

HDFS (Hadoop Distributed File System) 它是一个文件系统 用于存储文件 通过目录树来定位文件 其次它是分布式的

HDFS 的使用场景:适合一次写入 多次读出的场景 且不支持文件的修改

优点:

  1. 高容错性 自动保存多个副本 某一个副本丢失 可以自动恢复
  2. 适合处理大数据
  3. 可构建在廉价机器上 通过多副本机制 提高可靠性

缺点:

  1. 不适合低延时时数据访问 比如毫秒级的数据
  2. 无法高效的对大量小文件进行存储
  3. 不支持并发写入 文件随机修改 仅支持数据的 append 追加

image-20210906151144956

image-20210906151224638

image-20210906151300031

# 命令行操作

以 hadoop fs 或者 hdfs dfs 为关键字

# HDFS 到 HDFS

大部分 linux 命令都支持 需要在 hadoop fs - 拼接命令

  • cp 如:hadoop fs -cp 1.txt 2.txt

  • mv

  • chown

  • chmod

  • mkdir

  • du 统计文件夹的大小信息

  • df

  • cat

  • rm

  • setrep 设置 HDFS 中文件的副本数据 默认为节点 (集群) 数 并且不可以超节点数最大为节点数

    • hadoop fs -setrep 10 /1.txt
      
      1

# 本地 到 HDFS

  • put 上传

    • #hadoop fs -put 文件 HDFS内文件路径
      hadoop fs -put 1.txt /
      
      1
      2
  • copyFromLocal 从本地复制到 HDFS 支持多线程

    • #hadoop fs -copyFromLocal 文件 HDFS内文件路径
      hadoop fs -copyFromLocal  1.txt /
      
      1
      2
  • moveFromLocal 从本地复制到 HDFS

    • #hadoop fs -moveFromLocal  文件 HDFS内文件路径
      hadoop fs -moveFromLocal   1.txt /
      
      1
      2
  • appendToFile 将指定文件内容或者指定内容追加到 HDFS 文件末尾

    • #hadoop fs -appendToFile  文件 HDFS内文件路径  如要指定内容则文件名忽略填写 - 既可
      hadoop fs -appendToFile   2.txt /1.txt
      
      1
      2

# HDFS 到 本地

  • get 从 HDFS 下载到本地

    • #hadoop fs -get  HDFS内文件  本地文件路径
      hadoop fs -get   /2.txt /
      
      1
      2
  • copyToLocal 与 get 一致

  • getmerge 合并下载

    • #hadoop fs -get  HDFS内多个文件  本地文件
      hadoop fs -get   /*.txt /1.txt
      
      1
      2
编辑 (opens new window)
上次更新: 2023/12/06, 01:31:48
环境安装
winutils

← 环境安装 winutils→

最近更新
01
k8s
06-06
02
进程与线程
03-04
03
计算机操作系统概述
02-26
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Iekr | Blog
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式