Chiriri's blog Chiriri's blog
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)

Iekr

苦逼后端开发
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)
  • Hadoop

    • Hadoop
    • 环境安装
    • HDFS
    • winutils
    • IDEA中创建hadoop项目
    • Java操作
    • HDFS的数据流
    • NameNode 工作机制
    • DataNode
    • MapReduce
    • MapReduce原理
    • Yarn
    • Hadoop企业优化
    • Hadoop 新特性
      • 集群间数据拷贝
      • 小文件存档
      • 回收站
    • 日志
    • Hadoop HA高可用
  • Zookeeper

  • Hive

  • Flume

  • Kafka

  • Azkaban

  • Hbase

  • Scala

  • Spark

  • Flink

  • 离线数仓

  • 青训营

  • DolphinScheduler

  • Doris

  • 大数据
  • Hadoop
Iekr
2021-10-18
目录

Hadoop 新特性

# Hadoop 新特性

# 集群间数据拷贝

  1. 使用 scp 实现两个远程主机之间的文件复制
scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt		# 推 push
scp -r root@hadoop103:/user/atguigu/hello.txt  hello.txt		# 拉 pull
scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu   #是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
1
2
3
  1. 采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制
bin/hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt hdfs://hadoop103:8020/user/atguigu/hello.txt
1

# 小文件存档

image-20211018065954319

start-yarn.sh #需要启动yarn服务
bin/hadoop archive -archiveName input.har –p /user/atguigu/input /user/atguigu/output #将 hdfs 中的/user/atguigu/input目录里的所有文件都归档为 input.har

hadoop fs -lsr /user/atguigu/output/input.har
hadoop fs -lsr har:///user/atguigu/output/input.har  #查看文档

hadoop fs -cp har:///user/atguigu/output/input.har/* /user/atguigu  #解归档文件
1
2
3
4
5
6
7

# 回收站

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用

image-20211018070240587

  1. 启用回收站修改 core-site.xml,配置垃圾回收时间为 1 分钟。
<property>
   <name>fs.trash.interval</name>
<value>1</value>
</property>
1
2
3
4
  1. 回收站默认路径在集群 /user/atguigu/.Trash/…. 路径下
  2. 修改访问垃圾回收站用户名称 进入垃圾回收站用户名称,默认是 dr.who,修改为 atguigu 用户 修改 core-site.xml 文件
<property>
  <name>hadoop.http.staticuser.user</name>
  <value>atguigu</value>
</property>
1
2
3
4
  1. 通过 java 程序删除的文件不会经过回收站,需要调用 moveToTrash () 才进入回收站
Trash trash = New Trash(conf);
trash.moveToTrash(path);
1
2
  1. 恢复回收站数据
hadoop fs -mv /user/atguigu/.Trash/Current/user/atguigu/input /user/atguigu/input
1
  1. 清空回收站
hadoop fs -expunge
1
编辑 (opens new window)
上次更新: 2023/12/06, 01:31:48
Hadoop企业优化
日志

← Hadoop企业优化 日志→

最近更新
01
k8s
06-06
02
进程与线程
03-04
03
计算机操作系统概述
02-26
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Iekr | Blog
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式