DataNode

# DataNode

# 数据完整性

奇偶校验位如果传输数据 1 为偶数个数则为 0 如果为奇数个 1 则为 1

如果原始数据与接收数据发生改变又恰好奇偶性一致则这个现象我们称为校验碰撞

crc 校验位 32 位

md5 128 位

sha1 160 位

# 扩展集群

服役新数据节点

克隆修改主机名 ip

#复制module文件夹 在其他集群中复制  和环境变量
sudo rsync -av /opt/module hadoop105:/opt
sudo rsync -av /etc/profile.d hadoop105:/etc

1
2
3

#在扩展机中删除logs data 文件夹
cd /opt/module/hadoop-3.1.3/
rm -rf data logs
source /etc/profile
hadoop version

1
2
3
4
5

hdfs --daemon start datanode 
yarn --daemon start nodemanager  
jps

1
2
3

此方式是手动启动如果想要群启动则需要配置免密登陆

#在102中配置
vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

1
2

追加上地址

hadoop105

同步所有集群

xsync /opt/module/hadoop-3.1.3/etc/hadoop/workers

# 添加黑 / 白名单

在 hadoop 文件夹下新建 balcklist 和 whitelist

#主机上写 102
cd /opt/module/hadoop-3.1.3/etc/hadoop
touch balcklist
touch whitelist

1
2
3
4

添加白名单一般 whitelist 内容和 workers 相同

vim whitelist

hadoop102
hadoop103
hadoop104
hadoop105

1
2
3
4

再编辑 hdfs-size.xml

vim hdfs-site.xml

添加以下内容

<property>
<name>dfs.hosts.exclude</name>
      <value>/opt/module/hadoop-3.1.3/etc/hadoop/balcklist</value>
</property>
<property>
<name>dfs.hosts</name>
      <value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value>
</property>

1
2
3
4
5
6
7
8

重启集群

stop-dfs.sh

开启

start-dfs.sh

# 黑名单退役

编辑 balcklist 添加黑名单地址

vim balcklist
hdfs dfsadmin -refreshNodes  #刷新节点

1
2

退役的机器自动上传文件到服役中的其他主机中

关闭节点

hdfs --daemon stop datanode

# DateNode 多目录配置

DataNode 也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本

vim hdfs-site.xml

多个目录之间逗号隔开

<property>
        <name>dfs.datanode.data.dir</name>
<value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.tmp.dir}/dfs/data2</value>
</property>

1
2
3
4

配置完成后重启

hdfs --daemon stop datanode
hdfs --daemon start datanode

1
2

编辑

上次更新: 2023/12/06, 01:31:48

← NameNode 工作机制 MapReduce→