Hadoop日常维护[编辑 | 编辑源代码]

Hadoop日常维护是Hadoop运维管理的核心任务之一，旨在确保Hadoop集群的稳定性、性能和安全性。它包括监控集群状态、日志分析、资源管理、故障排查、备份与恢复等一系列操作。本指南将详细介绍Hadoop日常维护的关键任务和最佳实践，适用于初学者和高级用户。

1. 集群监控[编辑 | 编辑源代码]

Hadoop集群的健康状况需要通过监控工具实时跟踪，常用的监控工具包括：

Hadoop自带的监控界面（如ResourceManager Web UI、NameNode Web UI）
第三方工具（如Prometheus、Grafana、Ambari、Cloudera Manager）

示例：使用命令行检查HDFS状态[编辑 | 编辑源代码]

# 检查HDFS整体状态
hdfs dfsadmin -report

# 检查NameNode状态
hdfs haadmin -getServiceState nn1

输出示例：

Configured Capacity: 100 GB
Present Capacity: 85 GB
DFS Remaining: 70 GB
DFS Used: 15 GB
DFS Used%: 15.00%
Under replicated blocks: 0

2. 日志管理[编辑 | 编辑源代码]

Hadoop组件（如NameNode、DataNode、ResourceManager）会生成大量日志，需定期检查和分析。

关键日志文件[编辑 | 编辑源代码]

NameNode日志：/var/log/hadoop-hdfs/hadoop-hdfs-namenode.log
DataNode日志：/var/log/hadoop-hdfs/hadoop-hdfs-datanode.log
YARN日志：/var/log/hadoop-yarn/yarn-yarn-resourcemanager.log

示例：使用grep分析日志[编辑 | 编辑源代码]

# 查找NameNode错误日志
grep -i "error" /var/log/hadoop-hdfs/hadoop-hdfs-namenode.log

# 统计某个任务的日志
yarn logs -applicationId application_123456789_0001

3. 资源管理[编辑 | 编辑源代码]

Hadoop集群的资源（CPU、内存、磁盘）需合理分配，避免资源耗尽。

示例：调整YARN资源[编辑 | 编辑源代码]

<!-- yarn-site.xml -->
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>8192</value> <!-- 分配8GB内存 -->
</property>
<property>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>4096</value> <!-- 单个任务最大内存 -->
</property>

4. 故障排查[编辑 | 编辑源代码]

常见问题及解决方法：

DataNode离线：检查网络和磁盘空间。
任务失败：查看YARN日志和任务日志。
HDFS空间不足：清理临时文件或扩容。

示例：修复损坏的HDFS块[编辑 | 编辑源代码]

# 检查损坏块
hdfs fsck / -list-corruptfileblocks

# 删除损坏块
hdfs fsck / -delete

5. 备份与恢复[编辑 | 编辑源代码]

关键数据（如NameNode元数据）需定期备份。

示例：备份NameNode元数据[编辑 | 编辑源代码]

# 手动创建检查点
hdfs dfsadmin -saveNamespace

# 备份元数据到本地
hadoop fs -copyToLocal /hadoop/name/current /backup/namenode

6. 安全维护[编辑 | 编辑源代码]

定期更新Hadoop版本以修复漏洞。
配置Kerberos认证。
使用HDFS ACL控制权限。

示例：设置HDFS权限[编辑 | 编辑源代码]

# 设置目录权限
hdfs dfs -chmod -R 750 /user/sensitive_data

# 设置ACL
hdfs dfs -setfacl -m user:alice:r-x /user/shared_data

7. 性能优化[编辑 | 编辑源代码]

调整HDFS块大小（默认128MB）。
启用压缩（如Snappy、Gzip）。
优化MapReduce任务参数。

示例：启用MapReduce压缩[编辑 | 编辑源代码]

<!-- mapred-site.xml -->
<property>
  <name>mapreduce.map.output.compress</name>
  <value>true</value>
</property>
<property>
  <name>mapreduce.map.output.compress.codec</name>
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

8. 实际案例[编辑 | 编辑源代码]

案例：HDFS空间不足告警 1. 使用hdfs dfsadmin -report检查空间使用情况。 2. 清理临时文件：hdfs dfs -rm -r /tmp/old_data 3. 扩容集群或调整数据保留策略。

9. 总结[编辑 | 编辑源代码]

Hadoop日常维护是确保集群稳定运行的关键任务，包括监控、日志分析、资源管理、故障排查等。通过定期检查和优化，可以显著提高集群的可靠性和性能。