编辑“︁Apache Hadoop负载均衡”︁

= Hadoop负载均衡 =

'''Hadoop负载均衡'''是Hadoop集群运维管理中的关键任务，旨在通过合理分配数据块和计算任务，优化集群资源利用率，避免出现部分节点过载而其他节点闲置的情况。本页面将系统介绍负载均衡的原理、实现方式、工具及实际案例。

== 概述 ==
Hadoop分布式文件系统（HDFS）默认采用数据分块（Block）和副本（Replica）机制存储数据。随着数据写入和删除，集群可能出现'''数据倾斜'''现象，即部分DataNode存储使用率远高于其他节点。负载均衡通过重新分配数据块，使所有节点的存储使用率差异控制在阈值范围内（通常为±10%）。

=== 核心目标 ===
* 提升集群整体吞吐量
* 避免单点过热（Hotspot）
* 均衡磁盘I/O和网络带宽压力
* 加速任务执行（如MapReduce/Spark作业）

== 负载均衡原理 ==
Hadoop通过以下两种机制实现负载均衡：

=== 1. 动态平衡（运行时） ===
DataNode通过心跳机制向NameNode汇报存储状态，NameNode根据策略决定是否需要触发重平衡。

<mermaid>
graph LR
    A[DataNode: 磁盘使用率80%] -->|心跳报告| B(NameNode)
    C[DataNode: 磁盘使用率30%] -->|心跳报告| B
    B --> D{评估负载差异}
    D -->|超过阈值| E[触发Rebalancer]
</mermaid>

=== 2. 静态平衡（手动触发） ===
管理员通过工具显式发起全局重平衡操作，计算公式为：
<math>
\text{均衡阈值} = \frac{\text{集群总使用量}}{\text{集群总容量}} \times (1 \pm \delta)
</math>
其中δ为允许偏差值（默认0.1）

== 实现方式 ==

=== 使用hadoop balancer工具 ===
Hadoop内置的`hadoop balancer`命令是最常用的负载均衡工具：

<syntaxhighlight lang="bash">
# 基本用法（默认带宽限制10MB/s）
hadoop balancer -threshold 15

# 带带宽限制的用法（限制为50MB/s）
hadoop balancer -D dfs.datanode.balance.bandwidthPerSec=52428800 -threshold 10
</syntaxhighlight>

'''输出示例：'''
<pre>
Time Stamp               Iteration#  Bytes Already Moved  Bytes Left To Move  Bytes Being Moved
May 11, 2023 10:23:45   1           125 MB                45 GB               150 MB
May 11, 2023 10:28:12   2           300 MB                32 GB               120 MB
...
The cluster is balanced. Exiting...
</pre>

=== 编程实现 ===
通过HDFS API可自定义平衡策略：

<syntaxhighlight lang="java">
public class CustomBalancer {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.setLong("dfs.datanode.balance.bandwidthPerSec", 104857600); // 100MB/s
        
        try (Balancer balancer = new Balancer(conf)) {
            balancer.run(new String[]{"-threshold", "5"});
        }
    }
}
</syntaxhighlight>

== 高级配置参数 ==
{| class="wikitable"
|+ 关键配置项
! 参数 !! 默认值 !! 说明
|-
| dfs.datanode.balance.bandwidthPerSec || 10485760 (10MB/s) || 平衡操作带宽限制
|-
| dfs.balancer.movedWinWidth || 5400000 (1.5小时) || 移动任务统计窗口
|-
| dfs.balancer.getBlocks.size || 2 GB || 每次获取块的大小限制
|}

== 实际案例 ==

=== 案例1：电商大促后数据均衡 ===
某电商集群在"双11"后出现存储倾斜：
* 10个DataNode中3个使用率达95%，其余不足40%
* 执行命令：<code>hadoop balancer -threshold 5 -policy datanode</code>
* 结果：6小时后各节点使用率稳定在65%±3%

=== 案例2：跨机房平衡 ===
<mermaid>
graph TB
    A[机房A: 70%使用率] -->|专线| B[机房B: 30%使用率]
    C[Balancer] --> D{带宽限制:50Mbps}
    D --> A
    D --> B
</mermaid>
使用跨机房平衡策略：
<syntaxhighlight lang="xml">
<!-- hdfs-site.xml -->
<property>
    <name>dfs.balancer.address</name>
    <value>0.0.0.0:50070</value>
</property>
<property>
    <name>dfs.balancer.max-size-to-move</name>
    <value>21474836480</value> <!-- 20GB -->
</property>
</syntaxhighlight>

== 常见问题 ==

=== Q1：平衡过程中影响生产作业吗？===
* 会占用部分网络带宽，建议在业务低峰期执行
* 可通过<code>dfs.datanode.balance.bandwidthPerSec</code>限制带宽

=== Q2：如何监控平衡进度？===
* 通过NameNode Web UI（端口50070）查看
* 或解析balancer命令输出

=== Q3：为什么平衡速度很慢？===
可能原因：
1. 网络带宽限制过低
2. 集群中存在"钉子户"大文件
3. 多个平衡任务并发冲突

== 最佳实践 ==
* 定期执行平衡（如每周一次）
* 大规模数据导入后立即触发平衡
* 生产环境建议设置5%-10%的阈值
* 跨机房场景需特别关注网络成本

== 扩展阅读 ==
* [[HDFS Architecture Guide|HDFS架构设计]]中关于数据分布的说明
* [[YARN资源调度]]与计算负载均衡的关系
* [[Hadoop性能调优]]中的相关参数优化

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop运维管理]]