编辑“︁Apache Hadoop集群模式”︁

= Hadoop集群模式 =

== 介绍 ==
'''Hadoop集群模式'''是Hadoop分布式计算框架的核心运行方式，它允许在多台机器（节点）上并行处理大规模数据集。与单机模式（Local Mode）和伪分布式模式（Pseudo-Distributed Mode）不同，集群模式通过将工作负载分配到多个物理或虚拟节点，实现了真正的分布式存储（HDFS）和计算（MapReduce/YARN）。

集群模式的核心特点包括：
* '''水平扩展性'''：通过添加更多节点提高处理能力。
* '''容错性'''：数据自动复制（默认3份）防止节点故障。
* '''资源管理'''：YARN协调CPU、内存等资源的分配。

== 集群架构 ==
Hadoop集群通常由以下两类节点组成：

<mermaid>
graph TD
    Master[Master Nodes] -->|管理| Worker[Worker Nodes]
    Master --> NameNode[NameNode]
    Master --> ResourceManager[ResourceManager]
    Worker --> DataNode[DataNode]
    Worker --> NodeManager[NodeManager]
</mermaid>

=== 主节点（Master Nodes） ===
* '''NameNode'''：管理HDFS文件系统的元数据
* '''ResourceManager'''：全局资源调度器（YARN组件）

=== 工作节点（Worker Nodes） ===
* '''DataNode'''：存储实际数据块
* '''NodeManager'''：管理单个节点的资源

== 配置集群模式 ==
以下是关键配置文件示例（{{code|hdfs-site.xml}}）：

<syntaxhighlight lang="xml">
<configuration>
    <!-- 指定NameNode地址 -->
    <property>
        <name>dfs.namenode.rpc-address</name>
        <value>master-node:8020</value>
    </property>
    <!-- 数据块复制因子 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>
</syntaxhighlight>

以及{{code|yarn-site.xml}}的资源配置：

<syntaxhighlight lang="xml">
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>8192</value> <!-- 每个节点8GB内存 -->
</property>
</syntaxhighlight>

== 集群操作示例 ==
启动HDFS集群（在NameNode上执行）：
<syntaxhighlight lang="bash">
# 格式化文件系统（首次部署时）
hdfs namenode -format

# 启动HDFS服务
start-dfs.sh
</syntaxhighlight>

检查集群状态：
<syntaxhighlight lang="bash">
hdfs dfsadmin -report
</syntaxhighlight>

示例输出：
<pre>
Live datanodes (3):
Name: 192.168.1.2:9866 (dn1)
Hostname: dn1
Decommission Status : Normal
...
Used: 2 TB (50%)  <!-- 显示各节点存储状态 -->
</pre>

== 实际案例：日志分析 ==
'''场景'''：电商平台需要分析每日10GB的用户点击日志

1. '''数据流'''：
<mermaid>
flowchart LR
    Logs[原始日志] -->|HDFS上传| HDFS[/user/logs/2023-10-01]
    HDFS --> MapReduce[点击次数统计]
    MapReduce --> Results[结果输出]
</mermaid>

2. '''MapReduce作业提交'''：
<syntaxhighlight lang="bash">
hadoop jar click-analysis.jar \
-input /user/logs/2023-10-01 \
-output /user/results/click_count \
-mapper "python click_mapper.py" \
-reducer "python sum_reducer.py"
</syntaxhighlight>

== 性能优化 ==
对于高级用户，可调整以下参数：

* '''并行度控制'''：通过{{code|mapreduce.job.maps}}和{{code|mapreduce.job.reduces}}
* '''数据本地化'''：尽量使计算靠近数据存储节点
* '''压缩设置'''：配置{{code|mapreduce.map.output.compress}}为true

数学上，数据本地化优势可以表示为：
<math>
T_{total} = T_{transfer} + T_{compute} \quad \text{当本地化时} \quad T_{transfer} \approx 0
</math>

== 常见问题 ==
{| class="wikitable"
|-
! 问题 !! 解决方案
|-
| DataNode不启动 || 检查{{code|dfs.datanode.data.dir}}权限
|-
| 节点间通信失败 || 验证{{code>/etc/hosts}}和防火墙设置
|-
| 磁盘空间不足 || 调整{{code|dfs.datanode.du.reserved}}
|}

== 扩展阅读 ==
* Hadoop Rack Awareness配置
* 使用ZooKeeper实现高可用（HA）
* 与其他大数据工具（如Spark、Hive）的集成

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop基础]]