编辑“︁Apache Hadoop集群部署”︁

= Hadoop集群部署 =

== 介绍 ==  
'''Hadoop集群部署'''是指将Hadoop分布式计算框架的各个组件（如HDFS、YARN、MapReduce等）安装并配置在多台服务器上，形成一个协同工作的分布式系统。集群部署是Hadoop运维管理的核心任务之一，直接影响系统的性能、可靠性和扩展性。  

Hadoop集群通常由以下角色组成：  
* '''主节点（Master Node）'''：运行NameNode、ResourceManager等核心服务。  
* '''从节点（Worker Node）'''：运行DataNode、NodeManager等数据处理服务。  
* '''客户端节点（Client Node）'''：提交作业和访问集群。  

== 部署前准备 ==  

=== 硬件要求 ===  
* 主节点：建议至少16GB内存、4核CPU、100GB存储。  
* 从节点：建议至少8GB内存、2核CPU、500GB存储（根据数据量调整）。  
* 网络：千兆以太网或更高，低延迟。  

=== 软件要求 ===  
* 操作系统：Linux（推荐CentOS或Ubuntu）。  
* Java：OpenJDK 8或11（Hadoop 3.x支持Java 11）。  
* SSH：无密码登录配置。  

=== 配置示例 ===  
以下是一个3节点集群的配置示例：  
<mermaid>  
graph TD  
    Master[Master Node: NameNode, ResourceManager]  
    Worker1[Worker Node 1: DataNode, NodeManager]  
    Worker2[Worker Node 2: DataNode, NodeManager]  
    Master -->|SSH| Worker1  
    Master -->|SSH| Worker2  
</mermaid>  

== 部署步骤 ==  

=== 1. 安装Java ===  
在所有节点上安装Java：  
<syntaxhighlight lang="bash">  
# Ubuntu/Debian  
sudo apt update  
sudo apt install openjdk-11-jdk  

# 验证安装  
java -version  
</syntaxhighlight>  

输出示例：  
<pre>  
openjdk version "11.0.12" 2021-07-20  
OpenJDK Runtime Environment (build 11.0.12+7-post-Ubuntu-0ubuntu1)  
OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Ubuntu-0ubuntu1, mixed mode)  
</pre>  

=== 2. 配置SSH免密登录 ===  
在主节点生成密钥并分发到从节点：  
<syntaxhighlight lang="bash">  
ssh-keygen -t rsa  
ssh-copy-id user@worker1  
ssh-copy-id user@worker2  
</syntaxhighlight>  

=== 3. 下载并解压Hadoop ===  
从Apache官网下载Hadoop（以3.3.6为例）：  
<syntaxhighlight lang="bash">  
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -xzvf hadoop-3.3.6.tar.gz  
mv hadoop-3.3.6 /opt/hadoop  
</syntaxhighlight>  

=== 4. 配置环境变量 ===  
编辑<code>/etc/profile</code>：  
<syntaxhighlight lang="bash">  
export HADOOP_HOME=/opt/hadoop  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
</syntaxhighlight>  

=== 5. 核心配置文件 ===  
修改以下文件（路径：<code>$HADOOP_HOME/etc/hadoop/</code>）：  

==== '''core-site.xml''' ====  
<syntaxhighlight lang="xml">  
<configuration>  
    <property>  
        <name>fs.defaultFS</name>  
        <value>hdfs://master:9000</value>  
    </property>  
</configuration>  
</syntaxhighlight>  

==== '''hdfs-site.xml''' ====  
<syntaxhighlight lang="xml">  
<configuration>  
    <property>  
        <name>dfs.replication</name>  
        <value>2</value>  
    </property>  
</configuration>  
</syntaxhighlight>  

==== '''mapred-site.xml''' ====  
<syntaxhighlight lang="xml">  
<configuration>  
    <property>  
        <name>mapreduce.framework.name</name>  
        <value>yarn</value>  
    </property>  
</configuration>  
</syntaxhighlight>  

=== 6. 启动集群 ===  
<syntaxhighlight lang="bash">  
# 格式化HDFS（仅在首次部署时执行）  
hdfs namenode -format  

# 启动HDFS  
start-dfs.sh  

# 启动YARN  
start-yarn.sh  
</syntaxhighlight>  

验证服务状态：  
<syntaxhighlight lang="bash">  
jps  
</syntaxhighlight>  
主节点应显示<code>NameNode</code>和<code>ResourceManager</code>，从节点应显示<code>DataNode</code>和<code>NodeManager</code>。  

== 实际案例 ==  

=== 电商日志分析集群 ===  
某电商公司部署了一个5节点Hadoop集群：  
* 1个主节点（NameNode + ResourceManager）  
* 4个从节点（每个节点配置：32GB内存、12核CPU、10TB存储）  

'''用途'''：  
* 存储和分析用户行为日志（每日增量约1TB）。  
* 运行MapReduce作业生成销售报表。  

== 常见问题 ==  

=== 1. DataNode未启动 ===  
'''可能原因'''：  
* 防火墙阻止通信。  
* <code>dfs.datanode.data.dir</code>权限错误。  

'''解决方案'''：  
<syntaxhighlight lang="bash">  
sudo systemctl stop firewalld  
chmod 755 /path/to/data/dir  
</syntaxhighlight>  

=== 2. 磁盘空间不足 ===  
通过以下命令监控HDFS使用情况：  
<syntaxhighlight lang="bash">  
hdfs dfsadmin -report  
</syntaxhighlight>  

== 数学公式 ==  
Hadoop的副本放置策略遵循机架感知（Rack Awareness），其副本分布概率可表示为：  
<math>  
P(\text{副本在本地机架}) = \frac{1}{\text{机架数}}  
</math>  

== 总结 ==  
Hadoop集群部署需要严谨的规划和配置，确保硬件资源、网络和软件环境满足要求。通过本文的步骤，读者可以完成一个基础的集群部署，并进一步探索性能调优和高可用配置。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop运维管理]]