编辑“︁Apache Hadoop与Docker集成”︁（章节）

= Hadoop与Docker集成 =

== 介绍 ==  
'''Hadoop与Docker集成'''是指利用Docker容器化技术来部署和管理Hadoop集群。Docker通过轻量级的虚拟化环境，简化了Hadoop的安装、配置和扩展流程，特别适合开发、测试和云环境下的快速部署。对于初学者，这种集成降低了搭建分布式系统的门槛；对于高级用户，它提供了灵活的资源管理和隔离能力。

=== 核心优势 ===  
* '''环境一致性'''：Docker镜像确保Hadoop组件在不同环境中运行一致。  
* '''快速部署'''：通过容器编排工具（如Docker Compose或Kubernetes）一键启动集群。  
* '''资源隔离'''：每个Hadoop服务（如HDFS、YARN）可运行在独立容器中，避免冲突。  
* '''弹性扩展'''：动态调整容器数量以应对计算需求变化。

== 基础架构 ==  
以下是Hadoop与Docker集成的典型架构：  

<mermaid>  
graph TD  
    A[Docker Host] --> B[NameNode Container]  
    A --> C[DataNode Container 1]  
    A --> D[DataNode Container 2]  
    A --> E[ResourceManager Container]  
    A --> F[NodeManager Containers]  
    B -->|HDFS Metadata| G[Persistent Volume]  
    C & D -->|HDFS Data| G  
</mermaid>  

关键组件说明：  
* '''NameNode'''：HDFS的主节点，管理文件系统元数据。  
* '''DataNode'''：存储实际数据块的容器。  
* '''ResourceManager'''：YARN的资源调度器。  
* '''NodeManager'''：在容器中执行计算任务。

== 部署步骤 ==  

=== 1. 安装Docker ===  
确保主机已安装Docker Engine：  
<syntaxhighlight lang="bash">  
# Ubuntu示例  
sudo apt-get update  
sudo apt-get install docker.io  
sudo systemctl start docker  
</syntaxhighlight>  

=== 2. 拉取Hadoop镜像 ===  
使用社区维护的Hadoop Docker镜像（如`bde2020/hadoop-base`）：  
<syntaxhighlight lang="bash">  
docker pull bde2020/hadoop-base  
</syntaxhighlight>  

=== 3. 编写Docker Compose文件 ===  
创建`docker-compose.yml`定义集群服务：  
<syntaxhighlight lang="yaml">  
version: '3'  
services:  
  namenode:  
    image: bde2020/hadoop-namenode  
    ports:  
      - "9870:9870"  # HDFS Web UI  
    volumes:  
      - namenode_data:/hadoop/dfs/name  

  datanode:  
    image: bde2020/hadoop-datanode  
    depends_on:  
      - namenode  
    volumes:  
      - datanode_data:/hadoop/dfs/data  

  resourcemanager:  
    image: bde2020/hadoop-resourcemanager  
    depends_on:  
      - namenode  

volumes:  
  namenode_data:  
  datanode_data:  
</syntaxhighlight>  

=== 4. 启动集群 ===  
<syntaxhighlight lang="bash">  
docker-compose up -d  
</syntaxhighlight>  

== 实际案例：词频统计 ==  
在Docker化的Hadoop集群上运行MapReduce任务：  

1. 进入NameNode容器：  
<syntaxhighlight lang="bash">  
docker exec -it namenode bash  
</syntaxhighlight>  

2. 上传输入文件到HDFS：  
<syntaxhighlight lang="bash">  
hdfs dfs -mkdir /input  
hdfs dfs -put /path/to/local/file.txt /input  
</syntaxhighlight>  

3. 运行WordCount示例：  
<syntaxhighlight lang="bash">  
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output  
</syntaxhighlight>  

4. 查看结果：  
<syntaxhighlight lang="bash">  
hdfs dfs -cat /output/part-r-00000  
</syntaxhighlight>  

输出示例：  
<syntaxhighlight lang="text">  
Hello   3  
World   2  
</syntaxhighlight>  

== 高级配置 ==  

=== 自定义Hadoop配置 ===  
通过挂载配置文件覆盖默认设置：  
<syntaxhighlight lang="yaml">  
# docker-compose.yml片段  
datanode:  
  volumes:  
    - ./custom-core-site.xml:/etc/hadoop/core-site.xml  
</syntaxhighlight>  

=== 使用Kubernetes编排 ===  
对于生产环境，可使用Kubernetes管理Hadoop容器：  
<mermaid>  
graph LR  
    K[Kubernetes Master] -->|调度| N[Node 1: NameNode Pod]  
    K -->|调度| D[Node 2: DataNode Pods]  
    K -->|监控| M[Metrics Server]  
</mermaid>  

== 常见问题 ==  

'''Q: 如何持久化HDFS数据？'''  
A: 使用Docker卷（Volumes）挂载Hadoop数据目录，如示例中的`namenode_data`和`datanode_data`。  

'''Q: 容器间网络如何配置？'''  
A: Docker Compose默认创建共享网络，确保容器通过服务名（如`namenode`）相互访问。  

== 数学建模（可选） ==  
在资源分配中，YARN的容器资源可用以下公式表示：  
<math>  
C_i = \min(M_i, \sum_{j=1}^{n} R_{ij})  
</math>  
其中：  
* <math>C_i</math>为容器<math>i</math>的实际资源  
* <math>M_i</math>为容器配置的最大资源  
* <math>R_{ij}</math>为节点<math>j</math>的可用资源  

== 总结 ==  
Hadoop与Docker集成显著简化了集群部署和管理的复杂性，适合从开发到生产的全生命周期。通过容器化技术，用户可以快速实验Hadoop功能，同时保持环境的一致性和可移植性。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop云部署]]