Hadoop单机模式[编辑 | 编辑源代码]

介绍[编辑 | 编辑源代码]

Hadoop单机模式（Standalone Mode）是Hadoop框架中最简单的运行模式，适用于本地开发和调试。在此模式下，Hadoop的所有组件（如HDFS和YARN）均不启动，而是直接使用本地文件系统运行MapReduce作业。单机模式不需要任何分布式配置，适合初学者快速验证代码逻辑或进行小规模数据处理实验。

单机模式的特点：

无需启动HDFS或YARN
所有进程运行在单个JVM中
使用本地文件系统而非HDFS
适合调试和单元测试

配置步骤[编辑 | 编辑源代码]

1. 环境准备[编辑 | 编辑源代码]

确保系统已安装：

Java 8或更高版本
Hadoop（最新稳定版推荐）

验证Java安装：

java -version

2. Hadoop配置[编辑 | 编辑源代码]

修改Hadoop配置文件（通常位于$HADOOP_HOME/etc/hadoop/）：

core-site.xml（设置临时目录）：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/tmp/hadoop-${user.name}</value>
    </property>
</configuration>

mapred-site.xml（指定MapReduce框架）：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>local</value>
    </property>
</configuration>

运行示例[编辑 | 编辑源代码]

以下是一个经典WordCount示例的执行过程：

输入文件准备[编辑 | 编辑源代码]

创建输入文件input.txt：

Hello Hadoop
Hello World
Hadoop World

执行MapReduce作业[编辑 | 编辑源代码]

运行WordCount程序：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount input.txt output

输出结果[编辑 | 编辑源代码]

查看输出目录中的结果：

cat output/part-r-00000

预期输出：

Hadoop  2
Hello   2
World   2

执行流程解析[编辑 | 编辑源代码]

关键阶段说明： 1. Input Split：将输入文件分割为逻辑分片（单机模式下实际不分片） 2. Mapper：对每个单词发射(word, 1)键值对 3. Reducer：聚合相同单词的计数

性能特点[编辑 | 编辑源代码]

单机模式性能受限于本地硬件资源，主要约束因素：

单线程执行（除非配置多线程）
本地磁盘I/O速度
JVM内存限制

可通过以下公式估算处理时间： $T_{t o t a l} = T_{r e a d} + N_{r e c o r d s} \times (T_{m a p} + T_{r e d u c e}) + T_{w r i t e}$

实际应用场景[编辑 | 编辑源代码]

典型用例： 1. 算法原型验证 2. 教学演示 3. 单元测试 4. 小数据集（<1GB）快速处理

开发调试技巧：

使用-Dmapreduce.job.ubertask.enable=true启用"uber模式"（在单个JVM中运行小作业）
通过System.out.println()调试（日志会直接输出到控制台）

与伪分布式模式对比[编辑 | 编辑源代码]

特性	单机模式	伪分布式模式
❌ 否 \| ✅ 是
❌ 否 \| ✅ 是
无 \| NameNode, DataNode等
调试/测试 \| 模拟生产环境

常见问题[编辑 | 编辑源代码]

Q：单机模式能处理多大尺寸的数据？
A：建议不超过本地内存的50%，通常适合GB级以下数据。

Q：如何监控作业进度？
A：在控制台会直接显示进度信息，或通过mapreduce.task.progress.report.interval调整报告频率。

Q：出现"Unable to load native-hadoop library"警告怎么办？
A：这是非关键警告，可通过设置-Djava.library.path或忽略，不影响单机模式运行。

特性	单机模式	伪分布式模式
❌ 否 \| ✅ 是
❌ 否 \| ✅ 是
无 \| NameNode, DataNode等
调试/测试 \| 模拟生产环境