编辑“︁Hadoop生态系统”︁（章节）

== 核心组件 ==

Hadoop生态系统的核心组件包括：

=== Hadoop分布式文件系统 (HDFS) ===
HDFS是Hadoop的存储层，设计用于在廉价硬件上存储超大规模数据集。它具有高容错性，适合处理批量数据而非实时数据。

* '''NameNode'''：管理文件系统的元数据
* '''DataNode'''：存储实际数据块
* '''Secondary NameNode'''：辅助NameNode进行元数据管理

=== YARN (Yet Another Resource Negotiator) ===
YARN是Hadoop的资源管理层，负责集群资源管理和作业调度。

=== MapReduce ===
MapReduce是Hadoop的原始处理模型，用于并行处理大规模数据集。

<syntaxhighlight lang="java">
// 简单的WordCount MapReduce示例
public class WordCount {
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        
        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }
    
    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();
        
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }
}
</syntaxhighlight>

=== 其他重要组件 ===
* '''HBase'''：分布式NoSQL数据库
* '''Hive'''：数据仓库基础设施，提供SQL-like查询
* '''Pig'''：高级数据流语言和执行框架
* '''Spark'''：内存计算框架，比MapReduce更快
* '''ZooKeeper'''：分布式协调服务
* '''Flume'''：日志收集和聚合
* '''Sqoop'''：在Hadoop和关系数据库之间传输数据
* '''Oozie'''：工作流调度系统
* '''Mahout'''：机器学习库