Spark与Hadoop关系[编辑 | 编辑源代码]

概述[编辑 | 编辑源代码]

Apache Spark 和 Apache Hadoop 是大数据生态系统中两个核心框架，它们既有互补性又有竞争性。Hadoop是最早的分布式计算框架之一，而Spark作为其后起之秀，通过内存计算和更高级的API优化了某些Hadoop的局限性。两者的关系可以总结为：

**互补**：Spark可以运行在Hadoop的YARN资源管理器上，并直接读写HDFS（Hadoop分布式文件系统）。
**替代**：Spark在某些场景（如迭代计算、流处理）中比Hadoop MapReduce更高效。

核心区别与联系[编辑 | 编辑源代码]

以下表格对比了两者的关键特性：

特性	Hadoop MapReduce	Apache Spark
基于磁盘的批处理 \| 基于内存的批处理、流处理、图计算
较慢（需多次读写磁盘） \| 快（内存优先，减少I/O）
低级（需手动编写Mapper/Reducer） \| 高级（DataFrame、SQL、MLlib等）
通过数据复制实现 \| 通过RDD（弹性分布式数据集）的血缘关系实现
依赖YARN或独立模式 \| 可独立运行或集成YARN/Mesos

架构关系[编辑 | 编辑源代码]

**HDFS**：两者共用的存储层。
**YARN**：Spark可共享Hadoop的资源调度器。

代码示例：WordCount对比[编辑 | 编辑源代码]

Hadoop MapReduce实现[编辑 | 编辑源代码]

  
// Mapper  
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {  
    public void map(LongWritable key, Text value, Context context) {  
        String[] words = value.toString().split(" ");  
        for (String word : words) {  
            context.write(new Text(word), new IntWritable(1));  
        }  
    }  
}  

// Reducer  
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {  
    public void reduce(Text key, Iterable<IntWritable> values, Context context) {  
        int sum = 0;  
        for (IntWritable val : values) {  
            sum += val.get();  
        }  
        context.write(key, new IntWritable(sum));  
    }  
}

Spark实现[编辑 | 编辑源代码]

  
from pyspark import SparkContext  
sc = SparkContext("local", "WordCount")  
text_file = sc.textFile("hdfs://path/to/file")  
counts = text_file.flatMap(lambda line: line.split(" ")) \  
                  .map(lambda word: (word, 1)) \  
                  .reduceByKey(lambda a, b: a + b)  
counts.saveAsTextFile("hdfs://path/to/output")

- 优势**：Spark代码更简洁，且内存计算减少中间结果的磁盘写入。

实际应用场景[编辑 | 编辑源代码]

1. **实时数据分析**

  * Hadoop：适合离线日志分析（如每日报表）。  
  * Spark：适合实时推荐系统（如电商平台的用户行为分析）。

2. **机器学习**

  * Hadoop：需多次读写数据，训练模型慢。  
  * Spark：MLlib库支持迭代算法（如梯度下降），速度提升10倍以上。

数学基础[编辑 | 编辑源代码]

Spark的优化性能可通过计算效率公式体现： $T_{Spark} = \frac{T_{MapReduce}}{k}$ 其中 $k$ 为内存加速因子，通常 $k \geq 5$ 。

总结[编辑 | 编辑源代码]

**何时用Hadoop**：超大规模离线批处理，预算有限（Hadoop硬件成本低）。
**何时用Spark**：需要低延迟、迭代计算或流处理的场景。
**混合架构**：许多企业同时使用两者，例如用HDFS存储数据，用Spark处理计算。

特性	Hadoop MapReduce	Apache Spark
基于磁盘的批处理 \| 基于内存的批处理、流处理、图计算
较慢（需多次读写磁盘） \| 快（内存优先，减少I/O）
低级（需手动编写Mapper/Reducer） \| 高级（DataFrame、SQL、MLlib等）
通过数据复制实现 \| 通过RDD（弹性分布式数据集）的血缘关系实现
依赖YARN或独立模式 \| 可独立运行或集成YARN/Mesos