编辑“︁Apache Spark”︁（章节）

== 核心架构 ==

Spark的核心架构基于弹性分布式数据集（Resilient Distributed Dataset, RDD），这是一种可以并行操作的不可变分布式对象集合。RDD提供了高效的容错机制，能够自动从节点故障中恢复。

Spark的主要组件包括：
* '''Spark Core'''：提供基本功能，包括任务调度、内存管理和故障恢复
* '''Spark SQL'''：用于结构化数据处理的模块
* '''Spark Streaming'''：实时流处理组件
* '''MLlib'''：机器学习库
* '''GraphX'''：图计算库