编辑“︁Apache Hadoop简介”︁（章节）

== 核心组件 ==
Hadoop生态系统主要由以下核心组件构成：

=== 1. Hadoop分布式文件系统 (HDFS) ===
HDFS是Hadoop的存储层，设计用于存储超大规模文件（TB级甚至PB级），并提供高吞吐量的数据访问。其核心特点包括：
* '''分块存储'''：文件被分割为固定大小的块（默认128MB或256MB），分散存储在集群节点上。
* '''副本机制'''：每个块默认保存3个副本，确保数据可靠性。
* '''主从架构'''：
<mermaid>
graph TD
    NameNode[NameNode-主节点] --> DataNode1[DataNode]
    NameNode --> DataNode2[DataNode]
    NameNode --> DataNode3[DataNode]
</mermaid>

=== 2. YARN (Yet Another Resource Negotiator) ===
YARN是Hadoop的资源管理系统，负责集群资源分配和任务调度。其组件包括：
* '''ResourceManager'''：全局资源管理器
* '''NodeManager'''：单个节点上的资源代理

=== 3. MapReduce ===
基于批处理的计算模型，分为两个阶段：
# '''Map阶段'''：并行处理输入数据
# '''Reduce阶段'''：聚合Map结果