编辑“︁Apache Hadoop ETL数据处理”︁

= Hadoop ETL数据处理 =

'''Hadoop ETL数据处理'''是指利用Hadoop生态系统工具完成'''抽取（Extract）、转换（Transform）、加载（Load）'''的过程，适用于海量数据的批处理场景。其核心优势在于分布式计算能力，能够高效处理TB/PB级数据。

== 核心概念 ==

ETL是数据仓库构建的关键环节，Hadoop通过以下组件实现ETL流程：
* '''抽取'''：Sqoop/Flume从关系型数据库或日志系统采集数据
* '''转换'''：MapReduce/Spark/Pig清洗和加工数据
* '''加载'''：Hive/HBase存储处理结果

<mermaid>
flowchart LR
    A[源数据库] -->|Sqoop| B(HDFS)
    C[日志文件] -->|Flume| B
    B --> D[MapReduce/Spark]
    D --> E[Hive表]
    D --> F[HBase]
</mermaid>

== 技术实现 ==

=== 典型工具链 ===
{| class="wikitable"
|-
! 阶段 !! Hadoop工具 !! 说明
|-
| 抽取 || Sqoop || 数据库↔HDFS双向传输
|-
| 转换 || Pig Latin || 数据流脚本语言
|-
| 加载 || Hive || SQL接口数据仓库
|}

=== 代码示例：Sqoop数据抽取 ===
<syntaxhighlight lang="bash">
# 从MySQL导入到HDFS
sqoop import \
--connect jdbc:mysql://localhost/mydb \
--username root \
--password secret \
--table customers \
--target-dir /data/input/customers \
--fields-terminated-by '\t'
</syntaxhighlight>

'''输出结构'''：
<pre>
/data/input/customers/
├── part-m-00000
├── part-m-00001
└── _SUCCESS
</pre>

=== MapReduce转换示例 ===
<syntaxhighlight lang="java">
public class CleanMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) 
        throws IOException, InterruptedException {
        String[] fields = value.toString().split("\t");
        if(fields.length == 8) {  // 数据有效性验证
            String cleaned = fields[1].trim().toUpperCase();
            context.write(new Text(cleaned), NullWritable.get());
        }
    }
}
</syntaxhighlight>

== 实战案例：电商用户行为分析 ==

'''场景'''：每日处理2TB用户点击流日志
* '''抽取'''：Flume实时采集Nginx日志
* '''转换'''：
** 使用Spark SQL过滤无效记录
** 通过UDF标准化设备字段
* '''加载'''：按日期分区存储到Hive

<math>
数据质量指标 = \frac{有效记录数}{总记录数} \times 100\%
</math>

== 性能优化 ==

* '''分区策略'''：按时间/业务维度分区
* '''文件格式'''：ORC/Parquet列式存储
* '''压缩算法'''：Snappy（平衡速度/压缩率）

{| class="wikitable"
|-
! 优化手段 !! 效果提升
|-
| Map端合并 || 减少30% shuffle数据量
|-
| 推测执行 || 降低慢节点影响
|}

== 常见问题 ==

* '''Q'''：如何处理脏数据？
* '''A'''：建立多层处理流程：
  # 原始层保留原始数据
  # 清洗层应用规则过滤
  # 修正层人工干预异常数据

* '''Q'''：增量ETL如何实现？
* '''A'''：通过时间戳/水印机制，Sqoop支持--incremental参数

== 扩展阅读 ==

* 对比传统ETL与Hadoop ETL的吞吐量差异
* 使用Airflow/Oozie编排ETL工作流
* 数据质量监控框架（如Griffin）的集成方法

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop实战应用]]