编辑“︁Apache Hadoop数据序列化”︁（章节）

= Hadoop数据序列化 =

== 介绍 ==
'''Hadoop数据序列化'''是指将结构化对象或数据转换为字节流的过程，以便在Hadoop生态系统中存储或传输。序列化是分布式计算的核心机制之一，它直接影响数据存储效率、网络传输性能和跨语言兼容性。Hadoop使用特定的序列化框架（如Writable、Avro等）优化大数据处理场景。

序列化的核心目标包括：
* '''跨平台兼容性'''：允许不同编程语言读写相同数据格式
* '''空间效率'''：减少存储和传输时的数据体积
* '''时间效率'''：加速序列化/反序列化过程

== 序列化原理 ==
序列化过程遵循公式：
<math>
Serialize(Object) \rightarrow ByteStream
</math>
反序列化则是逆向过程：
<math>
Deserialize(ByteStream) \rightarrow Object
</math>

=== 关键特性对比 ===
{| class="wikitable"
|+ Hadoop序列化框架比较
! 特性 !! Writable !! Avro !! Protocol Buffers
|-
| 语言支持 | Java为主 | 多语言 | 多语言
|-
| 模式演进 | 不支持 | 支持 | 支持
|-
| 人类可读 | 否 | JSON格式模式 | 否
|}

<mermaid>
flowchart LR
    A[原始数据] -->|序列化| B[字节流]
    B -->|网络传输/存储| C[(HDFS)]
    C -->|反序列化| D[重建数据]
</mermaid>

== Hadoop Writable 示例 ==
Hadoop原生使用<code>Writable</code>接口实现序列化。以下是自定义Writable类的示例：

<syntaxhighlight lang="java">
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class SensorReading implements Writable {
    private String sensorId;
    private double temperature;
    
    // 反序列化方法
    @Override
    public void readFields(DataInput in) throws IOException {
        this.sensorId = in.readUTF();
        this.temperature = in.readDouble();
    }
    
    // 序列化方法
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(sensorId);
        out.writeDouble(temperature);
    }
    
    // 其他getter/setter方法省略
}
</syntaxhighlight>

'''使用示例'''：
<syntaxhighlight lang="java">
SensorReading reading = new SensorReading("sensor-001", 28.5);
ByteArrayOutputStream baos = new ByteArrayOutputStream();
DataOutputStream dos = new DataOutputStream(baos);
reading.write(dos);  // 序列化

byte[] serializedData = baos.toByteArray();

// 反序列化过程
DataInputStream dis = new DataInputStream(new ByteArrayInputStream(serializedData));
SensorReading newReading = new SensorReading();
newReading.readFields(dis);
</syntaxhighlight>

== Avro序列化实践 ==
Avro提供更先进的序列化方案，支持模式演进和JSON配置：

1. 定义Avro模式（JSON格式）：
<syntaxhighlight lang="json">
{
  "type": "record",
  "name": "User",
  "fields": [
    {"name": "name", "type": "string"},
    {"name": "age",  "type": "int"},
    {"name": "email", "type": ["null", "string"], "default": null}
  ]
}
</syntaxhighlight>

2. Java序列化示例：
<syntaxhighlight lang="java">
// 生成GenericRecord
GenericRecord user = new GenericData.Record(schema);
user.put("name", "Alice");
user.put("age", 30);

// 序列化
DatumWriter<GenericRecord> writer = new GenericDatumWriter<>(schema);
ByteArrayOutputStream output = new ByteArrayOutputStream();
Encoder encoder = EncoderFactory.get().binaryEncoder(output, null);
writer.write(user, encoder);
encoder.flush();

byte[] avroData = output.toByteArray();
</syntaxhighlight>

== 性能优化技巧 ==
* '''重用对象'''：Writable对象应重用而非新建，减少GC压力
* '''缓冲机制'''：使用<code>ByteArrayOutputStream</code>缓冲数据
* '''压缩'''：结合Snappy或Gzip压缩序列化数据
* '''批处理'''：对小型对象使用批量序列化（如Avro的容器文件格式）

== 实际应用案例 ==
'''气象数据分析场景'''：
1. 气象站收集JSON格式的原始数据
2. 使用Avro序列化为二进制格式存储到HDFS
3. MapReduce作业读取序列化数据进行分析
4. 结果反序列化为JSON供可视化工具使用

<mermaid>
sequenceDiagram
    participant Sensor as 气象传感器
    participant Hadoop as Hadoop集群
    participant Client as 客户端应用
    
    Sensor->>Hadoop: 发送JSON数据
    Hadoop->>Hadoop: Avro序列化(压缩)
    Hadoop->>HDFS: 存储序列化数据
    Client->>Hadoop: 请求分析结果
    Hadoop->>Client: 返回反序列化数据
</mermaid>

== 常见问题 ==
'''Q: 为什么Hadoop不直接使用Java原生序列化？'''
A: Java序列化会产生大量元数据开销（约2-3倍数据体积），且不支持跨语言。Writable的序列化效率更高，专为大数据场景优化。

'''Q: 如何选择序列化框架？'''
* 纯Java环境：Writable
* 多语言/模式演进需求：Avro或Protocol Buffers
* 高吞吐场景：考虑Parquet/ORC等列式存储格式

== 进阶主题 ==
* '''序列化IDL'''：使用Avro IDL或ProtoBuf定义接口
* '''RPC序列化'''：Hadoop RPC的序列化机制
* '''自定义比较器'''：实现<code>RawComparator</code>优化排序性能

通过理解Hadoop序列化机制，开发者可以显著提升大数据处理管道的效率和可靠性。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop数据导入导出]]