编辑“︁Apache Hadoop物联网数据处理”︁（章节）

= Hadoop物联网数据处理 =

== 概述 ==  
'''Hadoop物联网数据处理'''是指利用Hadoop生态系统（如HDFS、MapReduce、Hive等）处理和分析物联网（IoT）设备生成的海量数据的技术。物联网设备（如传感器、智能终端）持续产生时序数据，这些数据通常具有高吞吐、低价值密度的特点。Hadoop的分布式存储与计算能力使其成为处理此类数据的理想选择。

=== 核心挑战 ===  
* '''数据规模'''：物联网设备每秒可能生成数百万条记录。  
* '''实时性'''：部分场景需近实时处理（如设备异常检测）。  
* '''多样性'''：数据格式多样（JSON、CSV、二进制流等）。  

== 技术架构 ==  
典型架构分为三层：  

<mermaid>  
flowchart LR  
    A[物联网设备] -->|数据采集| B[Kafka/Flume]  
    B -->|数据缓冲| C[HDFS]  
    C -->|批处理| D[MapReduce/Spark]  
    C -->|交互查询| E[Hive/Impala]  
    D & E -->|可视化| F[Grafana/Tableau]  
</mermaid>  

=== 关键组件 ===  
* '''数据采集层'''：Kafka、Flume负责高吞吐数据接入。  
* '''存储层'''：HDFS存储原始数据，HBase支持随机读写。  
* '''计算层'''：MapReduce用于批处理，Spark Streaming处理微批次数据。  

== 实战示例 ==  

=== 示例1：传感器数据批处理 ===  
假设有温度传感器数据存储在HDFS的`/iot/temperature/`路径下，格式为CSV：  

<syntaxhighlight lang="text">  
# 输入示例（sensor_data.csv）  
timestamp,sensor_id,temperature,location  
2023-01-01T00:00:00,sensor001,25.3,room1  
2023-01-01T00:01:00,sensor001,25.5,room1  
</syntaxhighlight>  

使用HiveQL计算每个位置的平均温度：  

<syntaxhighlight lang="sql">  
-- 创建Hive表  
CREATE EXTERNAL TABLE temperature_data (  
    timestamp STRING,  
    sensor_id STRING,  
    temperature FLOAT,  
    location STRING  
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','  
LOCATION '/iot/temperature/';  

-- 计算平均温度  
SELECT location, AVG(temperature) AS avg_temp  
FROM temperature_data  
GROUP BY location;  
</syntaxhighlight>  

输出结果：  

<syntaxhighlight lang="text">  
location    avg_temp  
room1       25.4  
</syntaxhighlight>  

=== 示例2：实时告警（Spark Streaming） ===  
使用Spark Streaming从Kafka读取数据并检测异常温度：  

<syntaxhighlight lang="scala">  
val stream = KafkaUtils.createDirectStream[String, String](  
    ssc,  
    PreferConsistent,  
    Subscribe[String, String]("iot-topic", kafkaParams)  
)  

// 解析JSON数据并过滤高温事件  
stream.map(record => parseSensorData(record.value))  
      .filter(data => data.temperature > 30.0)  
      .foreachRDD { rdd =>  
          rdd.saveToHBase("alerts_table", Seq("colfam"))  
      }  
</syntaxhighlight>  

== 实际应用案例 ==  
'''智慧城市交通管理'''  
* '''数据源'''：交通摄像头、GPS设备、气象传感器。  
* '''处理流程'''：  
  1. 使用Flume采集实时交通流数据。  
  2. HDFS存储历史数据用于长期分析（如拥堵模式预测）。  
  3. Spark MLlib训练拥堵预测模型。  
* '''输出'''：动态调整红绿灯时序的优化建议。  

== 性能优化技巧 ==  
* '''小文件合并'''：使用Hadoop的`CombineFileInputFormat`减少Map任务数。  
* '''压缩存储'''：对冷数据采用Snappy压缩（平衡速度与空间）。  
* '''分区策略'''：按时间分区（如`/data/year=2023/month=01/`）。  

== 数学基础 ==  
物联网数据聚合常涉及统计公式，例如滑动窗口平均值：  

<math>  
\bar{x}_t = \frac{1}{n} \sum_{i=t-n+1}^{t} x_i  
</math>  

其中<math>\bar{x}_t</math>是时间<math>t</math>的窗口平均值，<math>n</math>为窗口大小。  

== 总结 ==  
Hadoop为物联网数据处理提供了可扩展的解决方案，结合批处理与流式计算框架可覆盖大多数场景。初学者应从HDFS和Hive入手，逐步掌握实时处理技术如Spark Streaming。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop实战应用]]