编辑“︁Apache Hadoop与Azure集成”︁

= Hadoop与Azure集成 =

== 概述 ==
'''Hadoop与Azure集成'''是指将Apache Hadoop生态系统与Microsoft Azure云平台相结合，利用Azure的基础设施即服务（IaaS）和平台即服务（PaaS）能力运行Hadoop工作负载。这种集成允许用户通过Azure HDInsight（托管Hadoop服务）或自定义虚拟机集群部署Hadoop，同时利用Azure存储（如Azure Blob Storage或Azure Data Lake Storage）作为底层存储系统。

关键优势包括：
* 弹性扩展：按需调整集群规模
* 成本优化：按实际使用量付费
* 托管服务：Azure HDInsight提供全托管Hadoop/Spark服务
* 企业级安全：与Azure Active Directory集成

== 架构设计 ==
<mermaid>
graph TD
    A[客户端应用] -->|提交作业| B[Azure HDInsight]
    B --> C{存储后端}
    C --> D[Azure Blob Storage]
    C --> E[Azure Data Lake Storage]
    B --> F[Azure Active Directory]
    F --> G[身份认证]
    B --> H[Azure Monitor]
    H --> I[性能指标]
</mermaid>

== 部署方式 ==

=== 方式1：Azure HDInsight ===
Azure提供的完全托管Hadoop服务，支持以下组件：
* Hadoop 3.0+
* Spark 3.0+
* Hive LLAP
* Kafka

'''创建集群示例（Azure CLI）'''：
<syntaxhighlight lang="bash">
az hdinsight create \
    --name myhadoopcluster \
    --resource-group myresourcegroup \
    --type hadoop \
    --location eastus \
    --cluster-tier standard \
    --version 4.0 \
    --storage-account mystorageaccount \
    --storage-account-key mykey \
    --workernode-count 4 \
    --headnode-size Standard_D4_v2 \
    --workernode-size Standard_D3_v2
</syntaxhighlight>

=== 方式2：自定义IaaS部署 ===
在Azure虚拟机上手动部署Hadoop集群：

1. 创建虚拟机集群
2. 配置HDFS/YARN
3. 设置与Azure存储的集成

'''核心配置（core-site.xml）'''：
<syntaxhighlight lang="xml">
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>wasbs://[container]@[account].blob.core.windows.net</value>
    </property>
    <property>
        <name>fs.azure.account.key.[account].blob.core.windows.net</name>
        <value>[access-key]</value>
    </property>
</configuration>
</syntaxhighlight>

== 存储集成 ==

=== WASB驱动（Windows Azure Storage Blob） ===
Hadoop通过专用驱动访问Azure Blob Storage，主要特性：
* 兼容HDFS API
* 支持块和页blob
* 最大单文件尺寸4.75TB

性能优化参数：
* fs.azure.block.size (默认64MB)
* fs.azure.concurrentRequestCount.out (默认8)

=== ABFS驱动（Azure Blob Filesystem） ===
新一代驱动，支持：
* 分层命名空间
* 更优的目录操作性能
* 增强的安全特性

配置示例：
<syntaxhighlight lang="bash">
hadoop fs -ls abfs://[container]@[account].dfs.core.windows.net/path
</syntaxhighlight>

== 安全配置 ==

=== 身份认证 ===
* '''共享密钥'''：使用存储账户访问密钥
* '''SAS令牌'''：有限权限的临时令牌
* '''Azure AD集成'''：基于角色的访问控制(RBAC)

'''RBAC示例'''：
<syntaxhighlight lang="json">
{
    "role": "Storage Blob Data Contributor",
    "assignee": "user@domain.com",
    "scope": "/subscriptions/[sub-id]/resourceGroups/[rg]"
}
</syntaxhighlight>

=== 数据传输加密 ===
* 传输中：TLS 1.2+
* 静态：256位AES加密
* 客户管理密钥(CMK)支持

== 性能优化 ==

=== 计算资源调度 ===
* 使用Azure Autoscale动态调整工作节点
* YARN配置建议：
  * yarn.nodemanager.resource.memory-mb = 物理内存的80%
  * yarn.scheduler.maximum-allocation-mb = 单容器最大内存

数学建模资源分配：
<math>
\text{容器数} = \left\lfloor \frac{\text{总内存}}{\text{容器内存}} \right\rfloor \times \text{核数}
</math>

=== 数据本地化 ===
* 将计算资源与存储账户置于同一区域
* 使用Affinity Group减少延迟
* 考虑可用性区域部署

== 监控与维护 ==

=== Azure Monitor集成 ===
关键指标：
* 集群CPU/内存使用率
* HDFS存储容量
* YARN应用队列

Log Analytics查询示例：
<syntaxhighlight lang="kusto">
HDInsightClusterLogs
| where TimeGenerated > ago(1h)
| where ClusterName == "mycluster"
| summarize avg(CPUPercent) by bin(TimeGenerated, 5m)
</syntaxhighlight>

=== 成本控制 ===
* 使用Spot VM降低工作节点成本
* 自动关闭非生产集群
* 设置预算警报

== 实际案例 ==

'''案例：零售数据分析平台'''
* 架构组件：
  * 数据源：Azure Event Hub（实时销售数据）
  * 处理层：HDInsight Spark集群
  * 存储：Azure Data Lake Gen2
  * 可视化：Power BI

'''处理流程'''：
<syntaxhighlight lang="scala">
val salesDF = spark.read.format("delta")
  .load("abfss://retail@salesdata.dfs.core.windows.net/factsales")
  
val results = salesDF.groupBy("region","product_category")
  .agg(sum("amount").alias("total_sales"))
  
results.write.format("cosmos.oltp")
  .option("spark.synapse.linkedService", "cosmosDBLink")
  .save()
</syntaxhighlight>

== 常见问题 ==

'''Q: 如何选择HDInsight与自定义部署？'''
* HDInsight适合：快速启动、全托管服务、与Azure服务深度集成
* 自定义部署适合：特殊版本需求、定制化配置、混合云场景

'''Q: Azure存储与传统HDFS性能对比？'''
* 元数据操作：HDFS更快
* 吞吐量：Azure存储（特别是ABFS）在大文件场景可比拟HDFS
* 成本：Azure存储无需维护存储节点

== 进阶主题 ==
* 使用Azure Databricks优化Spark工作负载
* 通过Azure Synapse实现数据仓库集成
* 混合架构：本地HDFS与Azure存储的联合使用

== 参见 ==
* [[Apache Hadoop官方文档]]
* [[Microsoft Azure HDInsight文档]]
* [[云原生大数据架构模式]]

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop云部署]]