编辑“︁Apache Hadoop商业智能”︁

= Hadoop商业智能 =

'''Hadoop商业智能'''（Hadoop Business Intelligence，简称Hadoop BI）是指利用Hadoop生态系统中的工具和技术（如HDFS、MapReduce、Hive、Pig、Spark等）进行大规模数据分析，以支持企业决策和商业洞察的过程。它结合了传统商业智能（BI）的数据仓库、报表、数据挖掘等功能，同时利用Hadoop的分布式计算能力处理海量结构化和非结构化数据。

== 核心概念 ==

Hadoop商业智能的核心在于将传统BI工具与Hadoop的分布式存储和计算能力相结合，主要包含以下关键组件：

=== 1. 数据集成 ===
* '''ETL（Extract, Transform, Load）'''：通过工具如Apache Sqoop、Apache Flume或Apache NiFi将数据从关系型数据库、日志文件等导入Hadoop。
* '''数据湖（Data Lake）'''：HDFS或云存储（如S3）作为中央存储，容纳原始数据。

=== 2. 数据处理 ===
* '''批处理'''：使用MapReduce、Hive或Spark SQL进行离线分析。
* '''实时处理'''：通过Apache Spark Streaming或Apache Flink实现近实时分析。

=== 3. 分析与可视化 ===
* '''SQL-on-Hadoop'''：Hive LLAP、Impala或Presto支持交互式查询。
* '''可视化工具'''：Tableau、Power BI或Superset连接Hadoop数据源生成报表。

== 技术栈示例 ==
以下是Hadoop BI的典型技术栈：

<mermaid>
graph TD
    A[数据源] -->|Sqoop/Flume| B(HDFS/HBase)
    B --> C{Hive/Spark}
    C --> D[可视化工具]
    C --> E[机器学习模型]
</mermaid>

== 实战案例：零售业销售分析 ==

=== 场景描述 ===
某零售企业需要分析全国门店的销售数据（每日TB级），包括：
* 销售额趋势
* 热门商品排行
* 用户购买行为聚类

=== 实现步骤 ===

==== 1. 数据导入 ====
使用Sqoop从MySQL导入销售数据到HDFS：

<syntaxhighlight lang="bash">
sqoop import \
  --connect jdbc:mysql://mysql-server:3306/retail_db \
  --username admin \
  --password pass \
  --table sales \
  --target-dir /data/retail/sales \
  --m 4
</syntaxhighlight>

==== 2. Hive数据分析 ====
创建Hive表并运行分析查询：

<syntaxhighlight lang="sql">
-- 创建外部表
CREATE EXTERNAL TABLE retail_sales (
    transaction_id STRING,
    product_id STRING,
    amount DECIMAL(10,2),
    store_id INT,
    purchase_date TIMESTAMP
)
STORED AS PARQUET
LOCATION '/data/retail/sales';

-- 计算每日销售额
SELECT 
    DATE(purchase_date) AS day,
    SUM(amount) AS total_sales
FROM retail_sales
GROUP BY DATE(purchase_date)
ORDER BY day;
</syntaxhighlight>

'''输出示例：'''
<pre>
day         | total_sales
------------+------------
2023-01-01  | 1254876.50
2023-01-02  | 1843259.20
...
</pre>

==== 3. Spark MLlib用户分群 ====
使用K-means算法对用户进行分群：

<syntaxhighlight lang="python">
from pyspark.ml.clustering import KMeans
from pyspark.ml.feature import VectorAssembler

# 加载数据
df = spark.sql("SELECT user_id, purchase_frequency, avg_amount FROM user_behavior")

# 特征工程
assembler = VectorAssembler(
    inputCols=["purchase_frequency", "avg_amount"],
    outputCol="features"
)
data = assembler.transform(df)

# 训练模型
kmeans = KMeans(k=3, seed=42)
model = kmeans.fit(data)

# 查看分群中心
centers = model.clusterCenters()
print("Cluster Centers:", centers)
</syntaxhighlight>

== 性能优化技巧 ==

=== 1. 存储格式选择 ===
* 列式存储：Parquet或ORC格式可提升查询性能
* 分区策略：按日期/地区分区加速过滤

=== 2. 计算优化 ===
* '''Hive'''：启用Tez引擎（`set hive.execution.engine=tez;`）
* '''Spark'''：调整并行度（`spark.sql.shuffle.partitions=200`）

=== 3. 缓存策略 ===
* 频繁使用的表可缓存到内存：
<syntaxhighlight lang="sql">
CACHE TABLE hot_products;
</syntaxhighlight>

== 数学基础 ==

商业智能中常用的协同过滤推荐算法可表示为：

用户-商品评分矩阵<math>R_{m \times n}</math>，通过矩阵分解得到：

<math>
R \approx P \times Q^T
</math>

其中：
* <math>P_{m \times k}</math>为用户特征矩阵
* <math>Q_{n \times k}</math>为商品特征矩阵
* <math>k</math>为潜在特征维度

== 挑战与解决方案 ==

{| class="wikitable"
|-
! 挑战 !! 解决方案
|-
| 数据质量差 || 使用Apache Griffin进行数据质量检测
|-
| 查询延迟高 || 采用预聚合（Cube）或OLAP引擎（Druid）
|-
| 实时性要求 || 结合Kafka+Spark Streaming架构
|}

== 扩展阅读 ==
* [[Apache Kylin]]：支持亚秒级查询的OLAP引擎
* [[Apache Druid]]：实时OLAP数据库
* [[Apache Superset]]：开源数据可视化平台

通过上述内容，开发者可以全面了解如何利用Hadoop生态系统构建商业智能解决方案，从数据采集到最终可视化实现完整链路。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Apache Hadoop实战应用]]