编辑“︁Hive (数据仓库软件)”︁

{{Infobox software
| name = Apache Hive
| logo = 
| screenshot = 
| caption = 
| developer = [[Apache软件基金会]]
| released = {{Start date and age|2010|10}}
| latest release version = 3.1.3
| latest release date = {{Start date and age|2022|04}}
| programming language = [[Java (编程语言)|Java]]
| operating system = [[跨平台]]
| genre = [[数据仓库]]
| license = [[Apache许可证]]
| website = {{URL|https://hive.apache.org/}}
}}

'''Apache Hive'''是一个构建在[[Apache Hadoop]]之上的[[数据仓库]]软件，用于数据汇总、查询和分析大规模数据集。它提供了类似[[SQL]]的查询语言（称为HiveQL），使得熟悉SQL的用户能够轻松处理存储在Hadoop分布式文件系统（HDFS）中的数据。

== 概述 ==

Hive最初由[[Facebook]]开发，后成为[[Apache软件基金会]]的顶级项目。它主要设计用于批处理操作，适合处理PB级别的数据。Hive将SQL查询转换为[[MapReduce]]、[[Tez]]或[[Spark]]作业在Hadoop集群上执行。

主要特点包括：
* 提供类SQL查询语言（HiveQL）
* 支持ETL（提取、转换、加载）操作
* 可扩展的UDF（用户定义函数）支持
* 与Hadoop生态系统紧密集成
* 支持多种存储格式（ORC、Parquet等）

== 架构 ==

Hive的核心组件包括：
* '''Hive CLI'''：命令行界面
* '''HiveServer2'''：提供JDBC/ODBC接口
* '''Metastore'''：存储元数据（表结构等）
* '''执行引擎'''：MapReduce/Tez/Spark
* '''HDFS'''：数据存储

<mermaid>
graph TD
    A[用户] -->|HiveQL| B(Hive CLI)
    B --> C{HiveServer2}
    C --> D[Metastore]
    C --> E[执行引擎]
    E --> F[MapReduce/Tez/Spark]
    F --> G[HDFS]
</mermaid>

== 功能特性 ==

=== 查询能力 ===
Hive支持标准SQL的多数功能，包括：
* SELECT、JOIN、GROUP BY等操作
* 复杂数据类型（数组、映射、结构体）
* 窗口函数
* 子查询

=== 与其他技术的比较 ===
{| class="wikitable"
|+ 大数据查询技术比较
|-
! 特性 !! [[Drill]] !! [[Spark SQL]] !! Hive !! [[Presto]]
|-
| 无模式查询 || ✓ || 部分 || ✗ || 部分
|-
| 联邦查询 || ✓ || ✓ || ✗ || 部分
|-
| 交互式查询 || ✓ || ✓ || ✗ || 部分
|-
| 大规模ETL || ✗ || ✗ || ✓ || ✓
|-
| 内存计算 || ✓ || ✓ || ✗ || ✓
|}

== 使用示例 ==

=== 创建表 ===
<syntaxhighlight lang="sql">
CREATE TABLE users (
    id INT,
    name STRING,
    age INT,
    email STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
</syntaxhighlight>

=== 加载数据 ===
<syntaxhighlight lang="sql">
LOAD DATA LOCAL INPATH '/path/to/users.csv' 
OVERWRITE INTO TABLE users;
</syntaxhighlight>

=== 查询示例 ===
<syntaxhighlight lang="sql">
-- 简单查询
SELECT name, age FROM users WHERE age > 30;

-- 聚合查询
SELECT department, AVG(salary) 
FROM employees 
GROUP BY department;

-- 复杂查询
SELECT a.user_id, b.order_count
FROM users a
JOIN (
    SELECT user_id, COUNT(*) as order_count
    FROM orders
    GROUP BY user_id
) b ON a.id = b.user_id;
</syntaxhighlight>

== 生态系统集成 ==

Hive可以与多种大数据技术集成：
* [[Hadoop]]生态系统（HDFS、YARN）
* [[HBase]]数据库
* [[Spark]]计算引擎
* [[Tez]]执行框架
* 多种存储格式（ORC、Parquet、Avro等）

== 性能优化 ==

Hive提供多种优化手段：
* '''分区'''：按列值物理分割数据
* '''分桶'''：哈希分区提高JOIN性能
* '''索引'''：加速数据查找
* '''向量化'''：批量处理提高IO效率
* '''CBO'''（基于成本的优化器）：优化查询计划

== 应用场景 ==

Hive典型应用包括：
* 数据仓库构建
* 日志分析
* 商业智能报表
* 大规模ETL处理
* 历史数据分析

== 社区与支持 ==

Apache Hive由活跃的开源社区维护，提供：
* 详细官方文档
* 用户邮件列表
* JIRA问题追踪系统
* 定期版本更新

== 版本历史 ==

主要版本发布：
* Hive 0.x系列（2010-2013）
* Hive 1.x系列（2013-2016）
* Hive 2.x系列（2016-2018）
* Hive 3.x系列（2018至今）

== 参见 ==
* [[Apache Hadoop]]
* [[Apache Spark]]
* [[Presto (SQL查询引擎)]]
* [[Drill]]
* [[数据仓库]]

== 参考资料 ==
{{Reflist}}

[[Category:分布式计算]]
[[Category:SQL查询引擎]]
[[Category:Apache软件基金会项目]]
[[Category:大数据技术]]
[[Category:数据仓库]]