Hive

Apache Hive
Developer(s)	Apache软件基金会
Initial release	October 2010; 14 years ago
	模板:Infobox software/simple
Repository	{{URL\|example.com\|optional display text}};
Written in	Java
Engine
Operating system	跨平台
Type	数据仓库
License	Apache许可证2.0
Website	hive.apache.org

Apache Hive是一个建立在Hadoop之上的开源数据仓库工具，由Facebook开发并贡献给Apache软件基金会。它提供了类似SQL的查询语言（称为HiveQL），使得熟悉SQL的用户能够轻松地对存储在Hadoop分布式文件系统（HDFS）中的大规模数据集进行查询和分析。

概述[编辑 | 编辑源代码]

Hive最初由Facebook开发，用于处理其快速增长的数据分析需求。它于2008年开源，2010年成为Apache顶级项目。Hive的主要特点包括：

将SQL-like查询转换为MapReduce、Tez或Spark作业
支持外部表概念，数据可以保留在原始位置
提供索引加速查询
支持用户定义函数(UDF)
具备分区和分桶功能优化查询性能

架构[编辑 | 编辑源代码]

Hive的架构主要由以下组件组成：

主要组件[编辑 | 编辑源代码]

用户接口：包括CLI、JDBC/ODBC驱动和Web UI
Hive服务器：提供Thrift接口，允许远程客户端提交请求
元数据存储：通常使用关系型数据库（如MySQL）存储表结构等元数据
执行引擎：将HiveQL转换为底层计算框架任务
HDFS：存储实际数据

HiveQL[编辑 | 编辑源代码]

HiveQL是Hive的查询语言，与SQL-92标准高度兼容但有一些扩展和限制。以下是一个基本示例：

-- 创建表
CREATE TABLE IF NOT EXISTS employees (
    id INT,
    name STRING,
    salary FLOAT,
    department STRING
)
COMMENT '员工信息表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/employees.csv' 
OVERWRITE INTO TABLE employees;

-- 查询示例
SELECT department, AVG(salary) as avg_salary
FROM employees
GROUP BY department
HAVING avg_salary > 5000;