编辑“︁Hive数据类型”︁

= Hive数据类型 =

== 介绍 ==  
'''Hive数据类型'''是Apache Hive中用于定义表中列的数据格式的规范。Hive作为Hadoop生态系统中的数据仓库工具，支持多种数据类型，包括基本类型（如整数、字符串）、复杂类型（如数组、映射）以及特殊类型（如时间戳）。理解这些类型对于设计高效的表结构和编写查询至关重要。

Hive的数据类型分为以下三大类：  
* '''基本数据类型'''：包括数值型、字符串型、布尔型等。  
* '''复杂数据类型'''：如数组（ARRAY）、映射（MAP）、结构体（STRUCT）等，用于处理嵌套数据。  
* '''其他类型'''：如时间戳（TIMESTAMP）、日期（DATE）等。  

== 基本数据类型 ==  
Hive支持以下基本数据类型：  

{| class="wikitable"  
|+ '''Hive基本数据类型'''  
! 数据类型 !! 描述 !! 示例  
|-  
| <code>TINYINT</code> || 1字节有符号整数（-128到127） || <code>42</code>  
|-  
| <code>SMALLINT</code> || 2字节有符号整数（-32,768到32,767） || <code>1000</code>  
|-  
| <code>INT</code> || 4字节有符号整数 || <code>100000</code>  
|-  
| <code>BIGINT</code> || 8字节有符号整数 || <code>10000000000</code>  
|-  
| <code>FLOAT</code> || 4字节单精度浮点数 || <code>3.14</code>  
|-  
| <code>DOUBLE</code> || 8字节双精度浮点数 || <code>3.1415926535</code>  
|-  
| <code>BOOLEAN</code> || 布尔值（TRUE/FALSE） || <code>TRUE</code>  
|-  
| <code>STRING</code> || 字符串（无需指定长度） || <code>"Hello, Hive"</code>  
|-  
| <code>VARCHAR</code> || 可变长度字符串（需指定最大长度） || <code>"Hive"</code>  
|-  
| <code>CHAR</code> || 固定长度字符串（需指定长度） || <code>"A"</code>  
|-  
| <code>BINARY</code> || 二进制数据 || <code>1010</code>  
|-  
| <code>TIMESTAMP</code> || 时间戳（纳秒精度） || <code>'2023-10-01 12:34:56.789'</code>  
|-  
| <code>DATE</code> || 日期（年月日） || <code>'2023-10-01'</code>  
|}  

=== 示例：基本类型的使用 ===  
以下是一个创建表并插入数据的示例：  

<syntaxhighlight lang="sql">  
-- 创建表  
CREATE TABLE employee (  
    id INT,  
    name STRING,  
    salary DOUBLE,  
    is_active BOOLEAN,  
    join_date DATE  
);  

-- 插入数据  
INSERT INTO TABLE employee VALUES  
    (1, 'Alice', 75000.50, TRUE, '2020-05-15'),  
    (2, 'Bob', 65000.75, FALSE, '2021-03-22');  

-- 查询数据  
SELECT * FROM employee;  
</syntaxhighlight>  

'''输出：'''  
{| class="wikitable"  
| 1 || Alice || 75000.5 || true || 2020-05-15  
|-  
| 2 || Bob || 65000.75 || false || 2021-03-22  
|}  

== 复杂数据类型 ==  
Hive支持以下复杂数据类型：  

=== 1. 数组（ARRAY） ===  
数组是同类型元素的集合，索引从0开始。  

<syntaxhighlight lang="sql">  
-- 创建包含数组的表  
CREATE TABLE student_scores (  
    name STRING,  
    scores ARRAY<INT>  
);  

-- 插入数据  
INSERT INTO TABLE student_scores VALUES  
    ('John', ARRAY(85, 90, 78)),  
    ('Jane', ARRAY(92, 88, 95));  

-- 查询数组元素  
SELECT name, scores[0] AS first_score FROM student_scores;  
</syntaxhighlight>  

'''输出：'''  
{| class="wikitable"  
| John || 85  
|-  
| Jane || 92  
|}  

=== 2. 映射（MAP） ===  
映射是键值对的集合，键和值可以是任意类型。  

<syntaxhighlight lang="sql">  
-- 创建包含映射的表  
CREATE TABLE product_features (  
    product_id INT,  
    features MAP<STRING, STRING>  
);  

-- 插入数据  
INSERT INTO TABLE product_features VALUES  
    (101, MAP('color', 'red', 'weight', '1.5kg')),  
    (102, MAP('color', 'blue', 'material', 'metal'));  

-- 查询映射值  
SELECT product_id, features['color'] AS color FROM product_features;  
</syntaxhighlight>  

'''输出：'''  
{| class="wikitable"  
| 101 || red  
|-  
| 102 || blue  
|}  

=== 3. 结构体（STRUCT） ===  
结构体是多个字段的集合，字段可以是不同类型。  

<syntaxhighlight lang="sql">  
-- 创建包含结构体的表  
CREATE TABLE customer_address (  
    customer_id INT,  
    address STRUCT<street:STRING, city:STRING, zip:INT>  
);  

-- 插入数据  
INSERT INTO TABLE customer_address VALUES  
    (1, STRUCT('123 Main St', 'New York', 10001)),  
    (2, STRUCT('456 Oak Ave', 'Chicago', 60601));  

-- 查询结构体字段  
SELECT customer_id, address.city FROM customer_address;  
</syntaxhighlight>  

'''输出：'''  
{| class="wikitable"  
| 1 || New York  
|-  
| 2 || Chicago  
|}  

=== 4. 联合类型（UNIONTYPE） ===  
联合类型允许一个字段存储多种类型的值。  

<syntaxhighlight lang="sql">  
-- 创建包含联合类型的表  
CREATE TABLE flexible_data (  
    id INT,  
    data UNIONTYPE<INT, STRING, BOOLEAN>  
);  

-- 插入数据（需使用`create_union`函数）  
INSERT INTO TABLE flexible_data VALUES  
    (1, create_union(0, 42)),  
    (2, create_union(1, 'Hive')),  
    (3, create_union(2, TRUE));  

-- 查询数据  
SELECT id, data FROM flexible_data;  
</syntaxhighlight>  

'''输出：'''  
{| class="wikitable"  
| 1 || {0:42}  
|-  
| 2 || {1:Hive}  
|-  
| 3 || {2:true}  
|}  

== 实际应用案例 ==  
=== 场景：电商数据分析 ===  
假设需要分析电商平台的用户行为数据，可以使用复杂类型存储用户的浏览记录和购买偏好：  

<syntaxhighlight lang="sql">  
CREATE TABLE user_behavior (  
    user_id INT,  
    viewed_products ARRAY<INT>,  
    preferences MAP<STRING, STRING>,  
    last_login TIMESTAMP  
);  

INSERT INTO TABLE user_behavior VALUES  
    (1001, ARRAY(201, 305, 412), MAP('category', 'electronics', 'brand', 'X'), '2023-10-01 09:15:00'),  
    (1002, ARRAY(108, 209), MAP('category', 'clothing', 'size', 'M'), '2023-10-02 14:30:00');  

-- 查询偏好为“electronics”的用户  
SELECT user_id FROM user_behavior  
WHERE preferences['category'] = 'electronics';  
</syntaxhighlight>  

'''输出：'''  
{| class="wikitable"  
| 1001  
|}  

== 总结 ==  
Hive数据类型是设计高效表结构和查询的基础。  
* 基本类型适合存储简单数据（如数值、字符串）。  
* 复杂类型（如ARRAY、MAP）适合处理嵌套或半结构化数据。  
* 实际场景中，合理使用数据类型可以优化存储和查询性能。  

<mermaid>  
flowchart TD  
    A[Hive数据类型] --> B[基本类型]  
    A --> C[复杂类型]  
    B --> D[数值型: INT, DOUBLE]  
    B --> E[字符串: STRING, VARCHAR]  
    B --> F[时间: TIMESTAMP, DATE]  
    C --> G[ARRAY]  
    C --> H[MAP]  
    C --> I[STRUCT]  
</mermaid>  

通过本文的学习，读者应能熟练掌握Hive数据类型的使用方法，并在实际项目中灵活应用。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Hive数据仓库]]