Apache Drill UNION操作[编辑 | 编辑源代码]

介绍[编辑 | 编辑源代码]

UNION操作是Apache Drill查询语言中的一种集合操作，用于合并两个或多个SELECT语句的结果集。与SQL标准一致，Drill的UNION操作要求合并的结果集必须具有相同的列数和兼容的数据类型。UNION会自动去除重复行，而UNION ALL会保留所有行（包括重复行）。

Apache Drill支持以下两种UNION变体：

UNION - 合并结果并去除重复
UNION ALL - 合并结果并保留所有行

语法结构[编辑 | 编辑源代码]

基本语法如下：

SELECT column1, column2, ... FROM table1
UNION [ALL]
SELECT column1, column2, ... FROM table2
[UNION [ALL]
SELECT column1, column2, ... FROM table3 ...]

使用示例[编辑 | 编辑源代码]

基础示例[编辑 | 编辑源代码]

假设有两个表存储不同季度的销售数据：

表: sales_q1

product_id	amount	region
101	500	North
102	300	South

表: sales_q2

product_id	amount	region
101	400	North
103	200	East

使用UNION合并结果：

SELECT product_id, amount, region FROM sales_q1
UNION
SELECT product_id, amount, region FROM sales_q2

输出结果（自动去重）：

product_id	amount	region
101	500	North
102	300	South
101	400	North
103	200	East

使用UNION ALL保留所有记录：

SELECT product_id, amount, region FROM sales_q1
UNION ALL
SELECT product_id, amount, region FROM sales_q2

输出结果（包含重复）：

product_id	amount	region
101	500	North
102	300	South
101	400	North
103	200	East

数据类型兼容性[编辑 | 编辑源代码]

UNION操作要求对应列的数据类型兼容。Drill会尝试自动转换类型，但显式转换更安全：

SELECT product_id, CAST(amount AS VARCHAR) as amount_str FROM sales_q1
UNION
SELECT product_id, region FROM sales_q2  -- region是VARCHAR类型

高级用法[编辑 | 编辑源代码]

多表UNION[编辑 | 编辑源代码]

可以链式组合多个UNION操作：

SELECT * FROM sales_q1
UNION ALL
SELECT * FROM sales_q2
UNION ALL
SELECT * FROM sales_q3

与ORDER BY结合[编辑 | 编辑源代码]

排序必须应用于最终结果：

(SELECT product_id, amount FROM sales_q1)
UNION ALL
(SELECT product_id, amount FROM sales_q2)
ORDER BY amount DESC

使用WITH子句[编辑 | 编辑源代码]

提高复杂UNION查询的可读性：

WITH combined_sales AS (
    SELECT * FROM sales_q1
    UNION ALL
    SELECT * FROM sales_q2
)
SELECT product_id, SUM(amount) 
FROM combined_sales 
GROUP BY product_id

性能考量[编辑 | 编辑源代码]

UNION操作在Drill中的执行流程可通过mermaid表示：

性能优化建议： 1. 优先使用UNION ALL，除非确实需要去重 2. 对大数据集考虑先过滤再UNION 3. 确保所有SELECT语句使用相同的分区策略

实际应用案例[编辑 | 编辑源代码]

案例1：合并多源数据[编辑 | 编辑源代码]

从不同文件格式合并日志数据：

SELECT timestamp, message FROM dfs.`/logs/json/*.json`
UNION ALL
SELECT timestamp, message FROM dfs.`/logs/parquet/*.parquet`

案例2：时间序列补全[编辑 | 编辑源代码]

补全缺失的时间点（假设days表存储连续日期）：

SELECT date, actual_sales as value, 'actual' as type FROM sales_data
UNION ALL
SELECT date, forecast_sales as value, 'forecast' as type FROM sales_forecast

数学原理[编辑 | 编辑源代码]

UNION操作对应集合论中的并集运算： $R \cup S = {x | x \in R \lor x \in S}$ 而UNION ALL对应多重集(Multiset)的加法运算。

常见问题[编辑 | 编辑源代码]

Q: UNION和JOIN有什么区别？ A:

JOIN水平组合列（扩展行宽度）
UNION垂直组合行（增加行数量）

Q: 为什么我的UNION查询返回类型错误？ A: Drill会按第一个SELECT的结果确定列类型，后续SELECT必须兼容或可转换

Q: 如何限制UNION结果的总行数？ A: 在外层使用LIMIT：

(SELECT ... UNION SELECT ...) LIMIT 100

总结[编辑 | 编辑源代码]

Apache Drill的UNION操作是合并多数据集的重要工具。关键要点：

理解UNION与UNION ALL的区别
确保结果集的列结构和类型兼容
掌握性能优化技巧
灵活应用于多数据源整合场景

通过合理使用UNION操作，可以构建更强大的跨数据集分析查询。