编辑“︁Apache Drill瓶颈识别”︁（章节）

== 实际案例分析 ==

=== 案例1：数据倾斜导致的内存瓶颈 ===

'''问题查询'''：
<syntaxhighlight lang="sql">
SELECT user_id, COUNT(*) 
FROM clickstream 
GROUP BY user_id;
</syntaxhighlight>

'''PROFILE分析'''发现：
* 大多数处理节点完成很快
* 少数节点运行时间异常长
* 内存使用不均衡

'''解决方案'''：
* 使用HASH分区策略重新分布数据
* 增加内存限制配置

=== 案例2：次优连接顺序 ===

'''问题查询'''：
<syntaxhighlight lang="sql">
SELECT a.*, b.* 
FROM large_table a 
JOIN small_table b ON a.id = b.id;
</syntaxhighlight>

'''EXPLAIN分析'''显示：
* 先扫描large_table导致大量数据传输
* 连接操作在分布式阶段执行

'''优化方案'''：
<syntaxhighlight lang="sql">
-- 使用BROADCAST提示强制广播小表
SELECT /*+ BROADCAST(b) */ a.*, b.* 
FROM large_table a 
JOIN small_table b ON a.id = b.id;
</syntaxhighlight>