编辑“︁HBase过滤器使用”︁（章节）

= HBase过滤器使用 =

'''HBase过滤器（Filter）'''是HBase数据库中的一种高效数据检索机制，允许用户在扫描（Scan）或查询（Get）操作中按条件筛选数据，避免全表扫描带来的性能开销。通过组合不同的过滤器，可以实现复杂的查询逻辑，类似于SQL中的WHERE子句。

== 过滤器概述 ==
HBase过滤器基于{{mono|org.apache.hadoop.hbase.filter}}包实现，所有过滤器均继承自抽象类{{mono|FilterBase}}。过滤器在RegionServer端执行，减少网络传输的数据量。主要特点包括：
* '''单列值过滤'''：如值等于、包含正则表达式等
* '''多列前缀过滤'''：限定列族或列名范围
* '''行键过滤'''：基于行键范围或正则匹配
* '''组合逻辑'''：通过{{mono|FilterList}}实现AND/OR逻辑组合

== 常用过滤器类型 ==
以下为HBase核心过滤器分类及示例：

=== 比较过滤器 ===
{| class="wikitable"
|-
! 过滤器名称 !! 描述 !! 适用场景
|-
| {{mono|SingleColumnValueFilter}} || 单列值精确匹配 || 类似SQL的`WHERE column=value`
|-
| {{mono|PrefixFilter}} || 行键前缀匹配 || 查找相同前缀的行（如用户ID分区）
|-
| {{mono|ColumnPrefixFilter}} || 列名前缀匹配 || 批量获取特定前缀的列
|}

=== 专用过滤器 ===
* {{mono|PageFilter}}：分页查询
* {{mono|FirstKeyOnlyFilter}}：仅获取每行第一个键值（用于行数统计）
* {{mono|KeyOnlyFilter}}：仅返回键（不返回值）

=== 代码示例：基本使用 ===
<syntaxhighlight lang="java">
// 创建扫描对象并添加过滤器
Scan scan = new Scan();
SingleColumnValueFilter filter = new SingleColumnValueFilter(
    Bytes.toBytes("cf"),
    Bytes.toBytes("age"),
    CompareOperator.GREATER_OR_EQUAL,
    Bytes.toBytes(25)
);
scan.setFilter(filter);

// 执行查询
ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
    System.out.println("Found row: " + Bytes.toString(result.getRow()));
}
</syntaxhighlight>

'''输出示例：'''
<pre>
Found row: user1003
Found row: user1005
</pre>

== 组合过滤器 ==
通过{{mono|FilterList}}实现多条件组合，支持两种逻辑关系：
* {{mono|MUST_PASS_ALL}}（AND逻辑）
* {{mono|MUST_PASS_ONE}}（OR逻辑）

=== 示例：AND条件 ===
<syntaxhighlight lang="java">
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
filterList.addFilter(new PrefixFilter(Bytes.toBytes("UA-")));
filterList.addFilter(new SingleColumnValueFilter(
    Bytes.toBytes("stats"),
    Bytes.toBytes("clicks"),
    CompareOperator.GREATER,
    Bytes.toBytes(1000L)
));
</syntaxhighlight>

== 性能优化建议 ==
1. '''优先使用行键过滤器'''：如{{mono|PrefixFilter}}比全表扫描快100倍
2. '''避免大范围扫描'''：设置{{mono|setCaching(100)}}减少RPC调用
3. '''组合过滤器顺序'''：将高选择性过滤器放在前面
4. '''使用Bloom Filter'''：对频繁查询的列启用布隆过滤器

== 实际案例：电商用户分析 ==
场景：从用户行为表中查询2023年Q4购买金额超过5000的高价值用户。

<mermaid>
graph LR
    A[原始数据] --> B[PrefixFilter: 202310-202312]
    B --> C[SingleColumnValueFilter: total_spent >5000]
    C --> D[ColumnPrefixFilter: "profile_"]
</mermaid>

对应Java实现：
<syntaxhighlight lang="java">
FilterList filters = new FilterList(Operator.MUST_PASS_ALL);
// 时间范围过滤
filters.addFilter(new PrefixFilter(Bytes.toBytes("2023Q4_")));
// 金额条件
filters.addFilter(new SingleColumnValueFilter(
    Bytes.toBytes("purchase"),
    Bytes.toBytes("amount"),
    CompareOperator.GREATER,
    new BinaryComparator(Bytes.toBytes(5000))
));
// 只获取画像数据
filters.addFilter(new ColumnPrefixFilter(Bytes.toBytes("profile_")));
</syntaxhighlight>

== 数学原理 ==
过滤器性能可通过选择率（selectivity）估算：
<math>
\text{扫描数据量} = \frac{\text{总数据量}}{\text{选择率}}
</math>
其中选择率计算公式：
<math>
\sigma = \prod_{i=1}^{n} \sigma_i \quad \text{(对于AND组合的n个过滤器)}
</math>

== 高级特性 ==
* '''自定义过滤器'''：继承{{mono|FilterBase}}实现{{mono|filterKeyValue}}方法
* '''服务器端过滤'''：通过{{mono|setFilter}}在RegionServer执行
* '''计数器过滤'''：使用{{mono|ValueFilter}}配合{{mono|LongComparator}}

== 常见问题 ==
'''Q：为什么过滤器没有生效？'''
A：检查列族是否存在、值类型是否匹配（如字符串比较误用BinaryComparator）

'''Q：如何调试过滤器性能？'''
A：启用HBase日志（DEBUG级别）或使用{{mono|explain}}方法分析扫描计划

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Hbase数据库]]