编辑“︁HBase概述与特点”︁（章节）

= HBase概述与特点 =

== 引言 ==  
'''HBase'''（Hadoop Database）是一个开源的、分布式的、面向列的NoSQL数据库，基于Google的Bigtable论文设计，构建在Hadoop文件系统（HDFS）之上。它为海量结构化或半结构化数据提供高可靠性、高性能的存储与实时读写能力。HBase是Apache Hadoop生态系统的核心组件之一，适用于需要随机访问超大规模数据集的场景（如日志分析、用户行为跟踪等）。

== 核心特点 ==  
HBase的核心特点可总结为以下六点：  

=== 1. 分布式架构 ===  
HBase采用主从架构（Master-Slave），由以下组件构成：  
* '''HMaster'''：负责元数据管理和负载均衡。  
* '''RegionServer'''：存储实际数据并处理读写请求。  
* '''ZooKeeper'''：协调集群状态和故障恢复。  

<mermaid>  
graph TD  
    A[Client] -->|读写请求| B[RegionServer]  
    B -->|数据存储| C[HDFS]  
    D[HMaster] -->|元数据管理| B  
    E[ZooKeeper] -->|协调| D  
    E -->|心跳检测| B  
</mermaid>  

=== 2. 列式存储 ===  
数据按'''列族'''（Column Family）物理存储，支持动态添加列。例如，用户表可能包含列族"info"（姓名、年龄）和"contact"（邮箱、电话）。  

=== 3. 强一致性 ===  
所有读写操作在单行内保证原子性，适合金融交易等场景。  

=== 4. 水平扩展 ===  
通过增加RegionServer节点实现线性扩展，支持PB级数据。  

=== 5. 稀疏性 ===  
允许行中某些列为空，不占用存储空间。  

=== 6. 多版本控制 ===  
每个单元格（Cell）可存储多个时间戳版本的数据，默认保留3个版本。  

== 数据模型示例 ==  
HBase的数据模型由以下要素组成：  

{| class="wikitable"  
|+ 术语说明  
! 术语 !! 描述  
|-  
| '''Row Key''' || 行的唯一标识，按字典序排序  
|-  
| '''Column Family''' || 列的集合，预定义且不可动态修改  
|-  
| '''Column Qualifier''' || 列族下的具体列名（动态添加）  
|-  
| '''Timestamp''' || 数据版本标识（默认系统时间）  
|-  
| '''Cell''' || 由{rowkey, column, timestamp}确定的存储单元  
|}  

示例数据（存储用户信息）：  

{| class="wikitable"  
|+ 示例表 'user'  
! Row Key !! Column Family: info !! Column Family: contact  
|-  
| user001 || name=John, age=28 || email=john@example.com  
|-  
| user002 || name=Alice || phone=123456789  
|}  

== 代码示例 ==  
以下展示如何使用HBase Shell创建表并插入数据：  

<syntaxhighlight lang="bash">  
# 创建表（含两个列族）  
create 'user', 'info', 'contact'  

# 插入数据  
put 'user', 'user001', 'info:name', 'John'  
put 'user', 'user001', 'info:age', '28'  
put 'user', 'user001', 'contact:email', 'john@example.com'  

# 查询数据  
get 'user', 'user001'  
</syntaxhighlight>  

输出结果：  
<syntaxhighlight lang="text">  
COLUMN                CELL  
 info:age            timestamp=1620000000, value=28  
 info:name           timestamp=1620000001, value=John  
 contact:email       timestamp=1620000002, value=john@example.com  
</syntaxhighlight>  

== 实际应用场景 ==  
* '''社交网络'''：存储用户关系图谱（如微博的关注列表）。  
* '''物联网'''：记录设备传感器的时间序列数据。  
* '''实时分析'''：电商网站的用户点击流分析。  

=== 案例：电商订单存储 ===  
HBase的稀疏性和多版本特性适合存储订单状态变更：  

<mermaid>  
gantt  
    title 订单状态变更时间线  
    dateFormat  YYYY-MM-DD HH:mm  
    section 订单ID: order123  
    创建订单      :a1, 2023-01-01 10:00, 1h  
    支付完成      :a2, after a1, 30m  
    发货          :a3, after a2, 2h  
    确认收货      :a4, after a3, 48h  
</mermaid>  

== 数学基础 ==  
HBase的Region分裂策略基于公式：  

<math>  
\text{分裂阈值} = \text{初始大小} \times 2^{\text{分裂次数}}  
</math>  

默认初始大小为10GB，当Region达到阈值时自动分裂为两个子Region。  

== 总结 ==  
HBase作为分布式列式数据库，适用于需要高吞吐、低延迟访问海量数据的场景。其特点包括水平扩展、强一致性和灵活的数据模型，但需注意其不适合复杂事务和跨行操作。初学者可通过HBase Shell或Java API实践基本操作，逐步深入理解其架构设计。

[[Category:大数据框架]]
[[Category:Apache Hadoop]]
[[Category:Hbase数据库]]