HBase表创建与管理[编辑 | 编辑源代码]

概述[编辑 | 编辑源代码]

HBase是一个基于Hadoop的分布式、面向列的NoSQL数据库，适用于海量数据的存储与实时访问。在HBase中，表（Table）是数据存储的核心单元，由行（Row）、列族（Column Family）和列限定符（Column Qualifier）组成。本章将详细介绍HBase表的创建、结构设计、修改及删除操作。

表结构设计[编辑 | 编辑源代码]

HBase表的结构设计需考虑以下关键点：

行键（Row Key）：唯一标识一行数据，按字典序排序，直接影响数据分布和查询性能。
列族（Column Family）：表的逻辑分组，同一列族下的列存储在相同物理文件中。
版本控制（Versioning）：每个单元格（Cell）可存储多个版本的值，通过时间戳区分。

创建表[编辑 | 编辑源代码]

使用HBase Shell或Java API创建表时，需指定表名和至少一个列族。

HBase Shell示例[编辑 | 编辑源代码]

# 创建表 'employee'，包含两个列族 'personal_data' 和 'professional_data'
create 'employee', 'personal_data', 'professional_data'

# 输出示例
Created table employee
0 row(s) in 1.2200 seconds

Java API示例[编辑 | 编辑源代码]

import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;

public class CreateTable {
    public static void main(String[] args) throws Exception {
        Configuration config = HBaseConfiguration.create();
        try (Connection connection = ConnectionFactory.createConnection(config);
             Admin admin = connection.getAdmin()) {
            
            HTableDescriptor table = new HTableDescriptor(TableName.valueOf("employee"));
            table.addFamily(new HColumnDescriptor("personal_data"));
            table.addFamily(new HColumnDescriptor("professional_data"));
            
            admin.createTable(table);
            System.out.println("Table created successfully");
        }
    }
}

表属性配置[编辑 | 编辑源代码]

创建表时可指定高级属性：

MAX_VERSIONS：保留的版本数，例如：create 'employee', {NAME => 'personal_data', VERSIONS => 3}
TTL（Time-To-Live）：数据的存活时间（秒）
BLOCKCACHE：是否启用块缓存

修改表结构[编辑 | 编辑源代码]

添加列族[编辑 | 编辑源代码]

alter 'employee', 'salary_data'

删除列族[编辑 | 编辑源代码]

alter 'employee', {NAME => 'salary_data', METHOD => 'delete'}

删除表[编辑 | 编辑源代码]

需先禁用表再删除：

disable 'employee'
drop 'employee'

实际应用案例[编辑 | 编辑源代码]

场景：电商用户行为日志存储

表名：user_activity
列族设计：

 * click_stream：存储页面点击事件
 * purchase_history：存储购买记录

行键设计：user_id + timestamp

最佳实践[编辑 | 编辑源代码]

1. 列族数量不宜过多（通常1-3个） 2. 行键设计应避免热点问题（如使用哈希前缀） 3. 预分区（Pre-splitting）可提升写入性能：

create 'employee', 'personal_data', {SPLITS => ['1000', '2000', '3000']}

数学基础[编辑 | 编辑源代码]

HBase的Region分区策略遵循以下公式确定rowkey分布： $R e g i o n I n d e x = H a s h (R o w K e y) mod N u m b e r O f R e g i o n s$

常见问题[编辑 | 编辑源代码]

Q：能否修改已存在列族的属性？
A：可以，但需注意某些属性（如BLOCKCACHE）修改后需重启RegionServer生效。

Q：删除表后数据能否恢复？
A：若未启用HBase的回收站功能（hbase.fs.tmp.dir配置），数据将永久丢失。