Browse Tag: 大数据

Hbase 了解

Hbase 2006年 出现, 是bigtable的开源clone。是建立的hdfs之上实时读写的数据库系统。

介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,主要用来存储非结构化和半结构化的松散数据。

HBase 简介

特点

  1. 大:一个表可以有上亿行,上百万列
  2. 面向列:面向列(族)的存储和权限控制,列(族)独立检索。
  3. 稀疏:对于为空(null)的列,并不占用存储空间

逻辑视图

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(column family)

Row key:可以是任意字符,存储时数据按照 Row key 的字典序排序存储

列族:列归属某个列族,列名都以列族作为前缀,访问控制、磁盘和内存的使用统计都是在列族层面进行的。

cell:通过row和columns确定的为一个存贮单元称为cell,数据没有类型,以字节码形式存储。cell都保存着同一份数据的多个版本。版本通过时间戳来索引。

数据版本回收:一是保存数据的最后n个版本,二是保存最近一段时间内的版本

访问方式

  1. 单个row key
  2. 通过row key 和 range
  3. 全表扫描