应广大同学的需求,本文继续整理了大数据Hbase面试问题,希望大家阅读本篇文章以后有所收获,能够对大数据技术的理解更加深入和全面。

一、 解释下 hbase 实时查询的原理
实时查询,可以认为是从内存中查询,一般响应时间在 1 秒内。Hbase 的机制是数据先写入到内存中,当数据量达到一定的量(如 128M),再写入磁盘中, 在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,保证了 Hbase I/O 的高性能。
二、描述 Hbase 的 rowKey 的设计原则
问题导读:联系 region 和 rowkey 关系说明,设计可参考以下三个原则.
1、 rowkey 长度原则
rowkey 是一个二进制码流,可以是任意字符串,最大长度 64kb,实际应用中一般为 10-100bytes,以 byte[]形式保存,一般设计成定长。建议越短越好,不要超过 16 个字节, 原因如下:
数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 rowkey 过长会极大影响 HFile 的存储效率 MemStore 将缓存部分数据到内存,如果 rowkey 字段过长,内存的有效利用率就会降低,系统不能缓存更多的数据,这样会降低检索效率
2、rowkey 散列原则
如果 rowkey 按照时间戳的方式递增,不要将时间放在二进制码的前面,建议将 rowkey 的高位作为散列字段,由程序随机生成,低位放时间字段,这样将提高数据均衡分布在每个 RegionServer,以实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息,所有的数据都会集中在一个 RegionServer 上,这样在数据检索的时候负载会集中在个别的 RegionServer 上,造成热点问题,会降低查询效率。
3、 rowkey 唯一原则
必须在设计上保证其唯一性,rowkey 是按照字典顺序排序存储的,因此, 设计 rowkey 的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块。
三、描述 Hbase 中 scan 和 get 的功能以及实现的异同
1、按指 定 RowKey 获 取 唯 一 一 条 记 录 , get 方法( org.apache.hadoop.hbase.client.Get ) Get的方法处理分两种 : 设置了ClosestRowBefore和没有设置的 rowlock 主要是用来保证行的事务性,即每个get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column。
2.按指定的条件获取一批记录,scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.
1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间);
2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start,end]start? 是闭区间,end 是开区间)。范围越小,性能越高;
3)scan 可以通过 setFilter 方法添加过滤器,这也是分页、多条件查询的基础。3.全表扫描,即直接扫描整张表中所有行记录。
四、请详细描述 Hbase 中一个 Cell 的结构
Hbase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell:由{row key, column(=<family> + <label>), version}是唯一确定的单元cell 中的数据是没有类型的,全部是字节码形式存贮。
还没梳理过大数据Hbase面试题的同学赶紧多看几遍吧,以上都小编的干货分享,有需要的同学可以收藏起来。

微信扫码关注公众号
获取更多考试热门资料