大数据Hbase面试宝典(中)

发布时间: 2022-05-17 10:27:01

应广大同学的需求，本文继续整理了大数据Hbase面试问题，希望大家阅读本篇文章以后有所收获，能够对大数据技术的理解更加深入和全面。

大数据Hbase面试宝典（中）

一、解释下 hbase 实时查询的原理

实时查询，可以认为是从内存中查询，一般响应时间在 1 秒内。Hbase 的机制是数据先写入到内存中，当数据量达到一定的量（如 128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了 Hbase I/O 的高性能。

二、描述 Hbase 的 rowKey 的设计原则

问题导读：联系 region 和 rowkey 关系说明，设计可参考以下三个原则.

1、 rowkey 长度原则
rowkey 是一个二进制码流，可以是任意字符串，最大长度 64kb，实际应用中一般为 10-100bytes，以 byte[]形式保存，一般设计成定长。建议越短越好，不要超过 16 个字节，原因如下：

数据的持久化文件 HFile 中是按照 KeyValue 存储的，如果 rowkey 过长会极大影响 HFile 的存储效率 MemStore 将缓存部分数据到内存，如果 rowkey 字段过长，内存的有效利用率就会降低，系统不能缓存更多的数据，这样会降低检索效率

2、rowkey 散列原则

如果 rowkey 按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将 rowkey 的高位作为散列字段，由程序随机生成，低位放时间字段，这样将提高数据均衡分布在每个 RegionServer，以实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息，所有的数据都会集中在一个 RegionServer 上，这样在数据检索的时候负载会集中在个别的 RegionServer 上，造成热点问题，会降低查询效率。

3、 rowkey 唯一原则

必须在设计上保证其唯一性，rowkey 是按照字典顺序排序存储的，因此，设计 rowkey 的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。

三、描述 Hbase 中 scan 和 get 的功能以及实现的异同

1、按指定 RowKey 获取唯一一条记录， get 方法（ org.apache.hadoop.hbase.client.Get ） Get的方法处理分两种：设置了ClosestRowBefore和没有设置的 rowlock 主要是用来保证行的事务性，即每个get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column。

2.按指定的条件获取一批记录，scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.

1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间)；

2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start，end]start? 是闭区间，end 是开区间)。范围越小，性能越高；

3)scan 可以通过 setFilter 方法添加过滤器，这也是分页、多条件查询的基础。3.全表扫描，即直接扫描整张表中所有行记录。

四、请详细描述 Hbase 中一个 Cell 的结构

Hbase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell：由{row key， column(=<family> + <label>)， version}是唯一确定的单元cell 中的数据是没有类型的，全部是字节码形式存贮。

还没梳理过大数据Hbase面试题的同学赶紧多看几遍吧，以上都小编的干货分享，有需要的同学可以收藏起来。

温馨提示：

本文【大数据Hbase面试宝典(中)】由作者教培参考提供。该文观点仅代表作者本人，学分高考系信息发布平台，仅提供信息存储空间服务，若存在侵权问题，请及时联系管理员或作者进行删除。

上一篇: HTML5好学吗？其应用方向是什么？

下一篇: 大数据可视化分析工具常用的有哪些？