学分高考 web前端

大数据Hbase面试宝典(中)

发布时间: 2022-05-17 10:27:01

应广大同学的需求,本文继续整理了大数据Hbase面试问题,希望大家阅读本篇文章以后有所收获,能够对大数据技术的理解更加深入和全面。

大数据Hbase面试宝典(中)

一、 解释下 hbase 实时查询的原理

实时查询,可以认为是从内存中查询,一般响应时间在 1 秒内。Hbase 的机制是数据先写入到内存中,当数据量达到一定的量(如 128M),再写入磁盘中, 在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,保证了 Hbase I/O 的高性能。

二、描述 Hbase 的 rowKey 的设计原则

问题导读:联系 region 和 rowkey 关系说明,设计可参考以下三个原则.

1、 rowkey 长度原则
rowkey 是一个二进制码流,可以是任意字符串,最大长度 64kb,实际应用中一般为 10-100bytes,以 byte[]形式保存,一般设计成定长。建议越短越好,不要超过 16 个字节, 原因如下:

数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 rowkey 过长会极大影响 HFile 的存储效率 MemStore 将缓存部分数据到内存,如果 rowkey 字段过长,内存的有效利用率就会降低,系统不能缓存更多的数据,这样会降低检索效率

2、rowkey 散列原则

如果 rowkey 按照时间戳的方式递增,不要将时间放在二进制码的前面,建议将 rowkey 的高位作为散列字段,由程序随机生成,低位放时间字段,这样将提高数据均衡分布在每个 RegionServer,以实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息,所有的数据都会集中在一个 RegionServer 上,这样在数据检索的时候负载会集中在个别的 RegionServer 上,造成热点问题,会降低查询效率。

3、 rowkey 唯一原则

必须在设计上保证其唯一性,rowkey 是按照字典顺序排序存储的,因此, 设计 rowkey 的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块。

三、描述 Hbase 中 scan 和 get 的功能以及实现的异同

1、按指 定 RowKey 获 取 唯 一 一 条 记 录 , get 方法( org.apache.hadoop.hbase.client.Get ) Get的方法处理分两种 : 设置了ClosestRowBefore和没有设置的 rowlock 主要是用来保证行的事务性,即每个get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column。

2.按指定的条件获取一批记录,scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.

1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间);

2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start,end]start? 是闭区间,end 是开区间)。范围越小,性能越高;

3)scan 可以通过 setFilter 方法添加过滤器,这也是分页、多条件查询的基础。3.全表扫描,即直接扫描整张表中所有行记录。

四、请详细描述 Hbase 中一个 Cell 的结构

Hbase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell:由{row key, column(=<family> + <label>), version}是唯一确定的单元cell 中的数据是没有类型的,全部是字节码形式存贮。

还没梳理过大数据Hbase面试题的同学赶紧多看几遍吧,以上都小编的干货分享,有需要的同学可以收藏起来。

温馨提示:
本文【大数据Hbase面试宝典(中)】由作者教培参考提供。该文观点仅代表作者本人,学分高考系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号