如何解析HBase大合并与小合并

今天就跟大家聊聊有关如何解析HBase大合并与小合并，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

成都创新互联公司专注于企业成都全网营销、网站重做改版、达川网站定制设计、自适应品牌网站建设、H5建站、商城网站建设、集团公司官网建设、外贸网站制作、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为达川等各大城市提供网站开发制作服务。

HBase是基于一种LSM-Tree（Log-Structured Merge Tree）存储模型设计的，client端向HBase的各个Regionserver写入数据时，首先会写入预写日志WAL文件，这个文件一般是放在HDFS上被所有Regionserver节点共享，然后才写入MemStore内存，MemStore默认大小是128MB（跟block大小一致，不建议修改），如果MemStore达到了128MB，就会溢写到磁盘中,生成StoreFile,最终在持久化道HDFS中就是HFile文件。

下面这种图是HBase的存储架构图，网上也有很多我这里就不讲了：

如何解析HBase大合并与小合并

随着用户的持续写入,磁盘HFile文件就会越来越多，元数据也越来越多，单次HBase的查询就需要越来越多的IO操作，增加上查询的耗时，为了优化查询性能，HBase会合并小的HFile以减少文件数量，HBase设计了Compaction机制。

HBase Compaction机制介绍：

HBase Compaction分类：

a.Minor Compaction 小合并

指选取一些小的、相邻的StoreFile将他们合并成一个更大的StoreFile，在这个过程中不会处理已经Deleted或Expired的Cell。一次 Minor Compaction 的结果是更少并且更大的StoreFile。

b.Major Compaction 大合并

将所有的StoreFile合并成一个StoreFile，这个过程会清理三种数据：被删除的数据、TTL过期数据、版本号超过设定版本号的数据(VERSION）。

注意：

major compaction一般执行时间比较长，且耗资源比较大，由参数hbase.hregion.majorcompaction控制默认的执行周期是7天，生产集群一般将其关闭，等业务量较少或者晚上执行。

设置hbase.hregion.majorcompaction = 0可以关闭CompactionChecke触发的major compaction，但是无法关闭用户调用级别的mc。

如何解析HBase大合并与小合并

Compaction的作用：

a.合并文件

b.清除删除、过期、多余版本的数据

c.提高读写数据的效率

Compaction的触发条件

a.hbase shell中的compact或者major_compact请求

b..memstore flush后,都会判断是否要进行compaction，一旦满足minor compaction或major compaction的条件便会触发执行。

c.响应api中的majorCompact（）

d.后台线程轮询，HBase后台线程CompactionChecker 会定期检查是否需要执行compaction，检查周期为两个参数乘积：

hbase.server.thread.wakefrequency*hbase.server.compactchecker.interval.multiplier

参数解释：

hbase.server.thread.wakefrequency 默认值 10000 即 10s，是HBase服务端线程唤醒时间间隔，用于log roller、memstore flusher等操作周期性检查；

hbase.server.compactchecker.interval.multiplier 默认值1000s，是compaction操作周期性检查乘数因子。

所以执行周期默认是：

10 * 1000 s 时间上约等于2hrs, 46mins, 40sec。

我这里从源码中截了两张图，有兴趣你可以去看下HBase的源码：

如何解析HBase大合并与小合并

这里默认取值就是10*1000就是10秒：

如何解析HBase大合并与小合并

注意：

这里需要注意的是CompactionChecker线程即使到了执行的时间，也不一定执行major compaction，还需要满足另外一个条件：

对每个HStore进行一次判断，needsCompaction()判断是否足够多的文件触发了Compaction的条件。

条件为：

HStore中StoreFIles的个数 – 正在执行Compacting的文件个数 > minFilesToCompact

minFilesToCompact：默认为3,即超过3个hfile文件则启动合并。

CompactionChecker线程中会有个函数needsCompaction()，先去判断是否需要执行，代码如下：

如何解析HBase大合并与小合并

Minor Compaction和Major Compaction有一些相关的参数，网上有很多，我觉得这几个可能需要调整，其他都默认比较好：

1).hbase.hregion.majorcompaction:

配置major合并的间隔时间，默认为7天，可设置为0，禁止自动的major合并，可手动或者通过脚本定期进行major合并。

2).hbase.hstore.compaction.max:

设置执行Compaction(包括Major &Minor)的待合并文件的最大个数。默认值为10，如果超过该设置值，会对部分文件执行一次MinorCompaction,线上一般配置值30。

3).hbase.hstore.compactionThreshold:

设置执行Compaction(Major && Minor)操作的阈值，默认是3，如果想降低过频繁的合并操作，可以稍微调大一点，对于HBase负载较重的系统，可以设置成5。

4).hbase.hstore.compaction.max.size

文件大小 > 该参数值的StoreFile将会被排除，不会加入minor compaction，默认值Long.MAX_VALUE，表示没有什么限制。一般情况下也不建议调整该参数。

5).hbase.regionserver.thread.compaction.small:

默认值为1，regionserver做Minor Compaction时线程池里线程数目,可以设置为5。

6).hbase.regionserver.thread.compaction.large:

默认值为1，regionserver做Major Compaction时线程池里线程数目，可以设置为8。

7).hbase.hstore.compaction.kv.max

默认值10，compaction过程中，每次从Hfile中读取kv的个数，内存够的话可适当调大。

Minor Compaction和Major Compaction对读写的影响：

1).首先Compaction涉及到磁盘的读写，肯定会增加了整个集群的io负担。

2).对写的影响：

这里主要有两个参数：

hbase.hstore.blockingStoreFiles

hbase.hstore.blockingWaitTime

如果底层HFile数量超过hbase.hstore.blockingStoreFiles 配置值，默认10,flush操作将会受到阻塞，阻塞时间为hbase.hstore.blockingWaitTime，默认90000,在这段时间内，如果compaction操作使得HFile下降到blockingStoreFiles配置值，则停止阻塞。另外阻塞超过时间后，也会恢复执行flush操作。这样做可以有效地控制大量写请求的速度，但同时这也是影响写请求速度的主要原因之一。

3).对读的影响：

Compaction操作会带来很大的带宽压力以及短时间IO压力。因此compaction就是使用短时间的IO消耗以及带宽消耗换取后续查询的低延迟。这种短时间的压力就会造成读请求在延时上会有比较大的波动。

看完上述内容，你们对如何解析HBase大合并与小合并有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。

当前标题：如何解析HBase大合并与小合并
文章出自：http://kswsj.cn/article/gsihjp.html

关于创新互联

如何解析HBase大合并与小合并

其他资讯