Hive中的向量化查询执行大大减少了典型查询操作的CPU使用率

观点 | 2021-12-31 14:27:42

时间：2021-12-31 14:27:42 / 来源： TechWeb 阅读量：17113

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据可以说从事数据开发工作，无论是在平时的工作中，还是在面试中，Hive具有举足轻重的地位，尤其是Hive的性能调优方面，不仅能够在工作中提升效率而且还可以在面试中脱颖而出在本文中，我将分享十个性能优化技术，全文如下

1.多次INSERT单次扫描表

默认情况下，Hive会执行多次表扫描因此，如果要在某张hive表中执行多个操作，建议使用一次扫描并使用该扫描来执行多个操作

比如将一张表的数据多次查询出来装载到另外一张表中如下面的示例，表my_table是一个分区表，分区字段为dt，如果需要在表中查询2个特定的分区日期数据，并将记录装载到2个不同的表中

INSERTINTOtemp_table_20201115SELECT*FROMmy_tableWHEREdt='2020—11—15'，INSERTINTOtemp_table_20201116SELECT*FROMmy_tableWHEREdt='2020—11—16'，

在以上查询中，Hive将扫描表2次，为了避免这种情况，我们可以使用下面的方式:

FROMmy_tableINSERTINTOtemp_table_20201115SELECT*WHEREdt='2020—11—15'INSERTINTOtemp_table_20201116SELECT*WHEREdt='2020—11—16'

这样可以确保只对my_table表执行一次扫描，从而可以大大减少执行的时间和资源。

2.分区表

对于一张比较大的表，将其设计成分区表可以提升查询的性能，对于一个特定分区的查询，只会加载对应分区路径的文件数据，因此，当用户使用特定分区列值执行选择查询时，将仅针对该特定分区执行查询，由于将针对较少的数据量进行扫描，所以可以提供更好的性能值得注意的是，分区字段的选择是影响查询性能的重要因素，尽量避免层级较深的分区，这样会造成太多的子文件夹

现在问题来了，该使用哪些列进行分区呢一条基本的法则是:选择低基数属性作为分区键，比如地区或日期等

一些常见的分区字段可以是:

日期或者时间

比如year，month，day或者hour，当表中存在时间或者日期字段时，可以使用些字段。

地理位置

比如国家，省份，城市等

业务逻辑

比如部门，销售区域，客户等等

CREATETABLEtable_namePARTITIONEDBY， 3.分桶表

通常，当很难在列上创建分区时，我们会使用分桶，比如某个经常被筛选的字段，如果将其作为分区字段，会造成大量的分区在Hive中，会对分桶字段进行哈希，从而提供了中额外的数据结构，进行提升查询效率

与分区表类似，分桶表的组织方式是将HDFS上的文件分割成多个文件分桶可以加快数据采样，也可以提升join的性能，因为分桶可以确保某个key对应的数据在一个特定的桶内，所以巧妙地选择分桶字段可以大幅度提升join的性能通常情况下，分桶字段可以选择经常用在过滤操作或者join操作的字段

我们可以使用set.hive.enforce.bucketing = true启用分桶设置。

当使用分桶表时，最好将bucketmapjoin标志设置为true，具体配置参数为:

CREATETABLEtable_namePARTITIONEDBYCLUSTEREDBYSORTEDBY(column_name(ASC

复杂的Hive查询通常会转换为一系列多阶段的MapReduce作业，并且这些作业将由Hive引擎链接起来以完成整个查询因此，此处的中间输出是指上一个MapReduce作业的输出，它将用作下一个MapReduce作业的输入数据

压缩可以显著减少中间数据量，从而在内部减少了Map和Reduce之间的数据传输量。

我们可以使用以下属性在中间输出上启用压缩。

为了将最终输出到HDFS的数据进行压缩，可以使用以下属性:

下面是一些可以使用的压缩编解码器

map端join适用于当一张表很小的情况，即可以将小表加载至内存。Hive从0.7开始支持自动转为map端join，具体配置如下:

SEThive.auto.convert.join=true，——hivev0.11.0之后默认trueSEThive.mapjoin.smalltable.filesize=600000000，——默认25mSEThive.auto.convert.join.noconditionaltask=true，——默认true，所以不需要指定mapjoinhintSEThive.auto.convert.join.noconditionaltask.size=10000000，——控制加载到内存的表的大小

一旦开启map端join配置，Hive会自动检查小表是否大于hive.mapjoin.smalltable.filesize配置的大小，如果大于则转为普通的join，如果小于则转为map端join。

关于map端join的原理，如下图所示:

首先，Task A负责读取小表a，并将其转成一个HashTable的数据结构，写入到本地文件，之后将其加载至分布式缓存。

然后，Task B任务会启动map任务读取大表b，在Map阶段，根据每条记录与分布式缓存中的a表对应的hashtable关联，并输出结果

注意:map端join没有reduce任务，所以map直接输出结果，即有多少个map任务就会产生多少个结果文件。

6.向量化

Hive中的向量化查询执行大大减少了典型查询操作的CPU使用率。

标准查询执行系统一次处理一行，在处理下一行之前，单行数据会被查询中的所有运算符进行处理，导致CPU使用效率非常低在向量化查询执行中，数据行被批处理在一起，表示为一组列向量

要使用向量化查询执行，必须以ORC格式存储数据，并设置以下变量。

SEThive.vectorized.execution.enabled=true

7.谓词下推

默认生成的执行计划会在可见的位置执行过滤器，但在某些情况下，某些过滤器表达式可以被推到更接近首次看到此特定数据的运算符的位置。