Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验

2023-08-28 00:48:54

1.概述

主要对基于Tez的map数和reduce数测试与调优

如果需要查看基于MapReduce的调优可以看这篇：

Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验https://blog.csdn.net/qq_35260875/article/details/110181866?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22110181866%22%2C%22source%22%3A%22qq_35260875%22%7D&ctrtid=Lp7kw

2.数据准备

（1）表信息

本次测试的表和sql都是使用的TPC-DS

Tez文件存储格式为orc。

表名	总数	占用空间	文件数
date_dim	73049	354.1 K	1
item	48000	3.0 M	1
store	118	12.3 K	1
store_sales	23039641872	829.2 G	1874

store_sales的表结构：

（2）SQL语句

测试SQL为CPU密集型，密集型的含义：在SQL运行期间CPU占比会很高

3.map数的控制

3.1 map数控制测试

影响map个数的tez参数，可以通过在Hive中使用set的形式来使用，set只针对当前session。如果需要全局，则需要修改hive-site.xml和tez-site.xml

参数	默认值	说明
tez.grouping.max-size	1073741824（1GB）	group分割大小的最大值
tez.grouping.min-size	16777216（16MB）	group分割大小的最小值
tez.grouping.split-count	未设置	group的分割组数

mapreduce.input.fileinputformat.split.maxsize这个参数对Tez中的map数也是有影响的。默认为256MB，但是这次测试不针对这个参数

（1）tez.grouping.max-size

测试1：

tez.grouping.max-size =1073741824; 1GB

共有363个map数

测试2：

tez.grouping.max-size =536870912; 512MB

共有701个map数

测试3：

tez.grouping.max-size =268435456; 256MB

共有818个map数

测试1：

tez.grouping.max-size =2147483648; 2GB

共有363个map数

因为2GB大于文件的分割长度

（2）tez.grouping.split-count

测试1：

tez.grouping.split-count =300;

共有363个map数

测试2：

tez.grouping.split-count =500;

共有749个map数

测试3：

tez.grouping.split-count =1000;

共有895个map数

当设置的值大于原始的895时，tez会直接使用895

测试4：

tez.grouping.split-count =200;

共有244个map数

3.2 map数控制结果

（1）tez.grouping.max-size

tez.grouping.max-size值	Map数
1073741824	363
536870912	701
268435456	818
2147483648	363

（2）tez.grouping.split-count

tez.grouping.split-count值	Map数
300	363
500	749
1000	895
200	244

4.reduce数的控制

影响reduce个数的参数

参数	默认值	说明
mapred.reduce.tasks	-1	指定reduce的个数
hive.exec.reducers.bytes.per.reducer	67108864	每个reduce的数据处理量
hive.exec.reducers.max	1009	reduce的最大个数
hive.tez.auto.reducer.parallelism	true	是否启动reduce自动并行

前面三个参数的作用和基于MR的相同，故不在做分析，只分析hive.tez.auto.reducer.parallelism参数

（1）hive.tez.auto.reducer.parallelism

hive.tez.auto.reducer.parallelism启用之后，Tez会估计数据量大小，设置并行度。在运行时会根据需要调整估计值。

测试1：

set hive.exec.reducers.max=20;

set hive.tez.auto.reducer.parallelism = false;

测试2：

set hive.exec.reducers.max=20;

set hive.tez.auto.reducer.parallelism = true;

从dag syslog中可以看到，开启并行执行之后，Reducer 2从20变成了7。

Reducer 3 4 5 6从20变成了5

5.调优流程

（1）map

Tez内部对map数已经有了很多的优化，需要通过dag的系统日志来分析，在有限的资源内，结合集群的资源来提高并发，集群资源越多，map数就可以设置大一点。

（2）reduce

需要根据集群的资源以及map端实际的输出数据量来设置reduce数。

6.总结推荐使用

（1）map

tez.grouping.split-count结合集群的资源来设置，例如测试sql:总共分割895，测试过程中895的性能好。

（2）reduce

推荐reduce数为集群能启动的最大container数的80%，或者小于这个数。
mapred.reduce.tasks这个参数一般不推荐使用。
是否开启并行，需要根据实际sql的测试结果来判断。最好开启和关闭并行都测试一下

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Hive安装 Tez 引擎
下一篇 > Hadoop，Spark，Tez的区别与联系

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验

1.概述

2.数据准备

（1）表信息

（2）SQL语句

3.map数的控制

3.1 map数控制测试

3.2 map数控制结果

4.reduce数的控制

5.调优流程

6.总结推荐使用

相关文章