1、spark-submit脚本的使用及理解

2023-11-24 03:50:56

2019独角兽企业重金招聘Python工程师标准>>>

一、介绍

1、安装省略，因为现在基本上都用大数据集成平台：cdh，hdp等
2、spark-submit脚本是spark提供的一个用于提交任务的脚本，通过它的--master 参数可以很方便的将任务提交到对应的平台去执行，比如yarn、standalone、mesos等。
3、spark-submit会在提交任务时，把集群大部分的配置文件都打包在__spark_conf__.zip中，包括core-site.xml、hdfs-site.xml、yarn-site.xml、mapreduce-site.xml、hbase-site.xml、hive-site.xml等。然后将其和工程依赖的第三方jar（flume、kafka、以及com.apache.org.lang3等）一同发送到spark的资源存放目录下,默认是：/user/root/.sparkStaging/xxxId/。
4、上述的__spark_conf__.zip还包含一个重要的配置文件__spark_conf__.properties，里面包含着spark-submit脚本的启动参数

在main类中SparkConf conf = new SparkConf();时会加载这个配置文件，所以不再需要执行conf.setMaster("yarn");

如图：
5、有了上面配置文件和jar，就可以很方便的访问

hive（hiveContext）

hbase（Configuration conf = HBaseConfiguration.create()）

hdfs等组件

二、submit-submit参数说明

spark-submit \--master yarn \              		运行的模式--deploy-mode cluster \--name spark-test \          		在yarn界面看到的名字，如果不设置，那就是下面--class的值--driver-memory 1g \         		driver的内存--executor-memory 1g \       		每一个executor的内存--executor-cores 1 \         		executor数量--jars xxx.jar, xxx.jar, xxx.jar    第三方jar，比如hbase，flume、apache的一些工具jar--conf mysql.url=jdbc:mysql://localhost:3306/hive?xxxx \   只能设置spark内定的参数（这个无效）--files /conf.properties \       	发送到集群的配置文件，可以直接new fileInputstream("conf.properties")来获取--class com.bigdata.spark.core.SparkRunTest \     主类/study-spark-core-4.0.0.jar \    	自己工程的jar10

三、spark-submit提交任务的流程

不管是什么脚本，只要是java写的工程，他的启动脚本最终都会调用某个类，然后在通过这个类来启动工程，或者提交任务到集群再起动，spark-submit也是同样的道理，他的流程如下：

/usr/bin/spark-submit

==> /appslog/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/spark/bin/spark-submit

==> 执行spark-core-XXx.jar里面的 org.apache.spark.deploy.SparkSubmit （进程的形式）

==> 直接执行org.apache.spark.deploy.SparkSubmit$.main(args) (普通方法的形式)

==> 通过--master参数值来判断到底调用那个类来提交到对应的集群，对应如下

--master yarn  	 	==>	org.apache.spark.deploy.yarn.Client
--master spark://XX ==>	org.apache.spark.deploy.Client
--master mesos 	==>	org.apache.spark.deploy.rest.RestSubmissionClient
--master local

流程查看：

1、sh -x /usr/bin/spark-submit 里面会有一句
2、sh -x /opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/spark/bin/spark-submit
3、进入ide查看org.apache.spark.deploy.SparkSubmit源码（main方法，很长）

四、总结

1、--files发送过来的文件，可以直接读取，不需要路径。比如上述将配置文件发送到.sparkStaging/XXXID/下，可以直接通过如下方式获取，这样参数就不需要再spark-submit最后那里一个个繁琐的添加进去
```
  Properties pros = new Properties();pros.load(new FileInputStream("conf.properties"));
```
2、--jars 和 --files后面都不能是文件夹，需要将所有的jar的绝对路劲，通过“逗号”拼接，但是开头不能是逗号，优先发送--jars的jar，如果系统的jar有冲突，那么不会再发送，也就是以用户lib文件夹下的为准
3、new SparkConf()时会加载__spark_conf__.properties，所以不需要再设置master、depoly-mode等参数

转载于:https://my.oschina.net/liufukin/blog/795540

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 计算机科学导论实验上机报告,计算机科学导论实验报告
下一篇 > uni-app form表单的@submit属性获取不到form表单中的内容

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce