Spark的kryo性能测试以及RDD持久化级别

2023-09-19 05:27:12

MEMORY_ONLY

代码如下

package com.yxw.Testimport org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.{SparkConf, SparkContext}object KryoTest000 {def main(args: Array[String]): Unit = {//定义输入输出路径val inputpath = new Path(args(0)) //file:///E:/BaiduNetdiskDownload/cleaned.logval outputpath = new Path(args(1)) //file:///E:/BaiduNetdiskDownload/outputpath//连接hdfsval fsConf = new Configuration()val fs = FileSystem.get(fsConf)//路径存在就删除if (fs.exists(outputpath)){fs.delete(outputpath,true)val path = args(1).toStringprintln(s"已经删除存在的路径 $path")}//创建sparkcontextval conf = new SparkConf().setAppName("KryoTest000APP").setMaster("local[4]")val sc = new SparkContext(conf)//得到文件 创建RDDval files = sc.textFile(args(0))// files.foreach(println)//调用utils 持久化val res = KryoUtils.logCache(files)//res.collect()//    //序列化方式存到内存KryoUtils.saveLog(res,args(1))
//Thread.sleep(50000) //睡50s 以便观察webUI}
}

KryoUtils.scala

package com.yxw.Testimport org.apache.spark.rdd.RDDcase class INFO(cdn: String, region: String, level: String, date: String, ip: String, domain: String, url: String, traffic: String)object KryoUtils {//baidu	CN	E	2018050103	222.73.34.128	rw.uestc.edu.cn	http://rw.uestc.edu.cn/user_upload/15316339776271051.html	72071def logCache(logs: RDD[String]): RDD[INFO] = {logs.filter(_.split("\t").length == 8).map(log => {val info = log.split("\t")INFO(info(0), info(1), info(2), info(3), info(4), info(5), info(6), info(7))}).cache()}def saveLog(logsCache: RDD[INFO], outputpath: String) = {logsCache.map(logCache => {logCache.cdn + "\t" + logCache.region + "\t" + logCache.level + "\t" +logCache.date + "\t" + logCache.ip + "\t" + logCache.domain + "\t" + logCache.url + "\t" + logCache.traffic}).repartition(1).saveAsTextFile(outputpath)}
}

运行的结果如图：
在这里插入图片描述
由于有个shuffle操作共耗时10s
cache的大小为：

900多M，这简直恐怖

MEMORY_ONLY_SER 未使用kryo序列化

修改代码：
在这里插入图片描述
结果如下：

序列化后占用内存已经显著减小，耗时也减小为7s

MEMORY_ONLY_SER 使用kryo序列化未注册

代码修改如下：
在这里插入图片描述
结果如下：

耗时差不多，都是7s，但是内存占用稍微减小

MEMORY_ONLY_SER 使用kryo序列化并注册

修改代码如下：
在这里插入图片描述
结果如图所示：

可以看到速度，内存占用都是以上几组测试用最优的

注册kryo序列化并开启RDD压缩

这个测试是网上看来的
注意:RDD压缩只能存在于序列化的情况下
修改代码如图：
在这里插入图片描述
运行结果如图：

持久化的内存占用大小仅为45M左右！！！

spark.rdd.compress

这个参数决定了RDD Cache的过程中，RDD数据在序列化之后是否进一步进行压缩再储存到内存或磁盘上。当然是为了进一步减小Cache数据的尺寸，对于Cache在磁盘上而言，绝对大小大概没有太大关系，主要是考虑Disk的IO带宽。而对于Cache在内存中，那主要就是考虑尺寸的影响，是否能够Cache更多的数据，是否能减小Cache数据对GC造成的压力等。

这两者，前者通常不会是主要问题，尤其是在RDD Cache本身的目的就是追求速度，减少重算步骤，用IO换CPU的情况下。而后者，GC问题当然是需要考量的，数据量小，占用空间少，GC的问题大概会减轻，但是是否真的需要走到RDD Cache压缩这一步，或许用其它方式来解决可能更加有效。

所以这个值默认是关闭的，但是如果在磁盘IO的确成为问题或者GC问题真的没有其它更好的解决办法的时候，可以考虑启用RDD压缩。

以上

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > .NET分页+组合查询。一次读一页
下一篇 > git 创建本地分支和远程分支

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce