(一)Spark常用算子:map,mapPartition,mapPartitionIndex,flatMap,filter

首先来看下spark的wordcount的top5

package org.example.sparkimport java.security.MessageDigestimport org.apache.spark.{SparkConf, SparkContext}object WordCount {import org.apache.spark.rdd.RDDdef main(args: Array[String]): Unit = {// 这里的下划线"_"是占位符,代表数据文件的根目录val file: String = "D:\\testCode\\words.txt"// 读取文件内容//设置spark的配置文件信息val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[2]")//构建sparkcontext上下文对象,它是程序的入口,所有计算的源头val sc: SparkContext = new SparkContext(sparkConf)//读取文件val lineRDD: RDD[String] = sc.textFile(file)// 以行为单位做分词valval words: RDD[String] = lineRDD.flatMap(line => line.split(" "))// 过滤掉空字符串val cleanWordRDD: RDD[String] = words.filter(word => !word.equals(""))// 把RDD元素转换为(Key,Value)的形式val kvRD


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部