Spark Streaming Join

2023-10-26 06:32:41

多数据源Join思路

多数据源Join大致有以下三种思路：

数据源端Join，如Android/IOS客户端在上报用户行为数据时就获取并带上用户基础信息。
计算引擎上Join,如用Spark Streaming、Flink做Join。
结果端Join，如用HBase/ES做Join,Join键做Rowkey/_id，各字段分别写入列簇、列或field。

三种思路各有优劣，使用时注意一下。这里总结在计算引擎Spark Streaming上做Join。

Stream-Static Join

流与完全静态数据Join

流与完全静态数据Join。有两种方式，一种是RDD Join方式，另一种是Broadcast Join(也叫Map-Side Join)方式。

RDD Join 方式

思路：RDD Join RDD 。

package com.bigData.sparkimport com.alibaba.fastjson.{JSON, JSONException, JSONObject}
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Durations, StreamingContext}/*** Author: Wang Pei* License: Copyright(c) Pei.Wang* Summary:** Stream-Static Join** spark 2.2.2**/
case class UserInfo(userID:String,userName:String,userAddress:String)
object StreamStaicJoin {def main(args: Array[String]): Unit = {//设置日志等级Logger.getLogger("org").setLevel(Level.WARN)//Kafka 参数val kafkaParams= Map[String, Object]("bootstrap.servers" -> "localhost:9092","key.deserializer" -> classOf[StringDeserializer],"value.deserializer" -> classOf[StringDeserializer],"auto.offset.reset" -> "latest","enable.auto.commit" -> (true: java.lang.Boolean),"group.id" -> "testTopic3_consumer_v1")//spark环境val sparkConf = new SparkConf().setAppName(this.getClass.getSimpleName.replace("$","")).setMaster("local[3]")val ssc = new StreamingContext(sparkConf,Durations.seconds(10))/** 1) 静态数据: 用户基础信息*/val userInfo=ssc.sparkContext.parallelize(Array(UserInfo("user_1","name_1","address_1"),UserInfo("user_2","name_2","address_2"),UserInfo("user_3","name_3","address_3"),UserInfo("user_4","name_4","address_4"),UserInfo("user_5","name_5","address_5"))).map(item=>(item.userID,item))/** 2) 流式数据: 用户发的tweet数据*//** 数据示例：* eventTime：事件时间、retweetCount：转推数、language：语言、userID：用户ID、favoriteCount：点赞数、id：事件ID* {"eventTime": "2018-11-05 10:04:00", "retweetCount": 1, "language": "chinese", "userID": "user_1", "favoriteCount": 1, "id": 4909846540155641457} */val kafkaDStream=KafkaUtils.createDirectStream[String,String](ssc,LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](Set("testTopic3"),kafkaParams)).map(item=>parseJson(item.value())).map(item=>{val userID = item.getString("userID")val eventTime = item.getString("eventTime")val language= item.getString("language")val favoriteCount = item.getInteger("favoriteCount")val retweetCount = item.getInteger("retweetCount")(userID,(userID,eventTime,language,favoriteCount,retweetCount))})/** 3) 流与静态数据做Join (RDD Join 方式)*/kafkaDStream.foreachRDD(_.join(userInfo).foreach(println))ssc.start()ssc.awaitTermination()}/**json解析*/def parseJson(log:String):JSONObject={var ret:JSONObject=nulltry{ret=JSON.parseObject(log)}catch {//异常json数据处理case e:JSONException => println(log)}ret}}

Broadcast Join 方式

思路：RDD遍历每一条数据，去匹配广播变量中的值。

package com.bigData.sparkimport com.alibaba.fastjson.{JSON, JSONException, JSONObject}
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Durations, StreamingContext}/*** Author: Wang Pei* License: Copyright(c) Pei.Wang* Summary:** Stream-Static Join** spark 2.2.2**/
case class UserInfo(userID:String,userName:String,userAddress:String)
object StreamStaticJoin2 {def main(args: Array[String]): Unit = {//设置日志等级Logger.getLogger("org").setLevel(Level.WARN)//Kafka 参数val kafkaParams= Map[String, Object]("bootstrap.servers" -> "localhost:9092","key.deserializer" -> classOf[StringDeserializer],"value.deserializer" -> classOf[StringDeserializer],"auto.offset.reset" -> "latest","enable.auto.commit" -> (true: java.lang.Boolean),"group.id" -> "testTopic3_consumer_v1")//spark环境val sparkConf = new SparkConf().setAppName(this.getClass.getSimpleName.replace("$","")).setMaster("local[3]")val ssc = new StreamingContext(sparkConf,Durations.seconds(10))/** 1) 静态数据: 用户基础信息。 将用户基础信息广播出去。*/val broadcastUserInfo=ssc.sparkContext.broadcast(Map("user_1"->UserInfo("user_1","name_1","address_1"),"user_2"->UserInfo("user_2","name_2","address_2"),"user_3"->UserInfo("user_3","name_3","address_3"),"user_4"->UserInfo("user_4","name_4","address_4"),"user_5"->UserInfo("user_5","name_5","address_5")))/** 2) 流式数据: 用户发的tweet数据*//** 数据示例：* eventTime：事件时间、retweetCount：转推数、language：语言、userID：用户ID、favoriteCount：点赞数、id：事件ID* {"eventTime": "2018-11-05 10:04:00", "retweetCount": 1, "language": "chinese", "userID": "user_1", "favoriteCount": 1, "id": 4909846540155641457} */val kafkaDStream=KafkaUtils.createDirectStream[String,String](ssc,LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](List("testTopic3"),kafkaParams)).map(item=>parseJson(item.value())).map(item=>{val userID = item.getString("userID")val eventTime = item.getString("eventTime")val language= item.getString("language")val favoriteCount = item.getInteger("favoriteCount")val retweetCount = item.getInteger("retweetCount")(userID,(userID,eventTime,language,favoriteCount,retweetCount))})/** 3) 流与静态数据做Join (Broadcast Join 方式)*/val result=kafkaDStream.mapPartitions(part=>{val userInfo = broadcastUserInfo.valuepart.map(item=>{(item._1,(item._2,userInfo.getOrElse(item._1,null)))})})result.foreachRDD(_.foreach(println))ssc.start()ssc.awaitTermination()}/**json解析*/def parseJson(log:String):JSONObject={var ret:JSONObject=nulltry{ret=JSON.parseObject(log)}catch {//异常json数据处理case e:JSONException => println(log)}ret}}

流与半静态数据Join

半静态数据指的是放在Redis等的数据，会被更新。

思路：RDD 每个Partition连接一次Redis,遍历Partition中每条数据，根据k,去Redis中查找v。

package com.bigData.sparkimport com.alibaba.fastjson.{JSON, JSONException, JSONObject}
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Durations, StreamingContext}
import redis.clients.jedis.Jedis/*** Author: Wang Pei* License: Copyright(c) Pei.Wang* Summary:** Stream-Static Join** spark 2.2.2**/
object StreamStaicJoin3 {def main(args: Array[String]): Unit = {//设置日志等级Logger.getLogger("org").setLevel(Level.WARN)//Kafka 参数val kafkaParams= Map[String, Object]("bootstrap.servers" -> "localhost:9092","key.deserializer" -> classOf[StringDeserializer],"value.deserializer" -> classOf[StringDeserializer],"auto.offset.reset" -> "latest","enable.auto.commit" -> (true: java.lang.Boolean),"group.id" -> "testTopic3_consumer_v1")//spark环境val sparkConf = new SparkConf().setAppName(this.getClass.getSimpleName.replace("$","")).setMaster("local[3]")val ssc = new StreamingContext(sparkConf,Durations.seconds(10))/** 1) 半静态数据: 用户基础信息,在Redis中*//** HMSET user_1 userID "user_1" name "name_1" address "address_1" *//** HMSET user_2 userID "user_2" name "name_2" address "address_2" *//** 2) 流式数据: 用户发的tweet数据*//** 数据示例：* eventTime：事件时间、retweetCount：转推数、language：语言、userID：用户ID、favoriteCount：点赞数、id：事件ID* {"eventTime": "2018-11-05 10:04:00", "retweetCount": 1, "language": "chinese", "userID": "user_1", "favoriteCount": 1, "id": 4909846540155641457} */val kafkaDStream=KafkaUtils.createDirectStream[String,String](ssc,LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](Set("testTopic3"),kafkaParams)).map(item=>parseJson(item.value())).map(item=>{val userID = item.getString("userID")val eventTime = item.getString("eventTime")val language= item.getString("language")val favoriteCount = item.getInteger("favoriteCount")val retweetCount = item.getInteger("retweetCount")(userID,(userID,eventTime,language,favoriteCount,retweetCount))})/** 3) 流与半静态数据做Join (RDD Join 方式)*/val result=kafkaDStream.mapPartitions(part=>{val redisCli=connToRedis("localhost",6379,3000,10)part.map(item=>{(item._1,(item._2,redisCli.hmget(item._1,"userID","name","address")))})})result.foreachRDD(_.foreach(println))ssc.start()ssc.awaitTermination()}/**json解析*/def parseJson(log:String):JSONObject={var ret:JSONObject=nulltry{ret=JSON.parseObject(log)}catch {//异常json数据处理case e:JSONException => println(log)}ret}/**连接到redis*/def connToRedis(redisHost:String,redisPort:Int,timeout:Int,dbNum:Int): Jedis ={val redisCli=new Jedis(redisHost,redisPort,timeout)redisCli.connect()redisCli.select(dbNum)redisCli}}

Stream-Stream Join

流与流Join。

思路：DStream Join DStream。

package com.bigData.sparkimport com.alibaba.fastjson.{JSON, JSONException, JSONObject}
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Durations, StreamingContext}/*** Author: Wang Pei* License: Copyright(c) Pei.Wang* Summary:** Stream-Stream Join** spark 2.2.2**/
object StreamStreamJoin {def main(args: Array[String]): Unit = {//设置日志等级Logger.getLogger("org").setLevel(Level.WARN)//Kafka 参数val kafkaParams1= Map[String, Object]("bootstrap.servers" -> "localhost:9092","key.deserializer" -> classOf[StringDeserializer],"value.deserializer" -> classOf[StringDeserializer],"auto.offset.reset" -> "latest","enable.auto.commit" -> (true: java.lang.Boolean),"group.id" -> "testTopic3_consumer_v1")val kafkaParams2= Map[String, Object]("bootstrap.servers" -> "localhost:9092","key.deserializer" -> classOf[StringDeserializer],"value.deserializer" -> classOf[StringDeserializer],"auto.offset.reset" -> "latest","enable.auto.commit" -> (true: java.lang.Boolean),"group.id" -> "testTopic4_consumer_v1")//spark环境val sparkConf = new SparkConf().setAppName(this.getClass.getSimpleName.replace("$","")).setMaster("local[3]")val ssc = new StreamingContext(sparkConf,Durations.seconds(10))/** 1) 流式数据: 用户发的tweet数据*//** 数据示例：* eventTime：事件时间、retweetCount：转推数、language：语言、userID：用户ID、favoriteCount：点赞数、id：事件ID* {"eventTime": "2018-11-05 10:04:00", "retweetCount": 1, "language": "chinese", "userID": "user_1", "favoriteCount": 1, "id": 4909846540155641457} */val kafkaDStream1=KafkaUtils.createDirectStream[String,String](ssc,LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](List("testTopic3"),kafkaParams1)).map(item=>parseJson(item.value())).map(item=>{val userID = item.getString("userID")val eventTime = item.getString("eventTime")val language= item.getString("language")val favoriteCount = item.getInteger("favoriteCount")val retweetCount = item.getInteger("retweetCount")(userID,(userID,eventTime,language,favoriteCount,retweetCount))})/** 2) 流式数据: 用户发的tweet数据*//** 数据示例：* eventTime：事件时间、retweetCount：转推数、language：语言、userID：用户ID、favoriteCount：点赞数、id：事件ID* {"eventTime": "2018-11-05 10:04:00", "retweetCount": 1, "language": "chinese", "userID": "user_1", "favoriteCount": 1, "id": 4909846540155641457} */val kafkaDStream2=KafkaUtils.createDirectStream[String,String](ssc,LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](List("testTopic4"),kafkaParams2)).map(item=>parseJson(item.value())).map(item=>{val userID = item.getString("userID")val eventTime = item.getString("eventTime")val language= item.getString("language")val favoriteCount = item.getInteger("favoriteCount")val retweetCount = item.getInteger("retweetCount")(userID,(userID,eventTime,language,favoriteCount,retweetCount))})/** 3) Stream-Stream Join*/val joinedDStream = kafkaDStream1.leftOuterJoin(kafkaDStream2)joinedDStream.foreachRDD(_.foreach(println))ssc.start()ssc.awaitTermination()}/**json解析*/def parseJson(log:String):JSONObject={var ret:JSONObject=nulltry{ret=JSON.parseObject(log)}catch {//异常json数据处理case e:JSONException => println(log)}ret}}

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 大数据之flink中join用法
下一篇 > Hive查询之Join语句

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce