DataStream算子转换过程

2023-09-26 05:27:21

DataStream表示为同一种类型的数据流，用来描述业务转换逻辑。通过转换操作，一个DataStream可以被转换成另一个新的DataStream。

DataStream中有2个成员变量：

// 流程序执行的上下文环境
protected final StreamExecutionEnvironment environment;// 当前DataStream的上一次转换操作（存于StreamExecutionEnvironment的List集合中）
// 即：通过该Transformation，生成当前的DataStream
protected final Transformation<T> transformation;

transformation是当前DataStream的上一次转换操作，得益于transformation，才能转换出当前DataStream。每当调用算子进行转换操作都会产生对应的xxxTransformation，StreamExecutionEnvironment会将这个xxxTransformation添加到List>集合中，以便用来构建Pipeline拓扑。（流式作业对应的Pipeline实现类是StreamGraph，批作业对应的Pipeline实现类是Plan）

例如使用DataStream.map()转换时，会在内部创建生成StreamMap算子，同时会把MapFunction对象传入，MapFunction就是我们的数据处理逻辑。StreamMap算子就是AbstractUdfStreamOperator的子类，传入的MapFunction对象会赋值给AbstractUdfStreamOperator中的userFunction变量持有。如此一来，StreamMap算子就持有了MapFunction。

– 底层对应的就是OneInputTransformation转换：

/*** 将MapFunction作为参数传入*/
streamMap.map(new MapFunction<String, JSONObject>() {...});public <R> SingleOutputStreamOperator<R> map(MapFunction<T, R> mapper) {// 获取本次map转换的输出类型TypeInformation<R> outType = TypeExtractor.getMapReturnTypes(clean(mapper), getType(),Utils.getCallLocationName(), true);return map(mapper, outType);
}/*** 自定义的MapFunction会作为参数，用来构建StreamMap，即StreamOperator的子类*/
public <R> SingleOutputStreamOperator<R> map(MapFunction<T, R> mapper, TypeInformation<R> outputType) {// 参数：算子name，输出类型，StreamOperator的factoryreturn transform("Map", outputType, new StreamMap<>(clean(mapper)));
}

有了StreamMap算子和代表数据处理逻辑的MapFunction之后，算子name、本次转换的输出类型、StreamMap算子会作为参数，参与本次的转换：

@PublicEvolving
public <R> SingleOutputStreamOperator<R> transform(String operatorName, // outTypeInfo：当前算子的输出类型TypeInformation<R> outTypeInfo, // 本次转换的输出类型// StreamMap算子继承AbstractUdfStreamOperator，实现OneInputStreamOperator接口OneInputStreamOperator<T, R> operator) {// SimpleOperatorFactory.of(operator)：根据StreamOperator的类型，创建StreamOperatorFactoryreturn doTransform(operatorName, outTypeInfo, SimpleOperatorFactory.of(operator));
}protected <R> SingleOutputStreamOperator<R> doTransform(String operatorName,TypeInformation<R> outTypeInfo,// StreamOperatorFactory：创建StreamOperator的工厂StreamOperatorFactory<R> operatorFactory) {// 保险起见，确保不会出现InvalidTypesException，保证本次的转换操作不会出问题transformation.getOutputType();// 创建本次转换所对应的xxxTransformation实例OneInputTransformation<T, R> resultTransform = new OneInputTransformation<>(this.transformation, // 上一次的Transformation转换操作operatorName, // 当前算子的nameoperatorFactory, // MapFunction-->StreamMap -->StreamOperatorFactoryoutTypeInfo, // 当前算子的输出类型// 当前算子的并行度，默认为env全局的并行度environment.getParallelism());// SingleOutputStreamOperator：每次转换操作完毕后，返回给开发者继续操作的数据结构@SuppressWarnings({"unchecked", "rawtypes"})SingleOutputStreamOperator<R> returnStream = new SingleOutputStreamOperator(environment, resultTransform);// 将这个xxxTransformation添加到List列表中，它会被用来生成StreamGraphgetExecutionEnvironment().addOperator(resultTransform);return returnStream;
}

转换时，首先要确保不会出现InvalidTypesException，不然后面的转换就会出问题。StreamOperatorFactory持有StreamMap算子（也就是StreamOperator），StreamMap持有MapFunction。现在要根据StreamOperatorFactory来创建OneInputTransformation，换言之，MapFunction、StreamMap算子都会被封装到这个OneInputTransformation中。当然，也会创建出SingleOutputStreamOperator，作为本次转换结束之后返回给开发者继续操作的数据结构，下游算子可以用它继续进行转换操作。

map转换生成的OneInputTransformation，会被add到StreamExecutionEnvironment内的 List>集合中，后续会根据这个List集合来生成StreamGraph（即用来描述业务处理逻辑的Pipeline）。

在DataStream的转换过程中，不管是哪种类型的转换操作，都是按照以下的程序进行的：

将开发者自定义的xxxFunction封装到（对应）创建好的StreamOperator中
基于StreamOperator构建xxxTransformation
将xxxTransformation添加到StreamExecutionEnvironment的List集合中，用来生成StreamGraph
基于StreamGraph，先后生成JobGraph、ExecutionGraph，申请Slot资源并调度、执行…

Transformation持有StreamOperatorFactory，StreamOperatorFactory持有StreamOperator，StreamOperator持有xxxFunction。正是因为这种持有关系，Transformation才能表达DataStream之间的转换关系，因为xxxFunction中定义的就是数据处理逻辑

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > JavaScript变量提升详解
下一篇 > Flink笔记03——一文了解DataStream

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

DataStream算子转换过程

相关文章