Flink DataSet迭代运算

2023-11-24 09:58:59

对于迭代运算，通常应用于一些数学计算，机器学习算法以及图计算等领域，在Flink中，对于批处理作业，也提供了相应的迭代运算，主要分为下面两大类：

Bulk Iterate
Delta Iterate

什么是迭代运算？

所谓迭代运算，就是给定一个初值，用所给的算法公式计算初值得到一个中间结果，然后将中间结果作为输入参数进行反复计算，在满足一定条件的时候得到计算结果。

Bulk Iterate

这种迭代方式称为全量迭代，它会将整个数据输入，经过一定的迭代次数，最终得到你想要的结果，如下图所示：
在这里插入图片描述
从上图可以看出，该迭代过程主要分为以下几步：

Iteration Input（迭代输入）：是初始输入值或者上一次迭代计算的结果
Step Function（step函数）：它迭代计算DataSet，由一系列的operator组成，比如map，flatMap，join等，取决于具体的业务逻辑。
Next Partial Solution（中间结果）：每一次迭代计算的结果，被发送到下一次迭代计算中。
Iteration Result（迭代结果）：最后一次迭代输出的结果，被输出到datasink或者发送到下游处理。

它迭代的结束条件是：

达到最大迭代次数
自定义收敛聚合函数

在官方文档中有下面这样一个例子，给定一组数据，输出迭代10次每次加1后的结果，如下图所示，这个例子比较简单，这里就不贴代码了：
在这里插入图片描述
这里介绍一些比较有意思的例子，使用蒙洛卡特方法来计算圆周率。

蒙洛卡特思想的核心就是：假设这里有一个半径为1的圆，它的面积S=PiR2=Pi，所以我们只要计算出这个圆的面积就可以计算出圆周率了。这里我们可以在一个边长为1的正方形中计算圆的四分之一扇形的面积，这样扇形的面积的4倍就是整个圆的面积了。如何计算扇形的面积？可以使用概率的方法，假设在这个正方形中有n个点，那么有m个点落在了扇形中，那么S扇形：S正方形=m：n。这样就可以计算出扇形的面积，最终计算出圆周率了。

在这里插入图片描述
最终实现代码如下：

/*** 使用蒙洛卡特方法计算圆周率*/
public class IterativePi {public static void main(String[] args) throws Exception {final ExecutionEnvironment env=ExecutionEnvironment.getExecutionEnvironment();//迭代次数int iterativeNum=100000;Random random=new Random(1);IterativeDataSet iterativeDataSet=env.fromElements(0).iterate(iterativeNum);DataSet mapResult=iterativeDataSet.map(new MapFunction() {@Overridepublic Integer map(Integer value) throws Exception {double x=random.nextDouble();double y=random.nextDouble();value+=(x*x+y*y<=1)?1:0;return value;}});//迭代结束的条件DataSet result=iterativeDataSet.closeWith(mapResult);result.map(new MapFunction() {@Overridepublic Double map(Integer count) throws Exception {return count/(double)iterativeNum*4;}}).print();}
}

Delta Iterate

这种迭代方式称为增量迭代，它并不是每次去迭代全量的数据，而是有两个数据集，WorkSet和SolutionSet，每次输入这两个数据集进行迭代运算（这两个数据集可以相等），然后对workset进行迭代运算并且不断的更新solutionset，直到达到迭代次数或者workset为空，输出迭代计算结果。如下图所示：
在这里插入图片描述
主要需要下面的几步：

Iteration Input：读取初始WorkSet和初始Solution Set作为第一次迭代计算的输入。
Step Function：step函数，每次迭代计算dataset，由map，flatmap以及join等操作组成的，具体有业务逻辑决定。
Next Workset/Update Solution Set：Next WorkSet驱动迭代计算，将计算结果反馈到下一次迭代计算中，Solution Set将被不断的更新。两个数据集都在step函数中被迭代计算。
Iteration Result：在最后一次迭代计算完成后，Solution Set将被输出或者输入下游处理。

迭代终止的条件：

达到迭代次数或者work Set为空（默认）
自定义聚合器收敛

其代码编写模型如下：

IterationState workset = getInitialState();
IterationState solution = getInitialSolution();while (!terminationCriterion()) {(delta, workset) = step(workset, solution);solution.update(delta)
}setFinalState(solution);

下面以一个连通体算法：最小传播值为例，计算每一个连通体中的最小ID值。
首先我们需要明白什么是连通图，如下图所示，就是两个连通图：
在这里插入图片描述
那么什么是最小传播值呢？在上面的图中，1,2，3,4组成了一个连通图，在这个连通图中，对每一个顶点进行编号，求出ID值最小的顶点，比如上面的图一中最小值是1。如果初始输入值是一条条边，我们最终要计算输出形如这样的元组对（vertixID，minimumID），比如（1,1），（2,1），（3,1），（4,1）这样，图二也类似。

其迭代过程如下图所示：
在这里插入图片描述
最终实现代码如下：


public class IterativeGraph {public static void main(String[] args) throws Exception {final ExecutionEnvironment env=ExecutionEnvironment.getExecutionEnvironment();int iterativeNum=100;//顶点DataSet vertix=env.fromElements(1L,2L,3L,4L,5L,6L,7L);//边DataSet> edges=env.fromElements(Tuple2.of(1L, 2L),Tuple2.of(2L, 3L),Tuple2.of(2L, 4L),Tuple2.of(3L, 4L),Tuple2.of(5L, 6L),Tuple2.of(5L, 7L),Tuple2.of(6L, 7L));//单向边转为双向边edges=edges.flatMap(new FlatMapFunction, Tuple2>() {@Overridepublic void flatMap(Tuple2 tuple, Collector> collector) throws Exception {collector.collect(tuple);collector.collect(Tuple2.of(tuple.f1,tuple.f0));}});//initialSolutionSet，将顶点映射为(vertix,vertix)的形式DataSet> initialSolutionSet=vertix.map(new MapFunction>() {@Overridepublic Tuple2 map(Long vertix) throws Exception {return Tuple2.of(vertix,vertix);}});//initialWorkSetDataSet> initialWorkSet=vertix.map(new MapFunction>() {@Overridepublic Tuple2 map(Long vertix) throws Exception {return Tuple2.of(vertix,vertix);}});//第一个字段做迭代运算DeltaIteration,Tuple2> iterative=initialSolutionSet.iterateDelta(initialWorkSet,iterativeNum,0);//数据集合边做join操作，然后求出当前顶点的邻居顶点的最小ID值DataSet> changes=iterative.getWorkset().join(edges).where(0).equalTo(0).with(new NeighborWithComponentIDJoin()).groupBy(0).aggregate(Aggregations.MIN,1)//和solution set进行join操作，更新solution set，如果当前迭代结果中的最小ID小于solution中的ID值，则发送到下一次迭代运算中继续运算，否则不发送.join(iterative.getSolutionSet()).where(0).equalTo(0).with(new ComponetIDFilter());//关闭迭代计算DataSet> result=iterative.closeWith(changes,changes);result.print();}public static class NeighborWithComponentIDJoin implements JoinFunction,Tuple2,Tuple2>{@Overridepublic Tuple2 join(Tuple2 t1, Tuple2 t2) throws Exception {return Tuple2.of(t2.f1,t1.f1);}}public static class ComponetIDFilter implements FlatJoinFunction,Tuple2,Tuple2> {@Overridepublic void join(Tuple2 t1, Tuple2 t2, Collector> collector) throws Exception {if(t1.f1

 
最终计算结果如下所示： 
(7,5)
(3,1)
(6,5)
(5,5)
(1,1)
(4,1)
(2,1)
 
欢迎加入大数据交流群：731423890 
 参考资料：
 https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/batch/iterations.html 
                        
                        
本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！



                    



                    

    收藏
    



                    
    
        
        标签：技术
        
    

    
        
                
            上一篇 >
            Android贝塞尔曲线水纹波动效果、车辆监控效果
        
                
            下一篇 >
            Fluent迭代计算的时间等相关信息的获取
        
                
    



                    
    
        
        
            相关文章
        
                
            Duilib中list控件支持ctrl和shif多行选中的实现
        
                
            [ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif
        
                
            win10系统 微软输入法 于eclipse ctrl+shif+f冲突间接处理办法
        
                
            Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif
        
                
            读LDD3，内存映射与DMA--PAGE_SHIF…
        
                
            VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】
        
                
            更换iBus五笔的左与右Shif
        
                
            sublime ctrl+shif+f 没用解决办法
        
                
            idea 对 ctrl + z 的撤销 是 ctrl + shif + z
        
                
            计算机最早的设计师应用于,计算机应用基础选择题doc.doc
        
                
            win10自带截图神器：Win+Shift+S
        
                
            Python基础之文件目录操作
        
                
            python简述目录_Python基础之文件目录操作(示例代码)
        
                
            tp5 如何做数据采集
        
                
            任务2-7(服务器字体+阿里巴巴矢量库)
        
                
            html标签（1)：h1~h6,p,br,pre,hr
        
                
            TI 电量计介绍与芯片选型指南
        
                
            几款TI电源芯片简介
        
                
            TI DSP芯片C2000系列读取FLASH数据
        
                
            德州仪器(Ti)平台嵌入式开发基础
        
                
            TI三相电机智能栅极驱动芯片特点分类
        
                
            省选模拟（12.08） T3 圈圈圈圈圈圈圈圈
        
                
            Hadoop生态圈技术栈（上）
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询
        
                
            小猿圈之Linux下Mysql 操作命令
        
                
            大数据Hadoop生态圈常用面试题
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作
        
                
            备战Noip2018模拟赛11（B组）T3 Monogatari 物语
        
                
            【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码
        
                
            NYOJ 78 圈水池
        
                
            递归问题 跑道 汽车 绕圈问题 Python实现
        
                
            Hadoop生态圈（三）：MapReduce



        
            


            

    
        内容推荐
    
    
                
            
                1
            
            
                大厂出品！保姆级教程帮你掌握「用户体验要素」
            
        
                
            
                2
            
            
                大厂实战案例！设计师如何助力京东快递业务增长？
            
        
                
            
                3
            
            
                总监干货！5个常见的UI设计规范创建误区
            
        
                
            
                4
            
            
                数据库管理利器——Navicat Premium v17.0.4学习版(Windows+MacOS+Linux)
            
        
                
            
                5
            
            
                进阶必学！快速掌握10种国际主流设计模型
            
        
                
            
                6
            
            
                春节期间，10个大厂的产品细节走心设计
            
        
                
            
                7
            
            
                如何帮助用户度过新人期？来看雪球APP的实战总结！
            
        
                
            
                8
            
            
                Sketch 95.3最新版下载 (Sketch矢量绘图应用软件)
            
        
                
            
                9
            
            
                Axure RP 9 最新正式版安装软件与汉化语言包下载(2023年3月30日更新)
            
        
                
            
                10
            
            
                嘘！SaaS产品的差异化设计细节，一般人我不告诉他
            
        
            




    





    
    
        最新更新
    
    
        
                        
                [产品经理]
                3分钟绘制流程图！这个AI+绘图工具的神仙组合，学完老板直呼内行
            
                        
                [产品经理]
                商业潜规则：打败你的不是AI，而是人性
            
                        
                [产品设计]
                DeepSeek+智能派单系统的实践分享
            
                        
                [产品经理]
                一文读懂本年实际损益借(贷)方发生额
            
                        
                [创业学院]
                大客户 vs 中小企业：需求竟天差地别？以企业培训数字化为例
            
                        
                [产品经理]
                不要将员工的“猴子”背到自己身上：职场管理中的权责划分
            
                        
                [产品经理]
                人工智能的三层架构：从应用层到基础服务层，解密智能革命
            
                        
                [产品设计]
                一文讲清楚iOS的SKAN4.0
            
                    
    
    



    
        热门标签
    
    
        
                         数量
                         AI技术趋势
                         用户角色
                         心智游移
                         自然生态系统
                         会员权益
                         AirDrop
                         hashmap
                         小龙虾
                         焦虑
                         危机处理
                         发展
                         微信群折叠
                         toast
                         测评新算法
                         改版
                         wireshark
                         投放方式
                         音频播放动效
                         timer
                         女性商业
                         古典自媒体
                         海外博主
                         repeater
                         转账
                         万能钥匙
                         秋招
                         快服务
                         个人演讲
                         客户共识