解密Flink的状态管理：探索流处理框架的数据保留之道，释放流处理的无限潜能！

2023-08-28 18:13:54

水善利万物而不争，处众人之所恶，故几于道💦

文章目录

- 一、什么是状态
- 二、应用场景
- 三、Flink中状态的分类
- 四、算子状态
- - 1. 列表状态（List State）
  - 2. 广播状态（Broadcast State）
- 五、键控状态
- - 1. ValueState
  - 2. ListState
  - 3. ReducingState
  - 4. AggregatingState
  - - 1）类实现累加器 - 示例代码
    - 2）元组实现累加器 - 示例代码
  - 5. MapState

一、什么是状态

在流式计算中，有些计算的中间结果需要进行保存，为下一个计算提供参考，比如，有一个数据流，我需要实时的计算这个流中的总消费金额，那么就需要一个变量来存储截止目前的总消费金额，当下一条数据来的时候我就直接在以前总消费金额的基础上，加上这条数据的消费金额就可以了。那么这个例子中的那个存储总消费金额的变量（或者说是累加变量）就叫状态。

二、应用场景

在流式处理中，状态的应用场景非常广泛。

去重

如果我们需要对数据流中的数据进行去重统计时，我们可以利用状态管理。通过状态来记录数据是否流过应用，当新数据流入时，根据状态来判断去重。

检测

检测输入流中的数据是否符合某个特定的模式。这里的模式不是指数据的格式，而是指数据之间的关系是否符合某个需求模型。比如，根据一个网站访问记录流中的数据，判断用户是否连续登录，然后给予相应的奖励。

聚合

对某个特定时间内的数据进行聚合统计分析。比如统计每小时的 PV 量。

三、Flink中状态的分类

Flink中包括两种基本的状态Managed State和Raw State，分别是管理状态和原始状态

在这里插入图片描述

原始状态基本用不到，因为官方提供的管理状态已经够我们使用了

管理状态又分为两类，分别是算子状态（Operator State）和键控状态（Keyed State）

算子状态可用于所有的算子，但是常用于source算子和sink算子；他是一个算子的子任务对应一个状态，也就是一个并行度里面一个状态；它通过实现CheckpointedFunction接口创建；它支持的数据结构有ListState，UnionListStste 和 BroadCastState。
键控状态只能用于KeyedStream上的算子；这个是一个key对应一个状态，他只和key有关；创建的时候重写RichFunction，通过里面的getRuntimeContext().get…State()获取状态对象；键控状态支持的数据结构有 ValueState，ListState，MapState，ReduceState，AggregatingState

在这里插入图片描述

四、算子状态

1. 列表状态（List State）

将状态表示为一组数据的列表。向状态中添加元素add()、更新状态中的所有元素update()，取出状态中的所有元素get()，它会返回一个迭代器。

例：将输入的单词存入到状态中，当程序重启的时候，可以把状态中存的单词恢复。

示例代码：

public class Flink01_State_Operator_List {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port",1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);// 启用checkpoint 周期是2000毫秒，也就是2秒，每隔2s将状态保存一下env.enableCheckpointing(2000);env.socketTextStream("hadoop101",9999).map(new MyMapFunction()).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}// 算子状态，不能用内部类了，因为要实现两个接口，算子状态要实现CheckpointedFunction接口private static class MyMapFunction implements MapFunction<String,String>, CheckpointedFunction {List<String> words = new ArrayList();private ListState<String> wordsState;@Overridepublic String map(String line) throws Exception {//抛个异常他就会自动重启，输入x就让他抛异常if (line.contains("x")) {throw new RuntimeException("手动抛出异常...");  }String[] data = line.split(" ");words.addAll(Arrays.asList(data));return words.toString();}// 保存状态：周期性的执行// 每个并行度都会周期性的执行@Overridepublic void snapshotState(FunctionSnapshotContext context) throws Exception {// 这个方法是把数据存入到算子状态（状态列表）
//            System.out.println("MyMapFunction.snapshotState");//            wordsState.clear();       清空状态
//            wordsState.addAll(words);   向状态中写数据// 上面两个方法能用下面这一个方法代替wordsState.update(words);}// 程序启动的时候每个并行度执行一次// 这个方法可以把状态中的数据恢复到Java的集合中@Overridepublic void initializeState(FunctionInitializationContext context) throws Exception {// 从状态中恢复数据//System.out.println("MyMapFunction.initializeState");System.out.println("程序重启，从状态中恢复数据...");// 获取列表状态wordsState = context.getOperatorStateStore().getListState(new ListStateDescriptor<String>("wordsState", String.class));// 从列表中获取数据// 将状态中的数据遍历出来，在添加到集合中，也就是恢复数据
//            Iterable it = wordsState.get();for (String word : wordsState.get()) {words.add(word);}}}
}

输入数据：
在这里插入图片描述

运行结果：
在这里插入图片描述

2. 广播状态（Broadcast State）

广播状态一般是两个流用，一个数据流，一个广播流，用广播流中的数据控制数据流中数据的处理逻辑。向状态里面写数据用put()，从状态里面拿数据用get()

例：通过广播流输入1，2，3…控制数据流中的数据使用不同的处理逻辑

示例代码：

public class Flink03_State_Operator_BroadCast {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port",1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);//获取一个数据流DataStreamSource<String> dataStream = env.socketTextStream("hadoop101", 8888);// 获取一个配置流DataStreamSource<String> configStream = env.socketTextStream("hadoop101", 9999);// 1. 把配置流做成一个广播流   需要一个map状态描述器   一个key的类型，一个valueMapStateDescriptor<String, String> bcStateDesc = new MapStateDescriptor<>("bcState", String.class, String.class);BroadcastStream<String> bcStream = configStream.broadcast(bcStateDesc);// 2. 让数据流去connect广播流BroadcastConnectedStream<String, String> coStream = dataStream.connect(bcStream);// 泛型分别表示，数据流类型，广播流类型，输出类型coStream.process(new BroadcastProcessFunction<String, String, String>() {// 4. 处理数据流中的数据：从广播状态中取配置@Overridepublic void processElement(String value,ReadOnlyContext ctx,Collector<String> out) throws Exception {System.out.println("Flink03_State_Operator_BroadCast.processElement");ReadOnlyBroadcastState<String, String> broadcastState = ctx.getBroadcastState(bcStateDesc);String conf = broadcastState.get("aSwitch");if("1".equals(conf)){out.collect(value +" 使用 1 号逻辑...");}else if ("2".equals(conf)){out.collect(value +" 使用 2 号逻辑...");}else if ("3".equals(conf)){out.collect(value +" 使用 3 号逻辑...");}else {out.collect(value +" 使用 default 号逻辑...");}}// 3. 把广播流中的数据放入到广播状态@Overridepublic void processBroadcastElement(String value, // 广播流中的数据Context ctx,  // 上下文Collector<String> out) throws Exception {System.out.println("Flink03_State_Operator_BroadCast.processBroadcastElement");// 获取广播状态，把配置信息写入到状态中BroadcastState<String, String> broadcastState = ctx.getBroadcastState(bcStateDesc);broadcastState.put("aSwitch",value);}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}
}

输入数据：

在这里插入图片描述

运行结果：

在这里插入图片描述

五、键控状态

1. ValueState

保存单个值. 每个key有一个状态值. 向状态中保存数据使用 update(T)方法, 获取状态中的数据使用value()方法。

例：检测传感器的水位值，如果连续的两个水位值超过10，就输出报警。

示例代码：

public class Flink04_State_Key_Value {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port",1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);env.socketTextStream("hadoop101", 9999) // socket只能是1.map(line -> {String[] data = line.split(",");return new WaterSensor(data[0],Long.valueOf(data[1]),Integer.valueOf(data[2]));}).keyBy(WaterSensor::getId)// 键控状态必须在keyBy后使用.process(new KeyedProcessFunction<String, WaterSensor, String>() {// 状态private ValueState<Integer> lastVcState;// 每个并行度执行一次   初始化的时候执行一次@Overridepublic void open(Configuration parameters) throws Exception {
//                        System.out.println("Flink04_State_Key_Value.open");// 因为他已经把状态封装在运行时上下文了，所以直接获取就行了lastVcState = getRuntimeContext().getState(new ValueStateDescriptor<Integer>("lastVcState", Integer.class));}@Overridepublic void processElement(WaterSensor value,Context ctx,Collector<String> out) throws Exception {// 获取状态里面的值  通过 .value() 方法Integer lastVc = lastVcState.value();System.out.println(lastVc+ "" +"  " + value.getVc());if (lastVc != null) {if (value.getVc() >10 && lastVc > 10) {out.collect(ctx.getCurrentKey()+" 连续两次超过10，发出红色预警...");}}// 更新状态的值   只能保存一个值，所以用update更新lastVcState.update(value.getVc());}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}
}

输入数据：

在这里插入图片描述

运行结果：

在这里插入图片描述

2. ListState

保存元素列表。添加一个元素用add(T)，添加多个元素用addAll(List)，获取元素用get()他会返回一个迭代器，可遍历出每个元素，覆盖所有元素用update(List)

例：针对每个传感器输出最高的3个水位值

示例代码：

public class Flink05_State_Key_List {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port",1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);env.socketTextStream("hadoop101", 9999) // socket只能是1.map(line -> {String[] data = line.split(",");return new WaterSensor(data[0],Long.valueOf(data[1]),Integer.valueOf(data[2]));}).keyBy(WaterSensor::getId)// 键控状态必须在keyBy后使用.process(new KeyedProcessFunction<String, WaterSensor, String>() {private ListState<Integer> top3VcState;@Overridepublic void open(Configuration parameters) throws Exception {top3VcState = getRuntimeContext().getListState(new ListStateDescriptor<Integer>("top3VcState", Integer.class));}@Overridepublic void processElement(WaterSensor value,Context ctx,Collector<String> out) throws Exception {// 因为用的是list状态，可以存多个值，所以每来一个数据要先存进状态top3VcState.add(value.getVc());// 获取状态里面的元素Iterable<Integer> iterable = top3VcState.get();List<Integer> list = AnqclnUtil.toList(iterable);list.sort(new Comparator<Integer>() {@Overridepublic int compare(Integer o1, Integer o2) {return o2.compareTo(o1);}});// 因为要取的是前三，所以第四个元素进来的时候就不要了if (list.size() ==4){list.remove(list.size()-1);}top3VcState.update(list);out.collect(ctx.getCurrentKey()+" 最高的三个水位值："+list);}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}
}

输入数据：
在这里插入图片描述

运行结果：
在这里插入图片描述

3. ReducingState

存储单个值，表示把所有元素的聚合结果添加到状态中，当向状态中添加元素的时候，他会使用指定的ReduceFunction进行聚合。添加元素是add(T)，取出元素是get()

例：计算每个传感器的水位和

示例代码：

public class Flink06_State_Key_Reduce {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port", 1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);env.socketTextStream("hadoop101", 9999) // socket只能是1.map(line -> {String[] data = line.split(",");return new WaterSensor(data[0],Long.valueOf(data[1]),Integer.valueOf(data[2]));}).keyBy(WaterSensor::getId)// 键控状态必须在keyBy后使用.process(new KeyedProcessFunction<String, WaterSensor, String>() {private ReducingState<WaterSensor> vcSumState;@Overridepublic void open(Configuration parameters) throws Exception {vcSumState = getRuntimeContext().getReducingState(new ReducingStateDescriptor<WaterSensor>("vcSumState",new ReduceFunction<WaterSensor>() {@Overridepublic WaterSensor reduce(WaterSensor value1,WaterSensor value2) throws Exception {value1.setVc(value1.getVc() + value2.getVc());return value1;}},WaterSensor.class));}@Overridepublic void processElement(WaterSensor value,Context ctx,Collector<String> out) throws Exception {// 将传过来的每个元素加入到状态里面去，然后就行了，他会自己聚合，因为在上面创建状态的时候就已经写了聚合的逻辑vcSumState.add(value);out.collect(ctx.getCurrentKey()+" 的水位和为："+vcSumState.get().getVc());}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}
}

输入数据：

在这里插入图片描述
运行结果：

在这里插入图片描述

4. AggregatingState

存储单个值。与ReducingState类似，都是进行聚合。不同的是，AggregatingState的聚合的结果和输入的元素类型可以不一样。存数据用add()，取数据用get()

例：计算每个传感器的平均水位

1）类实现累加器 - 示例代码

public class Flink07_State_Key_Aggregate {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port", 1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);env.socketTextStream("hadoop101", 9999) // socket只能是1.map(line -> {String[] data = line.split(",");return new WaterSensor(data[0],Long.valueOf(data[1]),Integer.valueOf(data[2]));}).keyBy(WaterSensor::getId)// 键控状态必须在keyBy后使用.process(new KeyedProcessFunction<String, WaterSensor, String>() {private AggregatingState<WaterSensor, Double> avgVcState;@Overridepublic void open(Configuration parameters) throws Exception {avgVcState = getRuntimeContext().getAggregatingState(new AggregatingStateDescriptor<WaterSensor, Avg, Double>("avgVcState",new AggregateFunction<WaterSensor, Avg, Double>() {@Overridepublic Avg createAccumulator() {return new Avg();}@Overridepublic Avg add(WaterSensor value, Avg acc) {acc.sum += value.getVc();acc.count++;return acc;}@Overridepublic Double getResult(Avg acc) {return acc.avg();}@Overridepublic Avg merge(Avg a, Avg b) {return null;}},Avg.class));}@Overridepublic void processElement(WaterSensor value,Context ctx,Collector<String> out) throws Exception {avgVcState.add(value);out.collect(ctx.getCurrentKey()+" 的平均水位："+avgVcState.get());}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}private static class Avg {public Integer sum = 0;public Long count = 0L;public Double avg(){return sum *1.0 / count;}}
}

输入数据：

在这里插入图片描述

运行结果：

在这里插入图片描述

2）元组实现累加器 - 示例代码

public class Flink08_State_Key_Aggregate_Tuple2 {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port", 1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);env.socketTextStream("hadoop101", 9999) // socket只能是1.map(line -> {String[] data = line.split(",");return new WaterSensor(data[0],Long.valueOf(data[1]),Integer.valueOf(data[2]));}).keyBy(WaterSensor::getId)// 键控状态必须在keyBy后使用.process(new KeyedProcessFunction<String, WaterSensor, String>() {private AggregatingState<WaterSensor, Double> avgVcState;@Overridepublic void open(Configuration parameters) throws Exception {avgVcState = getRuntimeContext().getAggregatingState(new AggregatingStateDescriptor<WaterSensor, Tuple2<Integer, Long>, Double>("avgVcState",new AggregateFunction<WaterSensor, Tuple2<Integer, Long>, Double>() {@Overridepublic Tuple2<Integer, Long> createAccumulator() {return new Tuple2<Integer, Long>(0,0L);}@Overridepublic Tuple2<Integer, Long> add(WaterSensor value, Tuple2<Integer, Long> acc) {acc.f0 += value.getVc();acc.f1++;return acc;}@Overridepublic Double getResult(Tuple2<Integer, Long> acc) {return acc.f0 * 1.0 / acc.f1;}@Overridepublic Tuple2<Integer, Long> merge(Tuple2<Integer, Long> a, Tuple2<Integer, Long> b) {return null;}},
//                                TypeInformation.of(new TypeHint>() {})// 类型还可以这样声明，简单Types.TUPLE(Types.INT,Types.LONG)));}@Overridepublic void processElement(WaterSensor value,Context ctx,Collector<String> out) throws Exception {avgVcState.add(value);out.collect(ctx.getCurrentKey()+" 的平均水位："+avgVcState.get());}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}
}

输入数据：

在这里插入图片描述

运行结果：

在这里插入图片描述

5. MapState

存储键值对列表。

添加键值对: put(UK, UV) 、 putAll(Map)

根据key获取值: get(UK)

获取所有: entries()、keys() 、 values()

检测是否为空: isEmpty()

例：去重: 去掉重复的水位值. 思路: 把水位值作为MapState的key来实现去重, value随意

示例代码：

public class Flink09_State_Key_Map {public static void main(String[] args) {Configuration conf = new Configuration();conf.setInteger("rest.port", 1000);StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(conf);env.setParallelism(2);env.socketTextStream("hadoop101", 9999) // socket只能是1.map(line -> {String[] data = line.split(",");return new WaterSensor(data[0],Long.valueOf(data[1]),Integer.valueOf(data[2]));}).keyBy(WaterSensor::getId)// 键控状态必须在keyBy后使用.process(new KeyedProcessFunction<String, WaterSensor, String>() {private MapState<Integer, Object> vcMapState;@Overridepublic void open(Configuration parameters) throws Exception {vcMapState = getRuntimeContext().getMapState(new MapStateDescriptor<Integer, Object>("vcMapState",TypeInformation.of(new TypeHint<Integer>() {}),TypeInformation.of(new TypeHint<Object>() {})));}@Overridepublic void processElement(WaterSensor value,Context ctx,Collector<String> out) throws Exception {vcMapState.put(value.getVc(),new Object());Iterable<Integer> keys = vcMapState.keys();out.collect(ctx.getCurrentKey() + " 的所有不同水位: " + AnqclnUtil.toList(keys));}}).print();try {env.execute();} catch (Exception e) {e.printStackTrace();}}
}

输入数据：

在这里插入图片描述

运行结果：

在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 从aelf CCTP洞见其在DeFi领域的无限潜能
下一篇 > 超越单线程，探索Detached Threads：释放计算机性能的无限潜能！

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

解密Flink的状态管理：探索流处理框架的数据保留之道，释放流处理的无限潜能！

文章目录

一、什么是状态

二、应用场景

三、Flink中状态的分类

四、算子状态

1. 列表状态（List State）

2. 广播状态（Broadcast State）

五、键控状态

1. ValueState

2. ListState

3. ReducingState

4. AggregatingState

1）类实现累加器 - 示例代码

2）元组实现累加器 - 示例代码

5. MapState

相关文章