【MapReduce】案例

2023-11-23 20:03:37

美国新冠疫情COVID-19数据统计

统计美国各州病例数量

需求分析

1、自定义对象CovidCountBean，用于封装每个县的确诊病例数和死亡病例数。
2、注意自定义对象需要实现Hadoop的序列化机制。
3、以州作为map阶段输出的key,以CovidCountBean作为value，这样属于同一个州的数据就会变成一组进行reduce处理，进行累加即可得出每个州累计确诊病例。

画图分析

在这里插入图片描述

代码实现

CovidCountBean

import org.apache.hadoop.io.Writable;import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;public class CovidCountBean implements Writable {private long cases; //确诊病例数private long deaths; //死亡病例数public CovidCountBean() {}public CovidCountBean(long cases, long deaths) {this.cases = cases;this.deaths = deaths;}public long getCases() {return cases;}public long getDeaths() {return deaths;}public void set(long cases, long deaths) {this.cases = cases;this.deaths = deaths;}@Overridepublic String toString() {return cases+"\t"+deaths;}/*** 序列化方法，控制哪一些字段可以序列化出去* @param dataOutput* @throws IOException*/@Overridepublic void write(DataOutput dataOutput) throws IOException {dataOutput.writeLong(cases);dataOutput.writeLong(deaths);}/*** 反序列化方法 注意反序列的读取顺序，和序列化的写入顺序是一样的* @param dataInput* @throws IOException*/@Overridepublic void readFields(DataInput dataInput) throws IOException {this.cases = dataInput.readLong();this.deaths = dataInput.readLong();}}

CovidSumMapper

import cn.hwq.mapreduce.covid.bean.CovidCountBean;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class CovidSumMapper extends Mapper<LongWritable, Text, Text, CovidCountBean> {Text outKey = new Text();CovidCountBean outValue = new CovidCountBean();@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, CovidCountBean>.Context context) throws IOException, InterruptedException {//读取一行数据 进行切割String[] fields = value.toString().split(",");//提取数据 州 确诊病例 死亡病例outKey.set(fields[2]);
//        outValue.set(Long.parseLong(fields[4]),Long.parseLong(fields[5])); 这里这样写可能出现下标越界，因为某些数据有缺失 如果还这样访问就会出现异常 需要考虑到特殊情况outValue.set(Long.parseLong(fields[fields.length - 2]),Long.parseLong(fields[fields.length - 1]));//输出结果context.write(outKey,outValue);//<州,CovidCountBean>}
}

CovidSumReducer

import cn.hwq.mapreduce.covid.bean.CovidCountBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class CovidSumReducer extends Reducer<Text, CovidCountBean, Text, CovidCountBean> {CovidCountBean outValue = new CovidCountBean();@Overrideprotected void reduce(Text key, Iterable<CovidCountBean> values, Reducer<Text, CovidCountBean, Text, CovidCountBean>.Context context) throws IOException, InterruptedException {//统计变量long cases = 0; //确诊病例long deaths = 0; //死亡病例//遍历该州各个县的数据,并累加for (CovidCountBean value : values) {cases += value.getCases();deaths += value.getDeaths();}outValue.set(cases, deaths);context.write(key,outValue);}
}

CovidSumDriver

import cn.hwq.mapreduce.covid.bean.CovidCountBean;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/*** @description: 美国各县新冠疫情汇总统计 客户端驱动类*/
public class CovidSumDriver {public static void main(String[] args) throws Exception{//配置文件对象Configuration conf = new Configuration();// 创建作业实例Job job = Job.getInstance(conf, CovidSumDriver.class.getSimpleName());// 设置作业驱动类job.setJarByClass(CovidSumDriver.class);// 设置作业mapper reducer类job.setMapperClass(CovidSumMapper.class);job.setReducerClass(CovidSumReducer.class);// 设置作业mapper阶段输出key value数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(CovidCountBean.class);//设置作业reducer阶段输出key value数据类型 也就是程序最终输出数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(CovidCountBean.class);// 配置作业的输入数据路径FileInputFormat.addInputPath(job, new Path(args[0]));// 配置作业的输出数据路径FileOutputFormat.setOutputPath(job, new Path(args[1]));//判断输出路径是否存在 如果存在删除FileSystem fs = FileSystem.get(conf);if(fs.exists(new Path(args[1]))){fs.delete(new Path(args[1]),true);}// 提交作业并等待执行完成boolean resultFlag = job.waitForCompletion(true);//程序退出System.exit(resultFlag ? 0 :1);}

结果示例

输入文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N8IphlKW-1670310486988)(C:/Users/HWQ/AppData/Roaming/Typora/typora-user-images/image-20221205235052710.png)]

输出文件part-r-00000

统计了美国每个州的确诊病例和死亡病例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-POZpSZxi-1670310486988)(C:/Users/HWQ/AppData/Roaming/Typora/typora-user-images/image-20221205235130550.png)]

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Spark实验案例
下一篇 > Hadoop 经典案例：词频统计

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce