MapReduce求最大值

2023-10-05 17:29:04

一：背景

求最值是MapReduce的常见算法，应用也很广泛，比如说求出某大型销售网站各个站点销售量最大的商品，人口最多的城市等等，MapReduce求最大值的关键是要实现cleanUp()方法。

二：技术实现

#需求有两个文件max和max2，现要求合并两个并找出最大值。

#max文件数据如下：

#max2文件数据如下：

实现代码如下：

public class MaxTest {// 定义输入路径private static final String INPUT_PATH = "hdfs://liaozhongmin:9000/max_file/*";// 定义输出路径private static final String OUT_PATH = "hdfs://liaozhongmin:9000/out";public static void main(String[] args) {try {// 创建配置信息Configuration conf = new Configuration();// 创建文件系统FileSystem fileSystem = FileSystem.get(new URI(OUT_PATH), conf);// 如果输出目录存在，我们就删除if (fileSystem.exists(new Path(OUT_PATH))) {fileSystem.delete(new Path(OUT_PATH), true);}// 创建任务Job job = new Job(conf, MaxTest.class.getName());//1.1 设置输入目录和设置输入数据格式化的类FileInputFormat.setInputPaths(job, INPUT_PATH);job.setInputFormatClass(TextInputFormat.class);//1.2 设置自定义Mapper类和设置map函数输出数据的key和value的类型job.setMapperClass(MaxMapper.class);job.setMapOutputKeyClass(LongWritable.class);job.setMapOutputValueClass(NullWritable.class);//1.3 设置分区和reduce数量(reduce的数量，和分区的数量对应，因为分区为一个，所以reduce的数量也是一个)job.setPartitionerClass(HashPartitioner.class);job.setNumReduceTasks(1);//1.4 排序//1.5 归约//2.1 Shuffle把数据从Map端拷贝到Reduce端。//2.2 指定Reducer类和输出key和value的类型job.setReducerClass(MaxReducer.class);job.setOutputKeyClass(LongWritable.class);job.setOutputValueClass(NullWritable.class);//2.3 指定输出的路径和设置输出的格式化类FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));job.setOutputFormatClass(TextOutputFormat.class);// 提交作业 退出System.exit(job.waitForCompletion(true) ? 0 : 1);} catch (Exception e) {e.printStackTrace();}}public static class MaxMapper extends Mapper {// 定义一个Long类型的最小值作为临时变量private Long max = Long.MIN_VALUE;// 定义输出去的valueprivate LongWritable maxValue = new LongWritable();@Overrideprotected void map(LongWritable key, Text value, Mapper.Context context) throws IOException,InterruptedException {// 获取输入的行String line = value.toString();// 抛弃无效记录if (line == null || line.equals("")) {return;}// 把line转换为数值long temp = Long.parseLong(line);// 比较大小if (temp > max) {// 把val赋值给tempMaxmax = temp;}}/*** cleanUp()是指map函数执行完成之后就会调用，刚好满足我们的要求 因为map()函数执行完成之后我们单个任务的的最大值也就产生了*/@Overrideprotected void cleanup(Mapper.Context context) throws IOException, InterruptedException {// 把最后的处理结果写出去maxValue.set(max);context.write(maxValue, NullWritable.get());}}/*** 汇总多个任务产生的最大值，再次比较*/public static class MaxReducer extends Reducer {// 定义一个参考的临时变量private Long max = Long.MIN_VALUE;// 定义输出的keyprivate LongWritable maxValue = new LongWritable();protected void reduce(LongWritable key, Iterable value, Reducer.Context context)throws IOException, InterruptedException {if (key.get() > max) {max = key.get();}}/*** reduce任务完成后写出去*/protected void cleanup(Reducer.Context context) throws IOException, InterruptedException {// 设置最大值maxValue.set(max);context.write(maxValue, NullWritable.get());}}
}

程序运行结果：

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Javascript可以保存的最大数值
下一篇 > python123输出最大值_python自定义函数实现最大值的输出方法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

MapReduce求最大值

相关文章