大数据DTSpark蘑菇云行动之第六课：零基础实战Scala集合操作

2023-10-15 15:06:36

大数据DTSpark”蘑菇云”行动之第六课：零基础实战Scala集合操作

　　大数据技术是数据的集合以及对数据集合的操作技术的统称，具体来说：
　　１、数据集合：会涉及数据的搜集、存储等，搜集会有很多技术，存储技术现在比较经典方案是使用Hadoop，不过也很多方案采用Kafka。
　　２、对数据集合的操作技术，目前全球最火爆的是Spark。
　　Spark的框架实现是语言是Scala，首选应用程序开发语言也是Scala，所以Scala对集合以及集合操作的支持就非常重要且非常强大，因此Spark中对很多数据操作算子和Scala中对集合的操作是一样的。
　　Scala中数据的创建与操作：
　　１、最原始的创建数据的方式是形如：val array = new ArrayInt，指定数组的类型是Int且其固定长度是5个元素；
　　２、数据的索引下标是从0开始;对数组元素访问的时候下标的范围在0到length-1的长度，超过length-1会出现java.lang.ArrayIndexOutOfBoundsException异常；
　　３、最常用和经典的创建数组的方式是形如：val array = ArrayInt，直接通过Array类名并传入参数的方式来创建数组实例；在背后的实现是调用Array的
　　工厂方法模式apply来构建出数组及数组的内容；
　　４、可以省略[Int]这个泛型类型，是因为Scala有类型推导能力，已经传入了当前数组的值，所以可以根据值来推导出类型；
　　５、形如“val names = Array(“Scala”, “Kafka”, “Spark”)”，关于Array本身在底层的实现是借助了JVM平台上的Java语言的数组实现，是不可变的；
　　６、如果想使用可变数组，首先需导入“import scala.collection.mutable.ArrayBuffer”，然后使用ArrayBuffer这个可变数组；
　　７、关于ArrayBuffer增加元素默认情况下都是在ArrayBuffer末尾增加元素的，效率非常高；
　　８、当需要多线程并发操作的时候，把ArrayBuffer转换成为Array就非常重要，其实，即使是Array，其本身虽然不可变动(元素不可删减)，但是可以修改Array中每个元素的内容，所以多线程操作的时候，还是必须考虑；
　　９、如果想在已经有的数组的基础上通过作用于每个元素来生成新的元素构成新的数组，则可以通过“yield”语法来完成，这在大数据中意义重大：
　　第一点：它是在不修改已经有的Array的内容的基础上完成的，非常适合于大数据的处理；
　　第二点：在大数据处理中，例如Spark中业务操作的核心思想就类似于“yield”，来通过使用function对每个元素操作获得新的元素构成的新集合，其实就是新的RDD，例如MapPartitionsRDD
　　１０、集合的操作往往可以通过丰富的操作算子，例如filter来过滤需要条件的元素，例如map来进行每一个元素的加工；
　　以下是示例代码
　　

object HelloArrayOps {def main(args: Array[String]): Unit = {//最原始创建数组array1的方式，这个数组包含5个Int类型元素，5个元素初始化为0val array1 = new Array[Int](5)//创建一个数组array2，用(1 2 3 4 5)5个Int型数据进行初始化val array2 = Array[Int](1,2,3,

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 大数据Spark “蘑菇云”行动第83课：Hive架构剖析与初体验
下一篇 > DT大数据梦工厂蘑菇云行动前传学习笔记之一

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

大数据DTSpark蘑菇云行动之 第六课：零基础实战Scala集合操作

大数据DTSpark”蘑菇云”行动之 第六课：零基础实战Scala集合操作

相关文章

大数据DTSpark蘑菇云行动之第六课：零基础实战Scala集合操作

大数据DTSpark”蘑菇云”行动之第六课：零基础实战Scala集合操作