大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL
大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL
1,与直接基于RDD编程,写Spark SQL代码更少、编写更快、更容易修改和理解; 2,相比于直接进行RDD编程而言,Spark SQL会自动的进行性能优化 3,更有效的使用必要的数据,提高内存的使用价值 所有RDD的API在DataSet中是否都有实现? 算子功能级别的基本都有实现 DataSet是一种OO风格的接口 rdd是一条条的record,jvm java 对象,不同的数据来源读取数据困难,合并数据源也不简单.谓词下推弄不了 dtaframe:DataSet[Row] dataset 为row的方式,合并数据来源比rdd更方便。 dataset:面向oo风格接口,吸收了rdd 的精髓 , 做类型检查,直接作用在domain对象之上
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
