大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL

大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL

 

1,与直接基于RDD编程,写Spark SQL代码更少、编写更快、更容易修改和理解;   2,相比于直接进行RDD编程而言,Spark SQL会自动的进行性能优化   3,更有效的使用必要的数据,提高内存的使用价值   所有RDD的API在DataSet中是否都有实现? 算子功能级别的基本都有实现   DataSet是一种OO风格的接口   rdd是一条条的record,jvm java 对象,不同的数据来源读取数据困难,合并数据源也不简单.谓词下推弄不了   dtaframe:DataSet[Row]  dataset 为row的方式,合并数据来源比rdd更方便。   dataset:面向oo风格接口,吸收了rdd 的精髓 , 做类型检查,直接作用在domain对象之上   


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部