机器学习导论——大数据的4v特征

一、数据量大
(一)TB-PB-ZB
(二)HDFS分布式文件系统
二、数据种类多
(一)结构化数据
Mysql为主的存储和处理
(二)非结构化数据
1、图像、音频等
2、用HDFS、MR、Hive等来分析
(三)半结构化数据
1、XML、HTML形式
2、用HDFS、MR、Hive、Spark等来分析
三、速度快
(一)数据的增长速度快
1、TB-PB-ZB
2、HDFS
(二)数据的处理速度快
1、MR-HivePIG-Impala
2、Spark-Flink
四、价值密度低
(一)价值密度=有价值的数据/all
(二)价值高
(三)机器学习算法解决的问题


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部