↧
大数据(一) – hadoop生态系统及版本演化
大数据系列文章汇总链接 – 更新到15篇 HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版 YARN:资源管理系统(Yet Another Resource...
View Article大数据(二) – HDFS
HDFS优点 高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 GB、TB、甚至PB级数据 百万规模以上的文件数量 10K+节点规模...
View Article大数据(四) – MapReduce
MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长什么 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的...
View Article