EMC存储上的大数据 – Hadoop软件概述

EMC存储上的大数据 – Hadoop软件概述

转载请在文首保留原文出处：EMC中文支持论坛https://community.emc.com/go/chinese publish_button_16.ico

介绍

企业一直在处理快速增长的数据量（也称为大数据）的存储和管理问题。原有的存储经扩展后缀让能勉强跟上计算容量增长的步伐，但是用来分析该大数据以得出宝贵见解的工具却落入后了。Hadoop是一款经专门设计的创新性开源大数据分析引擎，旨在最大程度地缩短从企业的数据集到处宝贵见解的时间。本文为系列的第一篇，介绍了Hadoop软件的核心组件MapReduce和HDFS。

更多信息

Hadoop是一款经专门设计的创新性开源大数据分析引擎，旨在最大程度地缩短从企业的数据集到处宝贵见解的时间。他包括以下主要组件：

MapReduce
Hadoop分布式文件系统（HDFS）
HIVE
PIG
HBASE
ZOOKEEPER

MapReduce：

MapReduce是一种分布式任务处理框架，可在多个节点上并行运行作业，以更快地从大型数据集得出结果。Hadoop MapReduce是一个软件框架，可用于轻松编写大型商用计算节点集群上并行处理大量数据的应用程序。早期MapReduce被Google作为一种计算模式推出，而Hadoop被Yahoo作为这种模式的实施编写并献给开放源代码。

MapReduce框架包括下列组件：

JobTracker：每个节点集群配备单一主JobTracker，用于计划、监视和管理作业及其组件任务。
TaskTracker：每个集群节点配备一个从属TaskTracker，用于按照JobTracker的指令执行作业的任务组件。

MapReduce作业（查询）由多个映射任务组成，这些任务跨集群分布，并且以完全并行的方式进行处理。框架对映射的输出进行排序，这些输出随后被用作缩减任务的输入。通常使用HDFS跨节点就能存储作业的输入和输出。框架负责计划任务、监视任务并管理失败任务的重新执行。在Hadoop集群中，MapReduce计算节点和HDFS存储层通常驻留在同一组节点上。该配置使框架能够有效地在已经存在数据的节点上计划任务，以便避免与在节点集群内移动数据相关的网络瓶颈。这正是计算层通过与HDFS层中的数据位置对齐来有效推导关键见解的方式。Hadoop完全用Java编写，但MapReduce应用程序不必如此。MapReduce应用程序可以利用Hadoop流接口来指定任何可执行文件作为特定作业的映射程序或缩减程序。

Hadoop分布式文件系统（HDFS）

HDFS是一种分布式文件系统，Hadoop集群借此来存储所有需要分析的输入数据以及由MapReduce作业生成的任何输出结果。HDFS是一种基于数据块的文件系统，它跨越集群中的多个节点，并且使用用户数据可以存储在文件中。它提供了传统的分层文件组织，以便用户或应用程序可以操作（创建、重命名、移动或删除）文件和目录。它还提供了一个流接口，借助于该接口，可使用MapReduce框架运行所选的任何应用程序。HDFS不支持设置硬链接或软链接，因此用户无法寻址到特定数据块或者覆盖文件。HDFS要求进行编程访问，因此用户无法作为文件系统装载。所有HDFS通讯都根据TCP/IP协议分层。

HDFS的关键组件有：