未解决
此帖子已超过 5 年
2 Intern
•
2.8K 消息
0
662
在Isilon集群上部署Cloudera数据管理软件实现大数据分析(上)
在Isilon集群上部署Cloudera数据管理软件实现大数据分析(上)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese
介绍
Hadoop数据管理软件与服务提供商Cloudera是由来自Facebook、谷歌和雅虎的前工程师杰夫•哈默巴切、克里斯托弗•比塞格利亚、埃姆•阿瓦达拉以及现任CEO、甲骨文前高管迈克•奥尔森在2008年创建,它是目前Hadoop业界规模最大、知名度最高的公司之一。
EMC Isilon集群支持Cloudera管理软件的部署,OneFS充当分布式文件系统的角色,HDFS则作为支持协议,Hadoop集群上的客户端通过HDFS协议管理Isilon集群上的数据。本文将概述在Isilon集群上部署Cloudera的基本步骤。
更多信息
支持环境
-
- OneFS操作系统7.2版本
- HDFS许可证
- SmartConnect高级功能许可证
- Cloudera CDH 5.1 / Cloudera Manager 5.2
创建Access Zones
Access Zones将Isilon集群以不同的用户认证和数据访问划分为不同的访问空间,在部署Hadoop应用时,建议为每个Hadoop集群创建一个独立的Zone,这样方便每个Hadoop集群连接到自己单独的HDFS命名空间。
创建HDFS目录和设置访问权限
在Isilon集群上必须为Hadoop创建一个目录,并根据具体环境、需求和安全策略为目录分配权限。具体配置要求如下:
-
- 为保存HDFS数据的Access Zone都创建一个根目录。当Hadoop客户端连接到Access Zone时,它会被连接到根HDFS目录。
- 为部署Cloudera的根目录都手动创建一个/tmp目录。
- 确保权限设置正确,以便用户和应用程序可以访问他们的目录和文件。
分配IP地址
Isilon集群中的IP地址被组织成IP地址池。SmartConnect的Basic模式下Isilon集群只能有一个子网,这个子网可以配置一个地址池并且只支持静态的IP地址分配策略,当SmartConnect的Advanced功能激活后,在一个集群中可以建立多个不同的子网,而且每个子网下可以配置多个IP地址池,IP地址分配可以启动动态策略来实现故障切换。
部署Cloudera的最佳实践是为每个Access Zone分配至少二个IP地址,一个IP地址用于Hadoop客户端连接Isilon集群上HDFS的NameNode服务,另一个IP地址用于Hadoop客户端连接HDFS的DataNode服务。在集群已经激活Advanced功能后,推荐为NameNode连接开启IP地址动态分配功能。
设置DNS
SmartConnect功能需要DNS服务器支持,部署Cloudera需要设置DNS服务器。客户端通过DNS域名访问Isilon存储,具体访问过程如下:
1、客户通过域名方式访问Isilon集群,向DNS服务器发起解析请求。
2、由于Isilon集群域名都已经授权给SmartConnect,DNS服务器将解析请求重定向给SmartConnect。
3、SmartConnect通过A记录解析为多个Isilon存储地址。
4、客户通过DNS解析得到的IP地址访问Isilon存储。
参考
-
- OneFS Web Administration Guide
- OneFS CLI Administration Guide
- EMC Isilon Best Practices for Hadoop Data Storage
- Hadoop Info Hub
应用于
在Isilon集群上部署Cloudera数据管理软件实现大数据分析