未解决
此帖子已超过 5 年
2 Intern
•
4K 消息
0
1067
HDFS环境下的Isilon OneFS配置调优(四)
HDFS环境下的Isilon OneFS配置调优(四)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese
介绍
EMC Isilon是企业级的横向扩展NAS存储。它支持多协议的单命名空间访问,如HDFS、NFS、SMB、FTP和HTTP等。除此以外,它还兼容wire-level的HDFS。Isilon还有很多安全特性,如DARE、WORM和Compliance Mode (合规模式)等。
本文将继续介绍HDFS环境下的Isilon OneFS配置调优,包括与DAS和NAS的互连以及使用DistCp备份Hadoop数据到Isilon群集上。
更多信息
与DAS和NAS的互连:
这一章节我们将介绍如何配置Apache Hadoop使其指向两个命名空间(Namespace),然后将它们聚合在Hadoop的虚拟文件系统viewFS中。相较于HDFS 1.0版本,2.0版本中新增的指向到两个命名空间的能力是一大改进。它是简化迁移、实现数据分层和其他存储功能的基础。
下面的例子假设你拥有两个基于DAS的命名空间,以及一个拥有三个数据节点的Hadoop计算群集。你还有一个Isilon群集,上面Hadoop用户和群组帐号都已经配置完毕。
需要注意的是下面大多数设置参数都与你实际环境不同,包括属性、目录、名称和值等等。你还需要重启客户端上一些受到影响的服务,特别是dfs。
首先,添加如下代码至hdfs-site.xml中,然后将配置文件复制到所有客户端:
<property>
<name>dfs.replication
<value>1
<property>
<name>dfs.permissions
<value>false
<property>
dfs.federation.nameservices
<value>ns1,ns2
<property>
dfs.namenode.rpc-address.ns1
<value>apache2-1:9001
<property>
dfs.namenode.rpc-address.ns2
<value>apache2-2:9001
然后再DAS命名空间中创建需要成为挂载点的子目录。在DAS一号命名空间上:
hadoop fs -mkdir hdfs://apache2-1:9001/home
hadoop fs -mkdir hdfs://apache2-1:9001/tmp
在DAS二号命名空间上:
hadoop fs -mkdir hdfs://apache2-2:9001/home
接着修改core-site.xml添加SmartConnect zone的名称:
<property>
<name>fs.defaultFS
<value>viewfs:///
<property>
fs.viewfs.mounttable.default.link./NN1Home
<value>hdfs://apache2-1:9001/home
<property>
fs.viewfs.mounttable.default.link./NN2Home
<value>hdfs://apache2-2:9001/home
<property>
fs.viewfs.mounttable.default.link./ tmp
<value>hdfs://apache2-1:9001/tmp
<property>
fs.viewfs.mounttable.default.link./ isilon hdfs://Isilon.example.com:8020/
最后,复制core-site.xml到所有客户端,并重启服务:
sbin/stop-all.sh
sbin/start-all.sh
使用DistCp备份Hadoop数据:
从完整的数据保护架构和超过80%存储效率角度来看,EMC Isilon是理想的Hadoop群集备份目的设备。你可以使用标准的Apache Hadoop工具DistCp来备份Hadoop群集上的数据。DistCp以MapReduce作业的方式运行,可以并行复制整个Hadoop目录到Isilon群集中。工具还可以限制传输带宽,以控制对其他作业的影响。目录权限的复制同样也是支持的。关于DistCp的更多信息,可以参考:http://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html
当你备份完Hadoop的数据后,还可以考虑使用Isilon SnapshotIQ来创建备份目录的快照。这样可以按需恢复过去版本的文件。
Isilon群集中的备份文件可以像源文件一样被Hadoop应用访问。因此为了节省时间,你可以通过OneFS HDFS接口来分析备份的数据,而无需事先将数据恢复至原始的Hadoop环境。比如你原先使用如下MapReduce命令,则可以通过修改命令中的路径来直接分析Isilon群集中的备份数据:
hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC
路径修改后:
hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://myisiloncluster01/backup/ /mydata/mydataset1 output1 ABC
有关将非Isilon Hadoop环境数据备份至Isilon群集的最佳实践,可以参考博客文章:Backing Up Hadoop To Isilon
参考
EMC技术白皮书 《EMC Isilon Best Practices for Hadoop Data Storage on OneFS》
Isilon 博文:Best Practices for using DistCp to Back UpHadoop
应用于
Isilon OneFS