开始新对话

未解决

此帖子已超过 5 年

1067

2016年2月3日 01:00

HDFS环境下的Isilon OneFS配置调优(四)

​ ​
​ ​

​HDFS​​环境下的​​Isilon OneFS​​配置调优(四)​

​ ​
​ ​

​ ​

​转载请在文首保留原文出处:​​EMC​​中文支持论坛​​https://community.emc.com/go/chinese​​ ​image001.gif

​ ​
​ ​

​介绍​

​ ​
​ ​

​ ​

​ EMC Isilon​​是企业级的横向扩展​​NAS​​存储。它支持多协议的单命名空间访问,如​​HDFS​​、​​NFS​​、​​SMB​​、​​FTP​​和​​HTTP​​等。除此以外,它还兼容​​wire-level​​的​​HDFS​​。​​Isilon​​还有很多安全特性,如​​DARE​​、​​WORM​​和​​Compliance Mode (​​合规模式​​)​​等。 ​

​ ​

​ 本文将继续介绍​​HDFS​​环境下的​​Isilon OneFS​​配置调优,包括与​​DAS​​和​​NAS​​的互连以及使用​​DistCp​​备份​​Hadoop​​数据到​​Isilon​​群集上。​

​ ​
​ ​

​更多信息​

​ ​
​ ​

​ ​

​与​​DAS​​和​​NAS​​的互连​​:​

​ ​

​ ​

​ 这一章节我们将介绍如何配置​​Apache Hadoop​​使其指向两个命名空间​​(Namespace)​​,然后将它们聚合在​​Hadoop​​的虚拟文件系统​​viewFS​​中。相较于​​HDFS 1.0​​版本,​​2.0​​版本中新增的指向到两个命名空间的能力是一大改进。它是简化迁移、实现数据分层和其他存储功能的基础。​

​ ​

​ 下面的例子假设你拥有两个基于​​DAS​​的命名空间,以及一个拥有三个数据节点的​​Hadoop​​计算群集。你还有一个​​Isilon​​群集,上面​​Hadoop​​用户和群组帐号都已经配置完毕。​

​ ​

​ 需要注意的是下面大多数设置参数都与你实际环境不同,包括属性、目录、名称和值等等。你还需要重启客户端上一些受到影响的服务,特别是​​dfs​​。​

​ ​

​ 首先,添加如下代码至​​hdfs-site.xml​​中,然后将配置文件复制到所有客户端:​

​ ​

​<property>​

​ ​

​<name>dfs.replication​

​ ​

​<value>1​

​ ​

​ ​

​<property>​

​ ​

​<name>dfs.permissions​

​ ​

​<value>false​

​ ​

​ ​

​<property>​

​ ​

​ dfs.federation.nameservices ​

​ ​

​<value>ns1,ns2​

​ ​

​ ​

​<property>​

​ ​

​ dfs.namenode.rpc-address.ns1 ​

​ ​

​<value>apache2-1:9001​

​ ​

​ ​

​<property>​

​ ​

​ dfs.namenode.rpc-address.ns2 ​

​ ​

​<value>apache2-2:9001​

​ ​

​ ​

​ 然后再​​DAS​​命名空间中创建需要成为挂载点的子目录。在​​DAS​​一号命名空间上:​

​ ​

​hadoop​​ fs -mkdir hdfs://apache2-1:9001/home​

​ ​

​hadoop​​ fs -mkdir hdfs://apache2-1:9001/tmp​

​ ​

​ 在​​DAS​​二号命名空间上:​

​ ​

​hadoop​​ fs -mkdir hdfs://apache2-2:9001/home​

​ ​

​ 接着修改​​core-site.xml​​添加​​SmartConnect zone​​的名称:​

​ ​

​<property>​

​ ​

​<name>fs.defaultFS​

​ ​

​<value>viewfs:///​

​ ​

​ ​

​<property>​

​ ​

​ fs.viewfs.mounttable.default.link./NN1Home ​

​ ​

​<value>hdfs://apache2-1:9001/home​

​ ​

​ ​

​<property>​

​ ​

​ fs.viewfs.mounttable.default.link./NN2Home ​

​ ​

​<value>hdfs://apache2-2:9001/home​

​ ​

​ ​

​<property>​

​ ​

​ fs.viewfs.mounttable.default.link./ tmp ​

​ ​

​<value>hdfs://apache2-1:9001/tmp​

​ ​

​ ​

​<property>​

​ ​

​ fs.viewfs.mounttable.default.link./ isilon hdfs://Isilon.example.com:8020/ ​

​ ​

​ ​

​ 最后,复制​​core-site.xml​​到所有客户端,并重启服务:​

​ ​

​sbin/stop-all.sh​​ ​

​ ​

​sbin/start-all.sh​

​ ​

​ ​

​使用​​DistCp​​备份​​Hadoop​​数据:​

​ ​

​ ​

​ 从完整的数据保护架构和超过​​80%​​存储效率角度来看,​​EMC Isilon​​是理想的​​Hadoop​​群集备份目的设备。你可以使用标准的​​Apache Hadoop​​工具​​DistCp​​来备份​​Hadoop​​群集上的数据。​​DistCp​​以​​MapReduce​​作业的方式运行,可以并行复制整个​​Hadoop​​目录到​​Isilon​​群集中。工具还可以限制传输带宽,以控制对其他作业的影响。目录权限的复制同样也是支持的。关于​​DistCp​​的更多信息,可以参考:​​http://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html​

​ ​figure 1.jpg​ ​
​ ​

​ 当你备份完​​Hadoop​​的数据后,还可以考虑使用​​Isilon SnapshotIQ​​来创建备份目录的快照。这样可以按需恢复过去版本的文件。​

​ ​figure 2.jpg​ ​
​ ​

​ Isilon​​群集中的备份文件可以像源文件一样被​​Hadoop​​应用访问。因此为了节省时间,你可以通过​​OneFS​​ HDFS​​接口来分析备份的数据,而无需事先将数据恢复至原始的​​Hadoop​​环境。比如你原先使用如下​​MapReduce​​命令,则可以通过修改命令中的路径来直接分析​​Isilon​​群集中的备份数据:​

​ ​

​hadoop​​ jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC​

​ ​

​ 路径修改后:​

​ ​

​hadoop​​ jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://myisiloncluster01/backup/ /mydata/mydataset1 output1 ABC​

​ ​

​ 有关将非​​Isilon Hadoop​​环境数据备份至​​Isilon​​群集的最佳实践,可以参考博客文章:​​Backing Up Hadoop To Isilon​

​ ​figure 3.jpg​ ​
​ ​
​ ​

​参考​

​ ​
​ ​

​ ​

​EMC​​技术白皮书 《​​EMC Isilon Best Practices for Hadoop Data Storage on OneFS​​》​

​ ​

​Isilon ​​博文:​​Best Practices for using DistCp to Back UpHadoop​

​ ​
​ ​

​应用于​

​ ​
​ ​

​ ​

​Isilon OneFS​

​ ​
没有回复!
找不到事件!

Top