未解决
此帖子已超过 5 年
2 Intern
•
4K 消息
0
993
HDFS环境下的Isilon OneFS配置调优(五)
HDFS环境下的Isilon OneFS配置调优(五)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese
介绍
EMC Isilon是企业级的横向扩展NAS存储。它支持多协议的单命名空间访问,如HDFS、NFS、SMB、FTP和HTTP等。除此以外,它还兼容wire-level的HDFS。Isilon还有很多安全特性,如DARE、WORM和Compliance Mode (合规模式)等。
本文将继续介绍HDFS环境下的Isilon OneFS配置调优,包括如何让存储池支持不同类型的数据集以及数据保护等级的选取。
更多信息
支持不同数据集的存储池:
当需要分析两个不同的数据集,并且其中一个都是大文件另一个是小文件时,会让问题变得复杂。我们建议这种情况下考虑使用存储池(Storage Pool)。存储池可以根据不同的文件属性进行归类并将它们存储在不同的Pool中:小文件可以被OneFS策略指向到SSD固态硬盘,大文件可以送到X-Series系列节点上。然后你就可以使用OneFS SmartConnect Zone将一部分计算客户端关联到每一个数据集,以优化MapReduce作业的性能。更多细节可以参考如何让数据集和存储池配合使用的文档。
数据保护最佳实践:
OneFS采用了更有效率的方式来保护HDFS上的数据。默认设置下,HDFS会将数据块复制三个副本以提供高可用性。与简单复制数据不同的是,OneFS通过内部的InfiniBand网络将数据条带化(Stripe)至整个群集,并使用前向纠错编码技术(Forward Error Correction, FEC)保护数据。
FEC是一种高效的、可靠的数据保护技术。FEC将文件数据编码成符号集,并加入不占用太多空间的冗余代码。只需一部分符号集,OneFS就可以恢复文件全部原始数据。条带化配合FEC相比将数据复制三次可以节省更多存储空间,大概减少2.5倍的硬盘数。条带化还可以让Hadoop客户端在访问任意节点时都享受到整个群集的读写性能。
如果你从HDFS客户端设置复制级别,OneFS会忽略它从而使用你为目录和文件池设置的保护等级。通常,对大多数环境,最佳的保护等级就是默认的N+2:1。对于更大型的群集,可以设得更高一些比如+2。对大多数Hadoop工作负载,你可以考虑选择使用+2:1在少于18个节点的群集上。如果超过18个节点,可以考虑+2。由于FEC编码时的开销,如果是针对小文件的分析作业,那镜像的保护方式会比FEC编码提供更快的性能。当然,镜像获取可以提升性能,但也会占用更多的存储空间。
总的来说,更低的保护等级可以获得更好的理论带宽。但在不同的操作环境下,提升会有不同。随机写性能可以获得最大的性能提升。连续读/写和随机读通常获得的性能提升会小一些。
保护等级的选择受不同因素影响,包括群集中节点的数量。甚至不同的OneFS版本也会影响到你最终选择哪种保护等级。由于相关的因素如此之多,我们建议用户在做决定前咨询我们的Isilon专家。Isilon专业服务可以帮助客户分析群集并提供最优的保护策略建议。
参考
EMC技术白皮书
《EMC Isilon Best Practices for Hadoop Data Storage on OneFS》
应用于
Isilon OneFS