开始新对话

未解决

此帖子已超过 5 年

993

2016年2月25日 01:00

HDFS环境下的Isilon OneFS配置调优(五)

​ ​
​ ​

​HDFS​​环境下的​​Isilon OneFS​​配置调优(五)​

​ ​
​ ​

​ ​

​转载请在文首保留原文出处:​​EMC​​中文支持论坛​​https://community.emc.com/go/chinese​​ ​image001.gif​ ​

​ ​
​ ​

​介绍​

​ ​
​ ​

​ ​

​ EMC Isilon​​是企业级的横向扩展​​NAS​​存储。它支持多协议的单命名空间访问,如​​HDFS​​、​​NFS​​、​​SMB​​、​​FTP​​和​​HTTP​​等。除此以外,它还兼容​​wire-level​​的​​HDFS​​。​​Isilon​​还有很多安全特性,如​​DARE​​、​​WORM​​和​​Compliance Mode (​​合规模式​​)​​等。 ​

​ ​

​ 本文将继续介绍​​HDFS​​环境下的​​Isilon OneFS​​配置调优,包括如何让存储池支持不同类型的数据集以及数据保护等级的选取。​

​ ​
​ ​

​更多信息​

​ ​
​ ​

​ ​

​支持不同数据集的存储池​​:​

​ ​

​ ​

​ 当需要分析两个不同的数据集,并且其中一个都是大文件另一个是小文件时,会让问题变得复杂。我们建议这种情况下考虑使用存储池(​​Storage Pool​​)。存储池可以根据不同的文件属性进行归类并将它们存储在不同的​​Pool​​中:小文件可以被​​OneFS​​策略指向到​​SSD​​固态硬盘,大文件可以送到​​X-Series​​系列节点上。然后你就可以使用​​OneFS SmartConnect Zone​​将一部分计算客户端关联到每一个数据集,以优化​​MapReduce​​作业的性能。更多细节可以参考如何让数据集和存储池配合使用的文档。​

​ ​

onefs_pool.jpg

​ ​

​ ​

​数据保护最佳实践:​

​ ​

​ ​

​ OneFS​​采用了更有效率的方式来保护​​HDFS​​上的数据。默认设置下,​​HDFS​​会将数据块复制三个副本以提供高可用性。与简单复制数据不同的是,​​OneFS​​通过内部的​​InfiniBand​​网络将数据条带化(​​Stripe​​)至整个群集,并使用前向纠错编码技术(​​Forward Error Correction, FEC​​)保护数据。​

​ ​

​ FEC​​是一种高效的、可靠的数据保护技术。​​FEC​​将文件数据编码成符号集,并加入不占用太多空间的冗余代码。只需一部分符号集,​​OneFS​​就可以恢复文件全部原始数据。条带化配合​​FEC​​相比将数据复制三次可以节省更多存储空间,大概减少​​2.5​​倍的硬盘数。条带化还可以让​​Hadoop​​客户端在访问任意节点时都享受到整个群集的读写性能。​

​ ​

​ 如果你从​​HDFS​​客户端设置复制级别,​​OneFS​​会忽略它从而使用你为目录和文件池设置的保护等级。通常,对大多数环境,最佳的保护等级就是默认的​​N+2:1​​。对于更大型的群集,可以设得更高一些比如​​+2​​。对大多数​​Hadoop​​工作负载,你可以考虑选择使用​​+2:1​​在少于​​18​​个节点的群集上。如果超过​​18​​个节点,可以考虑​​+2​​。由于​​FEC​​编码时的开销,如果是针对小文件的分析作业,那镜像的保护方式会比​​FEC​​编码提供更快的性能。当然,镜像获取可以提升性能,但也会占用更多的存储空间。​

​ ​

​ 总的来说,更低的保护等级可以获得更好的理论带宽。但在不同的操作环境下,提升会有不同。随机写性能可以获得最大的性能提升。连续读​​/​​写和随机读通常获得的性能提升会小一些。​

​ ​

​ 保护等级的选择受不同因素影响,包括群集中节点的数量。甚至不同的​​OneFS​​版本也会影响到你最终选择哪种保护等级。由于相关的因素如此之多,我们建议用户在做决定前咨询我们的​​Isilon专家​​。​​Isilon专业​​服务可以帮助客户分析群集并提供最优的保护策略建议。​

​ ​
​ ​

​参考​

​ ​
​ ​

​ ​

​EMC​​技术白皮书​

​ ​

​《​​EMC Isilon Best Practices for Hadoop Data Storage on OneFS​​》 ​

​ ​
​ ​

​应用于​

​ ​
​ ​

​ ​

​Isilon OneFS​

​ ​
没有回复!
找不到事件!

Top