开始新对话

未解决

此帖子已超过 5 年

Community Manager

 • 

7.3K 消息

1829

2016年11月28日 21:00

Data Domain的文件系统清理(File system cleaning)

​ ​
​ ​

​Data Domain​​的文件系统清理(​​File system cleaning​​)​

​ ​
​ ​

​转载请在文首保留原文出处:​​EMC​​中文支持论坛​​https://community.emc.com/go/chinese​​ ​​ ​Weibo Icon.gif​ ​

​ ​

​ ​
​ ​

​介绍​

​ ​
​ ​

​ ​

​本文是 ​​【专家问答】老司机带您玩转​​Data Domain​​ ​​中嘉宾分享的文章,将为您介绍​​Data Domain​​的文件系统清理(​​File system cleaning​​)。​

​ ​

​ ​
​ ​

​更多信息​

​ ​
​ ​

​ ​

​1.​​ ​​1. 什么是文件系统清理​

​ ​

​ ​

​当您的备份应用程序(如​​NetBackup​​或​​NetWorker​​)过期数据时,​​DD​​上的数据由文件系统标记为删除。但是,数据并不会立即被删除​​,​​而是在文件系统清理期间被删除​​.​

​ ​

​·​​ ​​在清洁操作期间,文件系统可用于所有正常操作​​, ​​包括备份(写)和恢复(读)。​

​ ​

​·​​ ​​虽然文件系统清理会使用一定的系统资源,但是该进程所占用的资源是可以通过设置阈值来控制的。​

​ ​

​·​​ ​​Data Domain​​建议在第一次完全备份之后运行​​file system cleaning​​。​

​ ​

​·​​ ​​当清洁操作完成时,会向系统日志发送一条消息记录回收的存储空间百分比。​

​ ​

​ ​

​默认计划在每个星期二上午​​6​​点(​​06:00​​时)运行清洁操作。您可以更改计划,或者您可以手动执行清理操作。​​(Data Domain​​建议每周运行一次清洁操作。​​)​

​ ​

​ ​

​在文件系统被禁用(​​disable​​)或者​​Data Domain​​被关闭(例如系统电源关闭或重新启动)的情况下,清洁操作将被终止。系统重新启动时,清理操作不会立即重新启动。您可以手动重新开始清洁操作或等待下一次计划清洁操作。​

​ ​

​ ​

​ ​

​2.​​ ​​2. 文件系统清理的各个阶段:​

​ ​

​ ​

​下面各阶段的说明, 本案例基于​​DDOS 5.5 ​​之后的​​DDOS​​版本。从​​DDOS 5.5​​开始,新的清理过程(物理清理)将不再逻辑地枚举命名空间​​(Name Space)​​中的文件。在之前版本的​​cleaning​​中,枚举阶段以文件为单位遍历每个文件的​​BTREE​​结构,因此重复的​​metadata​​可能会被多次遍历。而在物理清理中,枚举阶段通过扫描容器集(​​CSET​​)来并行地遍历所有文件树(​​BTREE​​),在多个文件之间共享的每个元数据段将只扫描一次。物理枚举的运行时间取决于系统上的元数据(​​metadata​​)的数量以及这种元数据跨容器集分布的方式。​

​ ​

​ ​

​物理清洁引入了两个新阶段:预分析和分析。这些新阶段设置了物理枚举所需的一些数据结构。新阶段的运行时间取决于文件系统中元数据的总量。​

​ ​

​ ​

​以下是物理清理的每个阶段的说明:​

​ ​

​1)​​ ​​预合并:将内存中的​​index​​文件写入到磁盘, 并与​​full index​​进行合并,该阶段是为枚举阶段而做准备。​

​ ​

​2)​​ ​​预分析:为索引中的所有元数据段构建散列向量,以加快索引的检索速度​

​ ​

​3)​​ ​​预枚举:以元数据为单位枚举文件。它可能只对部分数据段进行采样,以帮助估计可删除的水平所集中在磁盘上的位置。​

​ ​

​4)​​ ​​预过滤:如果写入的数据中依然有重复数据,则找出它的位置,以便可以从系统中删除。​

​ ​

​5)​​ ​​预选择:选择具有最多可删除数据的物理空间。这些将作为清理的目标区域。​

​ ​

​6)​​ ​​候选:由于内存限制,每次清洁运行中只能清除一部分物理空间。运行候选阶段以选择要清理的数据子集,并记住数据中的内容。​

​ ​

​7)​​ ​​合并:索引合并将索引数据刷新到磁盘并为物理枚举创建参考点。​

​ ​

​8)​​ ​​分析:为索引中的所有元数据段构建散列向量。​

​ ​

​9)​​ ​​枚举:基于元数据来枚举所有文件,确认哪些文件是未被标记为删除的,应该保留在系统中。​

​ ​

​10)​​ ​​过滤:如果写入的数据中依然有重复数据,则找出它的位置,以便可以从系统中删除。​

​ ​

​11)​​ ​​复制:将目标容器(​​container​​)中需要的数据摘取出来 , 写入到新的容器中, 并删除旧的容器(旧的容器中将包含已经删除的磁盘碎片)​

​ ​

​12)​​ ​​摘要:创建系统上的实时数据的摘要。​

​ ​

​ ​

​ ​

​3.​​ ​​3. 如何查询文件系统清理的相关信息​

​ ​

​ ​

​·​​ ​​查看上一次​​cleaning​​完成的时间​​, ​​使用​​df​​命令​​:​

​ ​

​ ​​ ​

​ ​

​# df​

​ ​

​Active Tier:​

​ ​

​Resource​​ ​​Size GiB​​ ​​Used GiB​​ ​​Avail GiB​​ ​​Use%​​ ​​Cleanable GiB*​

​ ​

​----------------​​ ​​--------​​ ​​--------​​ ​​---------​​ ​​----​​ ​​--------------​

​ ​

​/data: pre-comp​​ ​​-​​ ​​6605.3​​ ​​-​​ ​​- ​​ ​​-​

​ ​

​/data: post-comp​​ ​​32068.8​​ ​​298.3​​ ​​31770.6​​ ​​1%​​ ​​1.4​

​ ​

​/ddvar​​ ​​29.5​​ ​​17.5​​ ​​10.5​​ ​​63%​​ ​​-​

​ ​

​----------------​​ ​​--------​​ ​​--------​​ ​​---------​​ ​​----​​ ​​--------------​

​ ​

​* Estimated based on last cleaning of 2016/11/15 06:09:22.​

​ ​

​ ​

​·​​ ​​可以通过日志分析过去的清理进程的耗时以及结果​​:​

​ ​

​ ​

​# log view debug/messages.engineering​

​ ​

​### ​​搜索以下关键字​​: ###​

​ ​

​ ​

​Apr 22 06:00:01 DD4200-Shanghai ddfs[5640]: NOTICE: MSG-GC-00009: Cleaning started​

​ ​

​Apr 22 06:02:25 DD4200-Shanghai ddfs[5640]: NOTICE: MSG-GC-00005: Cleaning completed: 0:02:24 elapsed, 92% of used space freed, 0% of total space freed, 113246208 bytes freed​

​ ​

​ ​

​·​​ ​​文件系统清理在每次成功执行完成之后会更新一个报告​​, ​​可以通过​​# filesys show detailed-stats 70 ​​来查看每一步消耗的时间​​. ​​该信息也可在每天的​​autosupport​​日志中找到​

​ ​

​ ​

​# priv set se​

​ ​

​ ​​ ​​Enter system password:​​ ​​<< ​​输入产品序列号作为​​SE​​模式的密码​

​ ​

​ ​

​# filesys show detailed-stats 70​

​ ​

​ ​

​GC stats for Physical Cleaning on Active Success 4 Aborted 0​

​ ​

​Most recent successful GC container range: 145311 to 297545​

​ ​

​GC phase:​​ ​​pre-merge​​ ​​time:​​ ​​130 average:​​ ​​135​​ ​​seg/s:​​ ​​0​​ ​​cont/s:​​ ​​0​

​ ​

​GC phase:​​ ​​pre-analysis​​ ​​time:​​ ​​146 average:​​ ​​146​​ ​​seg/s:​​ ​​0​​ ​​cont/s:​​ ​​0​

​ ​

​GC phase:​​ ​​pre-enumeration​​ ​​time:​​ ​​75 average:​​ ​​66​​ ​​seg/s:​​ ​​5140504​​ ​​cont/s:​​ ​​0​

​ ​

​GC phase:​​ ​​pre-filter​​ ​​time:​​ ​​152 average:​​ ​​141​​ ​​seg/s:​​ ​​1164515​​ ​​cont/s:​​ ​​0​

​ ​

​GC phase:​​ ​​pre-select​​ ​​time:​​ ​​30 average:​​ ​​28​​ ​​seg/s:​​ ​​2253389​​ ​​cont/s:​​ ​​2360​

​ ​

​GC phase:​​ ​​copy​​ ​​time:​​ ​​9 average:​​ ​​7​​ ​​seg/s:​​ ​​0​​ ​​cont/s:​​ ​​630​

​ ​

​GC phase:​​ ​​summary​​ ​​time:​​ ​​28 average:​​ ​​25​​ ​​seg/s:​​ ​​0​​ ​​cont/s:​​ ​​2334​

​ ​

​ ​

​# ​​将每一个阶段的时间累加起来​​, ​​即为上一次文件系统清理周期所消耗的时间​​.​

​ ​

​ ​
​ ​

​应用于​

​ ​
​ ​

​Data Domain​

​ ​

#IWork4Dell

请您将合适的回复标记为“接受的回答”,并为喜欢的帖子“点赞”。这对我们非常重要!

没有回复!
找不到事件!

Top