未解决
此帖子已超过 5 年
Community Manager
•
7.3K 消息
0
1829
Data Domain的文件系统清理(File system cleaning)
Data Domain的文件系统清理(File system cleaning)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese
介绍
本文是 【专家问答】老司机带您玩转Data Domain 中嘉宾分享的文章,将为您介绍Data Domain的文件系统清理(File system cleaning)。
更多信息
1. 1. 什么是文件系统清理
当您的备份应用程序(如NetBackup或NetWorker)过期数据时,DD上的数据由文件系统标记为删除。但是,数据并不会立即被删除,而是在文件系统清理期间被删除.
· 在清洁操作期间,文件系统可用于所有正常操作, 包括备份(写)和恢复(读)。
· 虽然文件系统清理会使用一定的系统资源,但是该进程所占用的资源是可以通过设置阈值来控制的。
· Data Domain建议在第一次完全备份之后运行file system cleaning。
· 当清洁操作完成时,会向系统日志发送一条消息记录回收的存储空间百分比。
默认计划在每个星期二上午6点(06:00时)运行清洁操作。您可以更改计划,或者您可以手动执行清理操作。(Data Domain建议每周运行一次清洁操作。)
在文件系统被禁用(disable)或者Data Domain被关闭(例如系统电源关闭或重新启动)的情况下,清洁操作将被终止。系统重新启动时,清理操作不会立即重新启动。您可以手动重新开始清洁操作或等待下一次计划清洁操作。
2. 2. 文件系统清理的各个阶段:
下面各阶段的说明, 本案例基于DDOS 5.5 之后的DDOS版本。从DDOS 5.5开始,新的清理过程(物理清理)将不再逻辑地枚举命名空间(Name Space)中的文件。在之前版本的cleaning中,枚举阶段以文件为单位遍历每个文件的BTREE结构,因此重复的metadata可能会被多次遍历。而在物理清理中,枚举阶段通过扫描容器集(CSET)来并行地遍历所有文件树(BTREE),在多个文件之间共享的每个元数据段将只扫描一次。物理枚举的运行时间取决于系统上的元数据(metadata)的数量以及这种元数据跨容器集分布的方式。
物理清洁引入了两个新阶段:预分析和分析。这些新阶段设置了物理枚举所需的一些数据结构。新阶段的运行时间取决于文件系统中元数据的总量。
以下是物理清理的每个阶段的说明:
1) 预合并:将内存中的index文件写入到磁盘, 并与full index进行合并,该阶段是为枚举阶段而做准备。
2) 预分析:为索引中的所有元数据段构建散列向量,以加快索引的检索速度
3) 预枚举:以元数据为单位枚举文件。它可能只对部分数据段进行采样,以帮助估计可删除的水平所集中在磁盘上的位置。
4) 预过滤:如果写入的数据中依然有重复数据,则找出它的位置,以便可以从系统中删除。
5) 预选择:选择具有最多可删除数据的物理空间。这些将作为清理的目标区域。
6) 候选:由于内存限制,每次清洁运行中只能清除一部分物理空间。运行候选阶段以选择要清理的数据子集,并记住数据中的内容。
7) 合并:索引合并将索引数据刷新到磁盘并为物理枚举创建参考点。
8) 分析:为索引中的所有元数据段构建散列向量。
9) 枚举:基于元数据来枚举所有文件,确认哪些文件是未被标记为删除的,应该保留在系统中。
10) 过滤:如果写入的数据中依然有重复数据,则找出它的位置,以便可以从系统中删除。
11) 复制:将目标容器(container)中需要的数据摘取出来 , 写入到新的容器中, 并删除旧的容器(旧的容器中将包含已经删除的磁盘碎片)
12) 摘要:创建系统上的实时数据的摘要。
3. 3. 如何查询文件系统清理的相关信息
· 查看上一次cleaning完成的时间, 使用df命令:
# df
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 6605.3 - - -
/data: post-comp 32068.8 298.3 31770.6 1% 1.4
/ddvar 29.5 17.5 10.5 63% -
---------------- -------- -------- --------- ---- --------------
* Estimated based on last cleaning of 2016/11/15 06:09:22.
· 可以通过日志分析过去的清理进程的耗时以及结果:
# log view debug/messages.engineering
### 搜索以下关键字: ###
Apr 22 06:00:01 DD4200-Shanghai ddfs[5640]: NOTICE: MSG-GC-00009: Cleaning started
Apr 22 06:02:25 DD4200-Shanghai ddfs[5640]: NOTICE: MSG-GC-00005: Cleaning completed: 0:02:24 elapsed, 92% of used space freed, 0% of total space freed, 113246208 bytes freed
· 文件系统清理在每次成功执行完成之后会更新一个报告, 可以通过# filesys show detailed-stats 70 来查看每一步消耗的时间. 该信息也可在每天的autosupport日志中找到
# priv set se
Enter system password: << 输入产品序列号作为SE模式的密码
# filesys show detailed-stats 70
GC stats for Physical Cleaning on Active Success 4 Aborted 0
Most recent successful GC container range: 145311 to 297545
GC phase: pre-merge time: 130 average: 135 seg/s: 0 cont/s: 0
GC phase: pre-analysis time: 146 average: 146 seg/s: 0 cont/s: 0
GC phase: pre-enumeration time: 75 average: 66 seg/s: 5140504 cont/s: 0
GC phase: pre-filter time: 152 average: 141 seg/s: 1164515 cont/s: 0
GC phase: pre-select time: 30 average: 28 seg/s: 2253389 cont/s: 2360
GC phase: copy time: 9 average: 7 seg/s: 0 cont/s: 630
GC phase: summary time: 28 average: 25 seg/s: 0 cont/s: 2334
# 将每一个阶段的时间累加起来, 即为上一次文件系统清理周期所消耗的时间.
应用于
Data Domain