未解决
此帖子已超过 5 年
Community Manager
•
7.3K 消息
0
432
Data Protection Search安装(二)
Data Protection Search安装(二)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese
介绍
Data Protection Search (DPSearch) 是一个可扩展、容错的索引编制和搜索虚拟应用装置。DPSearch 提供了一种快速且功能强大的方式,跨一个或多个 Avamar 和/或 NetWorker 服务器搜索备份数据,然后恢复或下载搜索结果。计划的收集活动用于收集备份的元数据和/或内容并进行索引编制,然后您可将其存储在 DPSearch 节点或群集。
更多信息
Data Protection Search 安装规划和考虑事项
在规划 Data Protection Search 部署时,有大量的因素要考虑。
是否需要复制副本
Elasticsearch 提供自动复制索引的能力。自动处理复制和故障切换。如果您计划只使用一个 Data Protection Search 节点,并且不需要复制,则将复制副本的数量更改为 0,以防止 Elasticsearch 群集和索引在控制面板上显示黄色的警告图标。
注意:
如果有多个节点,我们强烈建议您不要将复制副本设置为 0。如果没有复制副本,则故障切换无法实现。
Data Protection Search 群集中必须至少有多个复制副本以及一个索引主节点或数据节点。为复制添加更多索引数据节点可提高搜索性能。
索引需要多少空间
索引所需的空间差异很大,具体情况取决于多种因素:
· 仅限元数据索引编制还是完整内容索引编制
· 对于完整内容索引编制,您必须考虑要进行索引编制的文件的大小和类型
· 对于元数据索引编制,必须特别考虑文件名和路径名称的长度
· 重复数量(出现在多个备份中的未更改的文件)
· 复制
对于仅限元数据索引编制,在重复率为 80% 的情况下,每条备份记录可能大约占用 100 至 200 个字节的空间。在不可能出现的零重复的情况下(即,全部都是唯一的文件),所占用空间的平均值会上升到 400 至 600 个字节。
对于完整内容索引编制,范围通常更广泛。大型多媒体文件在索引中占用非常小的空间,而小文档则使用大得多的空间。在具有重复率达到 80% 的典型数据集的情况下,每条备份记录可能占用 1 KB 至 4 KB。在零重复的情况下,所占用空间的平均值可能会上升到 15 KB 至 30 KB 或更多。
基于索引编制的内存使用量
| 备份记录 | |||
| 10亿 | 50亿 | 100亿 | 200亿 |
“仅限元数据索引编制” | | |||
100字节 | 93GB | 466GB | 931GB | 1.9TB |
200字节 | 186GB | 931GB | 1.9TB | 3.7TB |
“完整内容索引编制” | | |||
1KB | 854GB | 4.8TB | 9.5TB | 19TB |
4KB | 3.8TB | 12TB | 38TB | 76TB |
索引随着时间的推移会增长到多大?
如果活动设置为循环(每天),DPSearch 会在新的备份/存储集创建时继续处理它们。这会导致将新的或修改的项目添加到索引中,并且为自先前备份起未改变的项目添加引用。
当备份到期或删除后,将从索引中删除不再在该客户端的任何备份中的任意项目。这由每日垃圾数据收集以及每月对帐作业进行管理。
特定客户端的索引大小起初会不断增大,直到所有当前备份(例如,30 天的每月备份保留)都在索引中为止。然后,索引大小将稳定下来,并且其增长情况与该客户端上的数据增长相符。添加更多客户端会增大索引的大小。
在索引属性中查看索引的大小。可以删除索引以回收空间。
搜索将需要多长时间?
DPSearch/Elasticsearch 框架运行速度非常快,搜索所需的时间通常不到一秒钟。但是,随着索引中的项目数增加,搜索速度通常也会受到影响,特别是在单个节点上更是如此。一般来说,搜索范围越广泛,大索引带来的影响就越大。
可能执行的最广泛的搜索是跨所有索引的通配符 (*) 搜索。即使有数亿已编制索引的项目,这仍可以在数秒内完成,但随着项目数上升到数十亿时,此类广泛的搜索可能会在完成之前就超时了。
建议使用筛选器以尽可能缩小搜索范围。在具有 150 亿条备份记录(15 亿个唯一文件)的单节点环境中,通配符 (*) 搜索可能要花费 30 至 60 秒钟,而由关键字、类型和客户端筛选的搜索所需的时间可能不到一秒钟。由于数百万或数十亿个结果并没有用,因此我们建议使用筛选器。
注意:对于静态索引,广泛搜索速度较快,但如果在搜索期间正在进行索引编制,则此类搜索速度会较慢。
搜索中的可视化筛选器会受到大量项目影响。可视化筛选器要求聚集来自当前搜索的匹配项目。这需要大量的内存和时间。筛选器可缩小将要聚集的结果的范围,以减少对内存和时间的影响。如果可视化筛选器未能及时完成(在 10 秒钟内),则当前结果将显示,并且随附警告消息,指示结果不完整。