开始新对话

此帖子已超过 5 年

Solved!

Go to Solution

4349

2013年6月8日 08:00

关于一个容灾方案的考虑求解!

小弟目前参与一个容灾方案设计,客户想做个容灾,两地之间距离300KM,走公网线路,我考虑了有三种方式实现:

1、VNX+MV/A,

2、VNX+RPA/CRR

3、VNX+VPLEX/METRO

我想知道,究竟该如何选择适合的方案及产品呢?依据?我还需了解客户哪些方面的信息呢?

谢谢!

605 消息

2013年6月8日 19:00

灾备建议用MV/A,RPA提供的连续性数据保护,跟灾备是两个概念。没有了数据,CDP也没法恢复。另外数据要求快速恢复,这个RPA肯定不如MV/A.。

300KM距离用同步延迟是个大问题,我了解到SRDF和VLEX不支持这个距离范围的同步方案。MV不知道能不能够支持。

2 Intern

 • 

3.2K 消息

2013年6月8日 08:00

楼主好久没来了。如果预算充足选第三种吧,双活。

您得先问问客户准备花多少钱。

107 消息

2013年6月8日 08:00

最近忙些琐事,偶尔也来看看,我是觉得若做VPLEX/Geo(VPLEX/metro只支持同步模式,距离<100km),链路方面即网络带宽,可能是个最大问题。

1.8K 消息

2013年6月8日 09:00

1、看用户投资。

2、看用户是更关注与持续的CDP保护,还是说双活中心。因为两个方案侧重点不同。

复制带宽无疑是走异步。

得调研清楚用户可接受的带宽投资。用户可接受的RTO\RPO得明确。

还有,用户的应用类型等要素也是参考之一。

107 消息

2013年6月8日 18:00

还不确定客户的预算,但目前所了解到的信息,我觉得两地距离300KM,异步方式做容灾,尤其是走公网线路(假如客户不愿意改造或是租用专用线路做容灾的情况下),VPLEX/GEO费用最高,估计客户不接受,RPA和MV之间,RPA支持数据压缩传输,对网络带宽的要求,可能会比MV/A小些,当然成本上,RPA比MV高;

而客户对RTO/RPO没什么准确要求,他们关注的是数据一致性如何保证、以及如何从灾备中心进行数据快速恢复. 结合实际情况,我想请教,该如何选择?

2 Intern

 • 

4K 消息

2013年6月8日 18:00

看这个方案,感觉准备出低、中、高三个方案给客户吗?

容灾方案的话,最重要是确认RTO (恢复时间目标)和RPO (恢复点目标),简单来说就是客户对灾备的要求有多高。双活的话就VPLEX,否则RecoverPoint还是很不错的(支持恢复到任意时间点)。不想花太大价钱的话就MirrorView。

2 Intern

 • 

1.4K 消息

2013年6月8日 19:00

看下来,你对下面几点有要求:

  • 数据一致性
  • 成本
  • 快速恢复(RTO)
  • 带宽

1. 对数据一致性有要求,就是要保证备份站点的数据恢复过来之后必须可用,MV/A和PRA本身的机制就能保证数据总是在过去某一个时间点是一致的,但这里它们之间可能会有一个区别:MV/A只能保证Block级别的一致性,即它无法保证Application级别的一致性,换句话说,即便MV/A复制完成,此时你到备份站点去mount这个LUN给App,App未必会认为这个LUN是moutable的,因为可能缺少这份数据可能不包含application cache、file system cache、设置是存储SP cache中的数据。这是其本身工作机制决定的。但RPA可能不同,由于我不懂RPA,所以无法分析,所以这需要考虑到这个问题。保证端-到-端的数据一致性才是有意义的。

另外,要考虑源站点数据更新的频率来调整数据同步的时间间隔以确保RPO。有的时候因为带宽不够,可能会导致在给定时间间隔内无法完成所有变更数据的复制。比如,你指定每30分钟复制一次,10:00开始第一次复制,但到了10:35分还没有完成复制,此时照理第二次10:30的复制需要被触发了。MV/A会继续完成第一次复制,比如到了10:40完成,它会立马触发第二次复制。那么第一次复制已经完成,确保了block-level的数据一致性,这就足够了,第二次是第二次的事情,他自己会确保一致性。这里需要注意的一个问题是,你认为的30分钟不足以完成差异数据的复制,他可能需要40分钟,我们总是希望尽可能快的完成复制,确保这个时间段的数据一致性,但时间拖得越久,出故障的概率就越大,这可能就是我提这个问题的原因。导致这个问题的原因是:没有准确判断数据更新频率和复制链路带宽之间的匹配问题。你必须确保在指定RPO内必须完成复制(可靠性)。在我们的例子中,就是确保30分钟内所有差异数据可以复制完成。

2. 快速恢复 -> MV/A和RPA都可以,VPLEX本身设计不是用于数据恢复的,所以不推荐。

3. RPA成本更高,但功能强大,可以恢复到任意时间点。

4. 带宽 - 考虑到距离是300KM,那只能是异步传输。异步传输主要用于低带宽、高延迟的链路,MV/A这种软件本身就是这样么设计的,一般工作在T3 (大约44Mbps),延迟=50ms的链路上。当然RPA也能够做到。

综上,RPA、MV/A都可以选择,两者都能保证数据一致性,但MV/A能做到的RPA一定能做到,但RPA能做到的MV/A未必可以,如何确保Application level的数据一致性是你需要考虑的。另外,必须考虑RTO/RPO,这是设计灾备方案的根本需求依据。

107 消息

2013年6月8日 22:00

我认为不管是MV/A还是RPA/CRR都是可以实现数据一致性的,当然,我们有必要将保证数据一致性和业务级容灾区别开来,业务级的灾备系统,我印象中都是需要数据库级或是借助第三方软件辅助加以实现,而对于EMC的MV、RPA这些灾备产品是以实现数据级容灾为核心目标,也就是说,保证生产和灾备数据完全一致;假如生产中心挂掉的情况下,客户能够在灾备中心恢复业务,我们会拿RPO/RTO作为衡量容灾系统性能的重要指标,而客户的业务系统在灾备中心恢复,前提条件还是必须确保数据一致性,根据RPA和MV的工作原理,都是可以保证,当生产中心发生故障后,我们能在灾备中心将数据恢复并能够被正常使用,如你所说,缓存里的数据、文件系统缓存等,这些数据当在发生故障时,确实无法同步到灾备中心,而这些丢失的数据,都属于一个灾备设计方案所需考虑的RPO/RTO,客户是可以接受,但这和灾备中心的数据恢复没有必然联系,举例如下:

生产中心和灾备中心,做MV/A,假如设定是上次周期结束时间后的4小时做同步,暂定上次结束时间为10点,则下个同步时间为14点,生产中心发生故障为13:00,那可以得出下面的结论:

1、这个灾备系统的RPO=4小时;

2、灾备中心可以恢复到生产中心10点钟时候的数据状态;

3、业务系统若在灾备中心进行恢复,则有10至13点这段时间的数据丢失了,但业务系统是可以正常运行;

上述观点,请各位指正!

2 Intern

 • 

1.4K 消息

2013年6月8日 23:00

我不认为10点的数据100%可被App使用。

应该是观察角度不同,我明白你的意思,你是指纯数据级别的一致,也就是block-level一致,这个MV/A可以做到。如果谈到在备份站点把数据恢复出来是否一定能用,还需要其他方案保证App级别的一致性。我的意思是,MV/A做不到App级别一致,RPA是否能做到我就不清楚了,因为不懂,这一点只是作为你考虑方案的一个点,如果RPA能够做到,那最好。

2 Intern

 • 

1.1K 消息

2013年6月9日 01:00

灾备的所谓灾,分两种:硬件故障和数据corruption

所谓的复制副本也分两种:restartable 和 recoverable

MV/A和RP/SE CRR都是以异步复制的方式提供连续数据保护。

既然谈到一致性,那么最典型的例子就是数据库。在一致性方面都是他们利用consistency group把对数据库的相关的文件所在的LUN放到一起复制保证块级别(对应用来说就是文件级别)是一个整体。MV/A的一致性是crash-consistent,简单来说就是硬件crash之后,数据库肯定是宕机了,需要拿整个consistency group的LUN来启动数据库,通过数据库的前滚和回滚来恢复到最近的一致状态。RP/SE CRR的一致性除了能实现同样的数据恢复以外,他还支持application-consistent,虽然两者都是利用了snapshot技术但是RP在每个快照上加上了bookmark,bookmark可以唯一标记一个时间点甚至是数据库中的某个事件,RP还为每个consistency group配置了copy journal来记录每一次数据改动,所以能实现application-aware consistency,这样即使是没有硬件crash数据库没有宕机而仅仅是data corruption,RP支持recoverable,能做到在线的数据恢复到任意时间点。而MV提供的只是restartable image,即必须要宕机后restart的情况。

所以如果为了硬件故障两个都可以,还要防止数据corruption最好选择RP/SE CRR。

RPO和RTO千万不可忽视,因为这个DR里面最重要的参数之一。

先说RPO,MV/A的RPO就是两次synchronization之间的间隔,而RP CRR就是两个bookmark之间的间隔,这个是可以人为设置的,如下图。显然这个RP相对于MV的优势。

qq.png

至于RTO,理论上来说restartable image的RTO是要少于recoverable image的,所以这个是MV相对于RP的优势。

关于速率,在这样一个距离下,主要取决于链路了,用哪种方式关系不大。

License成本肯定是MV/A < RP/SE CRR < VPLEX。

如果不是考虑双活,即在两个站点间平衡负载和不宕机迁移数据,那么没必要上VPLEX,虽然VPLEX升任容灾是绰绰有余了。

2 Intern

 • 

3.2K 消息

2013年6月9日 02:00

前辈的回答太精彩了。

2 Intern

 • 

1.1K 消息

2013年6月10日 03:00

@ old cat  , the landlord, if you think my reply is correct or useful, please mark it as "correct reply" or "useful reply". thanks.

2 Intern

 • 

1.1K 消息

2013年6月12日 19:00

杯具啊~~~一个帖子最多能有一个正确答案和三个有用答案。

Community Manager

 • 

7.1K 消息

2013年6月12日 19:00

表示同情~~

2 Intern

 • 

1.4K 消息

2013年6月12日 19:00

噢。。。傻了,难道又是浏览器暂时性抽风?

找不到事件!

Top