关于灾难恢复的国际和国内标准

释放双眼,带上耳机,听听看~!

 关于灾难恢复,无论是在国外还是在国内,其实早已有了相关的标准,本文汇总了部分相关标准,供大家参考。




01


国际标准:SHARE78



目前通用的灾难恢复标准采用的是1992年在AnaheimM028会议上制定的SHARE78标准,在该标准中阐述了灾难恢复的七个层级:

Tier0层:没有异地数据(No off-site Data)即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层并不具备真正灾难恢复的能力。

Tier1层: PTAM卡车运送访问方式(Pickup Truck Access Method)灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。PTAM指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。

Tier2层: PTAM卡车运送访问方式+热备份中心 (PTAM + Hot Center)相当于Tier1再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和网络设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。

Tier3层:电子链接(Electronic Vaulting)在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。

Tier4层:活动状态的备份中心(Active Secondary Center)指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。

Tier5层:两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-Site Two-Phase C ommit)提供了更好的数据完整性和一致性。Tier5需要两中心与中心的bias被同时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。

Tier6层:0数据丢失(Zero Data Loss),自动系统故障切换Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。

                       

    

图1.5-1容灾各层级的恢复时间与成本关系

02



国家标准:GT/T20988-2007


2007年7月,国务院信息化工作办公室领导编制的《重要信息系统灾难恢复指南》正式升级成为国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 )。这是中国灾难备份与数据恢复行业的第一个国家标准,并于2007年11月1日开始正式实施。 《信息系统灾难恢复规范》规定了信息系统灾难恢复应遵循的基本要求,适用于信息系统灾难恢复的规划、审批、实施和管理。《规范》具体对灾难恢复行业相应的术语和定义、灾难恢复概述(包括灾难恢复的工作范围、灾难恢复的组织机构、灾难恢复的规划管理、灾难恢复的外部协作、灾难恢复的审计和备案)、灾难恢复需求的确定(包括风险分析、业务影响分析、确定灾难恢复目标)、灾难恢复策略的制定(包括灾难恢复策略制定的要素、灾难恢复资源的获取方式、灾难恢复资源的要求)和灾难恢复策略的实现(包括灾难备份系统计数方案的实现、灾难备份中心的选择和建设、专业技术支持能力的实现、运行维护管理能力的实现、灾难恢复预案的实现)等内容作了具体描述。并参照国际标准SHARE78的七个层级定义,确定了符合中国国情的6个灾备能力等级要求。


2.1 第一级 

介质存储:为各种磁介质、光介质和纸介质提供存储服务。具有高标准的介质存储环境和设施; 

机房环境:根据客户的要求,灾备中心为客户准备符合国家标准的机房环境。 

数据备份:完全数据备份至少每周一次。 

§  满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第 1 级要求; 

§  完全数据备份至少每周一次; 

§  备份介质场外存放; 

§  有介质存取、验证和转储管理制度; 

§  按介质特性对备份数据进行定期的有效性验证; 

§  在灾难恢复时,可享有规范运行的数据中心环境和 7 x 24 小时专业技术支持。 


2.2 第二级: 

介质存储:为各种磁介质、光介质和纸介质提供存储服务。具有高标准的介质存储环境和设施;具有 7 x 24 小时门禁、视像监控和保安管理;提供 7 x 24 小时响应的媒体存放及获取服务。 

机房环境:根据客户的要求,灾备中心为客户准备符合国家标准的机房环境,包含符合灾难备份原则的机房选址、具备高抗震指标、高承重提升地板的物理建筑,具备多路专线供电线路、长延时冗余 UPS 系统、备用发电机组、专业精密空调系统以及气体灭火系统等各种基础设施,具备 7x 24 小时的严格出入授权控制和 7 x 24 小时的监控录像措施和严格的管理规范,以满足客户对灾难演练和灾难恢复期间的机房环境要求。 

网络备份:根据客户的要求,灾备中心可为客户预留所需的通信接入端口,以满足客户在灾难演练和灾难恢复期间对通信线路的要求。 

灾难恢复:一旦灾难发生,灾备中心可在约定的时间内提供灾难备份中心中所需的机房场地,客户能在此环境中,快速安装设备系统,利用备份磁带尽快恢复信息系统的运行。 

技术支持和业务恢复环境:灾备中心还可为客户提供所需 IT 系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。 

§  满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第 2 级要求; 

§  可为客户的媒体数据提供保护; 

§  客户节省了对机房建设及机房配套设施的大量投资和长时间的建设周期,直接获得了符合国家标准的机房环境和严格规范的机房管理服务; 

§  提供必要的网络接入端口,大大减少客户临时申请线路的长时间周期; 

§  用户可尽快完成有关设备系统的置备和安装,迅速恢复业务;

§  在灾难恢复时,可享有规范运行 的数据中心环境和 7 x 24 小时专业技术支持。 


2.3 第三级: 

介质存储:为各种磁介质、光介质和纸介质提供存储服务。具有高标准的介质存储环境和设 施;具有 7 x 24 小时门禁、视像监控和保安管理;提供 7 x 24 小时响应的介质存放及获取服务。 

机房环境:为客户准备符合国家标准的机房环境,以满足客户对灾难演练和灾难恢复期间的机房环境要求。 

主机备份:根据客户 IT 系统平台,灾备中心为客户准备符合客户要求的备份主机及外围设备,并在指定时间内确保这些设备处于硬件就绪状态,以满足客户灾难演练和灾难恢复所需的数据处理能力需求。 

网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备必要的备份通信线路及网络设备,以满足客户在灾难演练和灾难恢复期间所需的通信网络要求。 

灾难恢复:一旦灾难发生,灾备中心可在约定的时间内提供灾难备份中心中所需的机房场地,并提供备用主机和外围设备,使客户能够利用备份磁带尽快恢复客户信息系统的运行;同时还为客户提供必要的通信线路和网络设备,以便客户建立所需的通信网络,尽快恢复业务。 

技术支持和业务恢复环境:灾备中心还可为客户提供所需 IT 系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。 

§  满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第2 级要求; 

§  可为客户的媒体数据提供保护; 

§  可以使客户在 24-48 小时内恢复业务的运作;

§  节省客户在备份机房建设和备份主机设备等方面的大量投资; 

§  提供备份网络接入设备和网络接口,可以帮助客户迅速恢复服务渠道

§  分支机构的业务运作; 

§  在灾难恢复时,可享有规范运行的数据中心环境和 7 x 24 小时专业技术支持。 


2.4 第四级: 

数据备份:灾备中心可根据客户信息系统特点,采用业界先进的在线数据备份技术,建立面向 客户的数据备份系统,每天定时或批量传送备份数据,为客户实现重要业务数据的远程备份及其运行管理服务;可支持 S/390、Tandem、AS/400、RS/6000、HP、SUN、PC Server 等各类 IT系统平台。

机房环境:为客户准备符合国家标准的机房环境,以满足客户对灾难演练和灾难恢复期间的机房环境要求。

主机备份:根据客户 IT 系统平台及数据备份要求,灾备中心为客户配备符合客户要求的备份主机及外围系统,并对处于运行状态下的主机及外围系统进行日常维护,在满足了客户对灾难演练和灾难恢复所需的数据处理能力要求的基础上,进一步满足了客户对业务恢复时间的要求。

网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备必要的备份通信线路及网络设备,以满足客户在灾难演练和灾难恢复期间的通信网络要求。 

灾难恢复:一旦灾难发生,灾备中心已保留有客户生产系统在线备份的最新业务数据,客户可在此备份数据的基础上,使用灾备中心的机房场地、备用主机及外围系统,迅速恢复信息系统的运行;各服务渠道及各分支机构可在建立与备份中心的网络连接后立即恢复业务运作,进一步提高了客户业务恢复的速度。 

技术支持和业务恢复环境:灾备中心还可为客户提供所需 IT 系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。 

§  满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第 3、4 级要求; 

§  节省客户在备份机房建设和备份主机设备等方面的大量投资; 

§  享有 7 x 24 小时备份中心的专业技术支持和专业规范长期运营队伍支持; 

§  客户数据得到在线电子传输方式的备份,可使客户数据的丢失范围控制在24 小时之内; 

§  在备份中心为客户建立了备份的主机系统及网络系统,并有快速恢复措施,业务恢复时间 可控制在 8~24 小时之内。


 2.5 第五级: 

数据备份:灾备中心可根据客户信息系统特点,采用业界先进的远程数据备份技术,建立与生产中心宽带通讯线路,采用同步或异步方式实时在线备份数据,并可以通过两阶段提交等先进技术手段来进一步保证交易数据的完整性和有效性,为客户实现重要业务数据的远程实时备份和客户的业务连续性提供强有力的保护,并为数据备份系统提供运行管理服务;可支持 S/390、Tandem、AS/400、RS/6000、 HP、SUN 等多种 IT 系统平台。 

主机备份:根据客户IT 系统平台及数据备份要求,灾备中心为客户配备符合客户要求的备份主机及外围系统,并对处于运行状态下的主机和外围系统进行日常维护,在满足了客户对灾难演练和灾难恢复所需的数据处理能力要求的基础上,使客户业务恢复时间进一步的缩短。

 网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备必要的备份通信线路及网络设备,并可按不同服务渠道建立备份通信网络系统,以满足客户在灾难演练和灾难恢复期间的通信网络要求。 

灾难恢复:一旦灾难发生,灾备中心已保留有客户生产系统实时备份的最新业务数据,客户可在此备份数据的基础上,使用灾备中心的机房场地、备用主机及外围系统,立即恢复信息系统运行;各服务渠道及各分支机构也可快速切换到备份中心的通信网络系统,迅速恢复业务运作,大大缩短了客户业务全面恢复的时间。 

技术支持和业务恢复环境:灾备中心还可为客户提供所需 IT 系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。 

§  满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第 5 级要求; 

§  节省客户在备份机房建设和备份主机设备等方面的大量投资; 

§  享有 7 x 2 4 小时备份中心的专业技术支持和专业规范长期运营队伍支持; 

§  客户数据得到在线实时传输备份,可使客户数据的丢失范围控制在秒级到几小时之内; 

§  备份中心主机与备份网络均实时运行和处于随时就绪状态,业务恢复时间可控制在宣告灾难后几十分钟至几小时之内。 


2.6 第六级: 

数据备份:灾备中心可根据客户信息系统特点和需要,采用业界先进的远程数据备份技术和集群技术,建立与生产中心宽带通讯线路,通过先进的集群技术和远程数据备份技术,实现备份中心与生产中心的系统负载均衡和数据实时同步更新,以实现远程集群高可用性服务和自动灾难切换,为客户实现重要业务最高等级的业务连续性服务,并为备份系统提供运行管理服务;可支持 S/390、UNIX 等系统平台。 

主机备份:根据客户 IT 系统平台及数据备份要求,灾备中心为客户配备符合客户要求的备份主机及外围系统,并对处于运行状态下的主机和外围系统进行日常维护,满足客户对灾难演练和灾难恢复所需的数据处理能力的高标准要求。

网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备实时连通的备份通信线路及网络系统,并可提供多家电信运营商的备份通信线路,以满足客户在灾难演练和灾难恢复期间对通信网络的高可靠性要求。

灾难恢复:一旦灾难发生,灾备中心的远程集群系统将利用实时最新业务数据自动进行系统切换,客户的分支机构及服务渠道也可自动切换到备份中心的网络系统,在短时间内恢复客户信息系统的运作,避免了客户业务及对外服务出现停顿。 

技术支持和业务恢复环境:灾备中心还可为客户提供所需 IT 系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。 

§  满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第 6 级要求; 

§  节省客户在备份机房建设等方面的大量投资; 

§  享有 7 x 24 小时备份中心的专业技术支持和专业规范长期运营队伍支持; 

§  客户数据得到实时同步更新,保证业务数据的一致性和完整性; 

§  备份中心的远程集群系统及网络系统可自动进行负载均衡和系统切换,业务恢复时间可控制在分钟级。

 

由此可见,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,在灾难恢复文案建设中,如何确定业务系统的合理的灾难恢复等级是一大难题。在《信息系统灾难恢复规范》中也指出了,可以根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡)来确定。这里面,实际包含了两层含义。

1、业务单位在选择合适的灾备等级时,需要考虑投资回报率

对于银行、运营商、医疗等行业而言,核心业务系统的数据对于企业的正常运行至关重要,一旦数据大量丢失或业务长时间中断,造成的影响是无可估量的。例如2003年,某电信运营商的计费存储系统仅发生了两个小时的故障,就造成了400万元的经济损失,这还不包括公司品牌受损和客户流失等影响。因此,对于这些行业的核心业务系统,往往选择等级五到六的灾难恢复等级,虽然投资巨大,但是与风险造成的影响比较起来是相称的。而对于一般行业(例如中小企业),一方面受到资金投入、技术门槛、人员素质、管理及维护复杂度等因素的制约,另一方面发生灾难所带来的损失也不像银行、运营商等行业那么巨大,因此完全没有必要一味追求高的灾备建设等级,而是可以结合自身条件在等级一到等级五中进行选择。请参看我之前的一篇文章《企业信息安全投资回报率ROI的计算

2、每个业务单位中的不同业务系统,可采用不同的灾难恢复策略

同样是银行、运营商等行业,核心业务的灾备等级选择了等级六,有没有必要非核心业务(例如OA、网站等)也采用等级六呢?答案显然是否定的。风险给不同类型的业务所带来的损失是不同的,因此不能采用一刀切的方式进行灾备系统建设,而是需要细致分析业务单位信息系统的重要程度,有效区分核心业务和非核心业务,并平衡业务系统的实际需求和总体成本的关系。以某个银行同城灾备系统建设为例,该银行对应用进行了分级,对“核心、授信、网银等交易系统进行同城同步应用级的Recovery灾备系统建设”,而对“验印、集中授权、国际结算、资金交易、财务、OA应用等实施数据级的灾备建设”,另外“数据仓库、报表、管理信息和呼叫中心等系统”暂未进行灾备建设规划,视条件成熟再逐步考虑。因此,各业务单位在进行灾备系统建设时,需要根据业务系统重要性的不同,采用不同的灾备等级。这也说明,我们在进行灾备规划时,单靠一种方案或一种技术是行不通的,为了实现多种灾备等级,需要有一个完整的灾备技术体系作支撑。

3. RTO和RPO目标

信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)具有一定的对应关系,各行业可根据其行业特点及信息技术的应用情况制定相应的灾备等级要求和指标体系。在《规范》中,也给出了某个行业灾难恢复能力等级与RTO、RPO之间关系的示例,可作为参考:

灾难恢复能力等级

RTO

RPO

1

2天以上

1天至7天

2

24小时以后

1天至7天

3

12小时以上

数小时至1天

4

数小时至2天

数小时至1天

5

数分钟至2天

0至30分钟

6

数分钟

0

表1. 某行业灾难恢复能力等级与RTO、RPO之间关系示例

  需要指出的是,这个行业用户的灾备等级六中,RTO是“数分钟”而不是“0”。在实际的灾备建设中,部分的用户对此存在误区,认为等级六(或者说应用级灾备)就一定要达到RTO为0,即应用自动切换。从技术层面而言,目前的远程集群技术能够达到应用自动切换的目标,但是这种方式的弊端在于,多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进行误切换,运行风险高。我们知道,灾备中心的应用接管是一个管理和决策的过程,需要人为参与,无法完全交给机器和软件来替代完成的。一旦灾难发生,在人为决策后,将灾备中心服务器启动或恢复对外访问,通过几分钟实现业务的快速切换,既能够达到高等级的灾备建设目标,又能避免误切换的巨大风险。

通过对《信息系统灾难恢复规范》中该行业灾备建设RTO建议的研究,我们可以看到选择等级六时,“数分钟”的切换时间目标是非常科学和理性的。

我们再以前面介绍的进行同城灾备建设的银行为例,该银行在确定具体的灾备技术指标时,就非常理智的选择了RTO<5分钟、RPO为0,而且这个目标的确定还有一个前提是针对计划内的停机切换(例如由于系统升级、测试、维护等原因有计划的停机),如果对于计划外停机(例如由于电源故障、硬件故障、自然灾难、人为破坏等不可预知的原因的停机),则RTO和RPO目标将进一步降低了,比如RTO<半小时、RPO<10分钟。关于RTO的介绍,请参看我之前发的一篇文章《关于RTO,你理解对了吗?

4. 灾难恢复资源要素

在明确了灾备建设中灾难恢复能力等级和RTO、RPO目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。我们把《规范》中灾备建设内容的描述称之为灾备建设的七要素:

序号

要素

要素的考虑要点

1

备用基础设施

灾难备份中心选址与建设;

备用的机房及工作辅助设施和生活设施;

2

数据备份系统

数据备份范围与RPO;

数据备份技术;

数据备份线路;

3

备用数据处理系统

数据处理能力;

与生产系统的兼容性要求;

平时的状态(处于就绪还是运行);

4

备用网络系统

备用网络通信设备系统与备用通信线路的选择;

备用通信线路的使用状况;

5

灾难恢复预案

明确灾难恢复预案的:

A)整体要求

B)制订过程的要求

C)教育、培训和演练要求

D)管理要求

6

运行维护管理能力

运行维护管理组织架构;

人员的数量和素质;

运行维护管理制度;

其他要求;

7

技术支持能力

软件、硬件和网络等方面的技术支持要求;

技术支持的组织架构;

各类技术支持人员的数量和素质等;

表2.灾备建设的七要素

很多用户觉得灾难恢复系统建设复杂,是因为整个灾备建设过程牵涉到很多环节,给人感觉没有头绪、无从下手。通过对《信息系统灾难恢复规范》所定义的七要素的细致分析,我们不难发现,灾难恢复建设实际可以归纳为三个步骤:

第一步是建设灾备中心,主要考虑要素一即基础设施建设,包括灾备中心的选址与建设,备用机房、工作辅助设施和生活设施的建造等;

第二步是在灾备中心建设完成后,重点考虑如何将生产中心的数据同步到灾备中心,具体的讲就是考虑要素二、三和四,即数据备份系统、备用数据处理系统和备用网络系统;

第三步,就是日常的运维和管理,即要素五至七。

这三个步骤之中,基础设施建设、日常的运维管理属于灾备的基础支撑系统,业界有很多成熟的标准和体系可以借鉴。从技术的角度来说,最复杂的内容就是两个数据中心的同步,面临了很多技术上的选择难题,这也是传统灾备系统建设复杂性的根源所在,需要重点考虑规划。

《信息系统灾难恢复规范》中对七要素的详细定义,还可以引导灾备建设单位全面考虑灾难恢复建设的各个相关方面,防止片面强调个别要素而忽略整体。例如,大部分单位在进行灾备建设时,重“硬”而轻“软”,对于备用基础设施、数据备份系统、备用数据处理系统和备用网络系统充分重视和关注,而对于日常运维、灾难演练等有所忽略。灾备系统建设完成后,几年都没有进行演练,灾备的建设目标是否达到、灾难应急流程是否完善、数据恢复后是否可用等等都无法确定,花了巨资建设的灾备系统的效果自然也大打折扣。因此,详细对照《规范》中的七要素,有助于我们建设一个完整、完善、完美的灾备系统。

国标(GB/T20988-2007)的六个灾备级别与国际标准SHARE78的tier1至tier6基本是对应的,前三级(tier1至tier3)基本一致,后三级(tier4至tier6)略有差异。



03


国家标准:GB/T30146和31595


2013年,《公共安全业务连续性管理体系要求》国家标准(GB/T 30146-2013)正式发布。该标准同等采用了国际标准ISO22301:2012。国家标准(GB/T 30146-2013)按照PDCA循环模型,对业务连续性管理工作提出了详尽的要求,并对业务连续性管理行业内的一些相关术语及指标做了明确的规定,是企业业务连续性管理体系建设水平的衡量标准。目前越来越读的企业都在争取获得国家标准(GB/T 30146-2013)的认证。

2015年,《公共安全业务连续性管理体系指南》国家标准(GB/T 31595-2015)正式发布,该国家标准也是同等采用了国际标准ISO22313:2012。国家标准(GB/T 31595-2015)针对企业实施业务连续性管理体系中的方法和步骤给出了详细的指导,是帮助企业制定和完善有效的业务连续性计划的得力帮手。

以上两项国家标准的推出也将进一步推动我国业务连续性管理体系与国际接轨。

延伸阅读相关文章:

数据备份与灾难恢复

关于RTO,你理解对了吗?

企业信息安全投资回报率ROI的计算

实施灾难恢复方案要注意的因素

有了双活,真的就确保安全了吗?

有了备份,真的就确保安全了吗?

等保中对灾难恢复的要求


欢迎扫描二维码关注:大兵说安全

本文源自微信公众号:大兵说安全

人已赞赏
安全工具

你真的了解EDR吗?

2019-10-14 17:32:30

安全工具

注意:堪比WannaCry的漏洞来了,尽快打补丁

2019-10-14 17:32:57

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索