×

微信扫一扫,快捷登录!

IT灾难恢复计划  

标签: 暂无标签
ITIL中有一个持续性管理,其中的一个核心是灾难恢复计划(disaster recovery planning,DRP),它实施的是一个技术框架,支持在灾难发生之前、之中、之后的业务需求。其主要目的是将系统风险降低到可接受的程度,确保重大业务中断事件发生后,能使用一种可接受的经济方式恢复关键的业务运作。
DRP也是业务持续性计划(business continuity planning,BCP)中子计划,事实上,在企业中业务持续性计划是由业务部门的领导制定,而DRP是由IT部门来领导。
如果一个IT部门/组织没有灾难恢复计划,那是不可想象的,那灾难恢复计划的制定有哪些步骤呢?下面就个人经验分享:
1、至少安排一个执行人员负责,此人需要熟悉业务方面操作,可以寻求向业务部门请一位,事实上,执行人员需要确保IT设施受到保护。
2、成立团队,这些需要考虑的人员是技术人员,特别重视的是这些人员中必须有灾难恢复计划的经验,若无,建议向外公司请顾问
3、确定支持关键业务功能的应用程序/系统
4、确保这些系统的关键数据是有备份的,而且是可靠的
5、制定计划,确定在发生灾难时,使用的是外部资源还是内部资源
6、对这个计划进行实施演习,如果成功,则为所有的应用系统设计一个更加全面的恢复计划。则形成一套方法模板
灾难恢复计划的例子模板:
(1)恢复计划概况及规范
  a.计划的目的和目标
  b.人员安排及责任描述
  c.恢复行动总结
(2)灾难报警及行动过程评估
  a.恢复管理初始通报
  b.领导通报
  c.  灾难确认和评估
  d.灾难恢复计划行动和恢复人员通报
(3)灾难恢复管理过程
  a.恢复操作管理
  b.恢复操作控制
  c.支持协作部门
(4)处理条件及操作服务过程
  a.建立替代操作或者备份区域(如果可行的话)
  b.恢复和重建基本的数据和信息
  c.激活备份的计算机工具
  d.激活备份的通讯及网络工具
  e.激活基本处理及操作服务
  f.激活终端用户界面和服务
(5)恢复过程工具
  a.激活损坏评估以及对建筑物、设备、软件、数据、信息和供应残存价值评估
  b.修理及置换受损场所
  c.重新激活备份场所
(6)激活厂家支持
(7)计算机中心服务灾难水平说明
  a.表明当影响了企业计算能力的灾难发生之后需要提供的服务水平
  b.这份服务说明表必须被包括在“服务水平协议”之中,并且向所有使用IT部门提供的IT服务说明
例如:
序号

服务

故障预见

故障级别

故障预防措施

故障处理和恢复措施

要求时间

责任人员

备注

1

***

MQ服务器硬件损坏,造成到***系统通讯中断

二级

1、准备备用环境:
以另一台同型号服务器做备用机--目前是***系统的四台AP服务器中的一台(具体服务器名);
在(具体服务器名)预先安装配置MQ环境;
2、保证系统安装配置指南的可用性和练习;

1、如果硬盘无故障,将一台***系统的AP服务器(IP地址)的硬盘拔出、而将MQ服务器的硬盘拨下来插到**ip的服务器上使用,***服务器停止提供***的AP服务;

2小时内完成

***

 

2、如果系统硬盘不可用,根据手册重新配置一台MQ服务器。

3小时内完成

2

F5负载均衡器损坏

一级

启用备用机

备用机已经激活,可按原来方式配置

1小时内完成

***

 

3

有一台小型机出现故障无法使用

视情况而定

1、测试小型机群集和RAC的有效性和切换过程中可能发生的异常;
2、建立完善的备份策略和测试备份的可用

向IBM报修等待故障恢复后加入到群集中

 

正式环境的备份恢复无法测试

4

两台机器都出现故障无法使用

一级

如有可能,准备***系统DB的备用服务器,与正式系统环境配置相同;
建立完善的备份策略

向IBM报修故障处理;
如有备机则按照手册在备用服务器上进行恢复

 

***

 

5

磁盘阵列出现故障无法使用

6

核心交换机故障或网络故障导致网络不可访问***系统

一级

建立完善的网络设备故障切换方案

按相关方案执行

 

 

 

7

Internet网络出口故障

一级

1、申请多个厂商备用出口;
2、测试监测出口切换的有效性;

如无备用出口,则只能向电信报障等待修复

 

***

 

8

外部域名系统故障;造成外网无法用域名访问系统

二级

定期检查外网* 域名状况;

联系域名服务商处理;通知外网用户以IP访问系统;

 

***

 

9

内部域名系统故障;造成内网无法用域名访问系统

三级

定期检查内网 域名状况;配置多台DNS服务器

启用备用的DNS服务器;如果处理时间较长则通知内网用户以IP访问系统;

1小时内完成

 

恢复报告:
1 测试目的
2 测试范围

3 测试说明

4 测试方法及使用资源

5 测试演练内容

5.1 数据恢复测试

5.1.1 环境准备

5.1.2 恢复数据

5.1.3 恢复验证

5.2 应用恢复测试

5.2.1 环境准备

5.2.2 恢复应用

5.2.3 恢复验证

5.3 验证结果




上一篇:CIO必须拥有的五项IT管理技术
下一篇:一个项目经理的总结—转
davidyeung

写了 11 篇文章,拥有财富 1887,被 4 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
davidyeung 发表于 2011-1-18 12:18:55
各位高手,希望多交流啊,不要做路人甲乙丙丁 :D
长河 发表于 2011-1-18 13:48:41
没看见教育和培训、审计计划哦。
长河 发表于 2011-1-18 13:49:04
这些是质量保证措施。
davidyeung 发表于 2011-1-18 13:57:48
好,谢谢指点!:)
对于教育和培训,这个是落地推广时候考虑的,没有在计划中体现
而审计方面,ISO20000建议通过外部审计人员观察和报告,在自身检查方面,测试是检验计划的的缺陷,虽然很多的测试无法保证
123下一页
返回顶部