• 106.47 KB
  • 9页

xx运营商-容灾项目DataGuard实施手册.doc

  • 9页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'XX运营商容灾项目DGSwitchOver测试报告后付费计费系统(zhjf)CRM生产系统(zhkf)2010-7ii 目录1.文档控制ii修改记录ii分发者ii审阅记录ii相关文档ii2.系统现状描述43.测试目的44.测试方法4总的测试步骤4具体的SwitchOver步骤55.所需时间66.风险控制6已知风险6未知风险77.应急处理78.建议79.附录(主备库配置信息)7综合计费生产环境(Primarysite)配置7综合计费容灾环境(Standbysite)配置8综合客服生产环境(Primarysite)配置8综合客服容灾环境(Standbysite)配置9ii 1.系统现状描述后付费计费系统和CRM生产系统是XX运营商两个重要的业务支撑系统,数据库采用Oracle10g版本10.2.0.2,均为两节点RAC,分别运行于IBMAIX5L和HP-UX平台。这两个系统数据量都非常大,分别为4.5T和13T。为了有效保证数据安全性、系统可用性,将在距主生产主机房约1000公里的容灾中心建立容灾系统,容灾技术采用Oracle10gDataGuardPhysicalStandby数据库(备用数据库)技术,将主数据库产生的归档日志通过网络传输到容灾中心,并应用到备用数据库中,使备用数据库与主数据库数据保持一致。这两个系统对应的容灾环境也是2节点的RAC环境,RAC到RAC的DataGuard环境目前并不多见,这也加大了对此容灾环境进行维护和使用的难度,因此进行相关的测试有利于当发生故障时能够及时切换到容灾环境,从而确保不对XX运营商的业务造成影响或者尽量将这个影响降低到最小。2.测试目的为后付费计费系统和CRM生产系统建立容灾环境,主要是通过使用OracleDataGuard技术,实现如下目的:l在主生产系统灾难时,使数据损失减到最低甚至为零(根据配置方式和灾难的程序),在最短时间内启用备用系统提供服务。l主生产系统硬件设备需要维护时,可以切换到备用系统提供服务,维护完成后可以回切。l可以通过备用数据库进行数据库备份,减轻因备份对主生产系统造成的压力。l适当保持备用数据库与主生产库的延迟时间,可以在一定范围内恢复人为失误导致的数据丢失。为了确保当主生产系统发生故障时,备用环境能够正常使用,在短时间之内能够使用备用系统提供服务,需要对搭建的容灾环境进行测试。OracleDataguard技术提供两种切换模式,SwitchOver和FailOver。前者切换之后主备关系仍然存在,容灾功能仍然具备,只是生产系统和备用系统的角色发生了改变;而后者切换生产系统和备用系统的角色同样发生了改变,但是此种切换模式会破坏主备关系,需要重新搭建容灾环境。通常在对主库进行一些维护操作需要停库时进行SwitchOver切换,当主库的维护操作完成再重新切换回来。通常当主库出现不可修复故障,系统不可用时进行FailOver切换,使用备用环境提供服务,之后容灾环境需要重新进行搭建。3.测试方法总的测试步骤对于CRM生产系统和后付费计费系统采用相关的方法和步骤进行SwitchOver进行测试。首先测试CRM生产系统,之后测试后付费计费系统。每个系统测试大概为4小时,一共需要8小时。测试方法如下:1、从主生产主机房SwitchOver到容灾中心容灾环境;2、应用程序连接到备用数据库进行2小时的业务测试;3、测试完成后直接进行FailOver; 具体的SwitchOver步骤下面描述下大致的操作步骤,详细的步骤请看:XX运营商容灾环境SwitchOver测试步骤V1.0.xls一、测试前的主备工作1、停掉所有在主库上的应用程序以及定时作业2、停止数据库及归档日志备份3、保证切换之前在主库上没有额外的会话连接Selectinst_id,count(*)fromgv$session;在各个主机上查看ps–ef|grepLOCAL=NO|wc–l二、SwitchOver测试步骤1、关闭主库和备库上的多余实例在生产环境,保留一个实例用于switchover的操作,干净关闭其他实例;在备用环境,保留正在进行应用归档日志进行恢复的实例,干净关闭其他实例。2、确认生产环境switchover操作是否可行(主库操作)在生产环境执行下面的语句Selectdatabase_role,switchover_statusfromv$database;正确的返回值应该是primary和tostandby3、在生产环境发起switchover命令,将primaryrole切换为standbyrole(主库操作)alterdatabasecommittoswitchovertostandby;(alterdatabasecommittoswitchovertophysicalstandby)这个步骤会备份当前的控制文件为当前session的trace文件4、关闭和重启之前的主库(primaryrole)(主库操作)ShutdownimmediateStartupmount5、验证备库环境的switchover状态(备库操作)在备库执行下面的语句Selectdatabase_role,switchover_statusfromv$database;正确的值应该standby和toprimary如果显示SESSIONSACTIVE,需要将活动的会话kill掉,杀掉活动会话还是继续显示SESSIONSACTIVE,则在下面的切换命令中添加withsessionshutdown6、在备库环境将备库(standbyrole)转换为主库(primaryrole)(备库操作)alterdatabasecommittoswitchovertoprimary;alterdatabasecommittoswitchovertoprimarywithsessionshutdown;7、完成备库到主库角色的转换(备库操作)如果备库从未以readonly方式打开过,则直接open备库Alterdatabaseopen;如果备库曾经被以readonly的方式打开过,则需要重启备库ShutdownimmediateStartup 8、重新在新的备库(原先的主库)上打开日志应用logapply(新的备库,之前的主库上操作)alterdatabaserecovermanagedstandbydatabasedisconnectfromsession;9、将数据库角色改变注册到CRS在切换的时候,由于是10gRAC环境,切换之后需要让CRS知道数据库角色的转换,以防止重启服务器的时候,CRS将一个转换为standbyrole的数据库以read/write的方式直接打开,造成不必要的失误。需要手工的将数据库角色的变化注册到CRS,方法如下:srvctlmodifydatabase-d-o-rPHYSICAL_STANDBY-smount这一步骤在实际进行SwitchOver过程中是必须的,因为我们此次只是测试,之后还是要再重新SwitchOver回来,这个步骤不是必须的。三、验证SwitchOver是否成功1、打开主库和备库其他的实例,同时验证switchover是否成功在新的主库上进行日志切换操作,查看日志是否能够正常传输到新的备库环境,并能够应用到数据库,同时监控alert日志,验证相关信息。新的主库Altersystemswitchlogfile;新的备库Selectsequence#,appliedfromv$archived_log;2、验证主备库的角色是否改变分别在主备库执行selectdatabase_rolefromv$database;1.所需时间按照计划,每个系统测试定的时间为4小时,一共需要8小时。在测试过程中如果出现问题,测试失败或者测试需要的时间太长,一旦影响到正常的营业则考虑取消此次测试,改在其他时间再次进行。如果在晚上20点开始进行测试的话,凌晨4点左右结束。2.风险控制已知风险SwitchOver的风险:有可能遇上未知的BUG导致失败,尽管我们已经查了文档,目前尚未发现与此相关的问题。FailOver的风险:FailOver 后,原系统的备份全无效,且STANDBY容灾环境需要重新构建,在一段时间内无可用备份,存在风险。另FailOver基本上不存在不成功的的可能,建议不要做FailOver,仍是SwitchOver回主生产。未知风险在操作过程中出现主机或网络故障,这也是可能的,因此在测试过程中如出现这类故障,需要停止此次测试,改在其他时间进行。如果正在操作过程中出现这些问题,需要查看主生产生产环境是否可用,如果不可用且主机或网络故障短时间无法解决时,可以考虑在备库进行FailOver或使用之前进行的clone数据库进行恢复,从而确保不影响第二天的营业或将其影响降低到最小。1.应急处理当紧急问题发生,比如在指定的时间内切换测试没有成功完成或其他情况出现,影响原定的计划,需要进行应急处理。下面分情况进行描述:1、SwitchOver切换测试失败,但是主生产生产环境可以正常使用,则推迟当前的测试,待问题查明后再进行;2、SwitchOver切换测试失败,主生产生产环境不可用,推迟当前测试,在备库进行FailOver或使用之前的clone数据库进行恢复;3、正常测试过程中,4个小时已经足够完成一个系统的SwitchOver测试,但是如果出现问题使得测试过程超过预先确定的时间,需要考虑推迟测试,改为其他时间进行;2.建议因为FailOver通常肯定是可以成功进行的,因此建议在每个系统的测试中最后以SwitchOver的方式切换回主生产生产环境,减少不必要的风险。3.附录(主备库配置信息)综合计费生产环境(Primarysite)配置系统配置如下表:节点1节点2IP133.224.202.31/32(VIP)133.224.202.34/35(VIP)主机名zhjf01zhjf02服务器IBMp595IBMp595操作系统AIX5300-02-00AIX5300-02-00Cluster软件HACMP5.2HACMP5.2Oracle版本10.2.0.2.0RAC10.2.0.2.0RAC$HOME/oracle/oracle$ORACLE_BASE/oracle/app/oracle/oracle/app/oracle $ORACLE_HOME$ORACLE_BASE/product/10.2.0/db_1$ORACLE_BASE/product/10.2.0/db_1$ORA_CRS_HOME$ORACLE_BASE/product/10.2.0/crs_1$ORACLE_BASE/product/10.2.0/crs_1警告日志文件路径/zhjf01_log/zhjf/bdump/zhjf02_log/zhjf/bdump$ORACLE_SIDzhjf1zhjf2DB_NAMEzhjf数据文件大小13TB归档日志量从2007年11月1日至2008年2月17日(共109天)的归档日志情况来看:109天的平均值:340GB/天,14GB/小时,约合4MB/s;其中归档日志最多的一天是2007年12月26日,日志数量为395个,约为780GB,当天平均值为33GB/小时,9.2MB/s按小时统计的峰值最高为120GB/小时,合34MB/s,出现在2008年2月17日19:00综合计费容灾环境(Standbysite)配置系统配置如下表:节点1节点2IP133.224.205.1/2(VIP)133.224.205.4/5(VIP)主机名Zhjf03Zhjf04服务器IBMp595IBMp595操作系统AIX5300-02-00AIX5300-02-00Cluster软件HACMP5.2HACMP5.2Oracle版本10.2.0.2.0RAC10.2.0.2.0RAC$HOME/oracle/oracle$ORACLE_BASE/oracle/app/oracle/oracle/app/oracle$ORACLE_HOME$ORACLE_BASE/product/10.2.0/db_1$ORACLE_BASE/product/10.2.0/db_1$ORA_CRS_HOME$ORACLE_BASE/product/10.2.0/crs_1$ORACLE_BASE/product/10.2.0/crs_1警告日志文件路径/oracle/app/oracle/admin/zhjf/bdump/oracle/app/oracle/admin/zhjf/bdump$ORACLE_SIDZhjf3Zhjf4综合客服生产环境(Primarysite)配置系统配置如下表:节点1节点2IP133.224.202.13/3(VIP)133.224.202.14/4(VIP)主机名zhkf1zhkf2服务器HPSuperDomeHPSuperDome操作系统HP-UXB.11.11HP-UXB.11.11Cluster软件ServiceguardExtensionforRACA.11.16.00ServiceguardExtensionforRACA.11.16.00Oracle版本10.2.0.2.0RAC10.2.0.2.0RAC$HOME/oracle/oracle$ORACLE_BASE/oracle/oracle$ORACLE_HOME/oracle/app/product/10.2.0/zhkf/oracle/app/product/10.2.0/zhkf$ORA_CRS_HOME/oracle/app/product/10.2.0/crs/oracle/app/product/10.2.0/crs警告日志文件路径/bdump_zhkf01/zhkf/bdump/bdump_zhkf02/zhkf/bdump$ORACLE_SIDzhkf1zhkf2 DB_NAMEzhkf数据文件大小4.5TB归档日志量从2007年12月29日至2008年2月17日(共51天)的归档日志情况来看:51天的平均值:176GB/天,7.4GB/小时,约合2.1MB/s;其中归档日志最多的一天是2007年12月30日,日志数量为187个,约为370GB,当天平均值为15.3GB/小时,4.4MB/s按小时统计的峰值最高为38GB/小时,合10.6MB/s,出现在2008年1月1日19:00综合客服容灾环境(Standbysite)配置系统配置如下表:节点1节点2IP133.224.205.7/9(VIP)133.224.205.8/10(VIP)主机名Zhkf3Zhkf4服务器HPSuperDomeHPSuperDome操作系统HP-UXB.11.11HP-UXB.11.11Cluster软件ServiceguardExtensionforRACA.11.16.00ServiceguardExtensionforRACA.11.16.00Oracle版本10.2.0.2.0RAC10.2.0.2.0RAC$HOME/oracle/oracle$ORACLE_BASE/oracle/oracle$ORACLE_HOME/oracle/app/product/10.2.0/zhkf/oracle/app/product/10.2.0/zhkf$ORA_CRS_HOME/oracle/app/product/10.2.0/crs/oracle/app/product/10.2.0/crs警告日志文件路径/bdump_zhkf01/zhkf/bdump/bdump_zhkf01/zhkf/bdump$ORACLE_SIDzhkf1zhkf2 '