在乐享AI咨询 →
技术支持

不同情景下MirrorView的故障恢复措施-联想乐享知识库

⚡ 核心结论

本文来源联想官方,解答关于 不同情景下MirrorView的故障恢复措施 的常见问题,包括:联想MirrorView在生产存储整台设备异常时,Secondary LUN处于Fractured状态且故障期间有新IO写入,怎么办、联想MirrorView如何修复生产存储主控SP异常并重启后LUN不同步的问题、联想MirrorView中Reserved LUNs满容量导致MV/A镜像变为admin fractured,怎么办等。

内容来源:联想官方

不同情景下MirrorView的故障恢复措施 问题:磁盘分区 故障现象: 当MirrorView复制出现不同的故障时,比如生产服务器和存储间连接断开、单个SP异常或者整台存储设备异常,如何缩短磁盘掉线的时间、保证数据一致性以及尽量减小数据恢复对用户产生的影响?解决方案: 生产存储(Primary Storage)上的故障情景 情景描述 状态 应对措施 生产存储整台设备异常 任意状态 选择一: 管理员将备选存储上的Secondary LUN提升成Primary LUN。当应用程序的数据恢复后,备选服务器可以再次访问数据。 注:生产存储出现故障时正在写入的IO无法传输给备选存储。此外,如果此时备选存储镜像当时正处于Fractured非同步状态,那么Fracture开始后写入的IO也无法传输给备选存储。 选择二: 修复并重启生产存储,然后用WIL(write intent log) 同步Secondary LUN。如果WIL尚未配置,则需要完全同步。 生产存储上次控SP(Secondary SP)异常 任意状态 修复该SP,数据访问不受其影响。 生产存储上主控SP(Primary SP)异常 服务器向主控SP的LUN发出IO请求 IO请求被生产存储拒绝,服务上的多路径软件发起LUN trespass,将该LUN切换到次控SP上,然后用WIL同步Secondary LUN。 生产存储上主控SP(Primary SP)异常并重启。SP不可用时没有IO请求 任意状态 检查所有Primary LUN和Secondary LUN的状态 Primary LUN和Secondary LUN处于in-sync状态 无需操作 Primary LUN和Secondary LUN处于synchronizing状态 如果完全同步中断,从上一次更新的时间开始重新同步。 如果使用fracture log的同步中断,需要完全同步。如果镜像用WIL同步,可以进行差量同步。 如果Auto Sync启用的话,同步会中开始,否则管理员需手动开始同步。 Primary LUN和Secondary LUN处于out-of-sync状态 需要完全同步。如果Auto Sync启用的话,同步会中开始,否则管理员需手动开始同步。 Primary LUN和Secondary LUN处于consistent状态 如果Primary LUN使用WIL,Primary LUN中尚未同步的区域会写入Secondary LUN中。如果Primary LUN没有使用WIL,Secondary LUN变成 out-of-sync状态,需要完全同步。如果Auto Sync启用的话,同步会中开始,否则管理员需手动开始同步。 路径故障-Primary LUN从原先的主控SP切换到次控SP LUN处于consistent或者in-sync状态 在LUN切换时暂停相应I/O,Fracture Log(MV/S)或者Reserved LUN(MV/A)切换到另一个SP上。 Primary LUN正在和Secondary LUN 同步 在新的主控SP(原来次控SP)上继续同步。 Secondary LUN处于fractured状态 Fracture Log(MV/S)或者Reserved LUN(MV/A)从当前的主控SP切换到另一个SP上。 后端(Back End)故障 任意状态 如果I/O能通过内部CMI重定向到另一个SP,主机仍然可以访问数据,镜像也会继续更新。 Media Error: 数据写入 返回服务器报错信息,任何Secondary images都变成admin fractured状态 Media Error: Write intent log 关闭Write intent log,镜像变成admin fractured状态。 Reserved LUNs 满容量(MV/A) MV/A更新 镜像变为admin fractured,用户须向RLP增添容量,然后继续更新。 备份存储(Secondary Storage)上的故障情景 情景描述 状态 应对措施 备份存储整台设备异常 任意状态 修复并重启备份存储, Secondary LUN变成Fractured。 除非在in-sync状态,须启用同步。 备份存储上次控SP(Secondary SP)异常 任意状态 无需操作。修复该SP,数据访问不受其影响。 备份存储上主控SP(Primary SP)异常并重启。 生产存储检测到故障,并且暂停Secondary LUN。 如果有故障的SP有段时间无法访问,管理员须手动切换Primary LUN到其次控SP。 当有故障的SP恢复正常,需要进行同步(除非在in-sync状态)。如果LUN是consistent或者synchronizing,系统会使用fracture log进行同步。否则需要实施完全同步。 路径故障- LUN从原先的主控SP切换到次控SP 无需操作。 后端(Back End)故障 任意状态 如果I/O能通过内部CMI重定向到另一个SP,主机仍然可以访问数据,镜像也会继续更新。 Media Error: 数据写入 镜像变成admin fractured状态。当故障修复后,管理员开始同步。 Reserved LUNs 满容量(MV/A) MV/A更新 镜像变成admin fractured状态。用户须向RLP增添容量,然后继续更新。

常见问题解答

联想MirrorView在生产存储整台设备异常时,Secondary LUN处于Fractured状态且故障期间有新IO写入,怎么办

原因:生产存储整机故障导致IO无法传输至备选存储,若镜像当时已处于Fractured非同步状态,则Fracture后的新IO均未同步至Secondary LUN,造成数据不一致。解决步骤:管理员需立即将备选存储上的Secondary LUN提升为Primary LUN,使应用程序可快速恢复数据访问;待原生产存储修复后,因WIL未捕获Fracture后的写操作,必须执行完全同步(不可差量同步)。注意事项:提升操作前需确认Secondary LUN无未提交的写意图日志依赖,且应用端已停止向原生产存储发起新IO。

联想MirrorView如何修复生产存储主控SP异常并重启后LUN不同步的问题

原因:主控SP异常重启后,Primary LUN与Secondary LUN可能处于out-of-sync、synchronizing或consistent等非in-sync状态,导致镜像数据不一致。解决步骤:首先检查所有Primary LUN和Secondary LUN状态;若为out-of-sync状态,须执行完全同步(Auto Sync启用则自动开始,否则需管理员手动触发);若为synchronizing状态且同步中断,需判断同步机制——使用fracture log中断则需完全同步,使用WIL中断则可差量同步;若为consistent状态且Primary LUN配置了WIL,则将未同步区域写入Secondary LUN,否则Secondary LUN降级为out-of-sync并强制完全同步。注意事项:WIL未配置时所有同步中断均需完全同步,且同步前应确保存储间链路稳定。

联想MirrorView中Reserved LUNs满容量导致MV/A镜像变为admin fractured,怎么办

原因:MV/A(MirrorView/Asynchronous)依赖Reserved LUNs(RLP)暂存异步更新的元数据和差异块,当RLP容量耗尽时,系统主动将镜像置为admin fractured状态以阻止数据不一致风险。解决步骤:管理员需登录存储管理界面,为RLP资源池扩容(增加至少一个与原有Reserved LUN同规格的LUN),扩容完成后,在MirrorView策略中选择对应镜像对,执行‘Resume Update’操作以恢复异步更新。注意事项:扩容操作不可删除现有Reserved LUN,必须新增;恢复更新前需确认Secondary Storage在线且无其他故障;若镜像已长时间处于fractured状态,恢复后首次同步将基于当前时间点全量比对差异。

联想MirrorView为什么生产存储后端故障时主机仍能访问数据且镜像继续更新

因为联想存储系统具备内部CMI(Clariion Messaging Interface)路径冗余机制:当后端链路发生故障时,I/O请求可通过CMI自动重定向至另一控制器SP,实现路径切换;该过程对主机透明,LUN持续可访问,同时MirrorView后台进程仍能通过可用路径向Secondary LUN写入数据,保障镜像更新连续性。此机制要求双控SP均正常运行且CMI互联正常,若双控同时故障或CMI链路中断,则该保护失效。