全球首个!安徽电信成功实施商用城域云网双CP故障极限全业务逃生方案

中国电信科学技术协会 2023-12-29

近日,中国电信安徽公司(简称:安徽电信)携手华为制定并实施了全球首个商用城域云网双CP故障极限全业务逃生方案。该方案有效解决了城域云网vBRAS(虚拟化宽带接入设备)双数据中心异常故障时新用户无法上线的难题,标志着城域云网业务可靠性再上一个新台阶。

01  新型网络架构,迫切要求解决双CP故障业务逃生难题

当前,传统城域网正向城域云网演进,新型城域网的显著特点是网业分离,主要体现在网络架构由接入汇聚分层架构转变为叶脊(Spine-Leaf)架构,同时宽带认证设备MSE由实体物理设备转变为虚拟化设备(vBRAS)。vBRAS采用网络虚拟化云化架构,由集中部署的CP(控制平面)和分布式池化部署的UP(用户平面)组成。该方式解决传统BRAS设备资源利用率低、新业务上线慢的难题,同时也存在控制面集中部署导致的风险。

在网络攻击、地震、IT系统异常或CP软件异常等极端情况下,可能出现两个CP均无法正常工作的情况,导致新用户无法上线,业务影响面将由区县扩大为整个城域网,业务影响数量将由3万用户扩大到50万用户以上。为此,安徽公司携手华为积极研究双CP故障极限全业务逃生方案。

02  创新组网方案,实现极端场景下新型城域网全业务逃生

为解决上述痛点,安徽电信创新性提出MSE设备虚实结合的全业务逃生方案,并联合各方力量实施验证。

一是大胆创新,提出MSE设备虚实结合逃生方案。由于双CP故障时,vBRAS控制面失效,技术人员想到了利用传统MSE替代vBRAS功能,防止业务受损。在业务节点(S-Leaf)旁挂一台物理MSE设备,MSE的上联端口双归到不同S-Leaf,其端口与UP上联端口相对应,在Leaf设备上绑定相同的EVI实例。正常情况下关闭物理MSE上联端口。当双CP同时出现故障时,开启MSE上联端口,此时老用户在U面保持在线,新用户到物理MSE上线逃生,从而起到业务不受影响的效果。组网方案如下所示。

二是科学论证,稳步推进试点工作。依据以上方案思路,首先利旧老城域网退网的MSE设备,进行版本升级后完成入网。随后与华为公司沙盘推演双CP故障时预期效果。最后割接窗口期间分别采用了在CP上增加ACL策略拒绝用户上线、关闭UP业务接口等方式确保双CP同时故障。经过实际验证,在双CP故障时,老用户业务正常,新用户可通过物理MSE上线。

03  兼顾客户感知与投资效益,方案价值显著

本方案在兼容现有运营系统、保护网络投资的同时,能实现故障期间客户无感知。

一是运营系统(AAA认证系统&话单计费系统等)无需改造。老城域网退网后的MSE,只需简单版本升级,即可支持云化的AAA属性和DHCP属性发送、接收及解析,AAA等系统无需变动改造,同时不影响用户话单生成和计账。方案要求物理MSE、vBRAS与AAA系统通信接口统一,可同时保护MSE网络设备和运营系统的投资。

二是故障期间用户无感知。双CP故障时,家宽、IPTV、VPDN业务切换至逃生通道,老用户始终在U面保持在线,新用户从物理MSE上线。所有用户不受故障影响,从而保证业务不中断,用户无感知。

本方案旨在解决双CP故障导致城域网全阻断等极端场景的全业务逃生难题,在实现业务逃生的同时,兼顾运营系统及网络设备的投资效益,具有较高推广价值。随着城域云网的持续演进,vBRAS上承载的业务量逐步增多,本方案也将面向运维一线充分发挥价值。