问题描述
工程师在网管发现一台新建OSN6800子架有多块单板上报COMMUN_FAIL告警,且告警上报时间相同,该子架为主子架,没有配置从子架;
查看该网元历史告警,发现在出现COMMUN_FAIL告警之前,该网元曾上报过SUBRACK_LOOP告警。
告警信息
COMMUN_FAIL;SUBRACK_LOOP
处理过程
安排站点工程师带AUX备件去现场,拔插AUX板,单板复位后告警消失,观察20分钟,该告警没有再上报。
根因
1、查看COMMUN_FAIL告警参数,参数为0x010x000x03,表示板间ETH通信失效
2、网元曾上报过SUBRACK_LOOP,该告警一分钟后消除,该告警表示子架间网口环回,可以引起广播风暴,从而导致个别通信端口吊死
3、AUX单板故障也可引起COMMUN_FAIL
建议与总结
此案例是由于设备主从模式下,子架间内网口连接成环,引起以太网广播风暴,冲掉了AUX一些单板的通信端口,导致这些单板通信失效。
由此可见,如COMMUN_FAIL告警同时伴随SUBRACK_LOOP,建议仔细检查子架间的网线连接,如SUBRACK_LOOP告警已消失,但COMMUN_FAIL仍存在,则建议硬复位AUX单板。
另外,COMMUN_FAIL告警参数如下,供参考:
参数为0x010x000x01时,表示RS485的1号通道失效;
参数为0x010x000x02时,表示RS485的2号通道失效;
参数为0x010x000x03时,表示板间ETH通信失效;
参数为0x010x000x04时,表示子架间紧急ETH通信失效。