稳定性管控 NSCI
为中间件运维团队建立“事前预警->事后复盘->经验沉淀”的稳定性改进循环,提高中间件运维治理的人效和成效。

中间件规模庞大且故障频发,如何高效完成稳定性治理?

伴随着业务发展,企业内日常维护的中间件规模体量越发庞大,对运维支撑团队提出严峻挑战

运维成本和门槛高
痛点描述 : 不同中间件的部署架构、运行特性差异较大,故障分析和处理非常依赖对口领域的专家经验。
产品及特色 : 分析引擎中沉淀了网易内部多年运维的经验,支持潜在风险的提前识别和典型故障的根因分析。
故障防范较为被动
痛点描述 : 针对可能会引发故障的潜在风险,缺乏有效的事前分析手段,只能头痛医头,脚痛医脚。
产品及特色 : 内置典型巡检项,周期性进行风险巡检,包括但不限于:容量风险、配置风险、架构风险。
经验沉淀复用难
痛点描述 : 即使将常见故障场景整理至企业内部运维知识库Wiki,依然依赖人工进行特征识别和分析判断。
产品及特色 : 针对常见的故障场景,可以将其沉淀至分析引擎,后续遇到相同问题能够自动识别和展示处理建议。
问题跟踪收敛繁琐
痛点描述 : 发现风险后需要人工跟进处理,涉及跨团队协作时,信息同步和状态闭环往往会造成较大的沟通成本。
产品及特色 : 分析引擎发现问题后,定期整理汇总风险列表通知到相关人的邮箱,且支持指派具体的处理人和标记处理状态。

核心优势

经验沉淀
内置了网易在中间件运维方面的专家知识和实践经验
开箱即用
针对多类中间件预置了常用的巡检规则和配置建议
因地制宜
支持根据特定业务场景,自由调整分析指标和策略
灵活开放
支持对接第三方脚本中心,对指标和策略进行扩展

核心优势

策略配置管理
支持基于内置模板,快速建立一套全面的风险分析指标和策略
巡检与预警
支持根据配置,定期触发指定的巡检任务,分析潜在风险并预警
健康度大盘
可按不同中间件品类汇总查看整体的健康度情况,定期发送邮件报表
异常根因分析
针对异常事件,基于模型库,进行特征匹配,识别典型故障并提供根因推测