openEuler开源社区首次亮相CCF国际AIOps挑战赛,斩获季军

openEuler2022-08-18openEulerCCF

2022 年 3 月,第五届 CCF 国际 AIOps 挑战赛正式拉开帷幕,经过热身赛、初赛、复赛、决赛长达五个月的激烈角逐,由华为集团 IT-UniAI 产品与 openEuler A-Tune 团队共同组成的AeroSpaceX 战队在比赛中脱颖而出,斩获季军!

关于挑战赛

CCF 国际 AIOps 挑战赛(以下简称挑战赛)是智能运维领域最具影响力的专业赛事,由中国计算机学会(CCF)和清华大学联合发起,面向全球开放。截止至 2022 年共计举办了五届,从第一届仅有 100 多支队伍参赛,到如今有超过 400 支战队,和来自国内外知名高校、科研院所以及银行、保险、能源、运营商、互联网等众多行业的近千名选手报名,挑战赛的规模不断壮大,今年决赛的在线直播观看人数更是高达 4w+。

本届大赛以“微服务架构电商系统下故障识别和分类” 为赛题,高度贴合现实世界中互联网大规模电商业务架构,模拟真实场景中电商企业面对海量业务数据冲击时需要解决的运维挑战。

关于答题思路

基于本次挑战赛的赛题,AeroSpaceX 战队设计了具备自愈功能、主动监控的整体方案。该方案包含四大部分:整体监控模块、在线推理模块、离线训练模块和测试模块。

监控模块负责监控所有的在线进程,包涵了自动调参模块和三个检测模块等;在线检测进程之间都是解耦的,如果某个检测发生错误导致崩溃,自动重启模块会在 10 秒内重新恢复检测。

在线推理模块分为四个小模块:线上自适应调参模块可以在线学习线上流入的三种类型的数据模式,并利用 openEuler A-Tune 智能调优引擎 1 实现实时调参功能;在实时异常检测模块中,三个独立进程分别对三种不同数据进行检测,异常检测的结果作为根因定位模块的输入;当根因定位到异常的数据之后,便会对其相关的指标进行更详细的分析,最终故障分类模块会给出故障类型,并上报提交。

参数离线训练模块和有监督故障分类模型模块是支撑在线推理模块高效准确运行的必不可少的组成部分。在离线训练时充分学习历史故障数据,设置奖惩策略,实现数据类型级、实例级的参数调优,减少误报和漏报。

测试模块是本方案中的一个特色模块。该模块利用鲲鹏多核芯片和高性能 openEuler 系统实现离线并发测试,30 分钟即可完成离线 12 天故障时段的数据测试。与此同时,团队在测试模块中利用全量离线数据,实现 kafka 数据生产者,1:1 模拟线上评测系统,对线上检测性能进行摸底,保障运维系统线上功能稳定。

关于 AeroSpaceX 团队

AeroSpace 的成员来自华为集团 IT-UniAI 产品和 openEuler A-Tune 团队。

华为 IT 平台服务部-UniAI 产品承载华为 AI 战略,专注实现企业场景 AI,深耕销售、服务、供应、制造、财经等 20+业务及颗粒化领域 900+海量场景,基于“场景、算法、数据、算力”四位一体,建设企业 AI 解决方案及服务,联接开放生态,践行智能之道。

openEuler A-Tune 团队致力于操作系统智能调优、智能运维、智能安全方向的探索,通过机器学习、深度学习、时间序列、异常检测等方法实现操作系统的智能自治。当前团队还积极和海内外高校展开学术交流和访问,共同探索业界创新技术,构建国产基础软件核心竞争力。

交流与合作

祝贺 2022 CCF 国际 AIOps 挑战赛决赛暨 AIOps 研讨会成功举办,期待国际 AIOps 挑战赛与 openEuler 两大社区后续继续深入交流与合作!

如果您对操作系统智能自治、A-Tune SIG 等内容感兴趣,欢迎扫描文末小助手二维码,与我们一起探讨~

相关信息:

  • A-Tune 智能调优引擎:一款在 openEuler 开源社区孵化的基于 AI 的自动化、智能化性能调优引擎。它利用人工智能技术,对运行在操作系统上的业务精准建模,动态感知业务特征并推理出具体应用,根据业务负载情况动态调节并给出最佳的参数配置组合。通过调整系统和应用配置,充分发挥软硬件能力,从而提升业务性能。目前已在 openEuler 社区开源:https://gitee.com/openeuler/A-Tune

  • openEuler A-Tune 小助手微信: