大模型时代，智能化操作系统面临的机遇与挑战

openEuler2023-10-25openEuler

操作系统是计算机系统中的核心组成部分，也是架设在计算机硬件和软件之间的桥梁，它对计算机系统的性能和稳定性产生直接影响，是开发者和企业关注的关键根技术之一。在ChatGPT浪潮下，促进了各项技术创新发展，操作系统也不例外，那么在智能化时代，操作系统将迎来哪些挑战和机遇？openEuler社区TC委员熊伟在"长沙·中国 1024 程序员节的"2023 技术英雄会"上带来《智能化操作系统的机遇和挑战》的主题演讲，带来了他对智能化操作系统的前沿思考与探索实践。

openEuler社区TC委员熊伟以下为熊伟的演讲内容：

* 1024 * 大模型与OS协同优化已成趋势

操作系统将现大变局

据埃森哲在《技术展望2023》中显示，技术正朝着通用智能、数字身份、数据透明和前沿探索方向演进。其中特别指出：基础模型的问世，堪称人工智能历史上的最大变革之一。熊伟表示，大模型扩展了智能边界，而且智能边界将持续拓展，因此数据共享和数据安全将越来越重要。

面向大规模复杂系统的调优和运维等，传统的人工手段已难以为继，大模型与操作系统协同优化已成必然趋势。熊伟具体从以下两方面阐述，一是在运维上，由于数据中心和云的复杂性，造成定位效率低，修复时间长。例如大规模集群系统涉及器件的数量达百万甚至千万级，而平均稳定运行时间仅为天级。而且跨越故障的流程长，单器件故障，业界的处理时间为1-30天，这将严重影响系统的效率。针对此问题，微软尝试用大模型对40000个生产事故做微调，据数据显示，处理故障大约得到了70%的改善。此外，在社区和开源领域，K8sGPT通过将SRE经验编入大模型来诊断和分类集群问题。其次是在调优上，由于应用负载膨胀，软件栈厚重，参数众多且关联，人工调优已很难获得最佳性能。另外在硬件上，芯片工艺持续落后，负载协同复杂，硬芯微架构优化难，也造成硬件系统性能无法得到最佳释放。针对这个问题，在业界，Granulate通过AI对负载或者0代码修改获得5倍性能提升，降低了45%的成本；在学术界，纽约州立大学使用大模型应用参数自动调优，Google使用可学习AI数据结构代替hash算法。因此熊伟表示，大模型在运维等领域的加速应用，AI协同复杂、多场景的覆盖，打造操作系统智能化平台，实现大模型与操作系统的协同优化已成为必然趋势。譬如前不久，微软宣布将GPT-4大模型嵌入到操作系统里，利用GPT知识构建自主AI能力，改变了传统三十年的交互方式，实现了机器人流程自动化。

1024 算力效率与泛在智能应用

OS走向异构融合

在人工智能迅速发展下，未来人类向智能社会过渡。在这种大趋势下，人工智能的变化对操作系统造成的影响将主要体现在两个方面。一个是日愈复杂的算力系统，一个是泛在智能应用。智能应用对操作系统的诉求是人机实时智能交互，性能和资源利用与服务质量同等重要，也就是"鱼和熊掌兼得"。熊伟表示，

AI应用服务对系统低时延、高性能、高可用的综合诉求高，因此需构建低熵高效的操作系统。因为在传统的计算机体系中，如果吞吐量上升，其可靠性就会稍微下降一些，时延也会增加。但是AI时代以来，既要吞吐量更高，同时要求时延小，可靠性要求也高。所以可想而知，其难度有多大。此外，数据模型集增长迅速，但是开发效率低下。HuggingFace每天新增1000多个模型、300多个数据集，且仍在加速增长。但是在真正训练过程中，超80%的开发周期都在8天以上，模型开发的等待时间超60%，无效算力非常多。因此，AI工程化诉求强烈。AI技术发展牵引软件工程由传统敏捷开发工具链DevOps，向人工智能开发工具链DataOps、AIOps、DevOps演进。对于硬件来讲，传统处理器越来越多，如何调度？多样性计算时代，软硬件的发展给了操作系统调度重新设计的空间。但随着高速缓存造成的影响更适合硬件任务切换，任务的切换随着SMT/warp的增加会日渐复杂，硬件的调度和OS会形成互补。计算理论表明，计算模式最终趋向收敛，多种计算模式融合是应用发展的必然结果，系统层异构融合是趋势。异构融合的趋势下，多样性算力产品与生态不再孤立，正如NVIDIA DGX往全栈协同与融合方向发展，芯片硬件也会发生非常剧烈的变革，从单芯片发展为超级芯片，软件栈也会从传统的CUDA生态演进到集群融合完整栈。

1024 openEuler的未来：

打造AI原生的异构融合OS

面向未来多样性计算的智能时代，openEuler秉持"以AI赋能openEuler更智能，以openEuler使能AI更高效"的理念，尝试通过自然语言和操作系统进行交互沟通，打通领域知识，不仅支持GLM、LlaMA、Baichuan等大模型，还支持辅助运维、辅助编程等，通过AI赋能开发者，即"AI for openEuler"。下一步openEuler的设想是实现"openEuler for AI"，即通过异构算力协同，实现超大容量和高效算力。通过PB级异构内存管理，使训练效率提升20%以上，通过异构算力多维调度，使推理并发提升50%以上。展望openEuler的未来，其定位为 "面向未来多样性计算的智能时代，打造AI原生的异构融合OS"。熊伟表示，大模型和AI时代来临后，基础设施还将产生哪些变化，华为与各界仍在不断探索中，而华为将持续提供优质服务，为开发者和企业提供坚实 "装备"。