写点什么

AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建

  • 2025-08-13
    北京
  • 本文字数:5579 字

    阅读完需:约 18 分钟

大小:2.72M时长:15:52
AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建

当前,AI 浪潮正以前所未有的力量重塑产业格局,国产化替代的加速推进,也让基础设施领域的技术创新成为了焦点。服务器操作系统作为算力底座的核心,正在经历着从 “适配” 到 “AI 原生驱动” 的关键变革。


由阿里云联合 InfoQ 打造的《AI 进化论:智算时代操作系统的破局之路》栏目首期,邀请北京大学计算机学院教授、副院长,中国计算机学会开源发展委员会副主任 周明辉,阿里云智能集团研发副总裁、龙蜥社区理事长马涛,围绕 AI 对操作系统的影响、技术演进、安全挑战、国产化机遇及生态构建等核心命题展开深度对话,解构智算时代操作系统的破局逻辑与实践路径。



以下为经编辑整理后的内容精粹。


01_AI 时代操作系统的重构与考验


操作系统的本质,始终是 “向下管理硬件资源,向上为用户和应用提供开发与运行保障”。周明辉教授在直播中强调,这一核心定位从未改变,但随着应用场景与硬件资源的迭代,其承载的功能与面临的挑战已发生根本性变化。从早期物理服务器时代的硬件资源管理,到云计算时代的虚拟化与多租户隔离,每一次技术革命都推动着操作系统的能力边界不断拓展。而 AI 时代的到来,尤其是大语言模型的训练与推理场景,正给这一经典系统带来前所未有的冲击。


“大语言模型的训练和推理,其核心特点是计算密集、数据量大、参数众多,这使得算力、存储、数据、模型必须实现一体化协同管理。” 周明辉指出,这种协同需求对传统的资源管理模式构成了 “革命性挑战”—— 传统操作系统的进程调度、内存分配、文件管理逻辑,已难以满足 AI 场景下的高效协同要求。


马涛结合近 20 年的产业实践,进一步拆解了 AI 场景的具体挑战。他以 GPU 为例:“现在一台 GPU 一体机成本高达几百万,让它高效运行 10 分钟,操作系统需要做好大量底层工作。” 在训练场景中,数据量的爆发式增长要求操作系统重新设计存储策略 ——AI 训练的中间数据多存储于对象存储或高性能文件存储中,如何将数据高效搬运至 GPU 显存、如何在显存不足时实现与内存的动态置换,都成为全新课题。而在推理场景中,多步骤计算对 CPU、GPU、存储、网络的差异化需求,更要求操作系统具备动态适配能力。


这种变化的背后,是计算核心的迁移。“过去数据中心以 CPU 为核心,调度算法围绕 CPU 设计;现在则转向以 GPU 为核心,CPU 更像‘保姆’—— 需要提前完成数据处理、内存准备等工作,让 GPU 专注于计算。” 马涛解释道,这种转变不仅涉及计算逻辑的重构,更引发了网络栈的连锁变革:在多机多卡协同场景下,数据如何跨设备高效传输、如何诊断机器间的故障、如何优化 shuffle 与 reduce 等操作,都需要操作系统在网络层进行深度革新。阿里云的 HPN7.0 技术在 SIGCOMM 上获得 best paper,正是这种优化的典型成果。


从实践来看,AI 驱动的变革已体现在操作系统的每一个细节中。马涛透露:“我们在阿里云通过持续优化计算、存储、网络等模块,将改进逐步开源到社区。每个小优化叠加后,操作系统会慢慢变得‘不一样’—— 比如针对 GPU 的调度算法、针对大模型的内存管理策略,这些积累最终会形成适配 AI 场景的新系统。”


据介绍,最新发布的阿里云服务器操作系统 4.0,便是上述优化的集大成者,它深度整合了 AI 训练与推理场景的底层能力,比如针对 GPU 显存与内存的智能置换算法、多机多卡协同的低延迟网络调度等,都是从千万级 AI 任务中沉淀出的技术结晶。


02_技术演进与安全攻坚:在改良与突破中寻找平衡


面对 AI 带来的挑战,操作系统的演进呈现出两条清晰路径。周明辉将其概括为 “改良与革命并存”:一条是基于传统架构进行 AI 适配优化,另一条是重构全新架构,让 AI 成为操作系统的核心。


“传统操作系统的架构已发展数十年,承载了无数应用,面向 AI 做改进是必须走的路,但这条道路充满挑战。” 周明辉坦言,传统技术路线的复杂性使得满足 AI 场景的大数据量、高计算密度、快存储响应等需求极为困难。以内存管理为例,大模型的参数规模动辄数十亿甚至上百亿,传统的分页机制与缓存策略已难以应对,必须重新设计内存分配与回收逻辑。


马涛从产业视角印证了这一判断:“工业界目前更侧重第一条路径,因为要兼顾现有用户的 legacy 系统与业务连续性。” 他以阿里云为例,操作系统团队通过 “小步快跑” 的方式持续迭代 —— 针对 AI 训练场景优化存储 I/O、针对推理场景优化任务调度、针对多卡协同优化网络传输,这些改进并非颠覆性创新,但积累到一定程度后,系统会呈现出全新的适配能力。“我们把这些工作开源到社区,一方面接受社区验证,另一方面也能汇聚更多开发者的智慧,从量变积累到质变。阿里云服务器操作系统 4.0 版本就是这种迭代模式的阶段性成果:它既兼容传统业务的运行需求,又能通过‘AI 加速引擎’模块为大模型训练提供专属优化,实现了‘legacy 系统平稳过渡’与‘AI 场景高效支撑’的双重目标。”


对于第二条路径,即 “AI 即操作系统” 的架构革新,两位嘉宾均认为其是未来方向,但需长期探索。“传统操作系统模型确实不适合 AI 场景,未来可能基于 GPU 核心重构体系,甚至用 Rust 语言重写内核。” 马涛指出,企业当下难以全身心投入,因为要平衡客户需求与技术革新 —— 这也是新型创业公司的机会所在,“它们没有历史包袱,可以轻装上阵,尝试全新架构”。周明辉补充道:“学术界也在关注这一方向,比如探索如何让大语言模型直接承担部分操作系统功能,未来用户可能‘用自然语言操作电脑’,这会彻底改变人机交互模式。”


技术演进的同时,安全与供应链风险成为不可忽视的挑战。周明辉从学术研究出发,提出两大核心解决方向:一是通过 Rust 语言重写内核解决内存安全问题,“比如北大国家实验室与蚂蚁集团合作的‘星绽操作系统内核’,利用 Rust 的内存安全特性构建‘宽内核’,在保障安全的同时兼顾性能”;二是通过形式化验证确保内核功能正确性,“形式化验证能发现传统测试无法察觉的数值溢出、条件竞争等问题,为自动驾驶、工业控制等安全攸关场景提供确定性保障”。


AI 场景的特殊性还加剧了供应链风险。周明辉强调:“软件供应链是全球命运共同体,只要互联网存在,所有参与者都无法独善其身。AI 供应链的风险更具独特性 —— 训练数据可能被投毒,海量参数中潜藏后门,从硬件芯片到 AI 框架的全链条都可能出现漏洞。” 他特别提到 XZ Utils 供应链投毒事件暴露出的社会工程学攻击,以及国内生态处于全球下游面临的 “断供风险”,“这些问题不是中国特有,而是全球性挑战,需要学界与产业界共同应对”。


针对上述安全方面的挑战,马涛从产业角度提出了 “体系化、平台化、智能化” 的应对策略。“体系化即覆盖代码拉取、编译环境、发布渠道等全环节,确保每个节点可控 —— 比如上游代码的溯源、编译机器的安全加固、发布包的签名验证。” 他解释道,“平台化是将所有信息透明化,让用户知晓软件包的来源、漏洞与升级路径,龙蜥社区已经实现了这一点,所有包的评分、更新记录、安全漏洞都公开可查。” 而智能化则是利用大模型提升安全水位,“比如让 AI 模拟攻击者进行渗透测试,或者自动分析代码中的潜在漏洞,这能大幅提升安全检测效率”。


在运行时安全方面,阿里云正在研发 “龙盾” 功能,通过全栈防护机制隔离风险。“即使攻击者突破防线,也无法获取其他用户数据,以此将安全损失降到最低。” 马涛坦言,对于大模型的数据污染风险,目前行业仍在探索,“我们在尝试通过数据标注与溯源技术提前识别风险,但无法做到零风险,只能尽力降低”。


03_国产化突围与生态共建:从 “跟跑” 到 “生态位跃升”


除了 AI 浪潮,“国产化”则是操作系统演进过程中的又一重要趋势。2020 年的 CentOS 停服事件,成为了国产服务器操作系统发展的 “转折点”。周明辉回忆:“当时全中国服务器中十之八九使用 CentOS,停服消息如同地震,这暴露了我们在全球软件生态位的低端 —— 过度依赖上游,一旦上游‘断水’,下游便陷入困境。” 但他同时强调,国产化绝非简单的 “替代”,而是 “立足全球化,向生态位高位攀升”。


“软件是全球化市场,国产化不能关起门来做。” 周明辉的观点鲜明,“我们的目标是吸引全球智力与市场,让国产操作系统不仅服务国内用户,更能进入国际市场。比如开源项目,就应该利用全球的开发者资源,解决全球性问题。”


马涛将国产化路径总结为 “脚踏实地 + 仰望星空”。他表示:“‘脚踏实地’是指通过社区的延保计划,帮助用户平稳过渡 —— 很多企业的业务系统基于 CentOS 构建,开发者可能都已离职,让他们重新适配新系统不现实。我们通过兼容接口、提供 CVE 更新,让用户能‘无痛迁移’,如同为旧桥梁铺设新的桥面,确保通行不受影响。” 而 “仰望星空” 则是积极参与国际上游生态,“在 Linux Kernel 等关键子系统中贡献代码,在 RISC-V、虚拟化等标准制定中争取话语权,如同从参与游戏到逐步制定游戏规则”。


他以龙蜥社区的实践为例:“我们联合欧拉、OpenCloudOS 达成生态协议,对 200 多个核心包(如 Kernel、GCC、GLIBC)统一版本与维护策略。这些包是操作系统的‘基石’,统一标准能减少重复劳动,让各方集中精力做差异化创新,如同大家共同建设地基,再各自加盖特色建筑。阿里云服务器操作系统 4.0 正是这一生态协同的产物,它基于龙蜥社区的技术底座,严格遵循核心包的统一标准,同时针对云与 AI 场景做了深度优化 —— 比如针对国产芯片的原生支持,能够实现‘一次适配,多平台运行’,这也是阿里云‘差异化竞争力’的具体体现。 ”


当然,核心组件的协同只是生态共建的起点,要实现真正的国产化突围,还需要构建一个多方共赢的生态系统 —— 这既是应对全球竞争的必然选择,也是技术持续迭代的核心支撑。周明辉指出:“生态的核心在于两个维度 —— 一是软件依赖网络中的生态位,即有多少下游软件、用户与市场依赖;二是社区参与度,包括开发者、企业、机构的贡献度,各方围绕价值诉求形成共生体系,如同一个热带雨林,不同物种相互依存、共同繁荣。” 他特别强调吸引年轻学子的重要性,“操作系统的未来在于年轻人,要通过开源大赛、课程合作等方式,让他们参与到社区建设中,如同培育树苗,为森林的未来储备力量”。


在这样的生态体系中,企业的参与并非单纯的 “慈善”,而是基于自身利益的理性选择,唯有形成利益共生的闭环,生态才能持续运转。马涛从产业视角补充了生态构建的关键:“技术决定生态的下限,而生态决定社区的上限。” 在他看来,健康的生态需要满足三个条件:一是开发者生态,吸引学生与爱好者 “为爱发电”——“我当年进入操作系统领域,就是因为兴趣,这种动力是持久的,如同艺术家对创作的热爱”;二是企业参与需找到利益回流点,“我们需要确保的是生态圈里的各方利益不冲突,形成 1+1>2 的效应,如同在一条产业链上,每个环节都发挥优势,共同提升整体价值”;三是清晰的定位与分工,“上游社区做好核心组件维护,中游发行版做好场景适配,下游企业提供服务与销售,形成良性链条,如同河流的上游、中游、下游各司其职,最终滋养整片土地”。


这种生态协同已初见成效。马涛透露:“龙蜥社区的包管理体系会对每个软件包打分,根据活跃度、更新频率、漏洞修复速度等指标推荐最优选择。这不仅降低了用户的使用门槛,也让上游开发者更重视包的质量 —— 形成正向循环,如同一个优质市场,买家与卖家相互促进,共同提升商品品质。”


04_未来展望:在产学研协同中定义下一代操作系统


对于下一代操作系统的形态,两位嘉宾一致认为 AI 将成为核心驱动力。周明辉预测:“传统架构的重构与全新架构的探索将长期并存。随着大语言模型能力的提升,未来可能实现‘用人话操作操作系统’—— 用户无需调用 API,只需自然语言指令,系统就能自动完成部署、调度等操作。”


马涛则从产业视角分享了阿里云服务器操作系统接下来的三大方向:一是持续优化核心组件,适配快速迭代的 AI 模型,“去年还是稠密模型,今年就变成 MOE(混合专家模型),参数规模从百亿级跃升到千亿级,操作系统必须紧跟这种变化,这也是我们在 Alinux 4.0 版本基础上规划下一代迭代的核心方向”;二是做好国产化算力的协同管理,“国内的 GPU、TPU 等异构芯片越来越多,操作系统要抽象硬件差异,让用户‘用起来一样方便’”;三是推动操作系统的智能化,“通过 AI 优化安全检测、运维调度、文件系统等模块,最终实现‘System for AI’与‘AI for System’的融合”。


产学研协同将加速这一进程。周明辉认为:“学术界可聚焦基础问题,比如新的调度算法、存储模型,通过‘小切口’突破;企业则擅长工程化落地,将学术成果转化为产品能力。” 他以形式化验证为例:“比如高校团队花数年时间攻克理论难题,然后企业则将其应用到内核开发中,只有这种协同才能真正解决问题。”


马涛补充道:“阿里与高校的合作模式有三种 —— 联合实验室聚焦长期方向,定向项目解决具体问题,开源合作吸引师生参与。比如在 AI for Security 领域,我们与高校合作训练大模型检测漏洞,既推动了学术研究,也解决了产业痛点。”


正如两位嘉宾所言,智算时代的操作系统正站在历史转折点上。无论是改良与革命并行的技术路线,还是 “立足全球化” 的国产化策略,亦或是 “价值共生” 的生态理念,其核心都是让操作系统真正成为 AI 时代的算力底座。在这条破局之路上,产学研的协同、企业的持续投入与开源生态的繁荣,将共同推动操作系统实现从 “适配 AI” 到 “原生驱动 AI” 的跨越,进而为全球智算产业发展注入中国力量。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里巴巴服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。

2025-08-13 16:224911

评论

发布
暂无评论
发现更多内容

前端技术分享:页面性能优化问题复盘

有道技术团队

前端

mark: centos 镜像下载地址

webrtc developer

Linux centos

移动开发平台WorkPlus | 快速实现企业移动应用集成化

BeeWorks

CRM重构项目

Mars

java培训:JVM 锁的优化和逃逸分析

@零度

JVM JAVA开发

启发式智能任务调度的探索

鲸品堂

算法 函数 任务调度

后端新手如何从 0 到 1 打造一款 Apache APISIX 插件

API7.ai 技术团队

后端 插件 Apache APISIX APISIX 网关

微服务从代码到k8s部署应有尽有系列(二、网关)

万俊峰Kevin

微服务 RPC web开发 go-zero Go 语言

英特尔CEO:开启超级摩尔定律的时代,推动前沿进展

科技新消息

翟佳:从技术工程师到「网红」开源创业者

腾源会

开源 开源公司

大数据培训:Flink全链路延迟的测量方式及原理

@零度

flink 大数据开发

web前端培训: Vue3面试考点分享

@零度

前端开发 Vue3

Android 12 “致命”崩溃解决之路

阿里巴巴终端技术

android 崩溃分析 客户端 UC内核

如何选择充血模型和贫血模型

蜜糖的代码注释

DDD 领域建模 2月月更

国内首款! 亚信科技数据库AntDB亮相中国信通院性能测试工具发布会

亚信AntDB数据库

Java&Go高性能队列之channel性能测试

FunTester

Go 性能测试 队列 channel FunTester

云原生微服务技术趋势解读

阿里巴巴中间件

阿里云 微服务 云原生 中间件

2022 年值得关注的 十大 DevOps 最佳实践

飞算JavaAI开发助手

【C语言】一篇速通常量变量

謓泽

编程语言 C语言 2月月更 常量变量

Linux常用的命令

龙空白白

linux 文件权限控制 linuc

第十二节:Springboot多环境配置

入门小站

spring-boot

在线YAML转JSON工具

入门小站

工具

文本检测算法新思路:基于区域重组的文本检测

华为云开发者联盟

文本检测 区域重组 文本检测算法 PixelLink TextSnake

【OH干货】如何向OpenHarmony社区提交代码

拓维信息

OpenHarmony

开源demo| 你画我猜——让你的生活更有趣

anyRTC开发者

音视频 互动白板 开源demo 你画我猜 社交娱乐

HTTP缓存协议实战

vivo互联网技术

缓存 浏览器 服务器 HTTP

如何通过测试用例保障交付质量

阿里云云效

阿里云 云原生 开发测试 测试用例 研发

网络编程懒人入门(十四):到底什么是Socket?一文即懂!

JackJiang

TCP 网络编程 socket IM 即时通讯IM

运维安全是指什么?如何做好运维安全?

行云管家

运维 网络安全 IT运维 运维安全

3种基于深度学习的有监督关系抽取方法

华为云开发者联盟

文本检测 区域重组 文本检测算法 PixelLink TextSnake

X6在数栈指标管理中的应用

袋鼠云数栈

Java 大数据 前端

AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建_阿里巴巴_付秋伟_InfoQ精选文章