本章主要对整体课程内容进行全面介绍,包括课程内容安排、学习收获、课程适应人群、学习建议等,让大家在最短的时间内,对课程有整体的了解。
本章将为你揭示数据在AI革命中的基石作用,系统阐述大数据、算力与算法的协同关系,并重点解析分布式存储如何成为大模型不可或缺的基础设施。你将掌握分布式存储的六大核心优势与技术全景,理解其从传统存储到云存储的演进逻辑,并洞见AI与存储融合的未来趋势。
本章将为你系统讲解构建企业级Ceph集群的完整规划与准备工作。你将学会从硬件选型、操作系统配置到自动化运维工具(Ansible)部署的全流程环境搭建方法,掌握内部软件源、时间同步及安全加固等关键生产级实践,为后续集群部署奠定坚实基础。
本章将带你完成从0到1部署生产级Ceph集群的全程实战。你将亲手完成Monitor初始化、MGR部署、OSD批量添加,并深入掌握副本与纠删码存储池的设计策略、PG动态调整及CRUSH地图定制等核心技能,真正获得构建与设计分布式存储集群的能力
本章将为你深入解析对象存储架构,并通过实战掌握Ceph RGW的完整能力。你将学会对象存储池规划、多网关高可用部署、生命周期与垃圾回收策略配置,并完成与PyTorch、JuiceFS及自研测试工具(Python/Go)的集成实践,打造面向AI数据湖的现代对象存储方案。
本章将为你剖析Ceph RBD块存储的核心引擎与优化原理。你将通过实战掌握块存储池设计、快照与克隆技术、性能测试工具(FIO/vdbench)使用,并完成与Kubernetes AI训练集群的对接,获得支撑云平台与高性能计算场景的块存储部署与管理能力。
本章将为你解析分布式文件系统(CephFS)的架构与高性能共享方案。你将掌握文件系统分层设计、挂载优化、性能对比选型(JuiceFS/NFS/Samba)等实战技能,并实现PyTorch与分布式文件系统的直连访问,具备构建与管理海量非结构化数据存储平台的能力。
本章将为你构建企业级分布式存储监控体系的完整能力。你将学会部署并整合Prometheus、Grafana、Alertmanager核心监控栈,实现对集群硬件、Ceph组件及业务性能的全维度指标采集与可视化,最终建立起具备智能告警与自定义监控能力的可观测性平台。
本章将为你提供深度优化存储集群性能与稳定性的系统方法。你将掌握从万兆网络传输优化、操作系统内核参数调整,到Ceph OSD核心引擎精细配置的全链路调优技能,学会在保障数据安全(Scrub)的同时最大化I/O性能,以满足AI训练等高负载场景的极致要求。
本章将为你系统构建生产环境故障应对与根因分析的能力。你将通过大量真实场景(如磁盘损坏、节点宕机、网络变更、数据恢复等)的实战演练,掌握标准化应急流程、高级数据恢复手法及常见故障的排查思路,成长为能够保障集群高可用的资深运维工程师。
本章将为你开启分布式存储与AI大模型深度融合的创新实践。你将完成DeepSeek私有化助手的快速部署,掌握基于专属数据的知识库构建与模型微调,并开发智能日志分析与磁盘预警AI应用,亲身实践存储基础设施与AI智能体的协同演进。
本章主要对课程内容进行全面总结,帮助大家梳理课程重难点,以便确保大家能够达到最好的学习效果。
选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题