AI + Ceph 分布式存储工程实战_实战课程

本章介绍：

本章主要对整体课程内容进行全面介绍，包括课程内容安排、学习收获、课程适应人群、学习建议等，让大家在最短的时间内，对课程有整体的了解。

第1章 AI+Ceph分布式存储工程实战--课程导学

1 节｜14分钟

视频：

1-1 AI+Ceph 分布式存储工程实战--课程导学

试看

13:56

本章介绍：

本章将为你揭示数据在AI革命中的基石作用，系统阐述大数据、算力与算法的协同关系，并重点解析分布式存储如何成为大模型不可或缺的基础设施。你将掌握分布式存储的六大核心优势与技术全景，理解其从传统存储到云存储的演进逻辑，并洞见AI与存储融合的未来趋势。

第2章 AI时代的数据基石

9 节｜75分钟

收起

本章介绍：

本章将为你系统讲解构建企业级Ceph集群的完整规划与准备工作。你将学会从硬件选型、操作系统配置到自动化运维工具（Ansible）部署的全流程环境搭建方法，掌握内部软件源、时间同步及安全加固等关键生产级实践，为后续集群部署奠定坚实基础。

第3章搭建生产级分布式存储集群环境准备

9 节｜124分钟

收起

视频：

3-1 集群架构设计：从规划到部署的全局视角

06:34
视频：

3-2 初探Ceph：开源分布式存储系统的核心架构

09:56
视频：

3-3 硬件选型与配置：构建高可靠存储节点的关键要素

17:41
视频：

3-4 操作系统与环境配置：打造稳定的集群运行基石

26:57
视频：

3-5 内部Yum源搭建：实现规模化高效部署

21:18
视频：

3-6 Ansible自动化运维：批量配置与管理的利器

09:39
视频：

3-7 Chrony时间同步：保障分布式系统一致性的守护者

15:41
视频：

3-8 节点安全加固：基础防护与访问控制策略

12:34
视频：

3-9 本章回顾：环境准备的关键要点总结

03:24

本章介绍：

本章将带你完成从0到1部署生产级Ceph集群的全程实战。你将亲手完成Monitor初始化、MGR部署、OSD批量添加，并深入掌握副本与纠删码存储池的设计策略、PG动态调整及CRUSH地图定制等核心技能，真正获得构建与设计分布式存储集群的能力

第4章从零打造你的分布式存储集群

11 节｜181分钟

展开

视频：

4-1 生产级集群部署：从规划到上线的全流程

06:09
视频：

4-2 Monitor部署与集群初始化

24:16
视频：

4-3 MGR深度解析：集群监控与管理的智能中枢

07:58
视频：

4-4 OSD批量部署：标准化硬盘初始化实战 (一)

19:16
视频：

4-5 OSD批量部署：标准化硬盘初始化实战（二）

25:07
视频：

4-6 副本存储池设计：为AI小文件训练优化性能（一）

16:25
视频：

4-7 副本存储池设计：为AI小文件训练优化性能（二）

17:30
视频：

4-8 EC纠删码存储池设计：大文件存储的经济高效方案

24:38
视频：

4-9 PG动态调优实战：实现存储池的智能负载均衡

16:59
视频：

4-10 CRUSH地图定制：掌握数据分布与故障域的设计艺术

18:52
视频：

4-11 本章回顾：集群部署核心技能总结

02:54

本章介绍：

本章将为你深入解析对象存储架构，并通过实战掌握Ceph RGW的完整能力。你将学会对象存储池规划、多网关高可用部署、生命周期与垃圾回收策略配置，并完成与PyTorch、JuiceFS及自研测试工具（Python/Go）的集成实践，打造面向AI数据湖的现代对象存储方案。

第5章分布式存储集群中的对象存储

18 节｜282分钟

展开

视频：

5-1 对象存储架构解析：数据访问模式与设计原则

05:00
视频：

5-2 Ceph RGW：开源S3兼容存储的实现之道

05:05
视频：

5-3 存储池功能划分：策略化数据管理（一）

25:39
视频：

5-4 存储池功能划分：策略化数据管理（二）

12:45
视频：

5-5 多RGW高可用部署：构建弹性对象存储门户（一）

16:48
视频：

5-6 多RGW高可用部署：构建弹性对象存储门户（二）

14:49
视频：

5-7 生命周期策略实战：智能数据清理与归档

28:48
视频：

5-8 GC机制与空间优化：垃圾回收原理与配置

10:48
视频：

5-9 元数据管理模式：Index与Indexless的优劣对比

24:23
视频：

5-10 功能验证实战：使用s3cmd全面测试对象存储

09:22
视频：

5-11 压力测试实战：CosBench揭示系统性能边界（一）

14:13
视频：

5-12 压力测试实战：CosBench揭示系统性能边界（二）

14:34
视频：

5-13 Python对接实战：开发面向DeepSeek的对象存储测试工具

26:44
视频：

5-14 Go语言实战：高性能测试与数据清理程序开发（一）

17:24
视频：

5-15 Go语言实战：高性能测试与数据清理程序开发（二）

16:33
视频：

5-16 AI训练对接实战：PyTorch直接读写对象存储数据

16:31
视频：

5-17 JuiceFS加速实战：为AI训练构建缓存加速层

18:38
视频：

5-18 本章回顾：对象存储核心能力与AI集成总结

03:26

本章介绍：

本章将为你剖析Ceph RBD块存储的核心引擎与优化原理。你将通过实战掌握块存储池设计、快照与克隆技术、性能测试工具（FIO/vdbench）使用，并完成与Kubernetes AI训练集群的对接，获得支撑云平台与高性能计算场景的块存储部署与管理能力。

第6章分布式存储集群中的块存储

9 节｜117分钟

展开

视频：

6-1 块存储核心引擎解析：性能优化与架构设计

05:25
视频：

6-2 Ceph RBD深度解读：云计算的存储底层逻辑

09:11
视频：

6-3 存储池优化实战：数据与元数据分离架构

16:21
视频：

6-4 快照功能实战：实现块设备的高效数据保护

15:02
视频：

6-5 快速克隆实战：秒级复制TB级数据的奥秘

14:13
视频：

6-6 性能测试实战：FIO与VDBench工具深度使用

18:40
视频：

6-7 AI训练场景实战：K8s集群与块存储无缝对接（一）

17:01
视频：

6-8 AI训练场景实战：K8s集群与块存储无缝对接（二）

16:56
视频：

6-9 本章回顾：块存储在企业与AI场景中的应用总结

03:55

本章介绍：

本章将为你解析分布式文件系统（CephFS）的架构与高性能共享方案。你将掌握文件系统分层设计、挂载优化、性能对比选型（JuiceFS/NFS/Samba）等实战技能，并实现PyTorch与分布式文件系统的直连访问，具备构建与管理海量非结构化数据存储平台的能力。

第7章实现PB级别的分布式文件存储

持续更新

本章介绍：

本章将为你构建企业级分布式存储监控体系的完整能力。你将学会部署并整合Prometheus、Grafana、Alertmanager核心监控栈，实现对集群硬件、Ceph组件及业务性能的全维度指标采集与可视化，最终建立起具备智能告警与自定义监控能力的可观测性平台。

第8章分布式集群的监控搭建和管理运维

持续更新

本章介绍：

本章将为你提供深度优化存储集群性能与稳定性的系统方法。你将掌握从万兆网络传输优化、操作系统内核参数调整，到Ceph OSD核心引擎精细配置的全链路调优技能，学会在保障数据安全（Scrub）的同时最大化I/O性能，以满足AI训练等高负载场景的极致要求。

第9章分布式存储系统集群调优

持续更新

本章介绍：

本章将为你系统构建生产环境故障应对与根因分析的能力。你将通过大量真实场景（如磁盘损坏、节点宕机、网络变更、数据恢复等）的实战演练，掌握标准化应急流程、高级数据恢复手法及常见故障的排查思路，成长为能够保障集群高可用的资深运维工程师。

第10章生产级分布式存储集群中常见的故障问题处理及排查

持续更新

本章介绍：

本章将为你开启分布式存储与AI大模型深度融合的创新实践。你将完成DeepSeek私有化助手的快速部署，掌握基于专属数据的知识库构建与模型微调，并开发智能日志分析与磁盘预警AI应用，亲身实践存储基础设施与AI智能体的协同演进。

第11章 DeepSeek推理大模型在分布式集群的应用

持续更新

本章介绍：

本章主要对课程内容进行全面总结，帮助大家梳理课程重难点，以便确保大家能够达到最好的学习效果。

第12章 AI+Ceph分布式存储工程实战--课程总结

持续更新

AI + Ceph 分布式存储工程实战

从0到1构建企业级 AI 存储平台，掌握 Ceph 集群部署、调优、AI对接技术，成为 AI 时代稀缺的存储架构高手

课程预览

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

热搜

最近搜索清空

课程预览

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

学习咨询