AI + Ceph 分布式存储工程实战

从0到1构建企业级 AI 存储平台,掌握 Ceph 集群部署、调优、AI对接技术,成为 AI 时代稀缺的存储架构高手

未完结:每周更新
|
难度:中级
|
时长:共 25 小时
新课榜第 10 名
349
原价¥399.00
距离活动结束
立即购买
加购物车
  • 掌握AI场景存储架构设计
  • 掌握分布式存储故障处理技术
  • 掌握AI+存储深度对接方案
  • 掌握企业级监控系统搭建
  • 掌握 Ceph 企业级部署技巧
  • 积累 AI+存储项目开发经验
试看本节课 13:56
1-1 AI+Ceph 分布式存储工程实战--课程导学

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
AI 算力狂飙,存储成为新战场。大模型训练需求年增10倍,80%企业面临存储架构与AI脱节瓶颈——数据加载慢、扩容难等问题。市场急需"懂AI的存储工程师",岗位薪资涨幅达25%+,具备 AI 场景经验者年薪超50万。本课程聚焦 Ceph 技术与 AI 大模型训练场景融合,结合 JuiceFS 加速、DeepSeek 实战,PB级存储架构设计、高并发优化、生产级故障恢复技能,助你快速成为"存储+AI"复合型工程师,抢占AI时代高薪赛道。

本章介绍:

本章主要对整体课程内容进行全面介绍,包括课程内容安排、学习收获、课程适应人群、学习建议等,让大家在最短的时间内,对课程有整体的了解。

第1章 AI+Ceph分布式存储工程实战--课程导学
1 节|14分钟
展开
  • 视频:
    1-1 AI+Ceph 分布式存储工程实战--课程导学
    试看
    13:56

本章介绍:

本章将为你揭示数据在AI革命中的基石作用,系统阐述大数据、算力与算法的协同关系,并重点解析分布式存储如何成为大模型不可或缺的基础设施。你将掌握分布式存储的六大核心优势与技术全景,理解其从传统存储到云存储的演进逻辑,并洞见AI与存储融合的未来趋势。

第2章 AI时代的数据基石
9 节|75分钟
收起
  • 视频:
    2-1 AI发展的核心要素:数据、算力与算法的协同演进
    06:06
  • 视频:
    2-2 分布式存储:大模型时代的必备基础设施
    06:46
  • 视频:
    2-3 六大优势解读:为何分布式存储是AI人才必争之地
    07:37
  • 视频:
    2-4 技术红利前瞻:早期布局存储技术的个人与企业机遇
    05:21
  • 视频:
    2-5 技术全景扫描:AI分布式存储体系全解析
    10:52
  • 视频:
    2-6 从本地到云:存储演进与分布式存储的本质
    13:22
  • 视频:
    2-7 存储类型解析:分布式存储的多元应用场景
    11:47
  • 视频:
    2-8 未来趋势:AI与存储的深度融合与协同进化
    07:17
  • 视频:
    2-9 主流大模型盘点:国内外AI存储需求对比分析
    05:16

本章介绍:

本章将为你系统讲解构建企业级Ceph集群的完整规划与准备工作。你将学会从硬件选型、操作系统配置到自动化运维工具(Ansible)部署的全流程环境搭建方法,掌握内部软件源、时间同步及安全加固等关键生产级实践,为后续集群部署奠定坚实基础。

第3章 搭建生产级分布式存储集群环境准备
9 节|124分钟
收起
  • 视频:
    3-1 集群架构设计:从规划到部署的全局视角
    06:34
  • 视频:
    3-2 初探Ceph:开源分布式存储系统的核心架构
    09:56
  • 视频:
    3-3 硬件选型与配置:构建高可靠存储节点的关键要素
    17:41
  • 视频:
    3-4 操作系统与环境配置:打造稳定的集群运行基石
    26:57
  • 视频:
    3-5 内部Yum源搭建:实现规模化高效部署
    21:18
  • 视频:
    3-6 Ansible自动化运维:批量配置与管理的利器
    09:39
  • 视频:
    3-7 Chrony时间同步:保障分布式系统一致性的守护者
    15:41
  • 视频:
    3-8 节点安全加固:基础防护与访问控制策略
    12:34
  • 视频:
    3-9 本章回顾:环境准备的关键要点总结
    03:24

本章介绍:

本章将带你完成从0到1部署生产级Ceph集群的全程实战。你将亲手完成Monitor初始化、MGR部署、OSD批量添加,并深入掌握副本与纠删码存储池的设计策略、PG动态调整及CRUSH地图定制等核心技能,真正获得构建与设计分布式存储集群的能力

第4章 从零打造你的分布式存储集群
11 节|181分钟
展开
  • 视频:
    4-1 生产级集群部署:从规划到上线的全流程
    06:09
  • 视频:
    4-2 Monitor部署与集群初始化
    24:16
  • 视频:
    4-3 MGR深度解析:集群监控与管理的智能中枢
    07:58
  • 视频:
    4-4 OSD批量部署:标准化硬盘初始化实战 (一)
    19:16
  • 视频:
    4-5 OSD批量部署:标准化硬盘初始化实战 (二)
    25:07
  • 视频:
    4-6 副本存储池设计:为AI小文件训练优化性能 (一)
    16:25
  • 视频:
    4-7 副本存储池设计:为AI小文件训练优化性能 (二)
    17:30
  • 视频:
    4-8 EC纠删码存储池设计:大文件存储的经济高效方案
    24:38
  • 视频:
    4-9 PG动态调优实战:实现存储池的智能负载均衡
    16:59
  • 视频:
    4-10 CRUSH地图定制:掌握数据分布与故障域的设计艺术
    18:52
  • 视频:
    4-11 本章回顾:集群部署核心技能总结
    02:54

本章介绍:

本章将为你深入解析对象存储架构,并通过实战掌握Ceph RGW的完整能力。你将学会对象存储池规划、多网关高可用部署、生命周期与垃圾回收策略配置,并完成与PyTorch、JuiceFS及自研测试工具(Python/Go)的集成实践,打造面向AI数据湖的现代对象存储方案。

第5章 分布式存储集群中的对象存储
18 节|282分钟
展开
  • 视频:
    5-1 对象存储架构解析:数据访问模式与设计原则
    05:00
  • 视频:
    5-2 Ceph RGW:开源S3兼容存储的实现之道
    05:05
  • 视频:
    5-3 存储池功能划分:策略化数据管理(一)
    25:39
  • 视频:
    5-4 存储池功能划分:策略化数据管理(二)
    12:45
  • 视频:
    5-5 多RGW高可用部署:构建弹性对象存储门户(一)
    16:48
  • 视频:
    5-6 多RGW高可用部署:构建弹性对象存储门户(二)
    14:49
  • 视频:
    5-7 生命周期策略实战:智能数据清理与归档
    28:48
  • 视频:
    5-8 GC机制与空间优化:垃圾回收原理与配置
    10:48
  • 视频:
    5-9 元数据管理模式:Index与Indexless的优劣对比
    24:23
  • 视频:
    5-10 功能验证实战:使用s3cmd全面测试对象存储
    09:22
  • 视频:
    5-11 压力测试实战:CosBench揭示系统性能边界(一)
    14:13
  • 视频:
    5-12 压力测试实战:CosBench揭示系统性能边界(二)
    14:34
  • 视频:
    5-13 Python对接实战:开发面向DeepSeek的对象存储测试工具
    26:44
  • 视频:
    5-14 Go语言实战:高性能测试与数据清理程序开发(一)
    17:24
  • 视频:
    5-15 Go语言实战:高性能测试与数据清理程序开发(二)
    16:33
  • 视频:
    5-16 AI训练对接实战:PyTorch直接读写对象存储数据
    16:31
  • 视频:
    5-17 JuiceFS加速实战:为AI训练构建缓存加速层
    18:38
  • 视频:
    5-18 本章回顾:对象存储核心能力与AI集成总结
    03:26

本章介绍:

本章将为你剖析Ceph RBD块存储的核心引擎与优化原理。你将通过实战掌握块存储池设计、快照与克隆技术、性能测试工具(FIO/vdbench)使用,并完成与Kubernetes AI训练集群的对接,获得支撑云平台与高性能计算场景的块存储部署与管理能力。

第6章 分布式存储集群中的块存储
9 节|117分钟
展开
  • 视频:
    6-1 块存储核心引擎解析:性能优化与架构设计
    05:25
  • 视频:
    6-2 Ceph RBD深度解读:云计算的存储底层逻辑
    09:11
  • 视频:
    6-3 存储池优化实战:数据与元数据分离架构
    16:21
  • 视频:
    6-4 快照功能实战:实现块设备的高效数据保护
    15:02
  • 视频:
    6-5 快速克隆实战:秒级复制TB级数据的奥秘
    14:13
  • 视频:
    6-6 性能测试实战:FIO与VDBench工具深度使用
    18:40
  • 视频:
    6-7 AI训练场景实战:K8s集群与块存储无缝对接(一)
    17:01
  • 视频:
    6-8 AI训练场景实战:K8s集群与块存储无缝对接(二)
    16:56
  • 视频:
    6-9 本章回顾:块存储在企业与AI场景中的应用总结
    03:55

本章介绍:

本章将为你解析分布式文件系统(CephFS)的架构与高性能共享方案。你将掌握文件系统分层设计、挂载优化、性能对比选型(JuiceFS/NFS/Samba)等实战技能,并实现PyTorch与分布式文件系统的直连访问,具备构建与管理海量非结构化数据存储平台的能力。

第7章 实现PB级别的分布式文件存储
持续更新

本章介绍:

本章将为你构建企业级分布式存储监控体系的完整能力。你将学会部署并整合Prometheus、Grafana、Alertmanager核心监控栈,实现对集群硬件、Ceph组件及业务性能的全维度指标采集与可视化,最终建立起具备智能告警与自定义监控能力的可观测性平台。

第8章 分布式集群的监控搭建和管理运维
持续更新

本章介绍:

本章将为你提供深度优化存储集群性能与稳定性的系统方法。你将掌握从万兆网络传输优化、操作系统内核参数调整,到Ceph OSD核心引擎精细配置的全链路调优技能,学会在保障数据安全(Scrub)的同时最大化I/O性能,以满足AI训练等高负载场景的极致要求。

第9章 分布式存储系统集群调优
持续更新

本章介绍:

本章将为你系统构建生产环境故障应对与根因分析的能力。你将通过大量真实场景(如磁盘损坏、节点宕机、网络变更、数据恢复等)的实战演练,掌握标准化应急流程、高级数据恢复手法及常见故障的排查思路,成长为能够保障集群高可用的资深运维工程师。

第10章 生产级分布式存储集群中常见的故障问题处理及排查
持续更新

本章介绍:

本章将为你开启分布式存储与AI大模型深度融合的创新实践。你将完成DeepSeek私有化助手的快速部署,掌握基于专属数据的知识库构建与模型微调,并开发智能日志分析与磁盘预警AI应用,亲身实践存储基础设施与AI智能体的协同演进。

第11章 DeepSeek推理大模型在分布式集群的应用
持续更新

本章介绍:

本章主要对课程内容进行全面总结,帮助大家梳理课程重难点,以便确保大家能够达到最好的学习效果。

第12章 AI+Ceph分布式存储工程实战--课程总结
持续更新
每周更新直至完结
适合人群
想进阶为AI分布式存储运维的传统运维人员
想要拓展分布式存储能力的后端工程师
想要补齐存储架构与AI对接短板的全栈工程师
想具备分布式对象/块/文件存储开发经验的开发者
对AI分布式存储技术感兴趣的其他技术人员
技术储备
具备Linux、Python基础
环境参数
Linux环境 Rocky 8.10
存储集群版本 Ceph 16.2.15
Python版本 Python3.10
监控系统软件 Prometheus、Node_exporter、Alertmanager
奋斗的松鼠哥
存储研发专家,运维专家, 已有143个学生
不为别的,只为提升面试通过率
尽管课程时间很长,
但没关系,我们有老师的陪伴,
还有同学之间互相鼓励,彼此帮助,
完成学习后,还能获得慕课网官方认证的证书。
立即购买
数据加载中...
《AI + Ceph 分布式存储工程实战》的真实评价
综合评分:分,共 人参与
篇幅原因,只展示最近100条评价
//

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号