自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Juicefs是一个挺逗乐子的玩应儿啊

Juicefs 号称自己把数据尽可能多的缓存到计算侧提高AI训练加载数据的速度是吧?那按你这个逻辑直接在客户端怼一个华为的128T 固态硬盘,把全部数据都装本地,那是不是更快啊?那还有你们这个什么分布式文件系统什么事嘛?一个做分布式存储的天天琢磨cache,不去做文件系统也够有趣的!

2024-08-13 18:28:59 402

原创 一种更合理的独立元数据方案

我们可以看到juicefs元数据需要存储到一个第三方的数据库中,例如redis或postgresql中,而且还要给这个第三的数据做数据的安全机制,例如副本或ec的这种机制,而 data storage这边的对象存储本身就有副本或ec的数据安全机制,也就是元数据 维护一套数据安全机制,数据部分又有一套其他的副本的安全机制。有想试玩一起交流的小伙伴 可以加群一起交流。这个是juicefs元数据分离方案。这个是hpfs的实现。

2024-07-05 12:19:53 495 1

原创 关于在纯对象接口上做文件系统的分析讨论

这种差异至关重要,因为文件系统处理的操作更复杂,通常需要对象存储系统如 MinIO 所不擅长支持的功能,例如典型的文件系统操作中的高频率、低延迟交互。所以说,在类似S3接口之上去强行开发文件系统这个想法可能就已经不合适了,AB Periasamy是minio 的创始人,同时也是glusterfs的创始人,我想他是对分布式文件系统和对象最了解的!Periasamy指出,对象存储是为处理非结构化数据而设计的,如照片、视频等,它优化了数据的存储和检索,但不适合执行传统文件系统中常见的高频率、低延迟的文件级操作。

2024-06-28 10:53:00 682

原创 聊聊close to open 这个人为造出来的标准

有一天我们这里招来的新人,突然给我提出来一个close to open 这个标准,一下子给我干短路了;但是,现有的posix标准是全世界都在按这个规则做的,难道让全世界的文件系统开发按你的规则来吗?其实这种问题在行业里非常多,如果客户出现数据问题,完全可以与他们走法律程序,一句话都不要多说!我理解不知道对不对啊?因为我也是刚听到这个概念,是不是 可以说缓存的这100G根本就无法做到完全的数据一致性,一致与否全靠运气?我查完之后,我说这也不是posix标准啊,不就是一个根本解决不了一致性的一个权宜之计嘛!

2024-06-27 15:45:57 795 2

原创 有人关掉过juicefs客户端的cache使用吗?

因为我知道在分布式存储中,客户单的cache会带来很大的风险我需要把juicefs的客户端cache关掉,我用的是redis作为后端存储元数据,我简单的跑了一下性能,发现性能太低了,而且redis进程cpu利用率已经有一个core打满了,性能的低的我无法直视啊,我不知道是我测错了,怎么的了,有同样问题的同学吗?可以评论区一起讨论一下!

2024-06-26 15:26:42 365 1

原创 hpfs的资源下载包

您需要将 Ceph 配置文件 ceph.conf 复制到每个 hfs 主机的 /etc/fsconf 目录中,并且还需要将 ceph.conf 文件复制到每个 hfs 主机的 /etc/ceph 目录中,因为 hfs 需要通过 RADOS 访问 Ceph。您需要将Ceph配置文件ceph.conf复制到每个hpfs-srvr主机的/etc/fsconf目录中,并且还需要将ceph.conf文件复制到每个hpfs-srvr主机的/etc/ceph目录中,因为hpfs-srvr需要通过RADOS访问Ceph。

2024-06-24 12:10:16 476

原创 juicefs cubefs 等元数据分离文件系统分析

而且,经过二把刀开发的那些东西本身就是是个问题,如何保证元数据的安全?相比rados这种经过多年沉淀的对象存储,juicefs和cubefs的元数据的的稳定性和安全等同于专业选手9段与一个业余选手入门级的对比,把元数据存储到这样一个东西里本身就是把自身的数据安全和稳定交给了一帮卖二手的人手里。答案是,他们当然知道,但是,他们也知道客户端引入cache会有很多问题是根本解决不了的,也是数据安全性的问题,不是简单的丢数据的问题,老鸟都知道我就捅破了,也就是cephfs老外不想诈骗!(请看我前面发的片文章)

2024-06-23 11:15:12 1123 2

原创 这个文件系统性能这么离谱嘛?:)

这是什么怪物文件系统

2024-06-21 11:34:58 630

原创 hpfs vs cephfs

近几天我做了一个hpfs的性能测试,在同样环境下再部署 cephfs,做出来的性能对比,测试是case 是open 一个文件,write 4096字节,close,然后,open, read 4096字节,close 这样连续的操作操作,一共创建1亿个4096k大小的文件,分别多个线程并发操作,测出的iops,通过这个测试数据我们可以看到hpfs在这样规模下的性能会随着客户端的增加性能有线性的增长,这是因为单客户端的能力受到fuse能力瓶颈影响所致,如果是用hpfs的api接口,完全没有这个限制,可以直接把

2024-06-18 14:05:30 333

原创 一款为AI 视觉类训练定制的高功性能文件系统hpfs

在使用hpfs之前,我对比了其他的一些开源项目,很多都是需要第三方插件去存储元数据,总觉得怪怪的,因为数据存储那边本身就已经能通过3副本保证数据安全了,并且有完善的数据安全机制了,然后,元数据又搞一套数据副本机制,没看懂什么意思,数据直接存储到底层存储上不行吗?这款文件系统是在ceph基础上进行修改的,依然使用了rados做存储基础,我们在训练的时候,发现cephfs 的性能有很大的问题,这款文件系统是专门针对ai训练而设计开发。1安装ceph 如果你已经安装了ceph这步就可以跳过了。

2024-06-17 12:20:33 1040 3

hpfs的资源下载包ubuntu20-x86-64版本

由于github有时候链接不顺畅,我把下载包放到这里

2024-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除