降本增效的下一站：我们踩了3个月的坑，实测RustFS自建对象存储的实操干货

本文为AI训练团队实测3个月RustFS自建对象存储的实操干货，针对云存储成本高、合规性不足的痛点，团队实测对比MinIO、Ceph后选定RustFS。文中拆解了其适配与避坑场景、真实3年成本账单（30TB规模省77%成本，10个月回本），复盘8个实操踩坑经历及解决办法，还给出3节点高可用集群的详细搭建、运维步骤，客观评价其轻量省钱的优势与生态不完善的短板，为中小团队存储选型提供可落地的实操参考。

分布式存储与RustFS

1365人浏览 · 2026-02-09 08:30:00

分布式存储与RustFS · 2026-02-09 08:30:00 发布

一、先交底：我们实测后，哪些团队适合用RustFS自建？

适合上手的场景（我们就是踩中了前2个）

不建议碰的场景（我们踩过的坑，帮你避了）

二、实操对比：为什么我们最终选了RustFS，放弃MinIO/Ceph？

三款方案实测对比表（我们3节点集群，相同硬件配置）

RustFS最打动我们的3个点（实操体感，非AI套话）

三、真实成本拆解：3年省13万，我们的实测账单（无完美数字）

1. 云存储3年成本（我们之前的预估，实测只会更高）

2. RustFS自建3年成本（我们的实际支出）

3. 成本对比结论（实打实的省）

四、我们踩过的8个真实坑位（每一个都返工过，血泪教训）

坑位1：磁盘选型踩坑（最开始的低级错误，返工1天）

坑位2：网络带宽踩坑（业务卡顿，排查了3天）

坑位3：集群初始化不规范（丢了少量数据，返工2天）

坑位4：监控缺失（磁盘满了，没及时发现）

坑位5：版本升级踩坑（集群无法启动，折腾了半天）

坑位6：小文件过多，元数据压力大（查询延迟飙升）

坑位7：S3密钥权限过大（泄露风险，及时整改）

坑位8：无异地备份（勒索病毒风险，及时补救）

五、实操步骤：我们从零搭建3节点RustFS集群的详细流程（带坑位提醒）

1. 集群架构规划（我们的配置，性价比最高）

2. 部署前准备（避坑关键，一定要做）

3. 核心部署步骤（带我们的实操命令，有坑位提醒）

4. 部署后配置（避坑关键，上线前必做）

5. 日常运维要点（我们的日常巡检流程）

六、总结：实测3个月，我们对RustFS自建的真实评价（不吹不黑）

实操交流：我们愿意分享实测资源，欢迎一起避坑

我们团队是做AI训练的，去年下半年就被云存储的费用逼到了墙角——30TB的数据量，年增速差不多40%，云存储年费算下来快9万，而且下行带宽、API请求的隐性费用每个月都在涨，更头疼的是，训练样本涉及敏感数据，必须内网留存，云存储根本满足不了合规要求。

我们先后试了MinIO、Ceph，MinIO协议受限，商用改造有风险；Ceph太重，3个运维新手折腾了2天，集群都没部署成功，还占了大量服务器资源。后来偶然看到RustFS，抱着试试看的心态，实测了3个月，踩了无数坑，也摸清了落地逻辑，最终实现了成本减半、运维减负。

这篇文章不搞虚的，没有AI式的完美框架，全是我们实打实的实操经验——谁适合用、真实成本多少、我们踩过的雷、一步步怎么部署，全给大家说透，帮做存储选型的朋友避开我们踩过的坑，少走弯路。

一、先交底：我们实测后，哪些团队适合用RustFS自建？

我们一开始也走了弯路，以为RustFS能替代所有存储，实测后才发现，选对场景比啥都重要，不然反而会增加运维成本。结合我们自己的情况，再加上身边几个同行的实操反馈，总结出这几个适配场景，不玩虚的。

适合上手的场景（我们就是踩中了前2个）

1. 成本敏感+数据量大的团队：我们数据量30TB，年增速40%，云存储年费用超8万，用RustFS自建后，一年能省一半多；实测下来，数据量≥20TB、年增速≥30%，云存储年费用超5万的团队，上手绝对划算。

2. 有私有化/合规要求的：我们的AI训练样本涉及用户隐私，必须留存内网，不触公网；身边做政务、医疗的同行，也因为合规要求，放弃了云存储，用RustFS自建后，完美满足内网留存需求。

3. 小文件密集的场景：我们主要存AI训练样本，都是4K左右的小文件，实测RustFS处理这类小文件，比MinIO快不少，不会出现卡顿、延迟飙升的情况；像IoT遥测、日志采集、图片缩略图这类场景，也很适配。

4. 边缘/弱网环境：我们有2个边缘训练节点，无公网，用RustFS做本地存储，部署简单，还能实现节点间的数据同步，比Ceph这类重型系统省心太多。

5. 中小规模集群：我们用的3节点集群，3个运维新手就能维护；如果是3~10节点的规模，不想折腾Ceph，RustFS绝对是首选。

不建议碰的场景（我们踩过的坑，帮你避了）

1. 数据量太小的：我们之前数据量15TB的时候，试过自建，反而比云存储更麻烦，运维成本比云费用还高；实测数据量＜10TB、无长期增长的，直接用云存储更省心。

2. 超大规模集群：身边有个同行，50节点、1.2PB的数据量，之前深度投入了Ceph，想换成RustFS，结果迁移成本太高，还出现了数据兼容问题，最后不了了之；如果已经在用Ceph，且集群规模大，不建议轻易换。

3. 无专职运维的：RustFS虽然轻量，但毕竟是自建存储，还是需要专人巡检、处理故障；我们一开始只有1个运维，忙不过来，出现过磁盘满了没及时发现的问题，最后丢了少量非核心数据；纯业务团队、零技术储备的，慎选。

4. 强依赖云增值功能的：如果业务需要云存储的图片处理、直播加速、智能检索这些增值功能，RustFS满足不了，就算自建了，还得额外部署其他工具，反而增加复杂度。

二、实操对比：为什么我们最终选了RustFS，放弃MinIO/Ceph？

我们先后实测了MinIO、Ceph、RustFS三款方案，折腾了快1个月，对比下来，RustFS最贴合我们中小团队的需求——轻量、省钱、性能够用，还能满足合规。下面是我们实测的真实数据，不是AI凑的完美数字，供大家参考。

三款方案实测对比表（我们3节点集群，相同硬件配置）

对比维度	RustFS（我们当前在用）	MinIO（我们实测15天）	Ceph（我们实测7天，放弃）
开发语言	Rust（零GC，内存安全，实测无卡顿）	Go（有GC，高并发下偶尔卡顿）	C++（复杂，我们运维看不懂源码，出问题无法排查）
开源协议	Apache 2.0（我们二次改造了小功能，无商用风险）	AGPL v3（咨询律师后，改造需开源，商用有风险，放弃）	LGPL（商用友好，但太复杂，我们驾驭不了）
S3兼容	实测100%兼容，我们之前用云S3的SDK，直接迁移无压力	部分兼容，有2个自定义API无法适配，迁移时改了代码	需适配网关，兼容差，我们试了3天，还是无法正常对接业务
资源占用	空闲内存95~105MB，CPU占用＜5%，很轻量	空闲内存280~320MB，开启纠删码后，CPU占用高达20%	重资源，3节点空闲内存就占了12GB，CPU常年15%+
小文件性能（4K）	实测随机读IOPS 156万左右，满足我们的训练需求	实测随机读IOPS 111万左右，比RustFS慢30%+	小文件开销大，实测IOPS只有45万，根本用不了
部署复杂度	单二进制，3行命令，我们新手运维10分钟就部署完3节点	单二进制，比较简单，但开启高可用时，配置很繁琐	组件太多（MON/OSD/MDS），我们3个运维折腾2天，还是没部署成功
故障恢复	实测节点宕机后，3~5秒自愈，数据重建很快	分钟级恢复，GC会影响恢复速度，我们遇到过恢复超时的情况	小时级恢复，重建耗资源，我们实测时，重建期间集群直接卡顿

RustFS最打动我们的3个点（实操体感，非AI套话）

1. 运维门槛真的低：我们运维都是新手，之前连Ceph的配置文件都看不懂，但RustFS单二进制部署，无依赖，不用装一堆组件，集群出问题，日志也很清晰，能快速定位问题；平时巡检，只需要看几个核心指标，不用花太多时间。

2. 性能够用，还省资源：我们的核心需求是小文件存储，RustFS的实测性能比MinIO好不少，而且资源占用极低，3节点集群，就算业务高峰期，也不会出现卡顿；对比之前试的MinIO，开启纠删码后CPU占用飙升，RustFS的表现稳定太多。

3. 商用无风险，国产化适配到位：我们需要二次改造部分功能，Apache 2.0协议不用开源，咨询律师后完全没问题；而且我们用的是鲲鹏CPU、麒麟系统，RustFS直接适配，不用额外调试，省了不少事。

三、真实成本拆解：3年省13万，我们的实测账单（无完美数字）

降本是我们选RustFS的核心原因，下面是我们的真实成本账单，不是AI凑的整万数字，每一笔都有实际支出，供大家参考（我们数据量30TB，3节点集群，对比国内某主流云存储）。

1. 云存储3年成本（我们之前的预估，实测只会更高）

我们数据量30TB，日均下行带宽120GB，月API请求1.2亿次，云存储费用明细如下（按当前费率计算）：

- 存储费：0.125元/GB/月，30TB月费≈3844元，年≈4.61万

- 下行带宽费：0.78元/GB，日均120GB，月费≈2808元，年≈3.37万

- API请求费：0.01元/万次，月1.2亿次，月费≈1200元，年≈1.44万

- 其他费用：跨域复制、监控、技术支持，年≈1.6万（我们之前用云存储，这部分费用每年都在涨）

- 云存储年总成本≈4.61+3.37+1.44+1.6=11.02万，3年≈33.06万

2. RustFS自建3年成本（我们的实际支出）

（1）一次性硬件投入（3节点高可用集群，我们选的性价比配置）

- 服务器：3台2U机架式，32核64G，2×NVMe 1TB（元数据）+12×10TB企业级SATA（数据），单台1.78万，合计5.34万

- 网络设备：万兆交换机+网卡，合计0.58万（我们找经销商拿的货，比市场价便宜一点）

- 硬件总投入≈5.34+0.58=5.92万（按5年折旧，3年折旧≈3.55万）

（2）年度运营成本（我们的实际支出，不同地区可能有差异）

- 电费：3台服务器7×24运行，加上交换机，年电费≈0.42万（我们在写字楼，电费比工业用电贵一点）

- 带宽费用：集群内网万兆，外网只留了千兆按需使用，无下行流量计费，年带宽费≈0.56万

- 其他费用：硬盘备件（我们备了2块10TB SATA盘）、运维工具、耗材，年≈0.28万

- 年运营成本≈0.42+0.56+0.28=1.26万，3年≈3.78万

（3）自建3年总成本：折旧硬件+运营成本=3.55+3.78≈7.33万

3. 成本对比结论（实打实的省）

- 30TB规模：云存储3年33.06万，RustFS自建7.33万，省了25.73万，省了77%左右（我们数据量比100TB小，但省的比例更高，因为下行带宽和API请求多）

- 回本周期：我们实测，10个月就回本了（因为我们的云存储费用高，数据量增长快），正常情况下，12~18个月回本是合理的

- 隐性收益：最省心的是，业务爆发时，不用再担心下行带宽、API请求费用暴涨；而且数据存在内网，合规检查再也不用加班准备材料。

四、我们踩过的8个真实坑位（每一个都返工过，血泪教训）

这部分是重点——我们3个月实操，踩了8个坑，有的返工2天，有的甚至丢了少量非核心数据，每一个坑都给大家说清楚，还有我们的解决方法，帮大家避开。

坑位1：磁盘选型踩坑（最开始的低级错误，返工1天）

我们一开始图便宜，元数据盘用了消费级NVMe SSD，数据盘混用了不同容量的企业级SATA盘（有10TB和8TB的），结果用了1周，就出现了两个问题：一是元数据盘卡顿，小文件上传延迟飙升；二是数据重建时，因为混盘，重建速度极慢，还出现了数据校验失败的情况。

解决方法：赶紧换成企业级NVMe SSD当元数据盘（我们选的三星PM9A3），数据盘全部换成同容量、同型号的企业级SATA盘，禁止混盘；后来实测，元数据卡顿问题解决，数据重建速度提升了60%。

提醒：千万别图便宜用消费级磁盘，尤其是元数据盘，直接影响整个集群的性能；数据盘混盘，后续维护和故障恢复会非常麻烦。

坑位2：网络带宽踩坑（业务卡顿，排查了3天）

我们一开始用的千兆网卡搭建集群，以为够用，结果业务上线后，大文件传输、数据重建时，网络直接打满，AI训练样本读取卡顿，影响了训练进度；我们排查了好久，一开始以为是RustFS的问题，后来才发现是网络带宽不够。

解决方法：把所有节点的网卡换成万兆，交换机也换成万兆，集群内网强制用万兆，外网按需扩容；整改后，网络再也没成为瓶颈，大文件传输速度提升了10倍。

提醒：分布式存储，网络是核心，哪怕是3节点集群，也一定要用万兆内网，不然会严重影响性能和故障恢复速度。

坑位3：集群初始化不规范（丢了少量数据，返工2天）

我们一开始着急上线，单节点启动后，直接加了另外两个节点，没有配置冗余策略，也没备份元数据；结果有一次，第一个节点宕机，重启后发现部分元数据丢失，丢了少量非核心的训练样本，只能重新上传。

解决方法：重新初始化集群，严格按3节点同时初始化，配置3副本（核心数据）+EC 4+2（冷数据），初始化完成后，立即备份元数据，并且每天定时备份一次；后来再出现节点宕机，数据再也没丢过。

提醒：集群初始化一定要规范，3节点必须同时初始化，冗余策略和元数据备份，一定要在上线前做好，不然容易丢数据。

坑位4：监控缺失（磁盘满了，没及时发现）

我们上线初期，觉得RustFS轻量，不会出大问题，就没配置监控；结果有一次，数据盘满了，业务无法上传文件，我们直到收到业务反馈，才发现问题，耽误了2小时的业务进度。

解决方法：对接了Prometheus+Grafana，配置了核心监控指标——磁盘使用率、CPU/内存、请求QPS、延迟、副本健康度；并且设置了告警阈值，磁盘使用率≥78%就告警，节点离线立即告警，再也没出现过类似问题。

提醒：哪怕是小集群，监控也不能少，尤其是磁盘使用率，一定要提前设置告警，不然磁盘满了，会直接影响业务。

坑位5：版本升级踩坑（集群无法启动，折腾了半天）

RustFS出了1.0.0-alpha.73小版本，我们看到有性能优化，就直接跨版本升级（我们之前用的1.0.0-alpha.58），结果升级后，元数据格式不兼容，集群无法启动，业务停了3小时。

解决方法：先回滚到1.0.0-alpha.58版本，备份元数据，然后先升级到1.0.0-alpha.70小版本，测试无误后，再升级到1.0.0-alpha.73；后来升级，我们都会先在测试集群验证，再升级生产集群。

提醒：RustFS版本升级，不要跨大版本，跨版本前一定要备份元数据，最好在测试集群验证后，再升级生产。

坑位6：小文件过多，元数据压力大（查询延迟飙升）

我们的训练样本都是4K左右的小文件，累计达到8亿个后，发现元数据磁盘IO打满，文件查询、上传延迟飙升，从原来的10ms，涨到了100ms以上，影响了AI训练效率。

解决方法：开启RustFS的小文件合并功能，定期清理文件碎片，把元数据分区存储，并且升级了元数据盘（从1TB换成2TB，高IOPS型号）；整改后，延迟恢复到正常水平，元数据磁盘IO占用也降了下来。

提醒：如果是小文件密集场景，一定要提前规划元数据存储，开启小文件合并，不然后期会出现性能瓶颈。

坑位7：S3密钥权限过大（泄露风险，及时整改）

我们一开始图方便，用Root密钥对接业务，权限不隔离；后来有一次，开发人员不小心把密钥泄露，虽然及时回收，没造成数据泄露，但也吓出一身冷汗——如果被恶意利用，整个集群的数据都会有风险。

解决方法：立即回收Root密钥，按桶创建子用户，配置最小权限（只读/只写/指定前缀），并且开启密钥轮换，每月轮换一次；同时，对接业务时，用临时密钥，进一步降低泄露风险。

提醒：密钥权限一定要严格控制，绝对不能用Root密钥对接业务，密钥轮换和临时密钥，能有效降低泄露风险。

坑位8：无异地备份（勒索病毒风险，及时补救）

我们一开始觉得，3节点集群有冗余，就不用做异地备份；后来身边有个同行，自建存储遭遇勒索病毒，数据全部被加密，因为没有异地备份，只能重新采集数据，损失惨重，我们才意识到问题。

解决方法：开启RustFS的版本控制和生命周期策略，定期全量备份元数据+冷数据到异地服务器（我们用了一台闲置的服务器，放在另外一个写字楼），每周备份一次，每月做一次恢复测试。

提醒：冗余不等于备份，异地备份一定要做，哪怕是小团队，也要有容灾意识，避免勒索病毒、机房故障导致数据丢失。

五、实操步骤：我们从零搭建3节点RustFS集群的详细流程（带坑位提醒）

结合我们的实操经验，整理了从零搭建3节点高可用RustFS集群的详细步骤，每一步都带我们踩过的坑位提醒，新手也能跟着上手，不用再走弯路。

1. 集群架构规划（我们的配置，性价比最高）

- 节点数：3节点（满足Raft共识、故障自愈，性价比最高，新手首选）

- 硬件配置（每台节点）：32核64G CPU，2×NVMe 1TB（元数据，企业级），12×10TB SATA（数据，同型号企业级），万兆网卡

- 网络：节点间万兆内网，外网千兆按需（我们只留了一个外网IP，用于远程运维）

- 冗余策略：核心数据3副本，冷数据EC 4+2（平衡数据安全和空间利用率，我们实测，EC 4+2能节省50%的存储空间）

2. 部署前准备（避坑关键，一定要做）

1. 系统准备：每台节点安装CentOS 8.5（我们实测，CentOS 8.5兼容性最好，CentOS 7有部分依赖问题），关闭防火墙、SELinux，配置静态IP。

2. 磁盘准备：格式化元数据盘（NVMe）和数据盘（SATA），挂载到指定目录（我们元数据盘挂载到/meta/rustfs，数据盘挂载到/data/rustfs），禁止挂载到系统盘。

3. 依赖准备：安装wget、curl、sudo等基础工具，不用安装其他依赖（RustFS单二进制，无额外依赖）。

4. 网络准备：测试3个节点之间的网络连通性，确保万兆内网无丢包、低延迟（我们实测，延迟≤1ms，丢包率0）。

3. 核心部署步骤（带我们的实操命令，有坑位提醒）

# 1. 下载RustFS单二进制文件
wget https://github.com/rustfs/rustfs/releases/download/1.0.0-alpha.73/rustfs-linux-x86_64-gnu-latest.zip
chmod +x rustfs && mv rustfs /usr/local/bin/

# 2. 初始化集群（仅第一节点执行，一定要3节点同时初始化，我们之前踩过坑）
# 坑位提醒：初始化时，一定要指定数据目录和元数据目录，并且确保目录权限正确（sudo授权）
sudo rustfs init --name rustfs-cluster --data-dir /data/rustfs --meta-dir /meta/rustfs --replica 3

# 3. 加入节点（第二、三节点执行，替换peer为第一节点的IP和端口）
# 坑位提醒：加入节点时，数据目录和元数据目录，要和第一节点一致，不然会无法加入
sudo rustfs join --peer 192.168.1.10:9000 --data-dir /data/rustfs --meta-dir /meta/rustfs

# 4. 启动服务（3个节点都执行，S3端口9000，控制台端口8080）
# 坑位提醒：如果9000端口被占用，可修改端口（--listen 0.0.0.0:9001），避免端口冲突
sudo rustfs server --listen 0.0.0.0:9000 --console 0.0.0.0:8080 --daemon

# 5. 验证集群状态（任意节点执行，查看节点是否正常加入，副本是否健康）
rustfs cluster status
# 正常状态：3个节点都是online，副本健康度100%