您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
工信部人工智能赋能中小企业典型应用场景案例(科研领域)

几个存储节点一起坏了,让新节点帮忙

2026-05-26
18

11.png


分布式存储系统平时最怕好几个节点一起掉线。现实里可能是一大片区域断电,也可能是一批机器同时离网,或者系统把修复攒到一起。问题是很多经典修复方法已经比“整文件重传”省流得多,但大多还是按默认前提在设计:即便坏了多个节点,也是一台一台各修各的。


如果有多台新节点要一起补位,为什么让它们各自去找幸存节点拿数据,互相之间却不配合?新节点本来就在同一轮恢复里上线,它们之间也能传数据。如果把 “新节点的互助”用起来,恢复时总的网络流量会不会更低?


会,且不是一点点优化,是一整类恢复思路的变化。论文提出 “互相协作恢复”机制(MCR):就是多个节点一起坏掉时,不是每个新节点单独向幸存节点拿数据,而是从幸存节点各拿一部分,再在新节点间交换各经拿到的信息,最后拼出自己需要保存的数据。原来恢复流量是不同新节点重复去拿相互重叠的信息;如果让它们中途先共享,就有可能把这部分重复流量压下去。


图 2回答了多个新节点参与恢复时,数据路径应该怎么走。传统做法是“每个人都去仓库各搬各的”;MCR 更像“大家先各搬一部分,再在现场互相分一下”。这一步看起来简单,却改变了恢复流量的分摊机制。


12.png


能省到什么程度?作者用信息流图和最小割分析,推出了一个恢复带宽下界,然后给出一套传输方案和线性网络编码方案,证明MCR 方案正好能达到这个下界。换句话说: 这套模型和约束下,很难再把恢复流量压得更低了。


论文给出的关键量是:每次传输的数据块大小可以压到 M / [k(n-k)] 这个量级,M 是原文件大小,nk 是纠删码参数。把结果放回论文给出的总恢复流量里,MCR 的总维护带宽会变成 [(n-1)/(n-k)] · (M/k) · r,这里 r 是同时失效、需要补回来的节点数。非专业读者不需要盯住公式本身,只需知道:多节点一起坏时,恢复总流量并非只能线性叠加地往上涨,通过协作可以压到一个最低、最优的水平。


论文还给了几组很具体的比较。表 II回答的问题是:在一个 n=16、r=8、k=4 的场景里,MCR 跟两类代表性非协作恢复方法相比,账怎么算。表 II 里,MCR 和 MSR 的总存储成本同样都是 4 M,但 MCR 的维护带宽是 2.5 M,MSR 是 3.2 M,如论文总结的那样,维护带宽降了 22%。此外,MCR 和 MBR 的维护带宽同样都是 2.5 M,但 MBR 的总存储成本要到 4.9 M,MCR 只要 4 M,少了大约 23%。


13.png


表 III 把结论放到更大冗余规模下再看一遍。在 n=32、r=24、k=4 的例子里,MCR 和 MSR 的总存储成本同样都是 8 M,但维护带宽从 9.6 M 降到了 6.6 M,论文把这总结为 23% 的下降;和 MBR 相比,MCR 不只把总存储成本从 9.8 M 压到 8 M,还把维护带宽从 7.4 M 压到 6.6 M。说明 MCR 不只在一种指标上占便宜,更在“恢复时要跑多少流量”和“平时总共要存多少冗余”之间,给出了一种更平衡的做法。


14.png


这篇论文局限性在于:第一,研究的是多节点同时失效的场景,不是单节点坏盘的日常修复。第二,最优性结论建立在论文定义的模型上,包括节点之间对称通信、每轮恢复的组织方式,以及线性网络编码的构造前提。第三,这套随机线性编码方案的解码复杂度不低,后续工作还需要去找更确定、更轻量的编码实现。


作者简介:胡燏翀,华中科技大学计算机科学与技术学院教授、博士生导师。主要研究分布式存储系统与容错编码技术,聚焦数据中心环境下的高效数据修复与系统可靠性优化。


DOI:10.1109/JSAC.2010.100216

已收藏 0
点赞 0

学术会议

【双一流高校主办/往届3个月EI检索】第五届智能机械与人机交互技术学术会议(IHCIT 2026)
第五届智能机械与人机交互技术学术会议(IHCIT 2026)将于2026年8月21-23日于中国·成都召开,大会旨在聚焦“智能机械”与人机交互技术,探讨国内外最新研究进展。
2026-08-21
【IEEE出版|英国布鲁内尔大学主办】第七届计算机视觉与数据挖掘国际学术会议(ICCVDM 2026)
第七届计算机视觉与数据挖掘国际学术会议(ICCVDM 2026)定于2026年8月15-17日在英国伦敦召开。会议旨在为计算机视觉、数据挖掘等计算机领域的专家学者提供一个可交流学术成果、促进合作的平台
2026-08-15
【专家云集 | 征稿主题广 | 往届会后四个月检索】第二届人工智能与基础模型国际学术会议(AIFM 2026)
第二届人工智能与基础模型国际学术会议(AIFM 2026)将于2026年6月26-28日在新疆乌鲁木齐盛大召开,会议由中国科学院新疆理化研究所主办,欢迎各界人士到乌鲁木齐。
2026-06-26
IEEE出版|第五届人工智能、物联网和云计算技术国际会议(AIoTC 2026)
AIoTC 2025已见刊检索。AIoTC 2026主要围绕“人工智能、物联网和云计算技术”的最新研究展开,旨在荟聚世界各地该领域的专家、学者、研究人员及相关从业人员,分享研究成果
2026-07-17
【IEEE丨山东大学牵头六所高校合办】第八届电子工程与信息学国际学术会议(EEI 2026)
第八届电子工程与信息学国际学术会议(EEI 2026)将于2026年6月26日至28日在中国济南召开。EEI 2026将围绕“电子工程”、“信息学”与“计算机科学”等相关最新研究领域展开交流探讨。
2026-06-26
【工程院院士等大咖云集|连续3届稳定EI检索】第四届遥感、测绘与地理信息系统国际学术会议(RSMG 2026)
第四届遥感、测绘与地理信息系统国际学术会议(RSMG 2026)将于2026年7月10日至12日于西安召开。征稿:遥感、测绘、地理信息系统。环境遥感、光学遥感、图象数据处理技术、高光谱影像处理等,EI
2026-07-10
相关资讯

打破纪录!中国科学家让薛定谔的猫活了23分钟

中科大团队成功让薛定谔的猫活了长达整整23分钟!

42559

5

2024-11-25

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

35573

4

2026-01-30

投稿到接收仅3个月!他,28岁任四川大学教授/博导,「国家杰青/优青」,最新Nature子刊!可见光催化!

投稿到接收仅3个月!他,28岁任四川大学教授/博导,「国家杰青/优青」,最新Nature子刊!可见光催化!

3692

4

2026-06-04

245

0

2026-06-04

250

0

2026-06-04
立即开启