您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
工信部人工智能赋能中小企业典型应用场景案例(科研领域)

存文件时副本放对地方,后面纠删码能快很多

2026-05-26
18


 1.png

 

大型集群文件系统常见的一种做法:新写入的数据先用三副本顶住读性能和故障恢复,等数据“变旧”以后,再在后台转成更省空间的纠删码。这个流程看起来顺理成章,但这篇论文指出:副本先被随机地扔到各个节点和机架里,却没有为后面的编码做任何准备。


一旦开始把这些副本改写成纠删码,随机放置的副本就会带来两个麻烦。第一个麻烦是慢:编码一个条带时,需要把同一组里的多个数据块拉到同一个节点上,如果它们分散在不同机架,就要走代价更高的跨机架带宽。第二个麻烦是不稳:编码完成后,为了满足机架级容错要求,系统还可能得再搬一次块;搬迁没做完之前,数据处在一个不那么安全的窗口里。论文要纠正的是:如果系统迟早要做纠删码,那么“复制阶段怎么放副本”就不该和“编码阶段怎么组条带”完全脱节。


作者提出的方法叫“编码感知复制”(encoding-aware replication,EAR)。核心是:对未来会一起编码的一组数据块,EAR 会想办法让每个块至少有一个副本落在同一个“核心机架”里,这样真正开始编码时,负责编码的节点可以在本机架把这一组数据凑齐,尽量不去跨机架取块。与此同时,剩余副本不是随便堆过去,而是按约束分配到其他机架里,让编码完成后的数据块和校验块依然满足节点级、机架级容错要求,尽量避免再做一次搬迁。这篇论文没有重新发明纠删码,而是补上“从复制走到纠删码”这段中间地带。


图 2回答的问题是:随机复制为什么会把编码阶段拖慢,还顺手埋下可用性隐患。值得注意的是图 2(a) 里有一个数据块必须从别的机架拉过来,而图 2(b) 里同一组数据块已经在核心机架里凑齐。作者用这个例子说明,EAR 的价值不是多做了一步“优化”,而是把本来发生在编码之后的跨机架代价,提前在副本布局阶段处理掉了。


2.png


图 8 (b)展示了收益:当跨机架网络越紧张时,提前按编码需求放副本值不值?值得注意的是 RR 和 EAR 两组柱子的间距,以及横轴上 UDP 发送速率不断升高时,这个间距怎么被拉大。在固定使用 (10, 8) 纠删码的条件下,随着额外网络流量从 0 提高到 800 Mb/s,EAR 相对随机复制的编码吞吐提升从 57.5% 拉大到 119.7%。说明EAR 的收益不是抽象的“更优”,是非常贴近集群文件系统的真实瓶颈:跨机架带宽越稀缺,随机复制留下的后遗症就越重, EAR 正好对着这个瓶颈下手。


3.png


图 9 进一步说明EAR不是“后台编码自己快一点”这么简单。当系统一边接收写请求、一边在后台做编码时,前台业务会不会被拖慢。可以看 30 秒以后编码任务启动后,两条响应时间曲线的分离程度,以及图中横线标出的整体编码时长。结果是,EAR 把写请求平均响应时间压低了 12.4%,把整个编码过程的总耗时缩短了 31.6%。把副本先放对地方,不只帮存储系统省出一块后台时间,也在高负载时顺手减轻了前台写入被跨机架流量挤占的压力。


4.png


论文还有一个很重要的点:EAR 的改进不是靠“副本堆在一个地方”换来的。图 14 可知副本会不会因此失去均衡分布,需注意不同机架上的副本占比是否被少数机架明显吃掉。结果是RR 和 EAR 在各机架上的副本占比都落在 4.1% 到 5.9% 之间。图 15 可知读请求会不会因此更容易形成热点,代表最热机架压力 hotness index H的两种方案几乎重合。这一点很关键:如果一种“更快”的方案只是把热点藏起来,很难在真实系统里站住脚。


5.png5.png


这篇论文讨论的是像 HDFS 这样先复制、后异步做纠删码的集群文件系统,且跨机架带宽本来就是稀缺资源。它的收益还会随着参数变化而变化。图 13(c) 表明:链路越紧EAR 越占便宜, 0.2 Gb/s 链路条件下的编码吞吐提升可以到 165.2%;图 13(e) 可知,性能提升和容错目标之间存在权衡,如果少容忍一些机架故障,EAR 的收益会更大。


6.png

作者简介:胡燏翀,华中科技大学计算机科学与技术学院教授、博士生导师。主要研究分布式存储系统与容错编码技术,聚焦数据中心环境下的高效数据修复与系统可靠性优化。


DOI:10.1109/DSN.2015.24

已收藏 0
点赞 0

学术会议

【双一流高校主办/往届3个月EI检索】第五届智能机械与人机交互技术学术会议(IHCIT 2026)
第五届智能机械与人机交互技术学术会议(IHCIT 2026)将于2026年8月21-23日于中国·成都召开,大会旨在聚焦“智能机械”与人机交互技术,探讨国内外最新研究进展。
2026-08-21
【IEEE出版|英国布鲁内尔大学主办】第七届计算机视觉与数据挖掘国际学术会议(ICCVDM 2026)
第七届计算机视觉与数据挖掘国际学术会议(ICCVDM 2026)定于2026年8月15-17日在英国伦敦召开。会议旨在为计算机视觉、数据挖掘等计算机领域的专家学者提供一个可交流学术成果、促进合作的平台
2026-08-15
【专家云集 | 征稿主题广 | 往届会后四个月检索】第二届人工智能与基础模型国际学术会议(AIFM 2026)
第二届人工智能与基础模型国际学术会议(AIFM 2026)将于2026年6月26-28日在新疆乌鲁木齐盛大召开,会议由中国科学院新疆理化研究所主办,欢迎各界人士到乌鲁木齐。
2026-06-26
IEEE出版|第五届人工智能、物联网和云计算技术国际会议(AIoTC 2026)
AIoTC 2025已见刊检索。AIoTC 2026主要围绕“人工智能、物联网和云计算技术”的最新研究展开,旨在荟聚世界各地该领域的专家、学者、研究人员及相关从业人员,分享研究成果
2026-07-17
【IEEE丨山东大学牵头六所高校合办】第八届电子工程与信息学国际学术会议(EEI 2026)
第八届电子工程与信息学国际学术会议(EEI 2026)将于2026年6月26日至28日在中国济南召开。EEI 2026将围绕“电子工程”、“信息学”与“计算机科学”等相关最新研究领域展开交流探讨。
2026-06-26
【工程院院士等大咖云集|连续3届稳定EI检索】第四届遥感、测绘与地理信息系统国际学术会议(RSMG 2026)
第四届遥感、测绘与地理信息系统国际学术会议(RSMG 2026)将于2026年7月10日至12日于西安召开。征稿:遥感、测绘、地理信息系统。环境遥感、光学遥感、图象数据处理技术、高光谱影像处理等,EI
2026-07-10
相关资讯

打破纪录!中国科学家让薛定谔的猫活了23分钟

中科大团队成功让薛定谔的猫活了长达整整23分钟!

42559

5

2024-11-25

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

35573

4

2026-01-30

投稿到接收仅3个月!他,28岁任四川大学教授/博导,「国家杰青/优青」,最新Nature子刊!可见光催化!

投稿到接收仅3个月!他,28岁任四川大学教授/博导,「国家杰青/优青」,最新Nature子刊!可见光催化!

3692

4

2026-06-04

245

0

2026-06-04

250

0

2026-06-04
立即开启