您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
400-607-9388

胡亮相关研究成果介绍⑦:长尾推荐真正难的,不是找到热门答案,而是别让尾部一直被忽略

2026-05-19
25

长尾推荐真正难的,不是找到热门答案,而是别让尾部一直被忽略

一、研究背景与问题提出

推荐系统的评价常常围绕整体准确率展开,但这类平均指标很容易掩盖一个现实:头部项目和头部用户贡献了大量数据,而真正数量庞大的长尾项目和长尾用户却长期处于被低估、被稀释甚至被忽略的状态。TOIS 2017 论文《Improving the Quality of Recommendations for Users and Items in the Tail of Distribution》正是从这个角度重新审视推荐质量。作者指出,如果系统始终只在数据最丰富、最容易预测的部分上进步,那么这种进步未必能转化为更好的用户体验,也未必符合长尾商业的真实价值。

论文首先强调,长尾问题并不是一个单纯的‘数据少’问题,而是多个风险叠加在一起的结果。由于热门项目占据了大部分交互,模型很容易学出强烈的流行度偏置;与此同时,长尾对象本身反馈少、证据弱,更容易受到噪声和恶意评分的干扰。也就是说,长尾用户和长尾项目面临的不是单一维度的稀疏,而是‘弱证据 + 强偏置 + 低鲁棒性’共同作用的结果。如果推荐模型不正面处理这些问题,尾部区域就会一直停留在“看起来难做,所以干脆少管”的状态。

二、核心方法与关键机制

围绕这一点,作者提出了由 C-HMF 和 S-HMF 组成的耦合正则化框架。前者更强调可信度,试图从模型层面增强对不可靠反馈和攻击行为的抵抗力;后者则更强调用户选择的特异性,努力让系统在长尾区域也能学到真正具有辨识度的个性偏好。更关键的是,这两个模型不是分别训练后简单融合,而是通过 recurrent mutual regularization 让彼此的估计结果反复互作经验先验。这样的设计相当于让“可信”与“有个性”在同一个优化过程中互相约束、互相补强。

论文核心结果图:长尾分布示意图,展示长尾用户与长尾项目面临的数据不均衡问题。

如果进一步拆开来看,C-HMF 和 S-HMF 其实对应了长尾推荐里的两条不同主线。第一条主线是‘我凭什么相信这条反馈和这个判断’,这涉及可信度、鲁棒性和对恶意数据的抵抗;第二条主线是‘我是否真的学到了尾部对象的特殊性’,这涉及个体差异和非热门偏好的表达。作者把这两条主线同时放进模型,而不是只押注其中一边,因此方法才能在长尾区域形成更完整的改进。

耦合正则化本身也是这篇论文最值得细看的部分。它并不是给两个模型简单加一个联合损失,而是让二者的估计结果轮流充当对方的经验先验。这样做的效果,是可信度建模不会脱离个性表达,个性表达也不会脱离可信度约束。换句话说,作者试图解决的不是单个模型该怎么做得更好,而是尾部推荐中的两个关键目标如何在训练过程中彼此牵制、共同变强。

三、实验结果与结论

实验结果说明,这种双目标耦合的思路确实有效。论文在大规模真实数据集上考察了多项指标,结果显示该方法不仅整体表现优于多种对比模型,更重要的是它对尾部用户和尾部项目的提升更明显。换句话说,这篇论文不是在头部区域继续挤出一点边际精度,而是在系统真正最薄弱、也最值得改善的地方实现了质量提升。对于长尾推荐来说,这种导向本身就很有价值。

从结论层面看,这项工作的推进主要体现在两点。第一,它把‘推荐质量’从整体平均准确率扩展到了尾部区域的真实表现;第二,它证明了长尾问题不能只靠单一技巧解决,而需要把可信度和个性表达放在同一个优化框架下考虑。这种理解后来影响了不少关于公平曝光、尾部发现和去流行度偏置的研究。

四、研究价值与启示

从更广的视角看,这项工作的意义在于重新定义了推荐质量。推荐做得好,不应该只看系统是否更会推荐热门内容,还要看它是否有能力把原本不容易被看见的人和物品准确连接起来。长尾推荐关乎的不只是公平,也关乎发现与机会。作者所提出的耦合正则化框架,正是在提醒我们:如果推荐系统想真正服务丰富的用户需求和多样化的内容供给,就不能永远只围着最容易学的那一小部分数据打转。

作者简介:胡亮,同济大学计算机科学与技术学院教授、博导,分别毕业于上海交通大学与悉尼科技大学,研究方向涵盖人工智能、推荐系统、机器学习、深度学习与数据科学,入选上海海外高层次人才,获国家自然科学基金优秀青年科学基金项目(海外)支持。

已收藏 0
点赞 0

学术会议

2026年机器学习与数据安全国际学术会议(MLDS 2026)
2026年机器学习与数据安全国际学术会议(MLDS 2026)将于2026年6月12日至14日在中国广州召开,会议聚焦机器学习、数据安全、隐私计算与系统安全、安全智能系统与应用等领域开展交流。
2026-06-12
【EI会议+EI期刊,北航主办,高录用快检索】第十二届机械工程、材料与自动化技术国际学术会议(MMEAT 2026)
第十二届机械工程、材料和自动化技术国际会议(MMEAT 2026)将于2026年6月5日-7日在北京隆重举行,会议把机械工程、材料和自动化技术领域的创新学者和工业专家聚集到一个共同的论坛。
2026-06-05
【IEEE出版|南方科技大学主办】第十一届电气、电子和计算机工程研究国际学术研讨会(ISAEECE 2026)
第十一届电气、电子和计算机工程研究国际学术研讨会(ISAEECE 2026)定于2026年6月12至14日在中国深圳市召开,会议旨在为相关领域专家学者提供一个可交流学术成果,促进合作的平台。
2026-06-12
【IEEE丨山东大学牵头六所高校合办】第八届电子工程与信息学国际学术会议(EEI 2026)
第八届电子工程与信息学国际学术会议(EEI 2026)将于2026年6月26日至28日在中国济南召开。EEI 2026将围绕“电子工程”、“信息学”与“计算机科学”等相关最新研究领域展开交流探讨。
2026-06-26
【5.22截稿|艺术类大会、双刊号】第五届艺术设计与数字化技术国际学术会议 (ADDT 2026)
第五届艺术设计与数字化技术国际学术会议(ADDT 2026)将于2026年6月05-07日在中国成都盛大举办。自2022年创始以来,该会议已连续成功举办四届,由全球顶尖艺术与科技高校和研究机构联合主办
2026-06-05
【IEEE出版】第八届能源系统与电气电力国际学术会议(ICESEP 2026)
随着ICESEP前7届的成功举办,第八届能源系统与电气电力国际学术会议(ICESEP 2026)将计划于2026年6月5日至7日在中国·武汉召开,大会诚挚邀请您拨冗出席。
2026-06-05