可解释推荐为什么不能只给分，还要说清用户被什么吸引

2026-05-19

264

可解释推荐为什么不能只给分，还要说清用户被什么吸引

一、研究背景与问题提出

面对海量新内容，平台越来越依赖推荐系统帮用户做第一轮筛选，但这也带来一个越来越尖锐的问题：系统推荐了什么，往往能算出来；为什么推荐，很多时候却说不清。这篇 IJCAI 2018 论文《Interpretable Recommendation via Attraction Modeling: Learning Multilevel Attractiveness over Multimodal Movie Contents》正是围绕这个问题展开。作者注意到，传统协同过滤在新内容发布初期几乎无能为力，而传统内容推荐虽然能利用文本和元数据，却很难指出用户到底是被哪一句剧情、哪个演员、哪种内容元素打动了。

因此，论文没有继续停留在“喜不喜欢”的整体评分层面，而是把研究对象前移到了“吸引力”本身。作者认为，用户选择一部电影、点击一条内容，并不总是因为它整体和自己过去看过的作品相似，很多时候真正触发决策的，只是某个角色设定、某段剧情、某位演员或某个强情绪片段。也就是说，推荐要变得更可解释，不能只学习整体相似度，而要学会识别内容内部那些真正具有个人化吸引力的局部因素。

二、核心方法与关键机制

围绕这一点，作者提出了多层级吸引力模型 MLAM。模型在文本侧按词、句子和故事三个层级逐层建模，试图回答用户究竟会被哪些词汇吸引、哪些句子更能触发兴趣、哪些情节结构真正构成了整部电影的核心吸引点；在类别信息侧，模型又把演员、导演、编剧等 cast 信息纳入建模，通过用户条件化的权重分配去学习不同用户对不同人物组合的偏好强弱。文本信息和演员信息最终被统一到一个多模态吸引力空间中，用于完成推荐评分与解释生成。

论文核心方法图：MLAM 多层级吸引力模型，展示剧情文本、演员信息与用户个体吸引力的融合过程。

如果把这套方法说得更直白一些，它本质上是在回答两个层面的“为什么”。第一个层面是内容内部的为什么，例如一段剧情到底是因为哪些词、哪些句子变得有吸引力；第二个层面是用户个体的为什么，即为什么同样的剧情和演员配置会对不同用户产生不同吸引力。MLAM 的关键，就在于它没有把这两个层面混在一起，而是通过多层级结构和用户条件化注意力，把内容线索和个体差异拆开再重新组合。

从模型结构角度看，文本侧和 cast 侧的联合尤其关键。只看剧情，可能会忽视明星效应；只看演员，又无法解释故事本身为什么吸引人。MLAM 把这两种信息放进一个统一框架中，不是简单拼接特征，而是让两条模态都围绕“吸引力”这个核心概念组织起来。因此，模型给出的不是普通的语义相似度分数，而是一种更贴近用户选择动机的吸引力判断。

三、实验结果与结论

这项工作的妙处在于，它和一般注意力机制虽然相似，却又并不相同。普通注意力通常强调“模型应该关注哪里”，更像是一种任务驱动的客观聚焦；而论文要表达的是“这个用户会被什么吸引”，这是一种带有明显主观差异的建模对象。同一段剧情、同一位演员，对不同用户未必有同样的吸引力。作者正是通过用户条件化的主观注意力，把这种个体差异真正引入模型。实验结果显示，MLAM 不仅在性能上优于多种对比方法，而且在案例分析中还能清楚展示用户究竟被电影的哪些部分吸引，这一点对内容运营和推荐解释非常关键。

更值得注意的是，这篇论文的结论并不只是“模型可解释”，而是进一步说明了为什么解释对推荐本身有帮助。因为当系统能够定位真正驱动点击或选择的局部因素时，它在冷启动内容上的判断就不再完全依赖历史交互，而是可以直接利用内容内部的结构化证据。这让可解释性不再只是面向人看的附加功能，而是反过来增强模型效果的一部分。

四、研究价值与启示

从应用角度看，这篇论文的重要价值在于，它让“推荐解释”不再只是结果出来后的附加说明，而成为模型设计时就被正面建模的一部分。对平台来说，这意味着推荐可以不再只是一个黑箱分值，而能变成更有说服力的内容理解工具；对用户来说，这意味着系统不只是告诉你“可能喜欢”，而是在尝试解释“为什么你可能会喜欢”。这一步转变，也让多模态推荐、内容冷启动和可解释 AI 在推荐系统中的结合变得更自然、更可操作。

作者简介：胡亮，同济大学计算机科学与技术学院教授、博导，分别毕业于上海交通大学与悉尼科技大学，研究方向涵盖人工智能、推荐系统、机器学习、深度学习与数据科学，入选上海海外高层次人才，获国家自然科学基金优秀青年科学基金项目（海外）支持。