您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
400-607-9388

雷军最新发文:小米7篇论文入选AAAI!

2025-12-04
3774

艾思科蓝官网-版头.gif


12月1日晚,雷军发文称,“人工智能领域的国际会议AAAI,致力于推动人工智能领域的学术研究与创新发展。AAAI 2026,小米共有7篇最新研究成果成功入选,涵盖了音效编辑、具身智能3D Agent、检索、推断解码、语音问答、VLN导航、自动驾驶等。这是小米大模型和具身智能部分研究成果的阶段性展示,也践行小米科技战略‘深耕底层技术、长期持续投入’。”


640 (33).jpg

AAAI 是人工智能领域的国际会议之一,由人工智能促进协会(Association for the Advancement of Artificial Intelligence)主办,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。AAAI 致力于推动人工智能领域的学术研究与创新发展,每年举办一次,AAAI 2026 是该会议的第40届,共收到创纪录的23680篇有效投稿,总共4167篇论文被录取录取率17.6%。该会议于2026年1月20日至27日在新加坡博览中心举办。


 论文简介 


AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

论文作者:郭新月,杨晓冉,张李攀,杨剑轩,王昭,栾剑

录用类型:主会

论文链接:https://arxiv.org/abs/2511.21146


音效编辑——即通过添加、移除或替换元素来修改音频——目前仍受限于仅依赖低级信号处理或粗粒度文本提示的传统方法,这往往导致编辑灵活性有限且音质欠佳。为此,我们提出 AV-Edit 这一生成式音效编辑框架,通过联合利用视觉、音频与文本语义,实现对视频中现有音轨的细粒度编辑。


实验表明,所提出的 AV-Edit 能基于视觉内容生成具有精确修改的高质量音频,在音效编辑与音频生成领域实现了最先进的性能表现。


作为小米在视频音效领域的首篇AAAI论文,生成式音效编辑填补了传统方法在细粒度编辑、多模态语义对齐上的空白,突破了仅靠低级信号处理或粗粒度提示的局限;落地手机等产品后,能让普通用户便捷实现专业级音效修改(如短视频精准加/消音),大幅降低创作门槛,重塑移动端音视频编辑体验。


640 (34).jpg
640 (36).jpg

《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

*表示共同第一作者

论文作者:梁定康*,张诚*,许小鹏,鞠建忠,罗振波,白翔

录用类型:主会,口头报告(Oral)

论文链接:https://arxiv.org/abs/2511.19430


在具身智能(Embodied AI)时代,让智能体在 3D 物理世界中高效执行复杂任务至关重要。然而,现有的任务规划研究大多被过度简化,模型只能逐一执行指令,缺乏利用“运筹学知识(Operations Research Knowledge)” 进行效率优化的能力。


为解决“任务效率”与“ 3D 视觉定位”难题,本文首次定义了基于运筹学知识的 3D Grounding 调度这一任务。为推动该任务研究,本文构建了大规模数据集 ORS3D-60K(包含 4K 真实场景中的 60K 个任务)。


此外,本文提出了一个名为 GRANT 的具身多模态大语言模型。GRANT 的核心是一个简洁高效的 “调度令牌机制” (Scheduling Token Mechanism, STM)。模型不再自己盲目规划,而是首先识别任务属性(如“并行”或“非并行”),然后通过一个特殊的 <SCH> 令牌调用外部优化求解器,生成“最优执行序列”。该序列随后被注入模型,引导其生成高效且在 3D 空间中精确定位的步骤化行动。


实验证明,GRANT 在任务调度效率上相比基线方法取得了高达 30.53% 的显著提升,同时在 3D grounding 准确率上也获得增益,验证了其在空间理解、3D grounding 和调度效率方面的全面有效性。

《AutoLink:  Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale

〡本文受小米揭榜挂帅科研专项支持

*表示共同第一作者

论文作者:王资洋*,郑元雷*,曹振彪,张晓今,魏忠钰,付培,罗振波,陈伟,白翔

录用类型:主会

论文链接:https://arxiv.org/abs/2511.17190


在工业级 Text-to-SQL 场景中,数据库规模往往极为庞大(动辄数百至数千列),将完整模式直接输入大语言模型不仅会引入大量无关噪声,而且容易触发上下文长度限制,从而影响 SQL 生成的准确性。因此,如何在不暴露完整数据库结构的前提下,高召回地筛选出与用户问题相关的模式子集(Schema Linking)成为核心难点。


为解决这一问题,本文提出 AutoLink,一种由大模型驱动的自适应、逐步式模式连接框架。AutoLink 不再一次性提供全量模式,而是模拟数据库工程师的探索式工作方式,在数据库环境与向量检索环境之间进行多轮交互,通过“检索→探索→验证→扩展”的迭代过程,动态构建与问题相关的模式子集,实现高召回与低噪声的平衡。


该框架不需要遍历全模式,也无需将数据库完整结构输入语言模型,具备高度可扩展性。实验结果表明,AutoLink 在多个主流基准上取得了显著优势:在 Bird-Dev 上实现 97.4% 的严格模式召回率(SRR),在大规模 Spider 2.0-Lite 上达到 91.2% 的 SRR,均为当前最优表现。


同时,AutoLink 在保持高执行准确率的前提下显著降低 Token 消耗,即便在拥有 3000+ 列的超大数据库中依旧保持稳定性能,展示了工业级可落地的鲁棒性与可扩展性。


640 (52).png

《Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios》

本文受小米揭榜挂帅科研专项支持

论文作者:史洛合,李祖超,张乐飞,齐保元,刘国明

录用类型:主会,口头报告(Oral)

论文链接:https://arxiv.org/abs/2511.20340


大语言模型(Large Language Models, LLMs)自回归解码由于其低运算强度常出现访存带宽瓶颈并浪费算力。投机解码(Speculative Decoding)通过草稿模型猜测后续 token 以增强主模型的并行性。目前的主要研究方法通过扩充草稿 token 数量来增强准确率,在单样本下行取得了很好的效果。


诚然,在一定的批大小下,这类方法性能迅速退化,由于在可供使用的冗余算力减小的同时,每个样本能够分配到的草稿 token 数量也快速降低,同时串行生成草稿 token 也会占据过多时间。


通过分析这些问题,我们提出了一种新的并行草稿 token 生成算 SpecFormer。通过将单向和双向的两个 Transformer 层堆叠,并在输入 token 和草稿 token 两个维度上进行注意力运算,我们可以基于完整的输入序列进行预测,并且并行化的生成全部的草稿 token。 


640 (53).png

《End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering》

〡本文受小米揭榜挂帅科研专项支持

论文作者:胡继亮,李祖超,齐保元,刘国明,王平

录用类型:主会

论文链接:https://arxiv.org/abs/2511.09282


近年来,语音问答(SQA)领域取得了显著进展。然而,包括大型音频语言模型(LALM)在内的许多现有方法在处理长音频时仍面临困难。随着检索增强生成技术的成功,语音相关检索器在预处理长语音方面展现出潜力,但现有语音检索器的性能仍有不足。


为应对这一挑战,我们提出了 CLSR——一种端到端的对比式语音-语言检索器,能够高效地从长音频录音中提取与问题相关的片段,以支持下游语音问答任务。


与传统语音-文本对比模型不同,CLSR在模态对齐前引入了将声学特征转换为类文本表征的中间步骤,从而更有效地弥合模态差异。


在四个跨模态检索数据集上的实验结果表明,CLSR 既优于端到端的语音相关检索器,也超越了结合语音识别与文本检索的流水线方法,为推进实用型长语音问答应用奠定了坚实基础。


640 (54).png

《What You See Is What You Reach: Towards Spatial Navigation with High-Level Human Instructions

*表示共同第一作者 †表示共同通讯作者

论文作者:张凌峰*,傅昊翔*,郝孝帅†,张书逸,张强,刘瑞,陈龙,丁文伯†

录用类型:主会

论文链接:https://openreview.net/pdf?id=ow65qpDY3Q


本文提出了空间导航(Spatial Navigation)任务,使智能体能够理解“在沙发左侧空地等我”等高级人类指令并完成相应的导航。


与传统方法仅限于识别预定义物体类别或执行详细路径指令不同,该任务要求智能体结合空间关系推理,完成空间物体导航(SpON)和空间区域导航(SpAN)两类任务。


研究团队构建了一个包含10,000条轨迹的数据集,并提出了 SpNav 分层框架。该框架通过视觉-语言模型解析指令,利用专门训练的 NaviPoint 模型进行目标定位,最后基于地图的 Map-to-Action 模块实现精确导航。


实验结果表明,SpNav 在导航性能上达到了当前最先进水平(SOTA),超越了之前的最佳基线,并且在真实环境中实现了零样本迁移。


这项工作首次系统地解决了具身导航中复杂空间关系理解与高级指令解析的结合问题,为家庭服务机器人等实际应用中的自然人机互动奠定了基础。


640 (55).png

《VILTA:A VLA-in-the-Loop Adversary for Enhancing Driving Policy Robustness》

论文作者:陈其茂,李方,徐少清,赖志懿,谢子勋,罗悦晨,蒋盛银,李汉冰,陈龙,王兵,张毅,杨志新

录用类型:主会


当前,自动驾驶领域的开源数据集在丰富性方面仍显不足。尽管策略网络在常规场景中的学习性能已趋于收敛,但在长尾困难场景下的表现依然有限。


为此,本文提出  VILTA(VLA-in-the-Loop Trajectory  Adversary),旨在解决长尾场景数据稀缺以及现有生成方法多样性不足的问题。VILTA  创新性地将视觉语言模型(VLM)直接嵌入训练闭环,构建了一种“视觉–语言–编辑”(Vision-Language-Editing)的新范式。


该方法充分利用  VLM  强大的场景理解能力,对周围车辆的未来轨迹进行精细化的对抗性编辑,摒弃了传统两阶段生成流程。同时,通过引入后处理机制确保生成轨迹的运动学可行性,从而能够高效生成既符合物理规律又极具挑战性的多样化驾驶场景。


640 (56).png


艾思科蓝官网-版尾.jpg

已收藏 0
点赞 3

学术会议

第七届国际科技创新学术交流大会暨期刊论坛(JOFM 2025)
JOFM 2025期刊论坛将作为第七届国际科技创新学术交流大会的分论坛,将于 2025年12月19-21日在中国广州举行。聚焦期刊领域的核心关切与未来方向, 围绕最新期刊信息资讯动态、期刊前沿发展趋势
2025-12-19
第八届机械、控制与计算机工程国际学术会议(ICMCCE 2025)
第八届机械、控制与计算机工程国际学术会议(ICMCCE 2025)将于2025年12月26-28日在西双版纳举行。主要围绕“机械”、“控制”与“计算机工程”等研究领域展开讨论。
2025-12-26
第七届国际科技创新学术交流大会(IAECST 2025)
第七届国际科技创新学术交流大会(IAECST 2025)定于2025年12月19-21日在中国广州举行,以“汇聚国际科研创新智慧、共谋学术生态高质发展”为主题。
2025-12-19
【IEEE出版】第七届国际科技创新学术交流大会暨通信、信息系统和软件工程学术会议(CISSE 2025)
通信、信息系统与软件工程学术会议(CISSE 2025)作为第七届国际科技创新学术交流大会分会场开展。大会将于2025年12月5-7日在中国广州隆重举行。本届国际科技创新学术交流大会,以“汇聚国际科
2025-12-19
【院士支持 | 优秀口头】第七届国际科技创新学术交流大会暨经济管理与模型工程国际学术会议(ICEMME 2025)
第七届经济管理与模型工程国际学术会议(ICEMME 2025)将于12月19日-21日在广州召开。本次会议主要围绕相关主题展开广泛深入的研讨,旨在为相关领域的专家学者及企业发展提供交流的平台
2025-12-19
【IEEE出版】第七届国际科技创新学术交流大会暨信息技术与计算机应用学术会议(ITCA 2025)
第七届国际科技创新学术交流大会暨信息技术与计算机应用学术会依旧作为第七届国际科技创新学术交流大会的分会场开展,大会将于2025年12月19-21日在中国广州隆重举行。本次会议的目的是为信息技术与计算机
2025-12-19
相关资讯

朱镕基之子清华演讲:犀利点评当前中国问题(深度醒脑)

朱镕基之子清华演讲:犀利点评当前中国问题(深度醒脑)

43353

6

2024-11-19

王树国声明:一分钱工资都没有,我是义务工作者,是为了一个理念,为了一个理想

福耀科技大学首任校长王树国在接受央视采访时谈到了他的工资情况

21691

3

2025-03-13

颜宁宣布以后论文先发预印本,不再为OA付费

颜宁宣布以后论文先发预印本,不再为OA付费

5454

3

2025-11-30

“康熙生父为洪承畴”?专家最新回应:采样过雍正第五子和恭亲王弘昼后代,DNA证实其为努尔哈赤支系

“康熙生父为洪承畴”?专家最新回应:采样过雍正第五子和恭亲王弘昼后代,DNA证实其为努尔哈赤支系

4553

3

2025-11-11

清华博导:想报考我的博士“没有发表过论文没关系,本科、硕士就发表一堆论文甚至出版专著的,我反而很怀疑。”

清华博导:想报考我的博士“没有发表过论文没关系,本科、硕士就发表一堆论文甚至出版专著的,我反而很怀疑。”

4874

3

2025-11-06

杨振宁:一个人如果专门做大题目,成功的可能性很小、得精神病的可能很大

杨振宁:一个人如果专门做大题目,成功的可能性很小、得精神病的可能很大

4727

3

2025-10-27