您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
400-607-9388

大模型长脑子了?研究发现LLM中层会自发模拟人脑进化

2026-01-22
4322

艾思科蓝官网-版头.gif


转自 机器之心

生物智能与人工智能的演化路径截然不同,但它们是否遵循某些共同的计算原理?


最近,来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出,大型语言模型(LLM)在学习过程中会自发演化出一种协同核心(Synergistic Core)结构,有些类似于生物的大脑。


640 (12).png


  • 论文标题:A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning

  • 论文地址:https://arxiv.org/abs/2601.06851


640 (13).png


研究团队利用部分信息分解(Partial Information Decomposition, PID)框架,对 Gemma、Llama、Qwen 和 DeepSeek 等模型进行了深度剖析。


他们发现,这些模型的中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理。


协同与冗余:LLM 的内部架构


研究团队将大型语言模型视为分布式信息处理系统,其核心实验设计旨在量化模型内部组件之间交互的本质。为了实现这一目标,研究者选取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多种具有代表性的模型系列进行对比分析。


实验方法与量化指标


在实验过程中,研究者向模型输入了涵盖语法纠错、逻辑推理、常识问答等 6 个类别的认知任务提示词。


针对每一个提示词,模型会生成一段 100 个 Token 的回答,实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。

具体而言,研究人员计算了这些输出向量的 L2 范数,以此作为该单元在特定时间步的激活强度数据。


基于这些时间序列数据,研究团队应用了整合信息分解(Integrated Information Decomposition, ID)框架。


这一框架能够将注意力头对之间的交互分解为「持续性协同」和「持续性冗余」等不同原子项。


通过对所有注意力头对的协同值和冗余值进行排名并求差,研究者得到了一个关键指标:协同-冗余秩(Synergy-Redundancy Rank)。该指标能够清晰地标示出模型组件在处理信息时,究竟是倾向于进行独立的信号聚合,还是在进行跨单元的深度集成。


跨模型的空间分布规律


实验数据揭示了一个在不同架构模型中高度一致的空间组织规律。在归一化后的模型层深图中,协同分布呈现出显著的「倒 U 型」曲线 :


640 (14).png


  • 冗余外周(Redundant Periphery):模型的早期层(靠近输入端)和末期层(靠近输出端)表现出极低的协同秩,信息处理以冗余模式为主。在早期层,这反映了模型在进行基本的解词元化(Detokenization)和局部特征提取;而在末期层,则对应着 Token 预测和输出格式化的过程。

  • 协同核心(Synergistic Core):模型的中层则展现出极高的协同秩,形成了核心处理区。例如,在对 Gemma 3 4B 的热图分析中,中间层的注意力头之间表现出密集且强烈的协同交互,这正是模型进行高级语义集成和抽象推理的区域。


架构差异与一致性


值得注意的是,这种「协同核心」的涌现并不依赖于特定的技术实现。


在 DeepSeek V2 Lite 模型中,研究者即使是以「专家模块」而非「注意力头」作为分析单位,依然观察到了相同的空间分布特征。


这种跨架构的收敛性表明,协同处理可能是实现高级智能的一种计算必然,而非单纯的工程巧合。


这种组织模式与人脑的生理结构形成了精确的映射:人脑的感官和运动区域同样表现出高冗余性,而负责复杂认知功能的联合皮层则处于高协同的「全局工作空间」中心。


智能的涌现:学习驱动而非架构使然


一个关键的问题在于:这种结构是 Transformer 架构自带的,还是通过学习习得的?


研究人员通过分析 Pythia 1B 模型的训练过程发现,在随机初始化的网络中,这种「倒 U 型」的协同分布并不存在。随着训练步数的增加,这种组织架构才逐渐稳定形成。


640 (15).png


这意味着,协同核心是大模型获得能力的标志性产物。


在拓扑性质上,协同核心具有极高的「全局效率」,有利于信息的快速集成;而冗余外周则表现出更强的「模块化」,适用于专门化处理。这种特征再次与人类大脑的网络架构形成了精确的平行关系。


协同核心的功能验证


为了验证协同核心是否真的驱动了模型行为,研究团队进行了两类干预实验:消融实验和微调实验。


消融实验:研究发现,消融那些高协同性的节点,会导致模型出现灾难性的性能下降和行为背离,其影响远超随机消融或消融冗余节点。这证明协同核心是模型智能的核心驱动力。


640 (16).png


微调实验:在强化学习微调(RL FT)场景下,仅针对协同核心进行训练,获得的性能提升显著优于针对冗余核心或随机子集的训练。有趣的是,在监督微调(SFT)中这种差异并不明显。研究者认为,这反映了 RL 促进通用化而 SFT 更多倾向于记忆的特性。


640 (17).png


结语


这项研究为大模型的可解释性开辟了新路径。它表明,我们可以从「自上而下」的信息论视角来理解模型,而不仅仅是「自下而上」地寻找特定的电路。


对于 AI 领域,识别协同核心有助于设计更高效的压缩算法,或者通过更有针对性的参数更新来加速训练。对于神经科学,这提供了一种计算上的验证,预示着协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。


大模型虽然基于硅基芯片和反向传播算法,但在追求智能的过程中,它们似乎不约而同地走向了与生物大脑相似的组织模式。这种智能演化的趋同性,或许正是我们揭开通用智能奥秘的关键线索。

更多详情请参阅原论文。


艾思科蓝官网-版尾.jpg

已收藏 0
点赞 5

学术会议

【西工大主办|SAE独立出版|EI稳定检索】第二届航空航天工程与材料技术国际会议(AEMT 2026)
2026年航天航空工程与材料技术国际会议(AEMT 2026)将于 2026年4月10-12日在中国西安举行。本次会议主要围绕“航空航天工程与材料技术”的最新研究展开
2026-04-10
【武汉理工大学主办-稳定EI】第五届光电信息与功能材料国际学术会议(OIFM 2026)
第五届光电信息与功能材料国际学术会议(OIFM 2026)将于2026年4月10-12日在武汉召开,大会诚邀您投递光电、信息通信、材料等领域的科研成果,分享前沿的思想看法
2026-04-10
【IEEE冠名】第八届IEEE通信、信息系统和计算机工程国际会议(IEEE-CISCE 2026)
​第八届通信、信息系统与计算机工程国际会议(CISCE 2026)将于2026年3月27-29日在中国珠海举行。在当前快速发展的信息时代,通信、信息系统和计算机工程领域的研究和应用已经深入到社会的方方
2026-03-27
【3月20截稿|ACM出版|往届EI&Scopus已检索】第二届健康信息化与数据分析国际学术会议(HIDA 2026)
第二届健康信息化与数据分析国际学术会议(HIDA 2026)将于2026年3月27日-29日在中国-南京举办,本次会议将围绕健康信息化与数据分析等主题展开讨论,欢迎广大学者参会交流
2026-03-27
【连续稳检索|新设评优活动 | 经管重点会议】第三届粤港澳大湾区数字经济与人工智能国际学术会议(DEAI 2026)
第三届粤港澳大湾区数字经济与人工智能国际学术会议(DEAI 2026)将于2026年4月10日-12日在中国-东莞举办,本次会议将围绕数字经济与人工智能等相关主题展开讨论,欢迎您投稿参会
2026-04-10
【IEEE出版 | EI 检索 | 往届已见刊检索 | 浙江海洋大学主办】第七届地质、测绘与遥感国际学术会议(ICGMRS 2026)
第七届地质、测绘与遥感国际学术会议(ICGMRS 2026)由浙江海洋大学主办,将于2026年4月17-19日在舟山召开。征集学术论文,提交IEEE出版,提交IEEE Xplore、EI核心数据库收录
2026-04-17
相关资讯

重磅!中科大、清华大学创造纪录!

记者从中国科学技术大学获悉,该校潘建伟、张强等与清华大学王向斌、济南量子技术研究院刘洋、中国科学院上海微系统与信息技术研究所尤立星、张伟君等合作,通过发展低串扰相位参考信号控制、极低噪声单光子探测器等技术,实现了光纤中1002公里点对点远距离量子密钥分发,不仅创下了光纤无中继量子密钥分发距离的世界纪录,也提供了城际量子通信高速率主干链路的方案。

50003

20

2023-05-31

985高校,突破半世纪极限!

据西北工业大学官微消息,日前,西北工业大学空天微纳系统创新团队在飞行器减阻方面取得突破性进展。该团队通过模仿我国库姆塔格沙漠特有的舌状分形沙垄结构,设计出仿沙垄舌形多层分形减阻微纳结构。该结构减阻率较之前国际报道的最好水平提高了52%,减阻风向摄动角度从35°增加到了60°,减阻性能已突破半世纪以来小肋气动减阻技术性能极限。

49223

25

2023-04-04

上海药物所黄河团队开发赖氨酸乙酰乙酰化修饰鉴定与功能解析新技术

上海药物所黄河团队开发赖氨酸乙酰乙酰化修饰鉴定与功能解析新技术

3817

4

2026-02-25

武汉大学赵海艳等团队为致命病毒定制“超级抗体”:AI设计出高效人源抗体,对抗SFTSV效力飙升300余倍

武汉大学赵海艳等团队为致命病毒定制“超级抗体”:AI设计出高效人源抗体,对抗SFTSV效力飙升300余倍

4566

4

2026-02-25

氨的"逆袭":中南大学余正团队揭示肠道细菌促进肠道蠕动、改善便秘的新机制

氨的"逆袭":中南大学余正团队揭示肠道细菌促进肠道蠕动、改善便秘的新机制

4551

5

2026-02-25

哈尔滨医科大学王玉玞团队开发杂化冷冻微针,用于脊髓损伤免疫治疗

哈尔滨医科大学王玉玞团队开发杂化冷冻微针,用于脊髓损伤免疫治疗

3818

4

2026-02-25