下一个 Transformer 可能又被 Google 做出来了

作者: 周一笑来源: 硅星人 Pro 发布时间: 2025-12-06 14:21 阅读: 1469 次推荐: 2 原文链接 [收藏]

　　作者：周一笑

　　来源：硅星人 Pro

　　如果把现在的顶尖大模型比作一个人，那它一定患有一种罕见的神经系统疾病：顺行性遗忘症（Anterograde Amnesia）。

　　这是 Google Research 研究员、最近最受关注的一篇论文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 抛出的一个让所有人陷入沉思的比喻。

　　看过诺兰的电影《记忆碎片》（Memento）的人更能理解这种绝望。这种病症的患者拥有完好的“过往记忆”（Retrograde Memory），他们记得发病前的一切，我是谁，我来自哪里，我有什么技能。但对于发病后发生的所有事情，他们永远无法形成“新的长期记忆”。他们只能活在短暂的“当下”，几分钟后，一切就会被重置。

　　这就是现在 AI 模型的真实写照。

　　无论 Gemini 或是 ChatGPT 多么博学，如果不联网搜索，它们都只能依靠预训练阶段获得的出厂知识（也就是“发病前”的记忆）来回答问题。而在对话窗口里，无论你教给它多少新公司的业务逻辑，或者纠正了它多少次代码错误，这些信息都只停留在短暂的上下文窗口里。

　　一旦窗口关闭，或者显存被重置，它就像金鱼一样，把刚才发生的一切忘得干干净净。下一次见面，它依然是那个出厂时的它，丝毫没有因为与你的交互而变得更聪明一点。

　　为什么拥有超级算力的 AI，却治不好这个健忘症？

　　长期以来，行业有一种二元对立的看法，认为 AI 的“架构”（Architecture）和“优化器”（Optimizer）是两个截然不同的物种。

　　架构是骨架（如 Transformer），它是静态的，出厂即冻结，负责“推理”。“优化器”是雕刻刀（如 Adam、SGD），它是动态的，只在工厂里用来训练模型，出厂后就被没收了。

　　我们习惯了把 AI 当作一个静态产品，训练好了，打包发布，用户只管用。

　　但在 Google 最新发布的 52 页硬核论文《Nested Learning: The Illusion of Deep Learning Architectures》（嵌套学习：深度学习架构的幻觉）中，研究团队试图告诉我们，这其实是一种幻觉，是我们人为制造的自我设限。

　　如果架构和优化器本质上是同一个东西呢？如果并没有所谓的“训练阶段”和“推理阶段”之分，一切都只是不同频率的“记忆压缩”过程呢？

　　基于这个大胆的假设，Google 团队提出了一个名为 HOPE 的新框架。他们并没有简单地堆砌参数，而是试图从底层逻辑上重构 AI 的“大脑结构”，让它不再是一个出厂即固化的工具，而是在每一次交互中都能微调自己、拥有“快慢记忆系统”的动态生命体。

　　而这篇论文也被不少人称为“Attention Is All You Need V2”，这篇论文提出的 Transformer 架构成就了今天大模型的火热，而 HOPE 让人们期待它成为下一个 Transformer 级别的创新。

Ali Behrouz 在 NeurIPS 2025 现场讲解 Nested Learning

　　拆解“幻觉”：被遗忘的中间地带

　　要治好“健忘症”，我们首先得看看现在的 AI 大脑里到底装了什么。

　　在 Ali Behrouz 的解构下，目前的 Transformer 架构呈现出一种极端的“精神分裂”状态。如果不使用复杂的数学术语，我们可以把它的内部组件看作两个极端：

　　一个是“极快”的 Attention（注意力机制）。它时刻处于亢奋状态，对你输入的每一个字（Token）都进行瞬时的计算和响应。它的更新频率几乎是无限的，这让模型拥有了所谓的上下文学习能力（In-Context Learning），你刚说的话，它马上就能用。

　　另一个是“极慢”的 MLP（前馈神经网络）。它是模型的长期记忆库，承载了绝大多数参数。但它的更新频率是 0。这部分像一块冻结的硬盘，除非你耗费巨资进行全量微调（Fine-tuning），否则它永远不会改变。

　　在这两者之间，存在着一个巨大的真空地带。

　　这就是“幻觉”的根源。人类的大脑并不是这样工作的。我们的记忆是一个连续的频谱，我们有几秒钟的感官记忆，有几小时的工作记忆，也有几天甚至几年的长期记忆。我们的脑突触并不是非黑即白，而是以各种不同的频率在不断微调。

　　为了填补这个真空，Google 团队提出了 Nested Learning（嵌套学习）的概念。我们可以把它想象成一套精密咬合的齿轮系统”：

最外层的小齿轮转得飞快（处理当前的对话）；
中间层的齿轮转得稍慢（记住过去几小时或几天的任务）；
最里层的大齿轮转得极慢（沉淀世界观和基础知识）。

　　为了证明这种统一性在生物学上的合理性，他甚至在论文中引用了一个非常硬核的神经科学案例，半球切除术（Hemispherectomy）。

　　医学发现，即使切掉人类的一半大脑，通常是为了治疗严重癫痫，剩下的一半脑组织也能通过重组资源，接管几乎所有功能，人依然能正常生活。这说明大脑并没有什么“专门负责 Attention 的模块”或“专门负责 MLP 的模块”，神经组织是通用的、可复用的。

　　同样的道理，AI 的“架构”和“优化器”本质上也是同一种东西，只是处于不同的嵌套层级：

传统的模型记忆的是“数据”（Token）；
优化器（如 Adam）记忆的是“梯度”（Gradient）。即“我上次在这个地方犯了错，下次要修正” 。

　　既然都是在“记忆信息”并“更新状态”，为什么我们要把它们人为地割裂开来？也许我们不需要在这个二元对立的框架里修修补补，可以直接设计一个全频率覆盖的动态系统。　　

　　HOPE 的三层设计

　　基于 Nested Learning 的理论，Google 团队交出了一份具体的工程答卷，还起了一个充满寓意的名字：HOPE (High-order OPtimization and Expressivity)。

　　如果说传统的 Transformer 是一个只有短期记忆的“单核处理器”，那么 HOPE 更像是一个符合神经科学原理的“双重记忆大脑”。它通过两个组件，复刻了类似生物大脑中海马体（Hippocampus）与大脑皮层（Cortex）的协作机制。

　　1. 快系统：像海马体一样敏锐的 Titans

　　在 HOPE 的最前端，是处理即时信息的“快系统”。这里 Google 使用了论文一作 Ali Behrouz 之前的另一项成名作 Titans。

　　你可以把 Titans 理解为一种“超级 RNN”。它就像人类灵活的海马体，负责快速捕捉和编码当下的新知。传统的 AI 模型在处理新信息时是被动的，但 HOPE 里的 Titans 模块具有极强的“主观能动性”，它是 Self-Modifying（自我修改）的。

　　它不仅是在读取数据，更是在根据当前的上下文，实时生成自己这一步学习所需要的 Key、Value，甚至自己决定这一次记忆的 Learning Rate（学习率）。这意味着，它能敏锐地判断眼前信息的重要性，快速形成短期记忆。

　　2. 慢系统：像皮层一样厚重的 CMS

　　这是整个架构中最具颠覆性的设计。HOPE 引入了 Continuum Memory System (连续记忆系统，CMS)。CMS 就像是厚重的大脑皮层，负责将经过筛选的知识长久地刻印在神经元中。

Google 将人脑电波的频率机制引入了 AI 架构设计，构建了不同更新频率的层级

　　在 CMS 中，模型内部的 MLP（前馈网络）不再是铁板一块，而是被切分成了不同的层级，就像不同转速的齿轮：

高频层：可能每处理几百个字就更新一次，用于捕捉刚才对话里的新定义。
中频层：可能每处理几万字更新一次，用于适应一个新的项目背景。
低频层：几乎不更新，用于稳固语言的语法和常识。

左侧的 HOPE 架构拥有丰富的中间层级

　　这种设计避免了灾难性遗忘。当新知识涌入时，它会被优先存储在高频层，而不会去惊扰低频层里的旧知识。随着时间的推移，真正重要的信息才会像沙漏里的沙子一样，慢慢沉淀到深层。

　　3. 优化器也有了“记忆”

　　Google 的激进之处在于，他们不仅改造了大脑（架构），还改造了老师（优化器）。

　　为了配合这套复杂的系统，他们设计了一个名为 M3 (Multi-scale Momentum Muon) 的新优化器。

　　既然模型分了层，优化器为什么不能分层？普通的 Adam 优化器只看眼前的梯度（Local Structure），容易陷入短视。而 M3 优化器本身也被设计成了嵌套结构，它有一层“快动量”负责看脚下的路，还有一层“慢动量”负责看远处的山脉（全局 Loss Landscape）。

　　这意味着，连负责训练的算法本身，都拥有了更深远的记忆力。

M3 优化器在 ImageNet 训练任务中，展现出了更快的收敛速度和更低的 Loss

　　实验数据显示，这种设计在 ImageNet 和大语言模型训练上，不仅收敛更快，而且最终效果更好。

　　4. 给工程师的“后悔药”

　　对于工业界的开发者来说，HOPE 最迷人的地方可能不是从头训练一个新模型，而是它提供了一种“原地改造”的可能性。

　　Ali Behrouz 在分享中提到了一个名为 Ad-hoc Level Stacking 的技巧，你不需要抛弃手里现有的 Llama 或 Qwen 模型。你可以直接拿来一个预训练好的模型，人为地将它的不同层指定为不同的“更新频率”，把浅层设为高频，深层设为低频。

　　这就像是给一辆已经出厂的旧车，通过刷新固件就解锁了自动驾驶功能。这一特性，让 Nested Learning 成为了一个工程方案。　　

　　从“静态产品”到“动态生命”

　　我们把视角从代码行中抽离出来，会发现 Nested Learning 真正的野心，不在于刷榜，而在于试图完成一次 AI 领域的范式转移。

　　在 NeurIPS 的分享最后，作者提出了一个发人深省的观点，“深度（Depth）也许不再是唯一的答案。”

　　过去十年，我们一直在堆叠物理层数，把神经网络做得越来越深。这种暴力美学确实带来了涌现能力，但它也制造了一个巨大的“幻觉”，误以为智能来源于静态的深度。而忽略了真正的深度可能来自于嵌套的优化。

　　更进一步，论文中提出了一个极其激进的定义：“预训练本身，其实就是一种超长上下文的 In-Context Learning。”

　　这句话消解了 AI 领域最大的边界。在 Nested Learning 的愿景里，没有所谓的“训练结束”这一天。模型在与用户交互的每一秒，都在以某种微小的频率更新自己的突触。它不再是一个冰冷的、出厂即固化机器，而是一个在数据流中不断呼吸、代谢、进化的有机体。

　　这或许才是通往 AGI 更本质的道路，智能不是被灌输的，而是在交互中生长的。

　　当然，任何试图颠覆范式的理论，注定会伴随着巨大的争议。这围绕这篇论文讨论区里，声音很多样。

　　乐观者将其视为 "Attention Is All You Need V2"。社区对于自我修改这一概念尤为着迷。长期以来，我们一直诟病 LLM 只是“统计学的鹦鹉”，而 HOPE 让 AI 第一次拥有了某种“元认知”能力，即学习如何学习。这种从被动拟合到主动适应的跨越，被认为是 AI 产生质变的关键。

　　实用主义者则看到了解决灾难性遗忘的曙光。如果这一架构能落地，未来的企业级 AI 将不再需要为了更新一点点业务知识而耗资百万进行全量重训，AI 可以在业务流中自然地学会新规章，同时不忘记旧制度。这是对降本增效是最直接的。

　　质疑者也大有人在。比如有评论指出，论文中将 SGD（梯度下降）强行解释为“联想记忆”的数学证明虽然精彩，但更多依赖直觉，缺乏严谨的收敛性保障。更有工程师担心，这种复杂的“嵌套优化”会让调参难度呈指数级上升，毕竟，调一个 Adam 已经够头疼了，现在我们要同时调好几个不同频率的“大脑”。

　　但无论如何，Google 这一次没有在参数量上卷，而是在“学习的本质”上开了一枪。

　　它用一种近乎哲学的方式提醒我们，对于一个真正的智能体来说，存在就是压缩，活着就是学习。

　　链接

　　1）论文链接：Nested Learning: The Illusion of Deep Learning Architectures
　　2）Google Research 博文：Introducing Nested Learning: A new ML paradigm for continual learning
　　3）NeurIPS 2025：Nested Learning: The Illusion of Deep Learning Architectures
　　4）dev.to 博文：Nested Learning — My Reflections on a Model That Learns How to Learn

标签：AI Nested Learning

下一个 Transformer 可能又被 Google 做出来了

推荐链接

人工智能热门文章

人工智能最新文章

最新新闻

热门新闻