M+框架来了，增添LLM隐空间影象，不再受上下文窗口限制

M+框架来了，增添LLM隐空间影象，不再受上下文窗口限制

本文的第一作者Yu Wang来自加州大学圣地亚哥分校，主要研究偏向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab实习历程中完成，通讯作者Zexue He也结业于加州大学圣地亚哥分校。

M+是在 MemoryLLM 之上提出的恒久隐空间影象扩展框架：通过把「逾期」隐藏向量写入CPU - 侧恒久影象池，再用协同检索器拉回最相关影象，它将 8 B 级模子的有用影象跨度从原本不到 20 k tokens 提升到 160 k tokens 以上，同时显存占用坚持稳固。

论文问题：M+: Extending MemoryLLM with Scalable Long-Term Memory论文链接：https://arxiv.org/abs/2502.00592代码客栈：https://github.com/wangyu-ustc/MemoryLLM开源模子：https://huggingface.co/YuWangX/mplus-8b

配景：上下文 ≠ 影象 & 现有影象模子的缺陷

上下文窗口并不可直接等价于影象。GPT-4.1 之类的模子即便支持 100 万 token，也会随窗口线性升高显存与延迟，难以落地外地安排。

业界主流做法是 “Token-Level Memory”：把历史内容或三元组保存数据库 / 向量库，检索后再拼接回 prompt；MemGPT等系统即属此类。该类做法不需要重复训练，直接连系 GPT-4 这样的大模子便可以获得很不错的性能，可是，它也会有一些随之而来的问题：(1)冗余：原始文本并非最紧凑表达，重复率高。(2)冲突难明：遇到相互矛盾或一直更新的信息时，文本级冲突消解重大。(3)多模态能力弱：由于数据库名堂为文本，处置惩罚音频或者图片，视频数据将相对难题。

因此，我们希望探索隐空间 (Latent-Space) 的 Memory -- 既压缩又可端到端训练，更靠近人类在神经激活中存储信息的方法。

M + 的要害刷新：Long-Term Memory

在 MemoryLLM 中，我们为 8B 的 Llama3 模子引入了约 1.67B 的 Memory。Llama3-8B 的 Transformer 共包括 32 层。当第一层吸收到词输入后，会通过 Embedding 层将词转化为一系列 4096 维的向量；谡庖惶氐，我们设计了 MemoryLLM，在每一层都加入 N 个 Memory Tokens（实验中 N=12800）。在天生历程中，这些 Memory Tokens 会作为每一层的 Prefix，通过 Cross-Attention 将信息注入后续层，使模子能 “看到” 生涯在 Memory Pool 中的历史信息。

在更新阶段，我们会将每层 Memory Token 中最后 K 个（实验中 K=256）与需要写入的信息一同送入 Transformer，再次经由 Cross-Attention，将信息压入新的 Memory Tokens 中（如下图所示）。与此同时，我们在原有 Memory 中随机扬弃 K 个旧 Token，并将新天生的 K 个 Token 放到 Memory 尾部，完成更新。

基于这样的设计，借助每层 12800 个 Memory Vectors，我们在 50k tokens 内都能坚持优异的信息留存（最早 MemoryLLM-7B 版本只做到 20k，后续在 GitHub 提供的新版模子 https://github.com/wangyu-ustc/MemoryLLM 可达 50k）。然而，这样的影象容量仍无法知足我们对更长序列的期待。要进一步扩展 Memory，单靠原有的 1.67B 容量已远远不敷，因此我们提出了Long-Term Memory。

怎样高效实现 Long-Term Memory？思量到 MemoryLLM 中每一个 Memory Token 实质上都来自 Hidden States，我们将那些在更新历程中被 “扬弃” 的 Memory Token 并非直接舍弃，而是将其生涯在恒久影象池中（如下图）。

仅仅生涯是不敷的，我们还需要具备强盛的提取能力。最初我们实验用 Attention 来从恒久影象中检索 Hidden States，但实验批注 Attention 在提取 Hidden States 时效果有限（在论文的消融实验中做了详尽比照）。因此我们提出协同提取器（Co-trained Retriever），并与全模子举行联合训练（如下图）。

通过这一结构，我们将模子的有用影象跨度从 50k 一举提升到 160k，且由于 Memory 主要驻留在 CPU，不会显著增添 GPU 肩负。

M + 的实验效果

显著性能提升及更少的 GPU 使用：在 Longbook-QA 和 Longbook-Event-QA 两个数据集上，我们都在更少 GPU 的使用下（单卡 18GB 左右）获得了更强盛的性能。

更强的信息留存能力：在 SQuAD 数据集上体现出远超 MemoryLLM-7B 以及相关 ablation baseline 的信息留存能力，可以抵达 160k 依旧不完全遗忘已往的信息。

结语

M+ 展示了我们在探索隐空间恒久影象领域的主要希望，也为下一代具备一连影象能力的语言模子提供了坚实的手艺支持。未来，我们将继续研究更高效的存储机制、更智能的检索战略，以及与多模态输入更自然融合的隐空间影象架构。在此偏向上，M+ 不但是对 MemoryLLM 的一次扩展，也是我们对 “让模子拥有靠近人类影象能力” 这一愿景的又一次有力实践。

分享： 2025-07-20 19:38:48 共81款