ReLaX从隐空间动力学出发重新解读大模型RL的探索-利用平衡

2026-04-06 06:20:07

强化学习正逐渐成为大模型能力跃迁的核心驱动力。从 OpenAI o3、DeepSeek-R1 到 Gemini 3,一系列前沿模型通过强化微调不断突破复杂推理任务的性能上限。然而,在这些进展背后,一个隐性的问题正逐渐显现:随着训练推进,策略分布持续收缩,探索能力在模式坍塌中不断衰减,最终陷入优化的欠收敛与性能瓶颈。

这一现象本质上源于强化学习中的探索–利用(exploration-exploitation)失衡,而在 RLVR(可验证奖励强化学习)范式下,稀疏奖励进一步放大了这一问题。

过去一年,大量工作试图从表层 token 入手,通过提升输出分布的熵来维持多样性。但这一思路忽略了一个更根本的事实:Token 只是模型内部隐层状态在解码过程中的压缩表达,不可避免地丢失了部分计算信息,而非推理本身。当调控停留在输出层时,真正承载推理过程的这一 “计算空间” 几乎未被触及。与此同时,在当前主流多模态模型(如 Qwen-VL)中,尽管 CoT 以文本形式呈现,其跨模态推理过程却发生在隐空间之中,进一步放大了这种 “表达–计算” 的错位。

于是,一个更关键的问题浮现出来:仅通过提升 token 多样性,真的能够从本质上改善模型的探索能力吗?抑或,探索–利用的本质,其实蕴含在模型的内部计算过程之中?

港理工&上海 AI Lab 的研究人员进一步将问题 “向内推进”,把目光从输出层转向模型的内部计算。他们发现,大模型的推理过程并不是简单的序列生成,而可以从动力学的视角来理解:其本质是隐层状态在高维空间中的连续演化,这一过程承载了模型内部的计算逻辑。

基于这一洞察,研究团队提出了ReLaX(Reasoning with Latent eXploration)框架:不再直接干预 token 生成的多样性,而是在策略优化过程中显式调控模型的隐空间动力学结构,从而在更底层实现对探索与利用的平衡。

论文链接:https://arxiv.org/abs/2512.07558开源权重:https://huggingface.co/collections/SteveZ25/relax-checkpointsGithub: https://github.com/ZhangShimin1/ReLaX

ReLaX 核心方法解读

1️⃣ 隐空间探索:从随机扰动到真实探索

大模型的推理,并不是单纯的 token 输出,而是隐层状态在高维空间里的连续演化。ReLaX 将这套隐层演化看作一个 “随机动力学系统”:模型内部状态会随着推理逐步变化,而采样温度、top-p、top-k 等随机扰动则像水流中掀起的涟漪,推动隐层状态偏离原轨迹。

仅仅在输出层制造、放大 token 生成的随机性,往往无法真正解锁模型内部探索潜力,关键是:只有当模型的内部动力学模式足够丰富,这些微小扰动才能被放大成多样的 latent 轨迹,从而产生有效探索。

2️⃣ 动态谱散度(DSD):量化隐空间动力学模式的多样性

然而,核心难题在于:如何捕捉大模型内部高维、复杂的非线性动力学?传统控制理论提供了一把利器 ——Koopman 算子(Koopman Operator),它允许我们在特定函数空间中,用线性的视角去观测和分析非线性系统的演化。

在这一框架下,ReLaX 引入前沿方法ResKoopNet,通过 MLP 学习出一个理想的Koopman dictionary,将大模型最后一层隐藏状态的复杂演化映射到一个可解析的线性空间中。换句话说,它将大模型隐层中如 “黑盒” 般混沌的推理轨迹,化繁为简,转化为可分析的谱特征。基于该谱空间,研究者提出了动态谱散度(DSD)指标。它通过计算单条轨迹内部动态谱模长的方差,精准量化了模型隐空间动力学结构的 “异质性”。这些模长深度揭示了增长(growth)、衰减(decay)与振荡(oscillation)等动力学模式的核心特质。DSD 越高,意味着大模型在推理过程中内部动力学模式越丰富,从而在 latent 空间中更有潜力探索多样化、创新性的解题路径。

简而言之,DSD 是对大模型内部 “思维多样性” 的量化:它不仅反映了内部计算的复杂性,也为探索-利用的策略优化提供了明确方向。

3️⃣ DSD 引导下的策略优化:让探索更有方向

有了 DSD,我们终于有了量化大模型隐空间探索能力的 “罗盘”。ReLaX 将基于这一指标设计的序列级正则化项融入经典算法GRPO,不仅告诉模型哪些轨迹值得关注,还指导它如何在探索与利用之间取得平衡。

具体来说,ReLaX 设计了两条关键机制:

优势塑形(Advantage Shaping):正则项与正向优势值绑定,只在带来正向收益的轨迹上提升隐空间的灵活度。这意味着模型不会盲目探索无用路径,而是把计算能力集中在高潜力轨迹上,避免无意义的模式漂移(semantic drift)。自适应 KL 正则(Adaptive KL Regularization): 对 DSD 超阈值的轨迹施加惩罚,以约束过度发散的动态谱,保证训练稳定性;同时对有潜质的轨迹保留充足探索空间,让模型在安全范围内大胆尝试。

最终,ReLaX 不只是简单增加探索,它通过对隐空间动力学进行调控,形成一个动态平衡的优化目标:在保证训练稳定的前提下,让大模型的隐层计算自由伸展,持续发掘更丰富的内在推理路径。

实验结果:打破 RLVR 性能瓶颈,持续激发大模型推理潜能

告别多样性束缚下的 “次优收敛”

作者在纯文本大模型(LLM)和多模态视觉-语言大模型(VLM)上验证了 ReLaX 的效果,并与 GRPO 在 3B/7B 规模下的训练进行了对比。通过训练过程中模型性能与 token 熵的关系图,可以直观观察到模型是否陷入多样性不足导致的性能瓶颈。

ReLaX(红)对比 GRPO(灰):3B/7B 规模 (a) 纯文本大模型(LLMs)与 (b) 多模态视觉-语言大模型(VLMs)在训练过程中性能与 token 熵的关系,散点表示各训练步骤。

在 GRPO(灰色曲线)下,训练初期模型探索充分,性能稳步提升;但随着训练推进,策略熵迅速下降,模型很快陷入次优收敛 —— 就像学生过早认定唯一解题思路,从此不再尝试其他可能性。

相比之下,ReLaX(红色曲线)在整个训练过程中不仅保持性能持续上升,同时策略熵稳定在合理区间,避免模式坍塌。这意味着 ReLaX 能在促进探索的同时,也顺应 RL 对模型分布锐化以利用高价值信号的天然趋势。

刷新多模态推理基准新 SOTA

以 Qwen2.5-VL-Instruct 系列为基础模型,ReLaX 在多模态推理任务上展现出显著优势:其 7B 规模模型在 MathVista、MathVerse、MathVision、MMMU、MMStar、DynaMath 与 EMMA 七大基准上取得53.2% 的 mean@1 平均准确率,刷新同尺度模型性能上限。与此同时,3B 规模的 ReLaX-VL-3B 也展现出强劲竞争力,其性能已可比甚至超越部分已有的 7B 级推理模型。

从 Token 到 Latent:推理与泛化能力的双重提升

纯文本数学推理:作为 RLVR 的核心应用场景,数学推理一直是检验方法有效性的 “主战场”。作者以 Qwen2.5-base 与 Qwen2.5-Math 为基础模型,将 ReLax 与多种基于 token 多样性的方法进行了系统对比。

实验结果显示,在 Math500、Minerva、AMC22/23、AIME24/25 等六大数学推理基准上,ReLaX 在相同训练设置下的平均性能稳定超越基于 token 多样性的方法。这一结果表明,相比直接干预输出层多样性,从 latent 动力学出发调控模型探索与利用,能够更高效地提升模型的推理能力。

进一步地,作者将 ReLaX 扩展至 Llama3.2-Instruct 与 Qwen3-base 等不同模型架构上,依然取得一致性能提升,验证了该方法良好的可扩展性与跨模型泛化能力。

多模态推理泛化:研究团队进一步在多模态视觉-语言大模型上验证了 latent 层面探索相对 token 层面探索的优势。具体而言,以 Qwen2.5-VL-3B 为基础模型,在多个多模态推理基准上,将 ReLaX与两类代表性的 token-level 方法进行对比:一类是直接将提升熵引入策略优化目标的 Entropy-Reg,另一类是通过协方差约束间接调控 token 熵的 KL-Cov。

实验结果给出了一个清晰的结论:ReLaX 在多模态推理任务上稳定优于两类 token-level 方法。

具体来看,Entropy-Reg 并未带来多模态推理能力的提升。相反,由于其在 token 层面显式鼓励不确定性,这种 “无约束” 的探索容易引入语义漂移,在多个基准上甚至劣于原始 GRPO,表现出明显的副作用。

相比之下,KL-Cov虽然带来一定增益,但其效果具有明显局限性:在 MathVista 等偏数学、几何的任务上表现相对更好 —— 这些任务对视觉信息依赖较弱;而在更依赖视觉理解的任务(如 EMMA-Physics)中,ReLaX 的优势显著扩大(+7.7)。

这一现象揭示了关键问题:仅在输出层面促进探索,难以有效影响多模态模型内部的跨模态计算过程。 token-level 方法对 latent 空间的作用有限,因此在需要深度视觉-文本融合的任务中难以泛化。

相比之下,ReLaX 直接作用于隐空间动力学,通过调控模型内部计算的灵活性,更有效地激活跨模态信息交互,从而显著提升对多模态输入的理解能力。论文中的 qualitative case study 也进一步验证了这一点。

未来展望:走向大模型内在机制的 “深水区”

ReLaX 的意义并不止于性能提升,它更重要的价值在于提供了一种全新的视角去理解大模型推理过程中的计算本质。

相比直接 “扰动” token 空间的概率,引导模型在隐空间中的动态演化,是解决 “探索–利用” 权衡的一种更具原则性的路径。未来,我们对模型探索能力的理解,将不再局限于输出层的不确定性。大模型的隐空间作为一片尚未被充分探索的 “蓝海”,正逐渐显现出其作为研究前沿的核心价值。其中高维状态所承载的丰富信息,刻画了隐藏在表层文本输出下的内在计算过程,为我们理解模型行为并提升其能力提供了新的切入点。

ReLaX 只是一个起点。随着我们不断深入这一 “隐空间”,大模型或许将不再只是概率预测的工具,而是能够在其丰富的内部表征中进行持续探索、自我修正,逐步演化出更接近 “认知过程” 的推理能力。