Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

编辑:LRST

【导读】Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新着称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。

今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

从计算机视觉到自然语言处理,从强化学习到生成模型,Adam以其卓越的自适应能力,成为当代深度学习模型的「标配」优化器,堪称AI领域的「万金油」。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Diederik Kingma是谷歌的一名研究科学家,曾经是OpenAI初创团队的一员,期间领导了基础算法研究团队。2018年,Kingma跳槽到谷歌,加入Google Brain(现为Google DeepMind),专注于生成式模型研究,包括扩散模型和大型语言模型。他是变分自编码器(VAE)、Adam优化器、Glow和变分扩散模型等工作的主要作者。

Jimmy Ba是深度学习教父Geoffrey Hinton的得意门生,于2018年获得University of Toronto的博士学位。作为Hinton学术家族的核心成员,他在ICLR、NeurIPS等顶级会议发表多篇开创性论文(其中Adam优化器论文引用量已突破21万次),堪称AI领域最具影响力的青年科学家之一。

Adam优化器虽在工程实践中表现优异,但长期以来缺乏对其优异性能的理论解释。

近期,清华大学李升波教授课题组发文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了这一「黑箱」算法的优化动力学机理。

该课题组的研究发现了神经网络优化过程与共形哈密顿系统演化存在「完美」的数学对偶性,揭示了Adam优化器暗藏的「相对论动力学」和「保辛离散化」本质,并由此提出了训练更加稳定、性能更加优秀的RAD优化器(Relativistic Adaptive Gradient Descent),这一研究工作为神经网络优化动力学的分析及全新算法的设计开辟了新航道。

Adam优化器的历史与算法特点

神经网络的优化主要依赖梯度下降方法。自20世纪50年代随机梯度下降(SGD)首次提出以来,优化算法经历了多次重要演进。从动量方法如SGD-M和NAG,到自适应方法如AdaGrad、RMSprop,优化算法的「演变之战」已持续超过70年。

2014年,Diederik Kingma与Jimmy Ba联合提出了Adam优化器(算法1),将神经网络优化算法的性能向前推进了一大步。该算法的核心设计思想是融合Momentum和RMSProp两大优化方法的优势:

通过指数移动平均计算一阶动量vk+1和二阶动量yk+1,分别估计梯度的一阶矩(即梯度期望)和原始二阶矩(近似于梯度方差)。针对动量零初始化导致的估计偏差,通过引入偏差修正技术,Adam兼具了快速收敛与稳定训练的双重特性。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

从算法原理看,Adam优化器通过动态维护一阶动量(方向修正)和二阶动量(步长调节),实现了参数更新的双重自适应:既优化了更新方向,又自动调整了有效学习率,显着加速了网络收敛。其偏差修正机制有效消除了训练初期的估计偏差,确保了参数更新的准确性。

此外,Adam展现出优异的超参数鲁棒性,在大多数场景下无需精细调参即可获得稳定性能。正是这些优势使其成为各类监督学习、强化学习任务的首选优化器。

Adam优化器为何具备如此出色的训练性能?至今仍缺乏对其优化动力学机理的深入解释,这已成为限制新一代神经网络优化算法设计的关键障碍。

梯度下降过程与动力学演化的对偶机制

受中国科学院院士冯康先生和美国国家三院院士M. I. Jordan的研究启发(前者开创了哈密顿算法与保辛离散化理论,后者成功将保辛理论引入最优化领域),清华大学的研究团队提出了一种神经网络优化算法的性能理论解释框架:

第一步,将神经网络的参数优化过程对偶为共形哈密顿系统的状态演化过程,建立参数梯度下降与系统能量耗散之间的内在联系。

第二步,利用保辛机制实现共形哈密顿系统的离散化,将离散系统的优势动态特性映射到神经网络的优化过程,从而完成对算法优化动力学的机理解释。

研究发现,神经网络梯度下降过程与共形哈密顿离散系统的演化呈现高度相似性,通过将网络参数θ对偶为系统状态q,目标函数J(θ)对偶为系统势能U(q),可直接建立二者间的对偶关系。

研究者据此开发了一个全新的网络优化算法开发框架,包含两个核心步骤:

1)动能建模:通过设计合适的动能项T(p)以嵌入期望的动态特性;

2)保辛离散:采用保辛离散方法以精确保持系统的动力学性质。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

RAD优化器的设计思路与性能对比

进一步地,研究者将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应调节能力,从理论上引入了对网络训练稳定性和收敛性等动态特性的保障机制。

这一工作使得研究者提出了既具备稳定动力学特性又适用于非凸随机优化的神经网络优化算法,即RAD优化器(算法2)。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

研究发现,当速度系数σ=1且保辛因子ζk取固定小值ε时,RAD优化器将退化为Adam优化器,揭示了Adam优化器的动力学机理,说明了Adam优化器是新提出的RAD优化器的一个特例。

相比于Adam优化器,RAD优化器具有更加优异的长期训练稳定性,这是因为:

1)优化前期:RAD具有类似Adam的快速收敛特性,能够高效定位到最优解的邻域;

2)优化后期:RAD的保辛结构逐渐增强,具备维持共形哈密顿系统动态特性的能力,确保算法具备更加优异的抗干扰能力。

值得注意的是,Adam中的有理因子ε是一个「人为引入」的小常数,用于避免分母为零的数值错误。而RAD的保辛因子ζ与哈密顿系统的「质量×质能」(即m2c2)相关,具有明确的物理根源。

这为之前的经验性发现(即适度增加ε可提升Adam性能)提供了理论性解释:增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系,同时也为分析其他主流自适应优化器(如AdaGrad、NAdam、AdamW等)提供了普适性的框架。

为了评估RAD优化器的性能,研究者在5种主流深度强化学习(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)中开展了广泛测试,并与9种主流神经网络优化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)进行了比较,结果表明RAD综合性能均排名第一。

特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%

参考资料:

[1] Lyu Y, Zhang X, Li S E, et al. Conformal Symplectic Optimization for Stable Reinforcement Learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024: 1-15.

[2] Kingma D P, Ba J. Adam: A method for stochastic optimization[C]//3rd International Conference on Learning Representations (ICLR). 2015: 1-11.

[3] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.

内容来源于网络。发布者:科技网btna,转转请注明出处:https://www.btna.cn/5084.html

(0)
科技网btna的头像科技网btna
上一篇 2025年4月23日 下午3:23
下一篇 2025年4月23日 下午3:23

相关推荐

  • 52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解

    编辑:英智 【导读】大模型之战烽火正酣,谷歌Gemini 2.5 Pro却强势逆袭!Gemini Flash预训练负责人亲自揭秘,深挖Gemini预训练的关键技术,看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。 谷歌凭借Gemini 2.5 Pro在激烈的大模型竞争中一举翻盘。 近日,Geimini Flash预训练负责人Vlad Feinberg…

    2025年4月29日
    5200
  • o3完爆人类医生,OpenAI基准直击AGI!

    编辑:桃子 KingHZ 【导读】OpenAI发布新基准HealthBench,联手60个国家262名执业医生,树立新的「AGI标志性用例」。OpenAI o3碾压Grok 3和Gemini 2.5 Pro,成功登顶。而最强AI几乎达到了人类医生最佳水平! 最强AI,已击败了人类医生。 就在刚刚,全球60个国家,262名执业医生共同上阵,联手OpenAI打造…

    2025年5月13日
    2600
  • 传华为或量产卷轴屏手机 又是行业首发?猜猜价格多少

    在当前的手机行业内,华为一直走在创新的前列。2024年9月,华为推出了全球首个量产的三折叠屏手机。2025年3月,华为宣布将发布一款专为原生鸿蒙打造的全新形态手机。而近日,CNMO注意到,有爆料人士透露,华为还将量产卷轴屏幕手机。 若此消息属实,华为很有可能会成为第一个量产卷轴屏幕手机的厂商,而且是行业内唯一同时拥有小折叠、大折叠、外折叠、三折叠、卷轴屏的手…

    2025年3月14日
    50400
  • 突发,美商务部叫停「AI扩散规则」藏杀机!英伟达市值再破3万亿

    编辑:桃子 【导读】昨晚,美商务部正式废止《AI扩散规则》,同时加码全球半导体出口管制,精准打击中国AI发展。 《AI扩散规则》生效前夜,特朗普政府正式叫停。 13日晚,美商务部工业和安全局(BIS)宣布,撤销拜登签署的《AI扩散规则》(即将在5月15日生效)。 与此同时,他们又出台了加强全球半导体出口管制的新措施,这些限制可谓是又准又狠。 具体包括以下三点…

    2025年5月14日
    14300
  • 新·摩尔定律诞生:AI智能体能力每4个月翻一番!智能爆炸在即

    编辑:英智 犀牛 【导读】AI编程智能体的能力正在飞速增长,最新研究揭示了这一「新摩尔定律」,如果AI智能体的任务时长继续以每4个月翻倍的速度增长,到2027年它们可能完成长达167小时的月级任务! 编程智能体能完成的任务量,正以爆炸式的速度增长! 而且,这一趋势还在加速。 2024到2025年,它们的任务处理能力每4个月翻一倍;而在2019到2025年,这…

    2025年4月30日
    5500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信