Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

编辑:LRST

【导读】Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新着称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。

今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

从计算机视觉到自然语言处理,从强化学习到生成模型,Adam以其卓越的自适应能力,成为当代深度学习模型的「标配」优化器,堪称AI领域的「万金油」。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Diederik Kingma是谷歌的一名研究科学家,曾经是OpenAI初创团队的一员,期间领导了基础算法研究团队。2018年,Kingma跳槽到谷歌,加入Google Brain(现为Google DeepMind),专注于生成式模型研究,包括扩散模型和大型语言模型。他是变分自编码器(VAE)、Adam优化器、Glow和变分扩散模型等工作的主要作者。

Jimmy Ba是深度学习教父Geoffrey Hinton的得意门生,于2018年获得University of Toronto的博士学位。作为Hinton学术家族的核心成员,他在ICLR、NeurIPS等顶级会议发表多篇开创性论文(其中Adam优化器论文引用量已突破21万次),堪称AI领域最具影响力的青年科学家之一。

Adam优化器虽在工程实践中表现优异,但长期以来缺乏对其优异性能的理论解释。

近期,清华大学李升波教授课题组发文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了这一「黑箱」算法的优化动力学机理。

该课题组的研究发现了神经网络优化过程与共形哈密顿系统演化存在「完美」的数学对偶性,揭示了Adam优化器暗藏的「相对论动力学」和「保辛离散化」本质,并由此提出了训练更加稳定、性能更加优秀的RAD优化器(Relativistic Adaptive Gradient Descent),这一研究工作为神经网络优化动力学的分析及全新算法的设计开辟了新航道。

Adam优化器的历史与算法特点

神经网络的优化主要依赖梯度下降方法。自20世纪50年代随机梯度下降(SGD)首次提出以来,优化算法经历了多次重要演进。从动量方法如SGD-M和NAG,到自适应方法如AdaGrad、RMSprop,优化算法的「演变之战」已持续超过70年。

2014年,Diederik Kingma与Jimmy Ba联合提出了Adam优化器(算法1),将神经网络优化算法的性能向前推进了一大步。该算法的核心设计思想是融合Momentum和RMSProp两大优化方法的优势:

通过指数移动平均计算一阶动量vk+1和二阶动量yk+1,分别估计梯度的一阶矩(即梯度期望)和原始二阶矩(近似于梯度方差)。针对动量零初始化导致的估计偏差,通过引入偏差修正技术,Adam兼具了快速收敛与稳定训练的双重特性。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

从算法原理看,Adam优化器通过动态维护一阶动量(方向修正)和二阶动量(步长调节),实现了参数更新的双重自适应:既优化了更新方向,又自动调整了有效学习率,显着加速了网络收敛。其偏差修正机制有效消除了训练初期的估计偏差,确保了参数更新的准确性。

此外,Adam展现出优异的超参数鲁棒性,在大多数场景下无需精细调参即可获得稳定性能。正是这些优势使其成为各类监督学习、强化学习任务的首选优化器。

Adam优化器为何具备如此出色的训练性能?至今仍缺乏对其优化动力学机理的深入解释,这已成为限制新一代神经网络优化算法设计的关键障碍。

梯度下降过程与动力学演化的对偶机制

受中国科学院院士冯康先生和美国国家三院院士M. I. Jordan的研究启发(前者开创了哈密顿算法与保辛离散化理论,后者成功将保辛理论引入最优化领域),清华大学的研究团队提出了一种神经网络优化算法的性能理论解释框架:

第一步,将神经网络的参数优化过程对偶为共形哈密顿系统的状态演化过程,建立参数梯度下降与系统能量耗散之间的内在联系。

第二步,利用保辛机制实现共形哈密顿系统的离散化,将离散系统的优势动态特性映射到神经网络的优化过程,从而完成对算法优化动力学的机理解释。

研究发现,神经网络梯度下降过程与共形哈密顿离散系统的演化呈现高度相似性,通过将网络参数θ对偶为系统状态q,目标函数J(θ)对偶为系统势能U(q),可直接建立二者间的对偶关系。

研究者据此开发了一个全新的网络优化算法开发框架,包含两个核心步骤:

1)动能建模:通过设计合适的动能项T(p)以嵌入期望的动态特性;

2)保辛离散:采用保辛离散方法以精确保持系统的动力学性质。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

RAD优化器的设计思路与性能对比

进一步地,研究者将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应调节能力,从理论上引入了对网络训练稳定性和收敛性等动态特性的保障机制。

这一工作使得研究者提出了既具备稳定动力学特性又适用于非凸随机优化的神经网络优化算法,即RAD优化器(算法2)。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

研究发现,当速度系数σ=1且保辛因子ζk取固定小值ε时,RAD优化器将退化为Adam优化器,揭示了Adam优化器的动力学机理,说明了Adam优化器是新提出的RAD优化器的一个特例。

相比于Adam优化器,RAD优化器具有更加优异的长期训练稳定性,这是因为:

1)优化前期:RAD具有类似Adam的快速收敛特性,能够高效定位到最优解的邻域;

2)优化后期:RAD的保辛结构逐渐增强,具备维持共形哈密顿系统动态特性的能力,确保算法具备更加优异的抗干扰能力。

值得注意的是,Adam中的有理因子ε是一个「人为引入」的小常数,用于避免分母为零的数值错误。而RAD的保辛因子ζ与哈密顿系统的「质量×质能」(即m2c2)相关,具有明确的物理根源。

这为之前的经验性发现(即适度增加ε可提升Adam性能)提供了理论性解释:增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系,同时也为分析其他主流自适应优化器(如AdaGrad、NAdam、AdamW等)提供了普适性的框架。

为了评估RAD优化器的性能,研究者在5种主流深度强化学习(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)中开展了广泛测试,并与9种主流神经网络优化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)进行了比较,结果表明RAD综合性能均排名第一。

特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%

参考资料:

[1] Lyu Y, Zhang X, Li S E, et al. Conformal Symplectic Optimization for Stable Reinforcement Learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024: 1-15.

[2] Kingma D P, Ba J. Adam: A method for stochastic optimization[C]//3rd International Conference on Learning Representations (ICLR). 2015: 1-11.

[3] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.

内容来源于网络。发布者:科技网btna,转转请注明出处:https://www.btna.cn/5084.html

(0)
科技网btna的头像科技网btna
上一篇 2025年4月23日 下午3:23
下一篇 2025年4月23日 下午3:23

相关推荐

  • 国产大模型「五强争霸」,决战AGI!

    编辑:编辑部 HYZ 【导读】中国基础大模型市场,彻底变天了!如今牌桌上的玩家已经变成了「基模五强」——字节、阿里、阶跃星辰、智谱和DeepSeek。接下来的巅峰之战,关键制胜点又会在哪里? DeepSeek的横空出世,已经彻底改变了全球的AI局势。 从此,不仅中美大模型竞争格局改变,国产大模型的产业版图,也被一举打破! 纵观中国基础大模型的市场,可以看到,…

    2025年5月12日
    8400
  • 再砍一刀!英伟达或发布特供版H20

    编辑:Aeneas 好困 【导读】刚刚,外媒爆料:2个月内,英伟达的中国特供版H20就要来了!不过,这次为了满足新的出口管制,H20在阉割版的基础上又继续做了阉割。H20订单已经爆了,总额达180亿! 英伟达「阉割版」H20的「阉割版」,可能要来了! 就在刚刚,路透社发文称,内部人士透露,英伟达将在未来两个月内发布满足全新出口管制的特供版H20芯片。 现在,…

    2025年5月10日
    8300
  • OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

    编辑:编辑部 NZYH 【导读】满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。 不出所料,满血版o3真的来了。 刚刚,OpenAI联创Greg Brockman和…

    2025年4月18日
    5700
  • 98%财务顾问依赖AI,揭秘7家先锋企业如何解锁商业新格局

    编辑:英智 【导读】摩根士丹利的案例表明,企业应用AI离不开快速试错与优化。AI通过分析海量数据打造个性化体验,Indeed的职位推荐和Lowe’s搜索优化证明了数据与AI结合的巨大潜力。 AI正以前所未有的速度,重塑企业运营和竞争格局。 从金融服务到电商零售,从求职招聘到家装购物,AI带来了巨大的变革潜力。 OpenAI最新发布的报告,深入剖析了7家前沿公…

    2025年5月8日
    3400
  • 诺奖得主、AlphaGo之父:AI远不如人类科学家,根本提不出有价值的猜想

    编辑:桃子 【导读】去年10月,DeepMind联合创始人Demis Hassabis因开发AlphaFold以解决蛋白质复杂结构预测问题,而获得了诺贝尔化学奖;2016年,他和他的团队开发的AlphaGo战胜了人类围棋世界冠军李世石,自此声名鹊起;作为一个天才少年,他更是在13岁时就晋升为了国际象棋「大师」。 一直以来,Demis Hassabis都被认为…

    2025年4月30日
    6500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信