[其他] AI攻克李雅普诺夫函数谜题

时间Mon Oct 21 13:30:42 2024

https://www.jiqizhixin.com/articles/2024-10-20-3 132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了牛顿没解决的问题，AI给你解决了？ AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一，能否解决高阶的数学问题，无疑是衡量语言模型推理程度的一把尺。虽然我们已经见证过来自GoogleDeepMind的Al以一分之差痛失IMO金牌，也从陶哲轩频频更新的动态中得知，AI工具已经在帮助数学家解决像「纽结理论」和「海狸难题」这样困扰数学家几个世纪的难题。但是这些成果大多需要数学家作大量的前期工作，对於没有已知通用解法的开放性问题， AI也是一个小白。最近的一项研究打破了这个局面。 Meta和巴黎理工学院的研究人员共同探讨了一个困扰数学界长达132年的问题：李雅普诺夫函数。简单来说，李雅普诺夫函数用来判断一个动力系统相对於其平衡点或轨道，随着时间无限延长後是否能保持全局稳定。论文已经入选了NeurIPS 2024。论文标题：全局李亚普诺夫函数：数学中长期存在的开放问题，具有符号变换器论文网址：https://arxiv.org/pdf/2410.08304 这类问题中，最出名的可能就是三体问题了：两个物体在没有其他引力的影响下相互绕行，如果再添加一个物体，在大多数情况下，这三个物体的运动都会变得混乱起来。三体问题与李雅普诺夫函数三体问题是经典力学中最着名的未解问题之一。牛顿提出了万有引力定律，并通过微积分为两个物体之间的引力相互作用提供了精确的解。然而，当系统中增加第三个物体时，系统的覆杂性显着增加，传统方法无法应对。 18世纪，拉格朗日做出了突破性的贡献：拉格朗日点。三体系统将在拉格朗日点达到平衡。然而，他的发现仍无法解决三体系统在长时间尺度下的整体稳定性问题。到了19世纪末，庞加莱透过发展拓朴学和混沌理论，证明了某些条件下，三体系统会出现不可预测的混沌行为。这显示三体问题的复杂程度远超人们的想像，也意味着不存在普适的解。 1892年，李雅普诺夫又将这个世纪难题向前迈进了一步。判断三体系统是否稳定，可以藉助李雅普诺夫函数。李雅普诺夫函数V(x)需要满足以下条件才能确保系统的稳定性： 1.稳定平衡点 https://reurl.cc/34nmN0 2.全域渐近稳定平衡点 https://reurl.cc/NlMDr6 不过，李雅普诺夫只提供了理论上的证明，想要实际计算出一个系统的函数解极为困难。虽然像SOSTOOLS 这样的运算工具可以辅助，但它们的能力仅限於处理小型的多项式系统，对於更复杂的情况往往无能为力。在这项工作中，研究者训练序列到序列Transformer 来预测给定系统的Lyapunov 函数。他们将这个问题定义为一个翻译任务：问题和解决方案以符号Token序列的形式表示，模型从生成的系统和Lyapunov 函数对中训练，以最小化预测序列和正确解决方案之间的交叉熵。研究者使用学习率为10^-4 的Adam 优化器，在16 个样本的批上训练具有8 层、 10 个注意力头和640 嵌入维度的Transformer，初始线性热身阶段为10000 个优化步骤，并进行反平方根调度。所有实验都在8 个V100 GPU 和32 GB 记忆体上运行，每个GPU 的训练时间为12 到15 小时。数据生成本文模型是在成对稳定系统和相关Lyapunov 函数的大型资料集上进行训练和测试的。对此类稳定系统进行采样会遇到两个难题：首先，大多数动态系统都是不稳定的，没有通用的方法来判断一个系统是否稳定；其次，一旦对稳定系统进行采样，除了特殊情况外，没有找到Lyapunov 函数的通用技术。对於一般情况，研究者这里采用了後向生成法，即采样求解并产生相关问题；而对於小程度的可控多项式系统，研究者采用前向生成法，即采样系统并用求解器计算其解。研究者产生了2 个後向资料集和2 个前向资料集用於训练和评估，并产生了一个较小的前向资料集用於评估。後向资料集BPoly 包含100 万个非退化多项式系统S，其系数为整数，等式数为2 到5（比例相同）。研究者还创建了BNonPoly，一个包含100 万个非退化非多项式系统、2 至5 个等式的资料集。在这个资料集中，f 的座标是通用函数的多项式，对於这类系统，目前还没有发现Lyapunov 函数的方法。两个前向资料集都是使用Python 的SumOfSquares 软体包中的求解器产生的，并采用了与 SOSTOOLS 类似的技术。这些资料集中的所有系统都是具有2 到3 个方程式的非零整数多项式和整数多项式Lyapunov 函数，这些方法只能求解这些系统。 FLyap是一个包含10 万个系统的资料集，这些系统的Lyapunov 函数都是非同次多项式；FBarr 是一个有30 万个以非均质多项式作为障碍函数的系统。这些资料集规模较小的原因在於SOS 方法的计算成本以及发现Lyapunov 或障碍函数的难度。为了与发现多项式系统Lyapunov 函数的最先进方法SOSTOOL 进行比较，研究者还产生了一个测试集，其中包含SOSTOOLS 可以求解的1500 个具有整数系数的多项式系统（ FSOSTOOLS）。结果研究者在不同资料集上训练的模型，在held-out测试集上达到了近乎完美的准确性，且在分布外测试集上则有非常高的性能，尤其是在用少量前向样本丰富训练集时。这些模型的性能大大优於先前最先进的技术，而且还能发现新系统的Lyapunov 函数。分布内/分布外准确率表2展示了 4 个数据集上训练的模型性能。在它们所训练的数据集的保留测试集上进行测试时，所有模型都达到了很高的域内准确率。在前向数据集上，障碍函数的预测准确率超过 90%，Lyapunov 函数的预测准确率超过 80%。在後向数据集上，基於 BPoly 训练的模型的准确率接近 100%。可以注意到，集束搜索，即允许对解法进行多次猜测，能显着提高性能（对於性能较低的模型，束大小为 50 时，性能提高 7% 至 10%）。研究者在所有进一步的实验中都使用了束大小 50。 https://reurl.cc/oyMXxD 检验在生成资料上训练模型的试金石是它们在分布外（OOD）的泛化能力。表3 展示了後向模型在前向生成集上的评估结果。在使用平方和Lyapunov 函数（FLyap）对前向产生的随机多项式系统进行测试时，所有後向模型都达到了很高的准确率（73% 到75%）。非多项式系统（BNonPoly）是最多样化的训练集，其性能也最好。在前向产生的具有障碍函数（FBarr）的系统集上，後向模型的精度较低，这可能是由於许多障碍函数并不一定是 Lyapunov 函数。在这些测试集上，後向模型必须应对不同的分布和（略微）不同的任务。另一方面，前向模型在後向测试集上的表现较低。这可能是由於这些训练集的规模较小。 https://reurl.cc/MjQDk4 总的来说，这些结果似乎证实了後向训练模型并没有学会反转其生成过程。如果是这样的话，它们在前向测试集上的表现就会接近零。丰富训练分布以提高性能为了提高後向模型的 OOD 性能，研究者在其训练集中加入了极少量的前向生成的样本，带来了性能的显着提高，如表4所示。将 FBarr 中的 300 个样本添加到 BPoly 中， FBarr 的准确率从 35% 提高到 89%（尽管训练集中前向样本的比例仅为 0.03%），而 FLyap 的 OOD 准确率提高了 10 个百分点以上。增加 FLyap 中的样本带来的改进较小。这些结果表明，通过在训练集中添加少量（几十个或几百个）我们知道如何求解的样本，可以大大提高根据後向生成数据训练的模型的 OOD 性能。在这里，额外的样本解决了一个较弱但相关的问题：发现障碍函数。由於提高性能所需的样本数量很少，因此这种技术特别具有成本效益。与baseline的对比 https://reurl.cc/jyEpkM 如表5所示，在FSOSTOOLS 上，一个以BPoly 为基础并辅以500 个FBarr 系统训练的模型（PolyMixture）达到了84%的准确率，证实了混合模型的高OOD 准确率。在所有产生的测试集上，PolyMixture 的准确率都超过了84%，而findlyap 在後向产生的测试集上的准确率仅为15%。这表明，在多项式系统上，与先前的技术水平相比，透过後向产生资料训练的Transformer取得了非常出色的结果。平均而言，基於Transformer的模型也比SOS 方法快得多。当尝试求解一个包含2 至5 个方程式的随机多项式系统时，findlyap 平均需要935.2 秒（超时2400 秒）。对於本文模型，使用greedy decoding时，推理和验证一个系统平均需要2.6 秒，使用束大小为50 时需要13.9 秒。发现新数学表6 列出了本文模型发现的正确解的百分比。在多项式资料集上，最佳模型（PolyM）分别在11.8%和10.1%的（degree 3和degree 5）系统中发现了Lyapunov 函数，是findlyap 的10 倍。对於非多项式系统，有12.7% 的样本发现了Lyapunov 函数。这些结果表明，从产生的系统资料集和Lyapunov 函数中训练出来的语言模型确实可以发现未知的Lyapunov 函数，其效能远高於最先进的SOS 解算器。 https://reurl.cc/7d8le5 专家迭代监於表6 中模型的效能，可以利用新解决的问题来进一步微调模型。具体来说，研究者创建了一个针对多项式系统的经过验证的模型预测样本FIntoTheWild，并将其添加到原始训练样本中，然後继续训练模型。他们也测试了对模型进行微调的不同策略，并在表7 中总结了正向基准和「wild」的表现。在100 万个训练集的基础上增加1000 个经过验证的预测後，「to into wild」测试集的效能提高了约15%，而其他测试集（n4）的表现则没有受到影响。增加更多样本似乎是有害的，因为这会降低在其他基准（n5 和n6）上的效能。研究者也注意到，使用其他分布的混合数据进行微调并不高效（结果n1 和n2），而使用少量数据已经有助於获得一些改进（结果n3）。最後，使用来自FIntoTheWild 的资料从头开始预训练模型并不高效（结果n7）。更多研究细节，可参考原论文。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.253.176.75 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Math/M.1729488650.A.AA6.html

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Math 板

[其他] AI攻克李雅普诺夫函数谜题

热门看板

赞助商连结