机器学习在科学中的应用:用强化学习塑造激光脉冲

社区文章 发布于 2025 年 7 月 18 日

目录

概述:

我们训练了一个强化学习代理,通过现有的诊断图像**优化激光脉冲形状**,并在各种动态参数下实现强度最大化。我们的方法**(1) 完全避免了超快激光脉冲不精确的重建**,**(2) 可以学习对不同动态的鲁棒性**,以及**(3) 通过仅在粗略模拟中进行训练,防止了测试时的异常行为**。

Phase changes animation

(A) HPL系统中脉冲整形RL流程的示意图。(B) 激光系统泵浦链中线性和非线性相位累积过程的图示。

通过适当控制在展宽器处施加的相位,可以同时获得能量和持续时间上的增益,从而实现最大的峰值强度。


塑造激光脉冲

超快光物质相互作用,如激光等离子体物理和非线性光学,需要精确塑造时间脉冲剖面。优化这些剖面是建立对这些相互作用控制的最关键任务之一。通常,激光脉冲所传递的最高强度通常可以通过将脉冲压缩到其变换极限(TL)脉冲形状来实现,而某些相互作用可能需要与TL剖面不同的任意时间形状(主要用于保护系统免受潜在损害)。

Phase changes animation

输入光谱(左)上应用的光谱相位变化直接影响时间剖面(右)。

在这项工作中,我们通过改变GDD、TOD和FOD系数来塑造激光脉冲,有效调整光谱相位以最小化时间脉冲持续时间。

自动化方法

最常见的自动化激光脉冲形状优化方法主要采用黑盒算法,如贝叶斯优化(BO)和进化策略(ES)。这些算法通常在脉冲整形器和各种测量设备之间形成闭环反馈回路中使用。

对于脉冲持续时间最小化,包括BO和ES在内的数值方法需要精确的时间形状重建,以测量与目标时间剖面的损失,或获得衍生指标,如半高宽持续时间或峰值强度值。

最近,基于BO的方法因其广泛适用性和相对于ES的样本效率而受到欢迎,通常只需要一小部分函数评估即可获得可比的性能。确实,在自动化脉冲整形中,每次函数评估都需要一次(或多次)真实世界的激光爆发。因此,直接优化真实世界操作硬件的方法根据其所需交互次数的效率进行评估。

BO的局限性

尽管有效,但BO存在与以下方面相关的局限性:(1) 需要进行精确的脉冲重建,(2) 机器安全性,以及 (3) 可迁移性。在很大程度上,这些局限性对于ES等其他方法更为显著。

1. 不精确的脉冲重建

BO 需要对当前脉冲形状进行精确测量以指导优化。然而,真实世界的脉冲重建技术可能**存在噪声或不精确**,导致状态估计不佳,并增加了应用次优控制的风险。

Phase changes animation

时间域重建相位(上图)的时间剖面与脉冲状态的诊断测量(下图),以FROG轨迹的形式呈现。图片来源:Zahavy 等人,2018。

2. 对动态的依赖

BO 通常针对特定的系统参数进行优化,**当激光动态变化时,泛化能力不佳**。每个新的实验设置或参数区域可能都需要从头开始重新优化过程!

这源于标准BO在静止性假设下优化通常是标量损失函数,这在脉冲整形方面可能相当有问题。这是因为实验设置的日常变化很可能导致非静止性:**相同的控制,在不同的实验条件下应用,可能会产生显著不同的结果**。

Phase changes animation

实验条件(此处为非线性参数“B积分”)对应用相同控制的最终结果的影响。

3. 不稳定的探索

BO 在初始化时应用**突然的控制**可能会危及系统。控制是作为施加在门控光纤上的温度梯度来应用的,因此连续的控制通常不能显著变化,因为单步的温差不能任意变化。

BO temporal profile
BO exploration

BO,(左)通过探测参数空间点获得的时间剖面,和(右)BO,探测点随参数空间探索的演变。

强化学习的救赎

在这项工作中,我们通过**(1) 直接从现有图像中学习策略**,来解决所有这些局限性,这些策略能够**(2) 在不同动态下工作**,并且**(3) 在粗略模拟中进行训练,以防止测试时的异常行为**。

首先,(1) 我们直接从现有的64x64图像形式的诊断测量中训练我们的强化学习代理。这意味着我们可以**完全绕过**由时间脉冲形状重建的数值方法产生的**重建噪声**,直接从单通道图像中学习。

控制直接从图像中应用,从而学习适应环境中未建模的变化。

此外,(2) 通过在各种场景中进行训练,强化学习可以开发出**安全且通用的控制策略**,以适应一系列不同的动态。反过来,这使得在不同的实验条件下运行和实时更新控制策略成为可能。

即使在系统非线性达到高于5的虚构水平时,我们也能保持高水平的性能(>70%)。这表明我们可以通过应用适当的随机化技术来保持性能。

最后,(3) 通过在粗略模拟中学习,我们可以**大大限制测试时的交互次数**,防止可能危及系统安全的异常行为。

应用的控制(BO vs RL)。由于BO从客观函数的迭代优化代理模型中采样,因此它比RL探索更加不稳定。

总之,我们证明了深度强化学习可以通过从**原始诊断数据中学习鲁棒策略**来掌握激光脉冲整形,为**复杂物理系统的自主控制**铺平道路。

如果您有兴趣了解更多信息,请查阅我们的最新论文我们的模拟器代码,并尝试在线演示

社区

注册登录以评论