从最小作用量原理到最优控制理论

引言

最小作用量原理是物理学中的一个基本概念,它描述了物理系统在演化过程中选择的路径是使作用量达到极值的路径。这一原理不仅在经典力学中具有重要地位,还在量子力学、相对论和场论中得到了广泛应用。通过最小作用量原理,我们可以推导出系统的运动方程,如欧拉-拉格朗日方程和哈密顿方程。

在控制理论中,最优控制问题的核心是找到一个控制策略,使得系统的性能指标达到最优。性能指标通常是一个关于状态和控制输入的积分量,类似于物理中的作用量。因此,最小作用量原理为最优控制理论提供了一个自然的数学框架。

通过将最小作用量原理应用于控制理论,我们可以利用变分法和拉格朗日乘子法来处理最优控制问题。具体来说,我们定义一个广义作用量,其中包含了系统的状态方程作为约束条件。通过对广义作用量进行变分,我们可以得到最优控制的必要条件。这一过程不仅揭示了最优控制问题与物理系统演化之间的深刻联系,还为求解复杂的控制问题提供了有效的方法。

最小作用量原理

最小作用量原理是物理学中的一个基本概念。假设一个物理系统的拉格朗日量 LLL 仅依赖于广义坐标 qiq_iqi、广义速度 q˙i\dot{q}_iq˙i 和时间 ttt。作用量 SSS 定义为拉格朗日量 LLL 在时间区间 [t1,t2][t_1, t_2][t1,t2] 上的积分:

S=∫t1t2L(qi,q˙i,t) dt。 S = \int_{t_1}^{t_2} L(q_i, \dot{q}_i, t) \, dt。 S=t1t2L(qi,q˙i,t)dt

根据最小作用量原理,物理系统的实际运动路径是使作用量 SSS 达到极值的路径。通过对作用量 SSS 进行变分,可以得到欧拉-拉格朗日方程:

ddt(∂L∂q˙i)−∂L∂qi=0。 \frac{d}{dt} \left( \frac{\partial L}{\partial \dot{q}_i} \right) - \frac{\partial L}{\partial q_i} = 0。 dtd(q˙iL)qiL=0

详细推导步骤

假设 qi(t)q_i(t)qi(t) 进行一个小的变动 δqi(t)\delta q_i(t)δqi(t),并要求在边界处变动为零,即 δqi(t1)=δqi(t2)=0\delta q_i(t_1) = \delta q_i(t_2) = 0δqi(t1)=δqi(t2)=0。变分后的作用量为:

S+δS=∫t1t2L(qi+δqi,q˙i+δq˙i,t) dt。 S + \delta S = \int_{t_1}^{t_2} L(q_i + \delta q_i, \dot{q}_i + \delta \dot{q}_i, t) \, dt。 S+δS=t1t2L(qi+δqi,q˙i+δq˙i,t)dt

SSS 进行变分,得到:

δS=∫t1t2(∂L∂qiδqi+∂L∂q˙iδq˙i)dt。 \delta S = \int_{t_1}^{t_2} \left( \frac{\partial L}{\partial q_i} \delta q_i + \frac{\partial L}{\partial \dot{q}_i} \delta \dot{q}_i \right) dt。 δS=t1t2(qiLδqi+q˙iLδq˙i)dt

利用分部积分对第二项进行处理:

∫t1t2∂L∂q˙iδq˙i dt=[∂L∂q˙iδqi]t1t2−∫t1t2ddt(∂L∂q˙i)δqi dt。 \int_{t_1}^{t_2} \frac{\partial L}{\partial \dot{q}_i} \delta \dot{q}_i \, dt = \left[ \frac{\partial L}{\partial \dot{q}_i} \delta q_i \right]_{t_1}^{t_2} - \int_{t_1}^{t_2} \frac{d}{dt} \left( \frac{\partial L}{\partial \dot{q}_i} \right) \delta q_i \, dt。 t1t2q˙iLδq˙idt=[q˙iLδqi]t1t2t1t2dtd(q˙iL)δqidt

由于边界条件 δqi(t1)=δqi(t2)=0\delta q_i(t_1) = \delta q_i(t_2) = 0δqi(t1)=δqi(t2)=0,第一项为零。因此,变分 δS\delta SδS 变为:

δS=∫t1t2(∂L∂qi−ddt(∂L∂q˙i))δqi dt。 \delta S = \int_{t_1}^{t_2} \left( \frac{\partial L}{\partial q_i} - \frac{d}{dt} \left( \frac{\partial L}{\partial \dot{q}_i} \right) \right) \delta q_i \, dt。 δS=t1t2(qiLdtd(q˙iL))δqidt

为了使 δS=0\delta S = 0δS=0 对任意 δqi(t)\delta q_i(t)δqi(t) 成立,必须有:

ddt(∂L∂q˙i)−∂L∂qi=0。 \frac{d}{dt} \left( \frac{\partial L}{\partial \dot{q}_i} \right) - \frac{\partial L}{\partial q_i} = 0。 dtd(q˙iL)qiL=0

这就是欧拉-拉格朗日方程。

欧拉-拉格朗日方程在物理学中用于描述系统的运动规律,而在最优控制理论中,它的思想也被广泛应用。通过最小作用量原理,我们可以将物理系统的运动路径与控制系统的最优路径联系起来。具体来说,最优控制问题中的性能指标类似于物理中的作用量,而控制输入的选择则类似于物理系统选择其运动路径的过程。通过变分法,我们可以得到最优控制的必要条件,这些条件与欧拉-拉格朗日方程形式上非常相似。因此,欧拉-拉格朗日方程不仅是物理学中的基本方程,也是最优控制理论中的重要工具。

最优控制公式推导

在控制理论中,我们的目标是找到一个合适的控制输入 u(t)u(t)u(t),使得系统在满足一定约束条件的情况下,某个性能指标 JJJ 达到最小化。这个过程与物理系统通过最小作用量原理选择其运动路径的过程非常相似。为了更好地理解这一点,我们首先需要了解一些基本概念和背景知识。

控制理论的基本概念

控制理论是研究如何通过控制输入来影响系统行为的学科。一个典型的控制系统由以下几个部分组成:

  1. 被控对象:这是我们希望控制的系统,例如机械臂、飞行器或化学反应器。
  2. 控制输入:这是我们施加到系统上的信号或动作,用于引导系统达到期望的状态。
  3. 状态变量:这些变量描述了系统在任意时刻的状态,例如位置、速度或温度。
  4. 性能指标:这是一个函数,用于评估系统性能的好坏。我们的目标是通过选择合适的控制输入,使性能指标达到最优。
性能指标的定义

在最优控制问题中,性能指标 JJJ 通常定义为一个积分形式的函数,它反映了系统在整个控制过程中的表现。具体形式为:

J=∫t0tfL(x,u,t) dt, J = \int_{t_0}^{t_f} \mathcal{L}(x, u, t) \, dt, J=t0tfL(x,u,t)dt

其中 L\mathcal{L}L 是拉格朗日函数,类似于物理中的拉格朗日量,xxx 是状态变量,uuu 是控制输入,ttt 是时间。

动力学系统的状态方程

假设我们有一个动力学系统,其状态方程描述了系统状态随时间的变化关系。状态方程通常表示为:

x˙=f(x,u,t)。 \dot{x} = f(x, u, t)。 x˙=f(x,u,t)

这里,x˙\dot{x}x˙ 表示状态变量 xxx 对时间的导数,fff 是一个函数,描述了状态变量如何受当前状态 xxx 和控制输入 uuu 的影响。

通过结合状态方程和性能指标,我们可以将最优控制问题形式化为一个数学优化问题。我们的目标是找到一个控制输入 u(t)u(t)u(t),使得性能指标 JJJ 最小化,同时满足状态方程的约束。

广义作用量和拉格朗日乘子法

为了将最小作用量原理应用于最优控制问题,我们引入拉格朗日乘子法。定义广义作用量为

S=∫t0tf(L(x,u,t)+λT(t)[x˙−f(x,u,t)])dt。 S = \int_{t_0}^{t_f} \left( \mathcal{L}(x, u, t) + \lambda^T(t) [\dot{x} - f(x, u, t)] \right) dt。 S=t0tf(L(x,u,t)+λT(t)[x˙f(x,u,t)])dt

这里,λ(t)\lambda(t)λ(t) 是拉格朗日乘子,用于引入状态约束。

详细解释:

通过引入拉格朗日乘子,状态方程 x˙=f(x,u,t)\dot{x} = f(x, u, t)x˙=f(x,u,t) 被包含在广义作用量中。变分法对广义作用量 SSS 进行变分时,拉格朗日乘子项确保了状态方程的约束条件被满足。

具体来说,变分后得到的方程包括:

  • xxx 的变分,得到状态方程的共轭动量方程。共轭动量方程描述了系统状态变量的变化率与拉格朗日乘子的关系,确保系统的动力学约束被满足。
  • uuu 的变分,得到最优控制的必要条件。最优控制的必要条件是指在给定约束条件下,使性能指标达到最优的控制输入 u(t)u(t)u(t) 必须满足的条件。
  • λ\lambdaλ 的变分,确保状态方程的约束。约束方程确保系统的状态方程在优化过程中始终被满足,即系统的实际运动轨迹符合动力学方程。
变分法求解

对广义作用量 SSS 进行变分,得到最优控制的必要条件。首先,定义广义作用量:

S=∫t0tf(L(x,u,t)+λT(t)[x˙−f(x,u,t)])dt。 S = \int_{t_0}^{t_f} \left( \mathcal{L}(x, u, t) + \lambda^T(t) [\dot{x} - f(x, u, t)] \right) dt。 S=t0tf(L(x,u,t)+λT(t)[x˙f(x,u,t)])dt

其中,λ(t)\lambda(t)λ(t) 是拉格朗日乘子。接下来,对广义作用量 SSS 进行变分,分别对 xxxuuuλ\lambdaλ 进行变分。

  1. xxx 的变分

δS=∫t0tf(∂L∂xδx+λTδx˙−λT∂f∂xδx)dt。 \delta S = \int_{t_0}^{t_f} \left( \frac{\partial \mathcal{L}}{\partial x} \delta x + \lambda^T \delta \dot{x} - \lambda^T \frac{\partial f}{\partial x} \delta x \right) dt。 δS=t0tf(xLδx+λTδx˙λTxfδx)dt

利用分部积分法处理 λTδx˙\lambda^T \delta \dot{x}λTδx˙ 项:

∫t0tfλTδx˙ dt=λTδx∣t0tf−∫t0tfdλTdtδx dt。 \int_{t_0}^{t_f} \lambda^T \delta \dot{x} \, dt = \left. \lambda^T \delta x \right|_{t_0}^{t_f} - \int_{t_0}^{t_f} \frac{d\lambda^T}{dt} \delta x \, dt。 t0tfλTδx˙dt=λTδx t0tft0tfdtdλTδxdt

由于边界条件 δx(t0)=δx(tf)=0\delta x(t_0) = \delta x(t_f) = 0δx(t0)=δx(tf)=0,第一项为零。因此,变分 δS\delta SδS 变为:

δS=∫t0tf(∂L∂x−dλdt−λT∂f∂x)δx dt。 \delta S = \int_{t_0}^{t_f} \left( \frac{\partial \mathcal{L}}{\partial x} - \frac{d\lambda}{dt} - \lambda^T \frac{\partial f}{\partial x} \right) \delta x \, dt。 δS=t0tf(xLdtdλλTxf)δxdt

为了使 δS=0\delta S = 0δS=0 对任意 δx(t)\delta x(t)δx(t) 成立,必须有:

∂L∂x−dλdt−λT∂f∂x=0。 \boxed{\frac{\partial \mathcal{L}}{\partial x} - \frac{d\lambda}{dt} - \lambda^T \frac{\partial f}{\partial x} = 0。} xLdtdλλTxf=0

  1. uuu 的变分

δS=∫t0tf(∂L∂uδu+λT∂f∂uδu)dt。 \delta S = \int_{t_0}^{t_f} \left( \frac{\partial \mathcal{L}}{\partial u} \delta u + \lambda^T \frac{\partial f}{\partial u} \delta u \right) dt。 δS=t0tf(uLδu+λTufδu)dt

为了使 δS=0\delta S = 0δS=0 对任意 δu(t)\delta u(t)δu(t) 成立,必须有:

∂L∂u+λT∂f∂u=0。 \boxed{\frac{\partial \mathcal{L}}{\partial u} + \lambda^T \frac{\partial f}{\partial u} = 0。} uL+λTuf=0

  1. λ\lambdaλ 的变分

δS=∫t0tf(x˙−f(x,u,t))δλ dt。 \delta S = \int_{t_0}^{t_f} \left( \dot{x} - f(x, u, t) \right) \delta \lambda \, dt。 δS=t0tf(x˙f(x,u,t))δλdt

为了使 δS=0\delta S = 0δS=0 对任意 δλ(t)\delta \lambda(t)δλ(t) 成立,必须有:

x˙=f(x,u,t)。 \boxed{\dot{x} = f(x, u, t)。} x˙=f(x,u,t)

综上所述,最优控制的必要条件包括:

  • 状态方程:

    x˙=f(x,u,t)。 \dot{x} = f(x, u, t)。 x˙=f(x,u,t)

  • 共轭动量方程:

    dλdt=−∂L∂x+λT∂f∂x。 \frac{d\lambda}{dt} = -\frac{\partial \mathcal{L}}{\partial x} + \lambda^T \frac{\partial f}{\partial x}。 dtdλ=xL+λTxf

  • 最优控制条件:

    ∂L∂u+λT∂f∂u=0。 \frac{\partial \mathcal{L}}{\partial u} + \lambda^T \frac{\partial f}{\partial u} = 0。 uL+λTuf=0

最优控制举例

假设我们有一个简单的线性系统,其状态方程为

x˙=Ax+Bu, \dot{x} = Ax + Bu, x˙=Ax+Bu

其中 xxx 是状态向量,uuu 是控制输入,AAABBB 是已知矩阵。我们希望最小化以下性能指标:

J=12∫0∞(xTQx+uTRu)dt, J = \frac{1}{2} \int_{0}^{\infty} \left( x^T Q x + u^T R u \right) dt, J=210(xTQx+uTRu)dt

其中 QQQRRR 是权重矩阵,分别用于衡量状态偏离和控制能量的代价。

首先,定义哈密顿量 H\mathcal{H}H 为:

H=12xTQx+12uTRu+λT(Ax+Bu)。 \mathcal{H} = \frac{1}{2} x^T Q x + \frac{1}{2} u^T R u + \lambda^T (Ax + Bu)。 H=21xTQx+21uTRu+λT(Ax+Bu)

哈密顿量和拉格朗日量是物理学中两个重要的概念。拉格朗日量 LLL 通常用于描述系统的动力学,其形式为广义坐标 qiq_iqi 和广义速度 q˙i\dot{q}_iq˙i 的函数。通过最小作用量原理,拉格朗日量可以用来推导系统的运动方程。而哈密顿量 HHH 则是通过拉格朗日量的勒让德变换得到的,通常用于描述系统的能量,其形式为广义坐标 qiq_iqi 和共轭动量 pip_ipi 的函数。哈密顿量在哈密顿力学中起着核心作用,通过哈密顿正则方程描述系统的演化。

在最优控制问题中,我们使用哈密顿量是因为它能够将状态变量 xxx、控制变量 uuu 和共轭变量 λ\lambdaλ 结合在一个函数中,从而便于应用最优控制的必要条件来求解问题。哈密顿量主要用于描述系统在最优控制问题中的瞬时状态和控制,而拉格朗日量则用于描述系统的整体演化路径。通过引入哈密顿量,我们可以更方便地处理最优控制问题中的变分和优化过程。

根据最优控制的必要条件,对 xxxuuuλ\lambdaλ 进行变分,得到以下方程:

  1. 状态方程

x˙=∂H∂λ=Ax+Bu。 \dot{x} = \frac{\partial \mathcal{H}}{\partial \lambda} = Ax + Bu。 x˙=λH=Ax+Bu

  1. 共轭动量方程

λ˙=−∂H∂x=−Qx−ATλ。 \dot{\lambda} = -\frac{\partial \mathcal{H}}{\partial x} = -Qx - A^T \lambda。 λ˙=xH=QxATλ

  1. 最优控制条件

∂H∂u=0⇒Ru+BTλ=0⇒u=−R−1BTλ。 \frac{\partial \mathcal{H}}{\partial u} = 0 \Rightarrow R u + B^T \lambda = 0 \Rightarrow u = -R^{-1} B^T \lambda。 uH=0Ru+BTλ=0u=R1BTλ

为了简化问题的求解过程,我们可以将 λ\lambdaλ 表示为 PxP xPx,即 λ=Px\lambda = P xλ=Px。这是因为在许多最优控制问题中,λ\lambdaλ 通常可以表示为状态变量 xxx 的线性组合,其中 PPP 是一个待求解的矩阵。通过这种表示方法,我们可以将共轭动量方程中的 λ\lambdaλ 替换为 PxP xPx,从而将问题转化为关于 PPPxxx 的方程,便于进一步求解。代入共轭动量方程:

λ˙=Px˙+P˙x=P(Ax+Bu)+P˙x。 \dot{\lambda} = P \dot{x} + \dot{P} x = P (Ax + Bu) + \dot{P} x。 λ˙=Px˙+P˙x=P(Ax+Bu)+P˙x

将其代入共轭动量方程:

P(Ax+Bu)+P˙x=−Qx−ATPx。 P (Ax + Bu) + \dot{P} x = -Qx - A^T P x。 P(Ax+Bu)+P˙x=QxATPx

u=−R−1BTPxu = -R^{-1} B^T P xu=R1BTPx 代入上式:

P(Ax−BR−1BTPx)+P˙x=−Qx−ATPx。 P (Ax - B R^{-1} B^T P x) + \dot{P} x = -Qx - A^T P x。 P(AxBR1BTPx)+P˙x=QxATPx

这一步化简是通过将方程两边的项按 xxx 的系数进行整理得到的。首先,将方程中的所有项移到等号的一边:

PAx−PBR−1BTPx+P˙x+Qx+ATPx=0。 P A x - P B R^{-1} B^T P x + \dot{P} x + Q x + A^T P x = 0。 PAxPBR1BTPx+P˙x+Qx+ATPx=0

然后,将所有含有 xxx 的项合并在一起:

(PA−PBR−1BTP+P˙+Q+ATP)x=0。 (P A - P B R^{-1} B^T P + \dot{P} + Q + A^T P) x = 0。 (PAPBR1BTP+P˙+Q+ATP)x=0

由于 xxx 是任意的,可以将 xxx 前的系数单独列出,得到:

PA−PBR−1BTP+P˙+Q+ATP=0。 P A - P B R^{-1} B^T P + \dot{P} + Q + A^T P = 0。 PAPBR1BTP+P˙+Q+ATP=0

最后,假设 P˙=0\dot{P} = 0P˙=0,即 PPP 是常数矩阵,得到:

ATP+PA−PBR−1BTP+Q=0。 A^T P + P A - P B R^{-1} B^T P + Q = 0。 ATP+PAPBR1BTP+Q=0

求解该代数黎卡提方程,详细步骤如下:

  1. 初始条件:首先,确定初始条件 P(0)P(0)P(0)。在许多情况下,初始条件可以设定为零矩阵或单位矩阵,具体取决于问题的具体要求。

  2. 迭代求解:使用数值方法迭代求解黎卡提方程。常用的方法包括:

    • 梯度下降法:通过不断调整 PPP 的值,使得黎卡提方程的残差逐渐减小,直到收敛到一个稳定的解。
    • 牛顿-拉夫森法:利用牛顿-拉夫森迭代法求解非线性方程组,通过线性化黎卡提方程并逐步逼近解。
    • 离散黎卡提方程求解法:对于离散时间系统,可以使用离散黎卡提方程的求解方法,如动态规划法。
  3. 验证解的正定性:在每一步迭代中,检查矩阵 PPP 是否保持对称正定。如果 PPP 不是对称正定的,需要调整初始条件或迭代方法。

  4. 收敛判定:设定收敛判定条件,如残差的范数小于某个阈值,或者迭代次数达到预定的最大值。当满足收敛条件时,停止迭代,得到最终的 PPP 矩阵。

  5. 计算最优反馈增益矩阵:一旦求得对称正定矩阵 PPP,最优反馈增益矩阵 KKK 则为:

K=R−1BTP。 K = R^{-1} B^T P。 K=R1BTP

这是因为在最优控制问题中,我们通过最小化性能指标 J=12∫0∞(xTQx+uTRu) dtJ = \frac{1}{2} \int_0^\infty (x^T Q x + u^T R u) \, dtJ=210(xTQx+uTRu)dt 来确定控制律 uuu。通过变分法和拉格朗日乘子法,我们得到了黎卡提方程。求解黎卡提方程得到的对称正定矩阵 PPP,可以用来构造最优反馈增益矩阵 KKK。具体来说,KKK 的形式 K=R−1BTPK = R^{-1} B^T PK=R1BTP 是为了确保控制输入 uuu 最小化性能指标 JJJ,从而实现系统的最优控制。

因此,最优控制律为:

u=−Kx。 u = -K x。 u=Kx

通过这个例子,我们可以看到如何从最小作用量原理出发,结合变分法和拉格朗日乘子法,推导出最优控制问题的解法。

总结

本文从最小作用量原理出发,详细推导了最优控制理论的基本框架和求解方法。通过引入广义作用量和拉格朗日乘子法,我们能够将物理系统的动力学约束整合到最优控制问题中,并通过变分法得到最优控制的必要条件。通过具体的线性系统例子,我们展示了如何应用这些理论工具来求解实际的最优控制问题。

最小作用量原理不仅为物理学提供了一个统一的理论框架,也为控制理论提供了强有力的数学工具。通过将这两者结合,我们能够更好地理解和解决复杂的控制问题。这一过程不仅揭示了物理系统演化与最优控制之间的深刻联系,也为未来的研究和应用提供了广阔的空间。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐