《强化学习数学原理》学习笔记2——贝尔曼方程matrix-vector形式解析解的可逆性证明
对于n阶复方阵Aaijn×nAaijn×n(其中aija_{ij}aij表示第i行第j列的元素,ij12nij12...n圆盘中心:第i行的对角线元素aiia_{ii}aii(复数,对应复平面上的一个点);圆盘半径:第i行所有非对角线元素的模长之和,记为rir_iri,即:ri∑j1j≠in∣aij∣rij1ji∑n∣aij∣。
要证明矩阵I−γPπI - \gamma P_{\pi}I−γPπ可逆,核心思路是利用格尔施戈林圆盘定理,此处先对这个定理做简要陈述。
圆盘定理(格尔施戈林圆盘定理)简述
“圆盘定理”(Gerschgorin Circle Theorem,也译作格尔施戈林圆盘定理)是线性代数中用于估计矩阵特征值分布的核心定理。它通过将矩阵的元素转化为复平面上的“圆盘”,直观地限定了矩阵所有特征值的可能位置,无需直接求解特征方程(对高阶矩阵而言,直接求解特征方程往往极其复杂),因此在数值分析、工程计算(如振动分析、控制系统稳定性判断)等领域应用广泛。
一、圆盘定理的核心内容
圆盘定理针对的是n阶复方阵(元素可以是复数的 n×nn \times nn×n 矩阵),其核心思想是:矩阵的每个特征值,必定落在复平面上由该矩阵行(或列)元素构造的某个"圆盘"内。
根据构造方式的不同,圆盘定理分为"行圆盘定理"和"列圆盘定理",两者逻辑一致,以下以更常用的行圆盘定理为例说明:
1. 行圆盘的定义
对于n阶复方阵 A=(aij)n×nA = (a_{ij})_{n \times n}A=(aij)n×n(其中 aija_{ij}aij 表示第i行第j列的元素,i,j=1,2,...,ni,j = 1,2,...,ni,j=1,2,...,n),对每一行i,定义两个关键参数:
- 圆盘中心:第i行的对角线元素 aiia_{ii}aii(复数,对应复平面上的一个点);
- 圆盘半径:第i行所有非对角线元素的模长之和,记为 rir_iri,即:
ri=∑j=1j≠in∣aij∣r_i = \sum_{\substack{j=1 \\ j \neq i}}^n |a_{ij}|ri=j=1j=i∑n∣aij∣
其中,“模长"是复数的绝对值,如复数 3+4i3+4i3+4i 的模长为 32+42=5\sqrt{3^2+4^2}=532+42=5。由此,第i行对应的"格尔施戈林圆盘”(简称"行圆盘")定义为:
Di={z∈C∣∣z−aii∣≤ri}D_i = \{ z \in \mathbb{C} \mid |z - a_{ii}| \leq r_i \}Di={z∈C∣∣z−aii∣≤ri}
即复平面上,以 aiia_{ii}aii 为中心、rir_iri 为半径的所有点的集合。
2. 行圆盘定理的结论
对于n阶复方阵A,其所有特征值(包括重特征值)都必定落在复平面上所有行圆盘 D1,D2,...,DnD_1, D_2, ..., D_nD1,D2,...,Dn 的并集内,即:
若 λ\lambdaλ 是A的任一特征值,则存在某个 k∈{1,2,...,n}k \in \{1,2,...,n\}k∈{1,2,...,n},使得 λ∈Dk\lambda \in D_kλ∈Dk(即 ∣λ−akk∣≤rk|\lambda - a_{kk}| \leq r_k∣λ−akk∣≤rk。
3. 列圆盘定理(补充)
若将"行"替换为"列",可得到完全对称的结论:
对每一列j,定义列圆盘中心为对角线元素 ajja_{jj}ajj,半径为第j列所有非对角线元素的模长之和 cj=∑i=1i≠jn∣aij∣c_j = \sum_{\substack{i=1 \\ i \neq j}}^n |a_{ij}|cj=∑i=1i=jn∣aij∣,则A的所有特征值也必定落在所有列圆盘的并集内。
实际应用中,可同时使用行、列圆盘定理,取两者并集的"交集",进一步缩小特征值的可能范围。
二、关键推论:分离圆盘的特征值计数
圆盘定理的核心价值不仅在于"限定范围",更在于其分离圆盘的推论——当某些圆盘与其他圆盘不相交时,可直接确定这些圆盘内的特征值数量:
若n阶复方阵A的k个行圆盘(如 Di1,Di2,...,DikD_{i_1}, D_{i_2}, ..., D_{i_k}Di1,Di2,...,Dik)构成的子集,与其余 n−kn-kn−k 个行圆盘的并集不相交,则这个子集中恰好包含A的k个特征值(重特征值按重数计算)。
这个推论极其实用:例如,若某个圆盘完全孤立(不与任何其他圆盘相交),则该圆盘内恰好有1个特征值;若3个圆盘彼此相交但与其他圆盘分离,则这3个圆盘的并集内恰好有3个特征值。
三、示例:用圆盘定理分析矩阵特征值
通过一个具体例子理解圆盘定理的应用:
考虑3阶实矩阵(实矩阵是复矩阵的特例,对角线元素为实数,圆盘中心在实轴上):
A=(510121011)A = \begin{pmatrix} 5 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 1 \end{pmatrix}A= 510121011
步骤1:构造行圆盘
- 第1行:中心 a11=5a_{11}=5a11=5,半径 r1=∣1∣+∣0∣=1r_1 = |1| + |0| = 1r1=∣1∣+∣0∣=1,圆盘 D1:∣z−5∣≤1D_1: |z - 5| \leq 1D1:∣z−5∣≤1(实轴上5为中心,左右延伸1,范围[4,6]);
- 第2行:中心 a22=2a_{22}=2a22=2,半径 r2=∣1∣+∣1∣=2r_2 = |1| + |1| = 2r2=∣1∣+∣1∣=2,圆盘 D2:∣z−2∣≤2D_2: |z - 2| \leq 2D2:∣z−2∣≤2(范围[0,4]);
- 第3行:中心 a33=1a_{33}=1a33=1,半径 r3=∣0∣+∣1∣=1r_3 = |0| + |1| = 1r3=∣0∣+∣1∣=1,圆盘 D3:∣z−1∣≤1D_3: |z - 1| \leq 1D3:∣z−1∣≤1(范围[0,2])。
步骤2:分析特征值范围
- 圆盘 D1D_1D1 的范围是[4,6],D2∪D3D_2 \cup D_3D2∪D3 的范围是[0,4],两者仅在点4处"相切"(可视为不相交的特殊情况);
- 根据分离圆盘推论:D1D_1D1 内恰好有1个特征值,D2∪D3D_2 \cup D_3D2∪D3 内恰好有2个特征值。
步骤3:验证(实际特征值)
通过计算,A的真实特征值为 λ1≈5.3028\lambda_1 \approx 5.3028λ1≈5.3028(在 D1D_1D1 内)、λ2≈2.6180\lambda_2 \approx 2.6180λ2≈2.6180(在 D2D_2D2 内)、λ3≈0.0792\lambda_3 \approx 0.0792λ3≈0.0792(在 D3D_3D3 内),完全符合圆盘定理的结论。
证明 I−γPπI - \gamma P_\piI−γPπ 的可逆性(基于格尔施戈林圆盘定理)
要证明矩阵 I−γPπI - \gamma P_\piI−γPπ 可逆,核心思路是:矩阵可逆当且仅当其没有零特征值,因此需利用格尔施戈林圆盘定理,证明 I−γPπI - \gamma P_\piI−γPπ 的所有特征值都不为 000。
一、回顾格尔施戈林圆盘定理
对 nnn 阶复方阵 MMM,其每个特征值必定落在行圆盘的并集内:
- 第 iii 个行圆盘的中心为 MMM 的第 iii 个对角线元素 MiiM_{ii}Mii;
- 第 iii 个行圆盘的半径为 MMM 第 iii 行所有非对角线元素的模长之和,即 ∑j=1j≠in∣Mij∣\sum_{\substack{j=1 \\ j \neq i}}^n |M_{ij}|∑j=1j=in∣Mij∣。
二、分析矩阵 I−γPπI - \gamma P_\piI−γPπ 的行圆盘
矩阵 I−γPπI - \gamma P_\piI−γPπ 是 nnn 阶方阵(III 为单位矩阵,PπP_\piPπ 是给定方阵,γ<1\gamma < 1γ<1 为常数)。我们需要构造它的行圆盘,并证明所有圆盘都不包含原点(即 000 不是特征值)。
1. 行圆盘的中心
对第 iii 行,I−γPπI - \gamma P_\piI−γPπ 的对角线元素为:
Mii=[I−γPπ]ii=1−γpπ(si∣si)M_{ii}=[I - \gamma P_\pi]_{ii} = 1 - \gamma p_\pi(s_i \mid s_i)Mii=[I−γPπ]ii=1−γpπ(si∣si)
其中 pπ(sj∣si)p_\pi(s_j \mid s_i)pπ(sj∣si) 是 PπP_\piPπ 的元素,可理解为非负的权重或概率,满足 pπ(sj∣si)≥0p_\pi(s_j \mid s_i) \geq 0pπ(sj∣si)≥0。
2. 行圆盘的半径
第 iii 行非对角线元素的模长之和为:
∑j=1j≠in∣Mij∣=∑j=1j≠in∣[I−γPπ]ij∣=∑j=1j≠inγpπ(sj∣si)\sum_{\substack{j=1 \\ j \neq i}}^n |M_{ij}|=\sum_{\substack{j=1 \\ j \neq i}}^n |[I - \gamma P_\pi]_{ij}| = \sum_{\substack{j=1 \\ j \neq i}}^n \gamma p_\pi(s_j \mid s_i)j=1j=i∑n∣Mij∣=j=1j=i∑n∣[I−γPπ]ij∣=j=1j=i∑nγpπ(sj∣si)
其中, III 的非对角线元素为 000 ;PπP_\piPπ 的元素非负,所以模长就是本身。
三、证明圆盘不包含原点
要证明原点 M_{ii} 不在任何行圆盘内,需验证:对所有 iii,原点到圆盘中心的距离 > 圆盘半径(即 ∣0−Mii∣>∑j=1j≠in∣Mij∣|0 - M_{ii}| > \sum_{\substack{j=1 \\ j \neq i}}^n |M_{ij}|∣0−Mii∣>∑j=1j=in∣Mij∣)。
圆盘中心为 1−γpπ(si∣si)1 - \gamma p_\pi(s_i \mid s_i)1−γpπ(si∣si),原点到中心的距离为:
∣0−(1−γpπ(si∣si))∣=1−γpπ(si∣si)|0 - (1 - \gamma p_\pi(s_i \mid s_i))| = 1 - \gamma p_\pi(s_i \mid s_i)∣0−(1−γpπ(si∣si))∣=1−γpπ(si∣si)
圆盘半径为 ∑j=1j≠inγpπ(sj∣si)\sum_{\substack{j=1 \\ j \neq i}}^n \gamma p_\pi(s_j \mid s_i)∑j=1j=inγpπ(sj∣si)。由于 pπ(sj∣si)p_\pi(s_j \mid s_i)pπ(sj∣si) 非负且满足“行和为 111”(每一行之和就表示从当前状态转移到下一个状态的所有可能性的概率之和),因此:
∑j=1j≠inpπ(sj∣si)=1−pπ(si∣si)\sum_{\substack{j=1 \\ j \neq i}}^n p_\pi(s_j \mid s_i) = 1 - p_\pi(s_i \mid s_i)j=1j=i∑npπ(sj∣si)=1−pπ(si∣si)
结合 γ<1\gamma < 1γ<1,半径可改写为:
∑j=1j≠in∣Mij∣=∑j=1j≠inγpπ(sj∣si)=γ(1−pπ(si∣si))\sum_{\substack{j=1 \\ j \neq i}}^n |M_{ij}|=\sum_{\substack{j=1 \\ j \neq i}}^n \gamma p_\pi(s_j \mid s_i) = \gamma \left( 1 - p_\pi(s_i \mid s_i) \right)j=1j=i∑n∣Mij∣=j=1j=i∑nγpπ(sj∣si)=γ(1−pπ(si∣si))
1. 比较“距离”与“半径”
作差分析:
Mii−∑j=1j≠in∣Mij∣=(1−γpπ(si∣si))−γ(1−pπ(si∣si))=1−γM_{ii} - \sum_{\substack{j=1 \\ j \neq i}}^n |M_{ij}| = \left( 1 - \gamma p_\pi(s_i \mid s_i) \right) - \gamma \left( 1 - p_\pi(s_i \mid s_i) \right) = 1 - \gammaMii−∑j=1j=in∣Mij∣=(1−γpπ(si∣si))−γ(1−pπ(si∣si))=1−γ
因为 γ<1\gamma < 1γ<1,所以 1−γ>01 - \gamma > 01−γ>0,即:
Mii>∑j=1j≠in∣Mij∣M_{ii} > \sum_{\substack{j=1 \\ j \neq i}}^n |M_{ij}|Mii>∑j=1j=in∣Mij∣
这意味着:对所有行圆盘,原点到中心的距离大于圆盘半径,因此原点不在任何行圆盘内。
四、结论
根据格尔施戈林圆盘定理,I−γPπI - \gamma P_\piI−γPπ 的所有特征值都落在行圆盘的并集内。而原点(000)不在这些圆盘中,因此 I−γPπI - \gamma P_\piI−γPπ 没有零特征值。
由于矩阵的行列式是其所有特征值的乘积,无零特征值意味着行列式非零,故 I−γPπI - \gamma P_\piI−γPπ 可逆。
更多推荐
所有评论(0)