若尔当标准型

在线性代数中，若尔当标准型（英語：Jordan normal form）或若尔当正則式（英語：Jordan canonical form）是在有限維向量空間上的線性映射的一個特殊的矩陣表達形式，稱作若尔当矩陣（英語：Jordan matrix）。

這矩陣接近对角矩阵：除了主对角线和主对角线上方元素之外，其餘都是零，且主對角線上方的對角線的係數若不為零只能為 $1$ ，且這 $1$ 左方和下方的係數（都在主對角線上）有相同的值。谱定理和正规矩阵都是若尔当标准型的特殊情况，因為可以被對角化(diagonalizable)。若尔当矩阵理论说明了任何一个系数域为 $\mathbb {K}$ 的方块矩阵 $M$ 如果特征值都在 $\mathbb {K}$ 中，那么必然和某个若尔当标准型相似。或者说，如果一个有限維向量空間上的自同态線性映射的特征值都在系数域 $\mathbb {K}$ 中，那么它可以在某个基底下表示成若尔当标准型。

若尔当标准型得名于十九世纪后期的法国数学家卡米尔·若尔当。

简介

一个 $n\times n$ 的矩阵 $M$ 是可对角化的，当且仅当 $M$ 满足下列条件之一：

$M$ 有n个线性无关的特征向量。或者说， $M$ 有一个由特征向量组成的基。（称作极大无关条件）
$M$ 的所有特征值的几何重数（即相应特征子空间的维数）等于相应的代数重数（即特征多项式中 $(x-\lambda )$ 项的次数）。或者说， $M$ 的所有几何重数之和等于n。（称作重数相等条件）
$M$ 的极小多项式经标准分解后，每一项都是一次项，且重数都是1。（称作互异单根条件）

矩阵的对角化使得研究其性质变为研究相应的对角矩阵的性质，而后者显然简单得多。由于不是所有矩阵都满足上述三个条件之一，有的矩阵是不可对角化的，例如以下的：

M={\begin{bmatrix}5&4&2&1\\0&1&-1&-1\\-1&-1&3&0\\1&1&-1&2\end{bmatrix}}

计入重数的话， $M$ 的特征值为1, 2, 4, 4。 $M-4I$ 的核的维数是1，因此 $M$ 不可对角化。但经过基底变换， $M$ 相似于下面的矩阵：

J={\begin{bmatrix}1&0&0&0\\0&2&0&0\\0&0&4&1\\0&0&0&4\end{bmatrix}}

矩阵 $J$ 近乎对角矩阵，除了第三列第四行系数是1。如果将后两行和后两列的部分作为一块的话，矩阵 $J$ 就是一个分块对角矩阵。若尔当标准型的目标就是将更多的矩阵化简到一类只比对角矩阵稍微复杂的矩阵：若尔当标准型。实际上这是一种简单的分块对角矩阵。

J={\begin{bmatrix}J_{1}&\;&\;\\\;&\ddots &\;\\\;&\;&J_{p}\end{bmatrix}}

这里的“简单”是指每小块矩阵都具备一种很简单的形状：

J_{i}={\begin{bmatrix}\lambda _{i}&1&\;&\;\\\;&\lambda _{i}&\ddots &\;\\\;&\;&\ddots &1\\\;&\;&\;&\lambda _{i}\end{bmatrix}}

其中主对角线上都是同一个系数，而对角线上方一排全是1。形同以上 $J_{i}$ 的矩阵称为若尔当矩阵。而矩阵 $J$ 中每一个这样的小块被称为若尔当块。

线性代数中有如下的结果：

对任意系数域为 $\mathbb {K}$ 的矩阵 $M$ ，只要其特征值都在 $\mathbb {K}$ 中，就存在一个与之相似的若尔当标准型 $J$ ： $M=PJP^{-1}$ ，其中 $P$ 是一个可逆矩阵。并且满足：

矩阵 $J$ 的特征值（计入重数）就是主对角线上的系数。
对于 $J$ 的一个特征值 $\lambda _{i}$ ，它的几何重数就是属于特征值 $\lambda _{i}$ 的若尔当块的个数。
所有属于特征值 $\lambda _{i}$ 的若尔当块的维数之和是特征值 $\lambda _{i}$ 的代数重数。

证明

广义特征向量

考虑前面例子中的矩阵M。M的若尔当标准型可以写成P⁻¹MP = J，即

\;MP=PJ

其中变换矩阵P的四个列向量为：p_i , i = 1, ..., 4，于是

M{\begin{bmatrix}p_{1}&p_{2}&p_{3}&p_{4}\end{bmatrix}}={\begin{bmatrix}p_{1}&p_{2}&p_{3}&p_{4}\end{bmatrix}}{\begin{bmatrix}1&0&0&0\\0&2&0&0\\0&0&4&1\\0&0&0&4\end{bmatrix}}={\begin{bmatrix}p_{1}&2p_{2}&4p_{3}&p_{3}+4p_{4}\end{bmatrix}}

也就是：

\;(M-1I)p_{1}=0,\;\,(M-2I)p_{2}=0

\;(M-4I)p_{3}=0,\;\,(M-4I)p_{4}=p_{3}

对于i = 1、2、3， $p_{i}$ 都是某个特征值所对应的特征向量： $p_{i}\in \operatorname {Ker} (M-\lambda I)$ 。然而，当i=4时, $p_{4}$ 并不是特征值4所对应的特征向量。尽管如此：

\;(M-4I)^{2}p_{4}=(M-4I)p_{3}=0

于是 $p_{4}\in \operatorname {Ker} (M-\lambda I)^{2}$ 。像 $p_{4}$ 这样的向量被称为M的广义特征向量。

给定一个特征值 $\scriptstyle \lambda$ ，它对应的若尔当块 $\displaystyle J_{\lambda ,m}$ ：

{\begin{bmatrix}\lambda &1&0&\cdots &0\\0&\lambda &1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&\lambda &1\\0&0&0&0&\lambda \\\end{bmatrix}}

对应着一个由广义特征向量所张成的子空间，因为对应的基底 $\displaystyle e_{\lambda ,1},e_{\lambda ,2},\cdots ,e_{\lambda ,m}$ 满足：

\;(M-\lambda I)e_{\lambda ,1}=0,\;(M-\lambda I)e_{\lambda ,2}=e_{\lambda ,1},\cdots ,(M-\lambda I)e_{\lambda ,m}=e_{\lambda ,m-1}

也就是说

\;(M-\lambda I)e_{\lambda ,1}=0,\;(M-\lambda I)^{2}e_{\lambda ,2}=0,\cdots ,(M-\lambda I)^{m}e_{\lambda ,m}=0

因此，“所有特征值在 $\mathbb {K}$ 中的矩阵都相似于某个若尔当标准型”这个命题等价于存在一个由这个矩阵的特征向量和广义特征向量构成的全空间的基底。

幂零矩阵的情况

当矩阵A为幂零矩阵（即存在m使得 $A^{m}=0$ ）时，可以证明整个空间总是可以分解为若干个A-循环子空间的直和^[1]。所谓的A-循环子空间就是由某个向量v以及基底： ${\mathit {B}}_{v}=\left\{v,Av,A^{2}v,\cdots \right\}$ 线性张成的子空间。显然，这样的子空间是A-不变子空间。同时，注意到 ${\mathit {B}}_{v}$ 是由A的特征向量和广义特征向量构成的（ $\forall j\geq 0,A^{j}v\in \operatorname {Ker} A^{m}$ ）。因此在这个循环子空间里，A在基底 $\displaystyle {\mathit {B}}_{v}$ 下表示为若尔当块：

J_{v}={\begin{bmatrix}0&1&0&\cdots &0\\0&0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&0&1\\0&0&0&0&0\\\end{bmatrix}}

因此A在所有这样的基底下可以表示为由若尔当块组成的分块对角矩阵，即若尔当标准型：

J={\begin{bmatrix}J_{v_{1}}&0&0&\cdots &0\\0&J_{v_{2}}&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&J_{v_{s-1}}&0\\0&0&0&0&J_{v_{s}}\\\end{bmatrix}}

一般情况

下面用数学归纳法证明：所有特征值在 $\mathbb {K}$ 中的n × n的矩阵都相似于某个若尔当标准型。

n= 1的情况显然。对于 $n>1$ 考虑n × n矩阵A。对于A的一个特征值λ，设s为λ的几何重数。设线性变换 $(A-\lambda I)^{s}$ 的像空间为 $\mathrm {Im} (A-\lambda I)^{s}$ ，这是关于A的一个不变子空间。因为λ是特征值， $\mathrm {Im} (A-\lambda I)^{s}$ 的空间维数r严格小于n。记 $\scriptstyle A^{\prime }$ 为A在子空间限制 $\mathrm {Im} (A-\lambda I)^{s}$ 上的部分。根据归纳假设存在一个基底：{p₁, ..., p_r}使得 $\scriptstyle A^{\prime }$ 在这个基底上为若尔当标准型。

接下来考虑子空间 $\operatorname {Ker} (A-\lambda I)^{s}$ ，只要能够证明整个空间可以分为：

C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}

由于 $\mathrm {Ker} (A-\lambda I)^{s}$ 是一个A-不变子空间，在上面 $A-\lambda I$ 是幂零矩阵，因此可以写成若尔当标准型：

J={\begin{bmatrix}J_{v_{1}}&0&0&\cdots &0\\0&J_{v_{2}}&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&0&J_{v_{s}}\\\end{bmatrix}}

而加上 $\displaystyle \lambda I$ 后还是若尔当标准型。因此，A在 $\mathrm {Ker} (A-\lambda I)^{s}$ 和 $\mathrm {Im} (A-\lambda I)^{s}$ 上都能写成若尔当标准型，从而A相似于某个若尔当标准型。

利用归纳法可知所有的n × n的矩阵都相似于某个若尔当标准型。

下面证明：

C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}

设A的最小多项式为 $\pi _{A}$ ，并将其写成 $\pi _{A}=(X-\lambda I)^{s}\cdot Q$ 。于是 $Q$ 和 $(X-\lambda I)^{s}$ 互素。于是根据裴蜀定理，存在多项式：a和b使得 $a(X-\lambda I)^{s}+bQ=1$ 。每个向量u都可以写成：

\displaystyle u=a(A-\lambda I)^{s}(u)+bQ(A)(u)

并且 $\displaystyle Q(A)(a(A-\lambda I)^{s}(u))=(Q(A-\lambda I)^{s})(a(u))=\pi _{A}(u)=0$ ，同样地 $\displaystyle (A-\lambda I)^{s}(bQ(A)(u))=((A-\lambda I)^{s}Q)(b(u))=\pi _{A}(u)=0$ ，因此 $a(A-\lambda I)^{s}(u)\in \mathrm {Ker} (Q(A)),\;bQ(A)(u)\in \mathrm {Ker} (A-\lambda I)^{s}$ ，也就是说：

\displaystyle C^{n}=\mathrm {Ker} (Q(A))+\mathrm {Ker} (A-\lambda I)^{s}

另一方面，任意 $v\in \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))$ ， $\displaystyle v=a(A-\lambda I)^{s}(v)+bQ(A)(v)=0+0=0$ 。也就是说： $\mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))={0}$ 。综上所述，

C^{n}=\mathrm {Ker} (Q(A))\oplus \mathrm {Ker} (A-\lambda I)^{s}

然而 $\forall u\in \mathrm {Im} (A-\lambda I)^{s}$ ， $\displaystyle Q(A)(u)=0$ ，从而 $\mathrm {Im} (A-\lambda I)^{s}\subset \mathrm {Ker} (Q(A))$ 。而根据秩-零化度定理， $\mathrm {Ker} (Q(A))$ 和 $\mathrm {Im} (A-\lambda I)^{s}$ 维数相等，所以两者完全相等。于是

C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}

从而命题得证。

推论

如果矩阵的系数域是一个代数闭域，那么由于其特征值是特征多项式的根，所以也在系数域中。于是只要系数域是一个代数闭域，所有的矩阵都相似于若尔当标准型。特别的，所有复系数矩阵都可以简化为若尔当标准型，因为复数域是代数封闭的。

所有的若尔当标准型都可以分解成一个对角矩阵D和一个只有对角线上一排为1的矩阵N的和。注意，这两个矩阵是不可交换的，因为对角矩阵D不一定是数量矩阵。矩阵N是一个幂零矩阵。因此，每个相似于若尔当标准型的矩阵都可以写成可交换的一个对角矩阵和一个幂零矩阵的和。因为与对角矩阵和幂零矩阵相似的矩阵仍然是对角矩阵和幂零矩阵。换句话说，只要一个矩阵的特征值都在它的系数域里（或者说它的最小多项式或特征多项式可以分解成一次项的乘积），就可以将这个矩阵分解成一个对角矩阵和一个幂零矩阵的和，但要注意这两个矩阵可以交换。当对角矩阵为数量矩阵时，在计算矩阵的指数时是很方便的（可以用二项式展开）。

谱映射定理

用若尔当标准型以及直接的计算可以得出：如果n × n矩阵A的特征值为：λ₁, ..., λ_n，那么对于多项式：p，矩阵p(A)的特征值是：p(λ₁), ..., p(λ_n)。

凯莱-哈密尔顿定理

凯莱-哈密尔顿定理断言任意矩阵A都是特征方程的根：如果p是A的特征多项式，那么p(A) = 0。这个定理一样可以用若尔当标准型直接计算得出。

最小多项式

方块矩阵A的最小多项式是使得m(A) = 0的非常数首一多项式中次数最小者。另一种定义是：所有使得m(A) = 0的多项式构成主理想环C[x]的一个理想I，而m则是这个理想的产生子。

对于有若尔当标准型的矩阵A，其最小多项式以其特征值为根，并且由若尔当标准型的形状可以看出，每个特征值的重数是若尔当标准型中属于这个特征值的最大的若尔当块的维数。

反之已知矩阵A的最小多项式并不能知道其若尔当标准型。要确定矩阵A的标准型需要用到所谓的初等因子。矩阵A的一个初等因子是它的某一个若尔当块的特征多项式（或最小多项式，对于若尔当块两者一样）。如果所有的初等因子都是一次多项式，那么A可对角化。

不变子空间分解

一个n × n的矩阵A的若尔当标准型是分块对角矩阵，因此给出了一个将n维欧几里得空间分解为矩阵A的不变子空间的具体方法。每个若尔当块J_i都对应着一个不变子空间：X_i。可以简记为：

\mathbb {C} ^{n}=\bigoplus _{i=1}^{k}X_{i}

其中的每个X_i都是由若尔当块J_i对应的广义特征向量张成的子空间。

注意到这里的k并不是不同的特征值的个数，因为属于同一个特征值的若尔当块可以不止一个。如果要将 $\mathbb {C} ^{n}$ 分解为l个不变子空间，其中l是不同特征值的个数的话，可以将属于同一个特征值，比如说 $\scriptstyle \lambda _{i}$ 的若尔当块合并：只需使用A的最小多项式 $\pi _{A}$ 中关于 $\scriptstyle \lambda _{i}$ 的重根数（代数重数） $\scriptstyle \nu (\lambda _{i})$ ，考虑空间：

\;Y_{i}=\operatorname {Ker} (\lambda _{i}I-A)^{\nu (\lambda _{i})}.

这就是所有的属于同一个特征值 $\scriptstyle \lambda _{i}$ 的若尔当块所对应的X_i,p所合并后的空间，因为它包含了所有使得经过 $\scriptstyle \nu (\lambda _{i})$ 次 $\scriptstyle \lambda _{i}I-A$ 操作后会清零的向量集合。如果某个X_i中向量没有被清零，那么由于这个向量也不会被其他的特征值 $\scriptstyle \lambda _{j}I-A$ 清零，它将不会被 $\scriptstyle \pi _{A}$ 清零，这与 $\pi _{A}(A)=0$ 矛盾。

于是n维欧几里得空间也可以被分解为

\mathbb {C} ^{n}=\bigoplus _{i=1}^{l}Y_{i}

其中l是矩阵A的不同的特征值的个数。

值得注意的是，这里的指标ν(λ)是使得特征零空间 $\operatorname {Ker} (\lambda I-A)^{m}$ “稳定”下来的最小次数：

\mathrm {Ker} (\lambda I-A)^{\nu (\lambda )}=\operatorname {Ker} (\lambda I-A)^{m},\;\forall m\geq \nu (\lambda )

这也可以作为代数重数的另一个定义。

参见

注释

^ （英文）J.H. Shapiro的一个证明（页面存档备份，存于互联网档案馆）

参考来源

N.丹佛，J.T.施瓦茨，《线性算子》第一章：一般理论（Linear Operators, Part I: General Theory）, Interscience, 1958.
Daniel.T. Finkbeiner II,《矩阵与线性变换导论》第三版（Introduction to Matrices and Linear Transformations, Third Edition）, Freeman, 1978.
Gene H. Golub，Charles F. van Loan,《矩阵计算》第三版（Matrix Computations）, Johns Hopkins University Press, Baltimore, 1996.
Gene H. Golub，J. H. Wilkinson,《病态特征系统以及若尔当标准型计算》（Ill-conditiones Eigensystems and the computation of the Jordan normal form）, SIAM Review, vol. 18, nr. 4, pp. 578–619, 1976.
Horn, Roger A.; Johnson, Charles R., 矩阵分析（Matrix Analysis）, Cambridge University Press, 1985, ISBN 978-0-521-38632-6 .
Glenn James，Robert C. James,《数学辞典》第四版（Mathematics Dictionary, Fourth Edition）, Van Nostrand Reinhold, 1976.
Saunders MacLane，Garrett Birkhoff,《代数学》（Algebra）, MacMillan, 1967.
Anthony N. Michel，Charles J. Herget,《应用代数和泛函分析》（Applied Algebra and Functional Analysis）, Dover, 1993.
Georgi E. Shilov,《线性代数》（Linear Algebra）, Dover, 1977.
若尔当正规型（页面存档备份，存于互联网档案馆）

外部链接

[1] （英文）J.H. Shapiro的一个证明（页面存档备份，存于互联网档案馆）

[1]