矩阵理论笔记
[toc]
须知:
- 这篇笔记并不是《矩阵理论》课程的全部内容,只是我(以及往年题)认为的重点内容。
- 因为这篇笔记从头到尾都是我一个人写的,也没有细致地校对过,所以一定会存在一些笔误,欢迎在评论区帮我指正,不胜感激。
- 由此,我强烈建议各位在线阅读,而不是下载下来阅读,因为我会随时更新错误或者补充内容。
线性空间引论
这一部分其实基本就高代的内容,复习一下。
非齐次线性方程组的解法
这个必须得会吧。为了防止遗忘,还是写一下。
对于非齐次线性方程组 \[ Ax=b \] 其解是由一个特解和齐次线性方程组\(Ax=0\)的通解组成的。接下来通过一个例子展示方程组的解法。
【例】 求
\[ \left\{\begin{array}{l}x_1-x_2+2 x_3-2 x_4=0 \\ 2 x_1-x_2-x_3+x_4=1 \\ 3 x_1-2 x_2+x_3-x_4=1\end{array}\right. \]
的通解。 【解】首先写出增广矩阵,也就是系数矩阵右边加上\(b\)这一列。 \[ \bar{A}=\left(\begin{array}{ccccc}1 & -1 & 2 & -2 & 0 \\ 2 & -1 & -1 & 1 & 1 \\ 3 & -2 & 1 & -1 & 1\end{array}\right) \rightarrow\left(\begin{array}{ccccc}1 & 0 & -3 & 3 & 1 \\ 0 & 1 & -5 & 5 & 1 \\ 0 & 0 & 0 & 0 & 0\end{array}\right) \] 因此 \[ r(\bar{A})=r(A)=2<4 \] 移项,得方程组的一般解为 \[ \left\{\begin{array}{l} x_1=1+3 x_3-3 x_4 \\ x_2=1+5 x_3-5 x_4 \\ x_3=x_3 \\ x_4=x_4\quad \end{array}\right. \]
即: \[ \left(\begin{array}{l} x_1 \\ x_2 \\ x_3 \\ x_4 \end{array}\right)=\left(\begin{array}{l} 1 \\ 1 \\ 0 \\ 0 \end{array}\right)+x_3\left(\begin{array}{l} 3 \\ 5 \\ 1 \\ 0 \end{array}\right)+x_4\left(\begin{array}{c} -3 \\ -5 \\ 0 \\ 1 \end{array}\right) \]
则取 \(\eta_0=(1,1,0,0)^T\) 为一个特解。
\(\xi_1=(3,5,1,0)^T, \xi_2=(-3,-5,0,1)^T\) 为导出组的一个基础解系, 从而方程组的通解为
\[ \eta=\eta_0+k_1 \xi_1+k_2 \xi_2 \]
线性空间和线性子空间
一般学习线性代数只会学习到向量空间,而不会学习线性空间,所以笔记从线性空间开始写。线性空间是向量空间的推广,为此需要首先定义两个概念:
【数域】数集\(F\)中任意两个元素经过四则运算后的结果仍然在\(F\)中,称\(F\)为一个数域。
常见的数域有:
- 有理数 \(\mathbb Q\)
- 实数\(\mathbb R\)
- 复数\(\mathbb C\)
- 扩域,例如\(\mathbb Q(\sqrt 3)=\{a+b\sqrt 3\mid a,b\in \mathbb Q\}\)
【加群】在非空集合\(V\)上定义一种代数运算,称之为加法(记为“\(+\)” ),使得\(\forall ab\in V\)都有中唯一元素\(a+b\)与之对应,该元素称为\(a\)与\(b\)的和,且满足如下性质
- 交换律:\(a+b=b+a\)
- 结合律:\((a+b)+c=a+(b+c)\)
- 存在零:\(\exists \theta\in V,s.t.\forall a\in V,a+\theta=a\)
- 存在负元:\(\forall a\in V,\exists -a\in V,s.t.a+(-a)=\theta\)
称\((V,+)\)构成一个加群。
于是,可以将向量空间推广为线性空间:
【线性空间】 设 \((V,+)\) 是一个加群, \(F\) 是一个数域. 定义了 \(F\) 中的数与 \(V\) 中元素的一种代数运算, 称为数乘, 使得 \(\forall \lambda \in F, \boldsymbol{\alpha} \in V\), 有 \(V\) 中唯一元素 \(\lambda \alpha\) 与之对应, \(\lambda \alpha\) 称为 \(\lambda\) 与 \(\alpha\) 的积, 且满足以下性质:
\(\lambda(\alpha+\beta)=\lambda\alpha+\lambda\beta\)
\((\lambda+\mu) \alpha=\lambda \alpha+\mu \alpha\)
\(\lambda(\mu \alpha)=(\lambda \mu) \alpha\)
\(1 \alpha=\alpha\)
此时,称\(V\)为数域\(F\)上的线性空间。此时,\(V\)中的元素称为「向量」,\(F\)中的元素称为「标量」。特别的,如果\(F\)是实数域或者复数域,称\(V\)为实线性空间或者复线性空间。
可能向量空间给人一种既定观念,就是向量一定是由标量组合而成的,但是其实并不是这样。考虑正弦函数集合: \[ S=\{a\sin(x+b),a,b\in \mathbb R\} \] 和数域\(\mathbb R\),很显然\(S\)在\(\mathbb R\)上构成一个线性空间。此时这些正弦函数就是向量,标量仍然是普通的实数。可能很难说「正弦函数」这个东西是由实数组合而成的吧。
常见的线性空间有:
- 向量空间
- 矩阵空间,\(V\) 是复数域上所有\(m\times n\)矩阵构成的集合。
- 一元多项式,\(V=P_n(x)=\{\sum_{i=0}^n a_ix^i\mid a_i\in \mathbb C\}\)
- 设\(A\in \mathbb C^{m\times n},x\in \mathbb C^n\),则\(Ax=0\)的解集构成线性空间。
- 定义在\([a,b]\)上的全体多项式、全体可微函数、全体连续函数、全体可积函数、全体实函数,都是\(\mathbb R\)上的线性空间。
在线性空间上有:
零向量唯一
任意向量的负向量存在且唯一
\(\forall k\in F,\alpha\in V\) \[ 0\alpha=\theta,(-1)\alpha=-\alpha,k\theta=\theta \]
\(k\alpha=\theta\to k=0 \or a=\theta\)
【线性子空间】设\(V\)是\(F\)上的线性空间,\(V\)是\(W\)的非空子集.若\(W\)的向量关于\(V\)的加法和数乘运算也构成\(F\)上的线性空间,则称\(W\)是\(V\)的子空间。
例如,平面\(xOy\)是三维空间\(\mathbb R^3\)的一个线性子空间。但是不能说,\(\mathbb R^2\)是\(\mathbb R^3\)的线性子空间,因为前者的元素是二维向量,后者的元素是三维向量,二维向量并不是三维向量的子集。可以说,\(W=\{(a_1,a_2,0)^T,a_1,a_2\in \mathbb R\}\)是\(\mathbb R^3\)的子空间。
对于子空间的判别,以下三个命题等价:
- \(W\)是\(V\)的子空间
- \(\forall k\in F,a\in W,ka\in W\)且\(\forall a,b\in W,a+b\in W\)
- \(\forall k,l\in F,a,b\in W,ka+lb\in W\)
其实,在实操中,判定子空间,一般首先看\(W\)中是否含有零元素。如果不含,那么一定不是子空间。如果包含,再验证第三个命题。
如果\(W_1,W_2\)都是数域\(F\)上\(V\)的子空间,那么它们的交与和也是\(V\)的子空间。其中集合交的定义是显然的,集合的和指的是: \[ W_1+W_2=\{\alpha_1+\alpha_2\mid \alpha_1\in W_1,\alpha_2\in W_2\} \] 而且,交空间是包含于\(W_1,W_2\)的最大子空间,和空间是包含了\(W_1,W_2\)的最小子空间。两个子空间的并,不一定是子空间。
对于矩阵\(A\in C^{m\times n}\)来说,有两个相当重要的子空间:
【矩阵零空间】齐次线性方程组\(Ax=0\)的解集,记作\(N(A)\)
【矩阵列空间】\(A\)的列的所有线性组合构成的集合,记作\(R(A)\)。列空间也叫做值空间,是因为当且仅当\(b\in R(A)\)时,方程\(Ax=b\)才是有解的。
基和坐标
首先回顾一下线性相关和线性无关的概念,因为和线代里面的没啥区别,所以不重复写了。
【极大线性无关组与秩】设 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 是线性空间 \(V\) 的一组向量. 若 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 中存在 \(r\) 个线性无关的向量 \(\boldsymbol{\alpha}_{i_1}, \cdots, \boldsymbol{\alpha}_{i_r}\), 并且 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 中任一向量均可由向量组 \(\boldsymbol{\alpha}_{i_1}, \cdots, \boldsymbol{\alpha}_{i_r}\) 线性表示, 则称向量组 \(\boldsymbol{\alpha}_{i_1}, \cdots, \boldsymbol{\alpha}_{i_r}\) 为向量组 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 的极大线性无关组,数 \(r\) 称为向量组 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 的秩, 记为
\[ \operatorname{rank}\left[\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\right]=r \] 向量组中的任一向量都可由极大线性无关组唯一表示。
由极大线性无关组,可以定义线性空间的基:
【基】设\(V\)是数域\(F\)上的线性空间,\(\{\alpha_1\cdots\alpha_n\}\)是\(V\)里的一组向量,而且
- \(\{\alpha_1\cdots\alpha_n\}\)线性无关
- \(V\)中所有向量都可以由\(\{\alpha_1\cdots\alpha_n\}\)线性表示
那么说\(\{\alpha_1\cdots\alpha_n\}\)是\(V\)的一组基。事实上,\(V\)中所有向量可以由基唯一表示,这叫唯一表示定理。
定义了基,其目的就是唯一表示其它的向量。这种表示的方法叫做坐标:
【坐标】 设 \(x_1, \cdots, x_n\) 是数域 \(F\) 上线性空间 \(V\) 的一组基, 对任意向量 \(x \in V\), 令
\[ \boldsymbol{x}=\sum_{i=1}^n \alpha_i \boldsymbol{x}_i=\left[\boldsymbol{x}_1, \cdots, \boldsymbol{x}_n\right]\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \]
称有序数组 \(\left[\alpha_1, \cdots, \alpha_n\right]^T \in F^n\) 是 \(x\) 在基 \(x_1, \cdots, x_n\) 下的坐标,它由 \(x\) 与基 \(x_1, \cdots, x_n\) 唯一确定.
对于两个不同的基,存在过渡矩阵:
【过渡矩阵】 设 \(x_1, \cdots, x_n\) 和 \(y_1, \cdots, y_n\) 是数域 \(F\) 上线性空间 \(V\) 的两组基, 令
\[ \boldsymbol{y}_i=a_{1 i} \boldsymbol{x}_1+\cdots+a_{n i} \boldsymbol{x}_n=\left[\boldsymbol{x}_1, \cdots, \boldsymbol{x}_n\right]\left[\begin{array}{c} a_{1 i} \\ \vdots \\ a_{n i} \end{array}\right] \]
引入矩阵表示:
\[ \left[y_1, \cdots, y_n\right]=\left[x_1, \cdots, x_n\right] A \]
其中 \(A=\left(a_{i j}\right) \in F^{n \times n}\), 称 \(A\) 是由基 \(\boldsymbol {x_1, \cdots, x_n}\) 到基 \(\boldsymbol{y}_1, \cdots, \boldsymbol{y}_n\) 的过渡矩阵(或变换矩阵).
对于\(V\)中的任意向量\(x\),设其在基\(\{x_1\cdots x_n\}\)中的坐标为\(\{\alpha_1\cdots \alpha_n\}\),在基\(\{y_1\cdots y_n\}\)中的坐标为\(\{\beta_1\cdots \beta_n\}\),则有: \[ \left[\begin{array}{c} \beta_1 \\ \vdots \\ \beta_n \end{array}\right]=A^{-1}\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \text { 或 }\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right]=A\left[\begin{array}{c} \beta_1 \\ \vdots \\ \beta_n \end{array}\right] \] 【维数】 在线性空间 \(V\) 中, 不同线性无关组中向量个数最大者叫作 \(V\) 的维数, 记为 \(\operatorname{dim} V\). 当 \(\operatorname{dim} V<\infty\), 称 \(V\) 为有限维空间, 否则称为无限维空间, 记 \(\operatorname{dim} V=\infty\)。其实,\(\dim V=n\)等价于\(V\)的任意一个基的向量个数为\(n\)。
例:空间\(\mathbb C\)在数域\(\mathbb C\)和\(\mathbb R\)上的维数分别是多少?
解:在\(\mathbb R\)上,向量组\(\{1,i\}\)是\(\mathbb C\)的一组基,所以维数是2。在\(\mathbb C\)上,向量\(1\)和\(i\)线性相关,且任一复数均可由\(1\)或\(i\)线性表示.故向量组\(1\)和\(i\)分别构成\(\mathbb C\)的一组基,即定义在\(\mathbb C\)上的线性空间\(\mathbb C\)的维数为\(1\) .
有维数定理:设\(W_1,W_2\)是\(V\)的两个子空间,则: \[ \dim (W_1+W_2)=\dim W_1+\dim W_2-\dim(W_1\cap W_2) \]
【例】设 \(W_1=\operatorname{span}\left\{\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2\right\} \quad W_2=\operatorname{span}\left\{\boldsymbol{\beta}_1, \boldsymbol{\beta}_2\right\}\), 求 \(\left(W_1+W_2\right)\) 及 \(\left(W_1 \cap W_2\right)\)的维数,其中 \(\boldsymbol{\alpha}_1=(1,2,1,0), \boldsymbol{\alpha}_2=(-1,1,1,1), \quad \boldsymbol{\beta}_1=(2,-1,0,1), \quad \boldsymbol{\beta}_2=(1,-1,3,7)\) 。
【解1】
要求\(W_1+W_2\)的维数,即求\(\boldsymbol{\alpha_1,\alpha_2,\beta_2,\beta_2}\)四个向量张成的空间的维数。有: \[ \left[\boldsymbol{\alpha}_1^T, \boldsymbol{\alpha}_2^T, \boldsymbol{\beta}_1^T, \boldsymbol{\beta}_2{ }^T\right]=\left[\begin{array}{cccc} 1 & -1 & 2 & 1 \\ 2 & 1 & -1 & -1 \\ 1 & 1 & 0 & 3 \\ 0 & 1 & 1 & 7 \end{array}\right] \] 对其进行初等行变换,有: \[ \left[\begin{array}{cccc} 1 & 0 & 0 & -1 \\ 0 & 1 & 0 & 4 \\ 0 & 0 & 1 & 3 \\ 0 & 0 & 0 & 0 \end{array}\right] \] 这个矩阵的秩是\(3\),所以\(\dim (W_1+W_2)=3\)。
设\(\boldsymbol{x}\in W_1\cap W_2\),则有: \[ \boldsymbol{x}=k_1\boldsymbol{\alpha}_1+k_2\boldsymbol{\alpha}_2=l_1\boldsymbol{\beta}_1+l_2\boldsymbol{\beta}_2 \] 即: \[ \begin{align} k_1-k_2&=2l_1+l_2\\ 2k_1+k_2&=-l_1-l_2\\ k_1+k_2&=0l_1+3l_2\\ 0k_1+k_2&=l_1+7l_2\\ \end{align} \] 移项并化简,有: \[ \begin{bmatrix} 1&-1&-2&-1\\ 2&1&1&1\\ 1&1&0&-3\\ 0&1&-1&-7 \end{bmatrix}\begin{bmatrix} k_1\\ k_2\\ l_1\\ l_2 \end{bmatrix}=O \] 化简,有: \[ \begin{bmatrix} 1&-1&-2&-1\\ 0&1&-1&-7\\ 0&0&1&3\\ 0&0&0&0 \end{bmatrix}\begin{bmatrix} k_1\\ k_2\\ l_1\\ l_2 \end{bmatrix}=O \]
左边的矩阵的秩是\(3\),所以解是一维的。具体一点,有: \[ \begin{cases} k_1&=-l_2 \\ k_2&=4 l_2 \\ l_1&=-3 l_2 \end{cases} \] 代入,有: \[ \boldsymbol{x}=l_2\begin{bmatrix} -5\\ 2\\ 3\\ 4 \end{bmatrix} \] 所以,\(\dim(W_1\cap W_2)=1\)
【解2】
显然,\(\dim W_1=\dim W_2=2\),由维数定理: \[ \dim (W_1+W_2)=\dim W_1+\dim W_2-\dim(W_1\cap W_2) \] 只需像上面那样求出\(\dim (W_1\cap W_2)\)即可,无需算两个矩阵的秩。
内积空间
在线性空间上,额外定义对于两个向量\(\alpha,\beta\)的内积运算,内积运算的结果是数域\(F\)中的一个数,且满足:
- 共轭对称性: \((x, y)=\overline{(y, x)}\);
- 可加性: \((x+y, z)=(x, z)+(y, z)\);
- 齐次性: \((k \boldsymbol{x}, \boldsymbol{y})=k(\boldsymbol{x}, \boldsymbol{y})\);
- 正定性: \((x, x) \geq 0\), 当且仅当 \(x=\theta\) 时等号成立.
此时可以称\(V\)是一个内积空间。有限维的实内积空间叫欧几里得空间,有限维的复内积空间叫酉空间。
注意,齐次性只对第一个向量成立。对于第二个向量,有共轭齐次性: \[ (x,ky)=\bar k (x,y) \] 考虑\(\mathbb C^n\)中的向量\(x,y\),定义运算[1]: \[ (x,y)=y^HAx \] 那么,\(A\)需要满足什么条件,才能使得这个运算成为内积呢?
由内积定义中的共轭对称性,有: \[ \begin{align} y^HAx&=\overline{x^HAy}\\ &=(x^HAy)^H\\ &=y^H(x^HA)^H\\ &=y^HA^Hx \end{align} \] 这个推导有两点可能需要解释。第一,因为它的结果是个1*1的矩阵,所以共轭可以写作共轭转置。第二,\((AB)^H=B^HA^H\)
所以有: \[ A=A^H \] 我们将满足\(A=A^H\)的矩阵称为Hermite矩阵。此外,还需补充正定性: \[ x^HAx\geq 0 \]
将\(f(x)=x^HAx\)称为二次型,\(A\)为\(f(x)\)的矩阵,如果\(f(x)\geq0\)且等号仅在\(x=\theta\)取得,称\(A\)为正定矩阵,\(f(x)\)为正定二次型。
【度量矩阵】 设 \(\epsilon_1, \cdots, \epsilon_n\) 是内积空间 \(V\) 中的一组基, 称 \(n\) 阶矩阵
\[ A=\left(\left(\epsilon_i, \epsilon_j\right)\right)_{n \times n}=\left[\begin{array}{cccc} \left(\epsilon_1, \epsilon_1\right) & \left(\epsilon_1, \epsilon_2\right) & \ldots & \left(\epsilon_1, \epsilon_n\right) \\ \left(\epsilon_2, \epsilon_1\right) & \left(\epsilon_2, \epsilon_2\right) & \ldots & \left(\epsilon_2, \epsilon_n\right) \\ \vdots & \vdots & \vdots & \vdots \\ \left(\epsilon_n, \epsilon_1\right) & \left(\epsilon_n, \epsilon_2\right) & \ldots & \left(\epsilon_n, \epsilon_n\right) \end{array}\right] \]
为 \(V\) 关于基 \(\epsilon_1, \cdots, \epsilon_n\) 的度量矩阵 (或Gram矩阵),常记为 \(G\left(\epsilon_1, \cdots, \epsilon_n\right)\)。度量矩阵和基是一一对应的。
如果\(x,y\in V\),且其在基 \(\epsilon_1, \cdots, \epsilon_n\)下的坐标分别是\([\xi_1\cdots\xi n]^T\)和\([\eta_1\cdots\eta_n]^T\),则有: \[ (x,y)=\eta^HG^H\left(\epsilon_1, \cdots, \epsilon_n\right)\xi \] 显然,度量矩阵是正定Hermite矩阵。
在内积空间中,可以定义一个向量的长度: \[ ||x||=\sqrt{(x,x)} \] 长度具有以下的性质:
齐次:\(||kx||=k||x||\)
正定:不再解释了
平行四边形法则: \[ \|x+y\|^2+\|x-y\|^2=2\left(\|x\|^2+\|y\|^2\right) \]
三角不等式(三角形两边之和大于第三边) \[ \|x+y\|\leq\|x\|+\|y\| \]
Cauchy-Schwarz不等式(余弦定理) \[ \|x\|\cdot\|y\|\geq|(x,y)| \] 定义两个向量之间的夹角为: \[ \alpha=<x,y>=\arccos \frac{(x,y)}{\|x\|\|y\|}\in[0,\pi] \]
由内积和夹角,可以引出正交的概念:
【正交】对于内积空间\(V\)中的两个向量,如果有\((x,y)=0\),称这两个向量正交。一组互相垂直的向量组称为正交向量组,单位向量构成的正交向量组称为标准正交向量组。在\(n\)维内积空间中,由\(n\)个向量组成的正交向量组称为正交基,由单位向量组成的正交基称为标准正交基。
向量正交于集合,指的是对于线性空间\(V\)中的一个向量\(x\)和子集\(W\),\(x\)正交于\(W\)中的任何一个向量,那么称\(x\)正交于集合\(W\)。
集合正交于集合,指的是线性空间中的两个集合,其中任意两个向量都相互正交。
注意:集合正交于集合并不简单地等同于集合垂直于集合。考虑到3维欧氏空间中的两个相互垂直的平面,它们并不相互正交(因为两个集合的交集上任意两向量共线)。
【正交补】设\(W\)是线性空间\(V\)的子空间,那么所有和\(W\)正交的向量构成的集合称为\(W\)的正交补。正交补一定是线性子空间。 \[ W^\perp=\{x\in V\mid x\perp W\} \]
对于正交补,有: \[ W+W^\perp =V \]
【例】
\[ \boldsymbol{A}=\left[\begin{array}{ccccc} 2 & 1 & -1 & 1 & -3 \\ 1 & 1 & -1 & 0 & 1 \end{array}\right]^T \]
求\(A\)的列空间的正交补\(R^\perp(A)\)。
【解】即解方程组: \[ A^Tx=0 \] 方程组的解集,就是和\(A\)的每一列都正交的向量的集合。化简得: \[ A^T\sim \begin{bmatrix} 1&0&0&1&-4\\ 0&1&-1&-1&5 \end{bmatrix} \] 所以,原方程组可为: \[ \begin{cases} x_1=x_4-4x_5\\ x_2=-x_3-x_4+5x_5\\ x_3=x_3\\ x_4=x_4\\ x_5=x_5 \end{cases} \] 所以,解空间为: \[ x=x_3\begin{bmatrix} 0\\-1\\1\\0\\0 \end{bmatrix}+x_4\begin{bmatrix} 1\\-1\\0\\1\\0 \end{bmatrix}+x_5\begin{bmatrix} -4\\5\\0\\0\\1 \end{bmatrix} \]
其实,有线性代数基本定理:
行空间 \(R\left(A^T\right)\) 和零空间 \(N(A)\) 是 \(\mathbb{R}^n\) 中的正交补空间;列空间 \(R(A)\) 和左零空间 \(N\left(A^T\right)\) 是 \(\mathbb{R}^m\) 中的正交补空间。
直和与投影
【直和与正交直和】 设 \(W_1\) 与 \(W_2\) 是线性空间 \(V\) 的子空间,若和空间 \(W_1+W_2\) 中任意向量均唯一地表示成 \(W_1\) 中的一个向量和 \(W_2\) 中的一个向量之和, 则称 \(W_1+W_2\) 是 \(W_1\) 与 \(W_2\) 的直和, 记为 \(W_1 \dot{+} W_2\)。
特别的, 若 \(V=W_1 \dot{+} W_2\), 则称表达式 \(V=W_1 \dot{+} W_2\) 为直和分解.
进一步, 若 \(W_1 \perp W_2\), 则称直和 \(W_1 \dot{+} W_2\) 是 \(W_1\) 与 \(W_2\)的正交直和, 记为 \(W_1 \oplus W_2\)。
其实,若 \(W_1 \perp W_2\),则\(W_1+W_2=W_1 \oplus W_2\).
【例】在立体直角坐标系中,\(W_1=xOy,W_2=yOz\),那么\(W_1+W_2\)是直和吗?
【解】不是,因为 \[ \left[\begin{array}{l} 0 \\ 1 \\ 0 \end{array}\right]=\left[\begin{array}{c} 0 \\ \mu+1 \\ 0 \end{array}\right]+\left[\begin{array}{c} 0 \\ -\mu \\ 0 \end{array}\right] \] 所以分解不唯一。
为了判断一个和是不是直和,有以下四个等价命题:
- \(W_1\)+\(W_2\)是直和
- \(W_1+W_2\)中零元素表示方法唯一
- \(W_1\cap W_2=\theta\)
- \(\dim (W_1+W_2)=\dim W_1+\dim W_2\)
MOOC第一章答案
1 |
|
矩阵和线性映射
映射和线性映射
【单射和满射】对于映射\(f:V\to W\),如果有\(\forall x_1,x_2\in V,x_1\neq x_2\to f(x_1)\neq f(x_2)\),那么\(f\)是一个单射。也就是说,不同的元素一定被映射为不同的像。如果有\(\forall y\in W,\exists x\in V,f(x)=y\),那么\(f\)是一个满射。也就是说,像集里的每个元素都能被取到。如果既是单射又是满射,那么\(f\)是双射。也就是说,每个\(x\in V\)都有且仅有一个\(f(x)\in W\)与其对应。
考察实数域\(R\to R\)上的函数\(f(x)=2x\)和\(g(x)=x^2\)。因为\(g(1)=g(-2)\),所以\(g\)不是单射;因为\(g(x)=-1\)无解,所以\(g(x)\)不是满射。\(f(x)\)既是单射又是满射,所以\(f(x)\)是双射。
【线性映射】如果对于映射\(T:V\to W\)和数域\(F\)(其中\(V,W\)是\(F\)上线性空间)满足两条线性性质,称\(T\)为\(F\)上的线性映射。如果\(W=V\),称为线性变换。
- 可加性:\(T(x+y)=T(x)+T(y)\)
- 齐次性:\(\forall \lambda\in F,T(\lambda x)=\lambda T(x)\)
【例】对于在其自身上[2]的线性空间\(Q(\sqrt 3)\)上的映射: \[ T(x+y\sqrt 3)=x \] 不是线性映射。因为\(T(\sqrt 3\times \sqrt 3)=3\neq \sqrt 3T(\sqrt 3)\)
关于线性映射,有以下推论:
保持原点不动:\(T(\theta)=\theta'\)
如果\(\{\alpha \}\)是\(V\)中一组线性相关向量,那么\(\{T(\alpha)\}\)也是\(W\)中一组线性相关向量
如果\(\{T(\alpha) \}\)是\(W\)中一组线性无关向量,那么\(\{\alpha\}\)也是\(V\)中一组线性无关向量
当且仅当\(T\)是单射,如果\(\{\alpha \}\)是\(V\)中一组线性无关向量,那么\(\{T(\alpha)\}\)也是\(W\)中一组线性无关向量
如果\(W,V\)维数相同,那么此时\(V\)中一组基的像是\(W\)中的一组基,\(T\)是双射
与矩阵相似地,定义线性映射\(T:V\to W\)的零空间和值空间:
- 零空间:\(N(T)=\{x\in V\mid T(x)=\theta\}\),即使得像为原点的\(x\)的值的集合。它的维数叫做\(T\)的「亏」。
- 值空间:\(R(T)=\{y\in W\mid y=T(x),x\in V\}\),即\(T\)的实际取值范围。它的维数叫做\(T\)的「秩」。
【亏加秩定理】线性映射的亏和秩之和等于其定义域空间的维数。 \[ \dim N(T)+\dim R(T)=\dim V \]
矩阵与同构
【线性映射的矩阵】设 \(V\) 和 \(W\) 是数域 \(F\) 上的线性空间, \(\varepsilon_1, \cdots, \varepsilon_n\) 和 \(\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 分别是 \(V\) 和 \(W\) 的基,且 \(T \in\) \(\mathcal{L}(V, W)\). 因此 \(T\left(\boldsymbol{\varepsilon}_i\right)\) 可由基 \(\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 线性表示,即 \[ \begin{gathered} \left\{\begin{array}{c} T\left(\boldsymbol{\varepsilon}_1\right)=a_{11} \boldsymbol{\eta}_1+a_{21} \boldsymbol{\eta}_2+\cdots+a_{m 1} \boldsymbol{\eta}_m \\ T\left(\boldsymbol{\varepsilon}_2\right)=a_{12} \boldsymbol{\eta}_1+a_{22} \boldsymbol{\eta}_2+\cdots+a_{m 2} \boldsymbol{\eta}_m \\ T\left(\boldsymbol{\varepsilon}_n\right)=a_{1 n} \boldsymbol{\eta}_1+a_{2 n} \boldsymbol{\eta}_2+\cdots+a_{m n} \boldsymbol{\eta}_m \end{array}\right. \\ T\left(\boldsymbol{\varepsilon}_1, \cdots, \boldsymbol{\varepsilon}_n\right) =\left[T\left(\boldsymbol{\varepsilon}_1\right), \cdots, T\left(\boldsymbol{\varepsilon}_n\right)\right]=\left[\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\right] A \end{gathered} \] 其中 \[ A=\left[\begin{array}{cccc}a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \vdots & \vdots \\ a_{m 1} & a_{m 2} & \cdots & a_{m n}\end{array}\right] \in F^{m \times n} \] 称为 \(T\) 在 \(V\) 的基 \(\varepsilon_1, \cdots, \varepsilon_n\) 和 \(W\) 的基 \(\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 下的矩阵.
简单理解:线性映射的矩阵,就是\(V\)中的基的像在\(W\)的基下的坐标,依次写成纵列,然后拼接起来。
当线性空间\(V\)和\(W\)的基确定后,矩阵\(A\)和线性映射\(T\)唯一确定。即:有且仅有一个矩阵使得线性映射是\(T\),也有且仅有一个线性映射使得矩阵是\(A\)。
【例】已知多项式空间 \(P_3[t]\) (即以\(t\)为变量的三次多项式空间)的子空间 \(W=\operatorname{span}\left\{f_1(t), f_2(t), f_3(t), f_4(t)\right\}\),其中 \(f_1(t)=1+t^3, f_2(t)=t+t^2, \quad f_3(t)=1+t^2, \quad f_4(t)=t+t^3\).
- 求子空间 \(W\) 的一个基;
- 对于 \(W\) 中的多项式 \(f(t)=a_0+a_1 t+a_2 t^2+a_3 t^3\), 定义线性变换
\[ T[f(t)]=\left(a_0+a_1-a_2-a_3\right)+a_1 t+\left(a_2-a_3\right) t^2+\left(a_0+2 a_1-2 a_2\right) t^3 \]
求线性变换 \(T\) 在(1)中求出的基下的矩阵.
【解】
注意到:\(f_4=f_1+f_2-f_3\),因此一组基为\(\{f_1,f_2,f_3\}\)
计算基象组:
\(T[f_1]=-t^2+t^3=f_1-f_3,T[f_2]=t+t^2=f_2,T[f_3]=t^2-t^3=-f_1+f_3\)
因此,矩阵为把基象组依次写成纵列然后拼起来: \[ \left[\begin{array}{rrr} 1 & 0 & -1 \\ 0 & 1 & 0 \\ -1 & 0 & 1 \end{array}\right] \]
【同构】设\(V,W\)是\(F\)上的线性空间,如果有一个既是双射又是线性映射的映射\(f:V\to W\),那么称\(V\)和\(W\)同构,\(f\)是同构映射。同构映射一定可逆,而且其逆映射也是同构映射。
所谓的「同构」,其实就是「一样」,「一回事」的意思。
两个线性空间同构,当且仅当其维数相等。
【同一个线性映射在不同基下的矩阵的关系】\(\operatorname{dim} V=n, \varepsilon_1, \cdots, \boldsymbol{\varepsilon}_n\) 和 \(\varepsilon_1^{\prime}, \cdots, \boldsymbol{\varepsilon}_n^{\prime}\) 是 \(V\) 的两组基,
\[ \left[\varepsilon_1^{\prime}, \cdots, \boldsymbol{\varepsilon}_n^{\prime}\right]=\left[\varepsilon_1, \cdots, \varepsilon_n\right] Q \]
\(\operatorname{dim} W=m, \boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 和 \(\boldsymbol{\eta}_1^{\prime}, \cdots, \boldsymbol{\eta}_m^{\prime}\) 是 \(W\) 的两组基,
\[ \left[\boldsymbol{\eta}_1^{\prime}, \cdots, \boldsymbol{\eta}_m^{\prime}\right]=\left[\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\right] P \]
设 \(T \in \mathcal{L}(V, W)\) , \[ \boldsymbol{T}\left(\boldsymbol{\varepsilon}_1, \cdots, \boldsymbol{\varepsilon}_n\right)=\left[\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\right] A \]
\[ \boldsymbol{T}\left(\boldsymbol{\varepsilon}_1^{\prime}, \cdots, \boldsymbol{\varepsilon}_n^{\prime}\right)=\left[\boldsymbol{\eta}_1^{\prime}, \cdots, \boldsymbol{\eta}_m^{\prime}\right] B \]
则 \(B=P^{-1} A Q\)。即:矩阵\(A\)可以通过有限次初等变换变成矩阵\(B\),两矩阵相抵(等价)。
特别的,如果线性映射是变换,即\(V=W\),那么有: \[ B=P^{-1}AP \] 也就是\(A\)和\(B\)相似。可以看出,矩阵相似其实就是矩阵等价的特殊情况。
特征值和特征向量
【线性变换的特征值和特征向量】设线性变换 \(T \in L(V)\) ,若存在 \(\lambda_0 \in F\) 及 \(V\) 的非零向量 \(\xi\) 使得
\[ T \xi=\lambda_0 \xi, \]
则称 \(\lambda_0\) 是 \(T\) 的一个特征值, 称 \(\xi\) 为 \(T\) 的属于特征值 \(\lambda_0\) 的一个特征向量。
需要注意:
从几何上来看,就是线性变换作用于特征向量后,仍然保持共线
属于同一个特征值的特征向量的线性组合也是属于这个特征值的特征向量
如果特征向量是线性变换零空间里的非零向量,那么其特征值是0
设 \(T\)是线性变换,\(\xi_1, \cdots, \xi_n\) 是 \(V\) 的一组基, 且\(T \xi_i=\lambda_i \xi_i(i=1, \cdots, n)\), 则 \(T\) 在基 \(\xi_1, \cdots, \xi_n\) 下的矩阵为对角阵
【矩阵的特征值和特征向量】设 \(A \in F^{n \times n}, \lambda\) 为一文字, 矩阵 \(\lambda I-A\) 称为 \(A\) 的特征矩阵, 其行列式 \(|\lambda I-A|\) 称为 \(A\) 的特征多项式, 方程 \(|\lambda I-A|=0\) 的根称为 \(A\) 的特征值(或特征根). 方程 \((\lambda I-A) \boldsymbol{\alpha}=0\) 的非零解向量 \(\boldsymbol{\alpha}\) 称为属于特征值 \(\lambda\)的特征向量。
\(\lambda\) 是线性变换\(T\)的特征值,当且仅当它是\(T\)的任意一个矩阵的特征值,属于同一线性变换的各个矩阵的特征值完全相同。
由定义可以知道,矩阵的特征值是一个一元\(n\)次方程式的根。这个根的重数是特征值的代数重数。因此,一个\(n\times n\)的矩阵的所有特征值的重数之和是\(n\)。有时,我们也说「一个\(n\)阶方阵有\(n\)个特征值」,注意这里的「个」是要计算重数的。
一个矩阵的特征值之和等于其对角线上元素之和,这个和也叫做矩阵的「迹」,记作\(tr(A)\)。
【例】已知\(a=(a_1,\cdots,a_n)^T,b=(b_1,\cdots,b_n)\),求\(A=ab\)的特征多项式,并求\(|A|\)。
【解】显然,\(A_{ij}=a_ib_j\),因此\(A\)是一个秩为\(1\)的矩阵(每一行都是向量\(b\)乘以标量倍)。那么,考虑齐次线性方程组 \[ Ax=0 \] 它的基础解系是\(n-1\)维的,即矩阵的零空间是\(n-1\)维的。从特征方程的角度来看,\(Ax=0\)代表\(0\)为矩阵\(A\)的其一特征值,那么其特征值为\(0\)的线性无关的特征向量的个数为\(N-1\),又特征值的代数重数不会少于几何重数,所以\(0\)至少为\(N-1\)重特征值。
所以\(A\)只有一个非零特征值。所以矩阵的特征多项式具有如下的形式: \[ \lambda^{n-1}(\lambda-x) \] 因为\(A\)的特征值之和等于其对角线元素之和,所以 \[ x=\sum_{i=1}^n a_ib_i \]
关于\(|A|\),有: \[ |A|=\begin{cases} 0,&n>1\\ a_1b_1,&n=1 \end{cases} \]
【特征子空间】矩阵的属于某个特征值\(\lambda\)的全体特征值再加上零向量,构成一个线性空间,叫做属于特征值\(\lambda\)的特征子空间,记作 \[ E(\lambda)=\{x\in C^n\mid Ax=\lambda x\} \] 特征子空间的维数是特征值的几何重数。几何重数不会超过代数重数。
如果所有特征值的几何重数等于代数重数,则矩阵可以相似对角化,即:\(B=P^{-1}AP\),其中\(B\)是对角矩阵。
酉变换和酉矩阵
酉变换是实数域中的正交变换推广到复数域中的结果。
【正交变换和酉变换】若欧氏(酉)空间中的线性变换 \(T\) 保持向量的内积不变,即
\[ (T(x), T(y))=(x, y), \forall x, y \in V \]
称 \(T\) 为正交(酉)变换。
【正交矩阵和酉矩阵】如果\(n\)阶实方阵满足\(AA^T=I\)或者\(A^TA=I\),称为正交矩阵;如果\(n\)阶复方阵满足\(AA^H=I\)或者\(A^HA=I\),称为酉矩阵。
标准正交基经过酉变换以后仍然是标准正交基,而且酉变换在标准正交基下的矩阵是酉矩阵。正交/酉变换的核心特征是「保持长度不变」。
酉矩阵的行列式的模是\(1\),所有特征值的模也是\(1\)。
矩阵是酉矩阵的充要条件是它的\(n\)个列向量构成标准正交基。
常见的酉矩阵有初等旋转矩阵和反射矩阵。
其中,初等旋转矩阵记为\(T(i,j,\varphi)\),它的形式是,先写出一个\(n\)阶单位阵,然后把矩阵 \[ \left[\begin{array}{cc}\cos \varphi & -\sin \varphi \\ \sin \varphi & \cos \varphi\end{array}\right] \] 放到第\(i,j\)行\(i,j\)列,最后变成这样: \[ T(i, j)=\left(\begin{array}{ccccccccccc} 1 & & & & & & & & & & \\ & \ddots & & & & & & & & & \\ & & 1 & & & & & & & & \\ & & & \cos \varphi & 0 & \cdots & 0 & \sin \varphi & & & \\ & & & 0 & 1 & & & 0 & & & \\ & & & \vdots & & \ddots & & \vdots & & & \\ & & & 0 & & & 1 & 0 & & & \\ & & & -\sin \varphi & 0 & \cdots & 0 & \cos \varphi & & & \\ & & & & & & & & 1 & & \\ & & & & & & & & & \ddots & \\ & & & & & & & & & & 1 \end{array}\right) \] 初等反射矩阵表示了把向量用 以\(w\)作为法向量的超平面 作为镜面反射的变换。有: \[ H=I-2ww^H \]
幂等矩阵
这个书里面并没有,但是慕课作业里面有很多相关的内容,所以整理一下。
幂等矩阵指的是满足\(A=A^2\)的矩阵。从几何上看,幂等矩阵代表了一种投影变换,因为投影一次(\(Ax\))和投影两次(\(A^2x\))的结果一样。一个典型的幂等矩阵是: \[ A=\begin{pmatrix} 1 &0 &0\\ 0 &1 &0\\ 0 &0 &0 \end{pmatrix} \] 它就是把三维坐标投影到前两个维度构成的平面上的投影变换。
关于幂等矩阵\(P\)的性质,有:
\(N(P)=R(I-P),R(P)=N(I-P)\)
证明:注意到幂等矩阵的定义等价为\(P(I-P)=0\)。设\(x\in N(P)\),即\(Px=0\),则\(x=x-Px=(I-P)x\),则\(x\in R(I-P)\)。
若\(x\in R(I-P)\),即\((I-P)y=x\),故\(Px=P(I-P)y=0\)。
因为\((I-P)(I-P)=I^2-2P+P^2=I-P\),所以\(I-P\)也是幂等矩阵,故第二部分证毕。
\(P-I\)不是幂等矩阵,因为\((P-I)^2=P^2-2P+I^2=I-P\)。
\(R(P)\cap N(P)=\theta\)
证明:设\(x\in R(P)\cap N(P)\),则有\(x=Py,x=(I-P)z\),有\(z=Py+Pz\),两边同时乘以\(P\):\(Pz=Py+Pz\),则\(x=Py=0\)
\(\text{rank} P=\dim N(I-P)\)
由第一条性质易得
\(\text{rank} P+\text{rank} (I-P)=n\)
亏加秩定理:\(\dim R(P)+\dim C(P)=\dim R(P)+\dim R(I-P)=n\)
可对角化为\(\text{diag}\{1,1\cdots 1,0,0,\cdots,0\}\)
考虑任意一个特征值,有\(Px=\lambda x\),则\(P^2x=\lambda^2x\),但是\(P^2=P\),故\(\lambda^2=\lambda\),\(\lambda=0 \text{or}1\)。
其中,如果特征值为\(1\),其特征子空间是\(N(P-I)\),如果特征值为\(0\),其特征子空间是\(N(P)\).
这两个特征子空间的基底合并以后可以生成\(R^n\)。
\(\text{rank} P=\text{tr} P\)
特征值\(1\)的代数重数。
MOOC第二章答案
1 |
|
矩阵分解
满秩分解
【满秩分解】设\(A\)是\(m\times n\)的秩为\(r\)的矩阵,记作\(A\in \mathbb C^{m\times n}_r\),则存在\(B\in \mathbb C^{m\times r}_r\)和\(C\in \mathbb C^{r\times n}_r\),使得 \[ A=BC \]
证明:假设\(A=[\boldsymbol{a_1,a_2,\cdots,a_n}]\),取\(R(A)\)的一组基\([\boldsymbol{b_1,b_2,\cdots,b_r}]\),则有: \[ \boldsymbol{a_i=[b_1\cdots b_r]}c_i \] 定义\(B=\boldsymbol{[b_1\cdots b_r]},C=\boldsymbol{[c_1\cdots c_n]}\),则有: \[ A=BC \] 其中,\(rank(B)=r\) 又因为\(rank(c)\geq rank(A)=r,rank(C)\leq r\)
所以\(rank(C)=r\).
可以看到,满秩分解取决于\(R(A)\)上基的选取,所以满秩分解并不唯一。
【例】求 \[ \begin{pmatrix} i & 1 & 1\\ 1 & -i & 1 \end{pmatrix} \] 的满秩分解。
【解】观察得,\([\boldsymbol{a_1,a_3}]\)构成\(R(A)\)的一组基。 则向量\(\boldsymbol{a_1,a_2,a_3}\)在这组基下的坐标分别是: \[ c_1=[1,0]^T,c_2=[-i,0]^T,c_3=[0,1]^T \]
故满秩分解为: \[ A=BC=\begin{pmatrix} i &1\\ 1 &1\\ \end{pmatrix} \times \begin{pmatrix} 1 &-i &0\\ 0 &0 &1\\ \end{pmatrix} \]
那么如果观察不出来怎么办呢?其实也有通用方法:
【例】求以下矩阵的满秩分解: \[ A=\left[\begin{array}{cccc} -1 & 0 & 1 & 2 \\ 1 & 2 & -1 & 1 \\ 2 & 2 & -2 & -1 \end{array}\right] \] 【解】
先通过初等行变换把它变成行最简形: \[ A\sim \left[\begin{array}{cccc} 1 & 0 & -1 & -2 \\ 0 & 1 & 0 & \frac{3}{2} \\ 0 & 0 & 0 & 0 \end{array}\right] \]
观察每一行的首元出现在哪一列,把原矩阵的这些列抽出来,组合在一起,作为\(F\)矩阵: \[ F=\left[\begin{array}{cc} -1 & 0 \\ 1 & 2 \\ 2 & 2 \end{array}\right] \]
观察每一行的首元出现在哪一行,把行最简矩阵的这些行抽出来,组合在一起,作为\(G\)矩阵: \[ G=\left[\begin{array}{rrrr} 1 & 0 & -1 & -2 \\ 0 & 1 & 0 & \frac{3}{2} \end{array}\right] \]
有: \[ A=FG \]
【矩阵的左右逆】设矩阵\(A\in \mathbb C^{m\times n}_r\),如果存在\(B\)使得\(AB=I\),称\(B\)是\(A\)的右逆;如果存在矩阵\(B\)使得\(BA=I\),称\(B\)是\(A\)的左逆。矩阵存在右逆的充要条件是它是行满秩矩阵;矩阵存在左逆的充要条件是它是列满秩矩阵。
关于矩阵的秩有重要结论: \[ \text{rank}(A)=\text{rank}(AA^H)=\text{rank}(A^HA)=\text{rank}(A^H) \]
QR分解
【QR分解】如果复(实)方阵\(A\)可以分解为: \[ A=QR \] 其中\(Q\)是酉(正交)矩阵,\(R\)是上三角矩阵,则称\(A\)可以被QR分解。QR分解也叫酉三角分解(正交三角分解)。
如果实数方阵\(A\)是满秩的,那么它可以被QR分解,而且分解方法唯一。
证明:设\(A=[\boldsymbol{a_1\cdots a_n}]\),那么这个向量组是\(\mathbb R^n\)的一组基。把这组基进行施密特正交化,得到标准正交基\([\boldsymbol{z_1\cdots z_n}]\)。注意到\(\{\boldsymbol{a}\}\),\(\{\boldsymbol{z}\}\)都是空间的基,有: \[ [\boldsymbol{a_1\cdots a_n}]=[\boldsymbol{z_1\cdots z_n}]R \] 其中\(R\)是过度矩阵。
考虑施密特正交化的过程: \[ y_k=a_k-\sum_{i=1}^{k-1}(a_k,z_i)z_i\\\\ z_k=\dfrac {y_k}{\|y_k\|} \] 则有 \[ R=\left[\begin{array}{cccc} \left\|y_1\right\| & \left(a_2, z_1\right) & \cdots & \left(a_n, z_1\right) \\ & \left\|y_2\right\| & \cdots & \left(a_n, z_2\right) \\ & & \ddots & \vdots \\ & 0 & & \left\|y_n\right\| \end{array}\right] \]
也可以用初等反射变换求QR分解,具体操作方法是:
取\(a_1\)为矩阵\(A\)的第一列构成的列向量,计算其\(2\)范数\(\alpha_1\)
构造: \[ u_1=\frac{a_1-\alpha_1e_1}{\|a_1-\alpha_1e_1\|} \]
构造: \[ \tilde{H}_1=I-2u_1u_1^T \]
计算: \[ \tilde{H}_1A \] 其结果的第一列除了第一个元素以外都是\(0\),即: \[ \begin{bmatrix} a_{11} &\cdots\\ O &A_2 \end{bmatrix} \]
对矩阵\(A_2\)递归进行前四步,最终得到的即为\(R\)矩阵。
\(Q\)矩阵的计算方法是: \[ Q=H_nH_{n-1}\cdots H_1 \] 其中: \[ H_n=\begin{bmatrix} I_{n-1} &O\\ O &\tilde{H_n} \end{bmatrix} \]
【例】计算QR分解:
\[ A=\left(\begin{array}{lll} 0 & 4 & 1 \\ 1 & 1 & 1 \\ 0 & 3 & 2 \end{array}\right) \]
【解】
$$ \[\begin{align} a_1 & =\left(\begin{array}{l} 0 \\ 1 \\ 0 \end{array}\right), \alpha_1=1 \\ u_1 & =\frac{a_1-\alpha_1 \cdot e_1}{\| a_1-\alpha_1 e_1 \|}=\frac{1}{\sqrt{2}}\left(\begin{array}{c} -1 \\ 1 \\ 0 \end{array}\right) \\ H_1 & =I-2 u_1 u_1^T \\ & =I-2 \cdot\left(\frac{1}{\sqrt{2}}\right)^2 \cdot\left(\begin{array}{c} -1 \\ 1 \\ 0 \end{array}\right)\left(\begin{array}{lll} -1 & 1&0 \end{array}\right) \\ & =\left(\begin{array}{ccc} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{array}\right) \\ H_1 A_1 & =\left(\begin{array}{lll} 0 & 1 & 0 \\ 1 & 0 & 2 \\ 0 & 0 & 1 \end{array}\right)\left(\begin{array}{lll} 0 & 4 & 1 \\ 1 & 1 & 1 \\ 0 & 3 & 2 \end{array}\right) \\ & =\left(\begin{array}{lll} 1 & 1 & 1 \\ 0 & 4 & 1 \\ 0 & 3 & 2 \end{array}\right) \end{align}\] $$
则:
\[ A_2=\left(\begin{array}{ll}4 & 1 \\ 3&2\end{array}\right) \]
\[ \begin{aligned} a_2 & =\binom{4}{3} \quad \alpha_2=5 \\ \tilde{u}_2 & =\frac{a_2-\alpha_2 e_2}{\| a_2-\alpha_1 e_{2}\|}=\frac{1}{\sqrt{10}}\binom{-1}{3} \\ \tilde{H}_2 & =I-2 \tilde{u}_2 \tilde{u}_2 ^T \\ & =\left(\begin{array}{cc} \dfrac{4}{5} & \dfrac{3}{5} \\ \dfrac{3}{5} & -\dfrac{4}{5} \end{array}\right) \\ \tilde{H}_2A_2&=\left(\begin{array}{cc} 5 & 2 \\ 0 & -1 \end{array}\right) \\ \end{aligned} \]
则:
\[ \begin{aligned} & R=\left[\begin{array}{ccc} 1 & 1 & 1 \\ 0 & 5 & 2 \\ 0 & 0 & -1 \end{array}\right] \\ & Q=\left(\begin{array}{cc} 1 & 0 \\ 0 & \tilde{H_2} \end{array}\right) \cdot H_1=\left(\begin{array}{ccc} 0 & \frac{4}{5} & \frac{3}{5} \\ 1 & 0 & 0 \\ 0 & \frac{1}{5} & -\frac{4}{5} \end{array}\right) \end{aligned} \]
接下来考察长方形矩阵的QR分解。
【列/行正交规范矩阵】设\(Q\in \mathbb C^{m\times n}\),若 \[ Q^HQ=I_n \] 则称\(Q\)是列正交规范矩阵,\(Q^H\)是行正交规范矩阵。
考虑 \[ B=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right] \] 的QR分解。按照上面的施密特正交化法,有: \[ B=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right]=\left[\begin{array}{cc} \frac{3}{5} & 0 \\ 0 & 1 \\ \frac{4}{5} & 0 \end{array}\right]\left[\begin{array}{cc} 5 & 0 \\ 0 & 1 \end{array}\right]=Q_1R_1 \] 其中\(Q_1\)是列正交规范矩阵。我们把它的列补齐成\(C^3\)的标准正交基: \[ Q_1=\left[\begin{array}{cc} \frac{3}{5} & 0 \\ 0 & 1 \\ \frac{4}{5} & 0 \end{array}\right] \rightarrow Q=\left[\begin{array}{ccc} \frac{3}{5} & 0 & -\frac{4}{5} \\ 0 & 1 & 0 \\ \frac{4}{5} & 0 & \frac{3}{5} \end{array}\right] \] 则有: \[ B=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right]=\left[\begin{array}{ccc} \frac{3}{5} & 0 & -\frac{4}{5} \\ 0 & 1 & 0 \\ \frac{4}{5} & 0 & \frac{3}{5} \end{array}\right]\left[\begin{array}{ll} 5 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right]=Q R \] 所以 \(A \in \mathbb{C}_n^{m \times n}\) 可分解为 \(A=U R\), 其中, \(U\) 是 \(m\)阶酉矩阵, \(R=\left[\begin{array}{c}R_1 \\ 0\end{array}\right]_{m \times n}, R_1\) 为正线上三角阵, \(n \leq m\).
Schur分解和矩阵多项式
【Schur引理】任意复方阵 \(A\) 相似于上三角阵,即存在可逆矩阵\(P\)使得\(\Lambda=P^{-1}AP\),且\(\Lambda\)的对角元素是\(A\)的特征值。进一步,任意复方阵 \(A\) 酉相似于上三角阵 \(\Lambda\), 即存在酉矩阵 \(U\) 使得 \(U^H A U=\Lambda\) 为上三角阵。
【矩阵多项式】 设 \(A \in \mathbb{C}^{n \times n}\), 定义数域 \(\mathbb{C}\) 上的多项式
\[ \varphi(\lambda)=a_n \lambda^n+a_{n-1} \lambda^{n-1}+\cdots+a_1 \lambda+a_0, \]
式中, \(a_i \in \mathbb{C}, i=0,1, \cdots, n\). 则
\[ \varphi(A)=a_n A^n+a_{n-1} A^{n-1}+\cdots+a_1 A+a_0 I \]
称为矩阵多项式。
其实矩阵多项式就是把普通多项式的变量变成了一个矩阵。
我们可以利用Schur引理来研究矩阵多项式的性质,例如:
【定理】设复矩阵\(A\)的特征值为\(\lambda_1\cdots\lambda_n\),\(\phi(\lambda)\)是任意多项式,那么\(\phi(A)\)的特征值是\(\phi(\lambda_1)\cdots\phi(\lambda_n)\)。
【证明】:存在一个酉矩阵\(U\),使得 \[ U^HAU=\Lambda \] 其中\(\Lambda\)是上三角阵,其对角线元素是\(A\)的特征值。注意到: \[ \phi(A)=\phi(U\Lambda U^H)=U\phi(\Lambda)U^H \] 其中上三角阵\(\phi(\Lambda)\)的对角线元素是\(\phi(\lambda_1)\cdots\phi(\lambda_n)\),由于\(\phi(A)\)酉相似于\(\phi(\Lambda)\),所以它们有相同的特征值,证毕。
【Hamilton-Cayley定理】设\(f_A(\lambda)=|\lambda I-A|\)是\(A\)的特征多项式,那么\(f_A(A)=O\)。即:矩阵是自己的特征多项式的根。
【证明】:\(f_A(\lambda)\)可以表示为: \[ f_A(\lambda)=\prod_{i=1}^n(\lambda-\lambda_i) \] 则由shur引理,有\(P^{-1}AP=\Lambda\),\(f_A(A)\)可以表示为: \[ f_A(P\Lambda P^{-1})=P\prod_{i=1}^n(\Lambda-\lambda_1I)P^{-1} \] 因为上三角阵相乘,对角线元素相乘,所以中间的累乘式结果是\(O\),证毕。
接下来介绍关于矩阵的几个重要多项式:
【零化多项式】如果多项式\(f(\lambda)\)满足\(f(A)=O\),称其为矩阵\(A\)的零化多项式。
不难发现,矩阵的特征多项式就是一个典型的零化多项式。
【最小多项式】矩阵的零化多项式中,最小次数且最高次项系数为\(1\)的多项式称为最小多项式,记作\(m_A(\lambda)\)。
矩阵的特征多项式不一定是最小多项式。例如二阶单位矩阵,其特征多项式是\((\lambda-1)^2\),但是最小多项式是\((\lambda-1)\)。
关于最小多项式,有以下结论:
- 矩阵的最小多项式唯一,而且可以整除任何零化多项式
- 矩阵的最小多项式的根与特征多项式相同(不计重数)
据此,可以知道一个求矩阵的最小多项式的方法,就是先求它的特征多项式,并写成根的分解的形式,然后将每一项的次数置为\(1\),验证是否是零化多项式,如果不是, 就挨个提高次数,直到发现一个零化多项式为止。
【例】求最小多项式: \[ \begin{bmatrix} 3 & -3 & 2\\ -1 & 5 &-2\\ -1 & 3 & 0\\ \end{bmatrix} \] 【解】矩阵的特征多项式为: \[ (\lambda-2)^2(\lambda-4) \] 因此最小多项式可能是\((\lambda-2)(\lambda-4)\)或者\((\lambda-2)^2(\lambda-4)\)
验证第一个,有: \[ (A-2I)(A-4I)=O \] 因此最小多项式是\((\lambda-2)(\lambda-4)\)。
对角化分解
【定义:单纯矩阵】如果\(n\)阶复方阵相似于对角矩阵\(\Lambda\),即存在\(n\)阶可逆矩阵\(P\),使得 \[ P^{-1}AP=\Lambda \] 则称\(A\)是单纯矩阵,也叫可对角化矩阵。单纯阵的定义式就是单纯阵的对角化分解式,它实际上是Schur分解的一种特殊形式(Schur分解是「上三角阵」,对角化分解是「对角矩阵」)。
关于单纯矩阵,以下命题等价:
- \(A\)是单纯矩阵
- \(A\)有\(n\)个线性无关的特征向量
- 特征值\(\lambda_i,i=1\cdots m\)的代数重数等于几何重数
- \(\sum_{i=1}^m \dim E(\lambda_i)=n\)
- 最小多项式无重根
关于单纯矩阵,还有两个充分而不必要条件:
- 如果复方阵的零化多项式无重根,那么它是单纯矩阵
- 如果\(n\)阶复方阵有\(n\)个互异的特征值,那么它是单纯矩阵
【例】之前分析过的幂等矩阵是单纯矩阵吗?
【解】幂等矩阵是满足\(A^2=A\)的矩阵,显然\(g(\lambda)=\lambda^2-\lambda\)是它的一个零化多项式,无重根,所以\(A\)是单纯矩阵。
【酉相似对角化】如果\(n\)阶复方阵\(A\)酉相似于对角矩阵\(\Lambda\),即存在\(n\)阶酉矩阵,使得\(U^HAU=\Lambda\),那么称\(A\)是可酉相似对角化的。
设矩阵\(A\in \mathbb{C}^{n\times n}\),那么\(A\)是Hermit矩阵(\(A=A^H\))当且仅当\(A\)的所有特征值\(\lambda_1\cdots \lambda_n\)是实数,而且存在酉矩阵\(U\),使得\(U^HAU=\text{diag}\{\lambda_1\cdots \lambda_n\}\).
求Hermite矩阵\(A\)酉相似于对角阵的步骤如下:
- 求出\(A\)所有的相异特征值和重数
- 对于每个特征值,求\((\lambda I-A)x=0\)的基础解系,并将其单位正交化
- 由标准正交特征向量生成酉矩阵\(Q\),则\(Q^HAQ\)是酉矩阵
【正规矩阵】设\(A\in \mathbb{C}^{n\times n}\),则满足\(AA^H=A^HA\)的矩阵称为正规矩阵。
复方阵\(A\)是正规矩阵,和\(A\)酉相似于对角阵等价。
关于正规矩阵,有:
显然:正规矩阵的单纯矩阵的加强版。
复方阵 \(A\) 是正规矩阵当且仅当 \(A\) 有 \(n\) 个特征向量构成 \(\mathbb{C}^n\) 空间的一组标准正交基,且属于 \(A\) 的不同特征值的特征向量正交.
\(n\) 阶实方阵 \(A\) 是正交矩阵当且仅当 \(A\) 的所有特征值的模值为 1 , 且存在酉矩阵 \(U\) 使得
\[ U^H A U=\operatorname{diag}\left(\lambda_1, \cdots, \lambda_n\right) \]
其中 \(\lambda_1, \cdots, \lambda_n\) 是 \(A\) 的 \(n\) 个特征值.
- \(n\) 阶复方阵 \(A\) 是酉矩阵当且仅当 \(A\) 的所有特征值的模值为 1 , 且存在酉矩阵 \(U\) 使得
\[ U^H A U=\operatorname{diag}\left(\lambda_1, \cdots, \lambda_n\right) \]
其中 \(\lambda_1, \cdots, \lambda_n\) 是 \(A\) 的 \(n\) 个特征值.
- 常见的正規矩陣有:实对称矩阵、Hermitian矩阵、酉矩阵、反Hermitian矩阵
谱分解
接下来进一步研究单纯矩阵和正规矩阵的性质。
单纯矩阵谱分解
单纯矩阵\(A\in \mathbb C^{n\times n}\)可以写成一系列幂等矩阵的加权和的形式,其中的权是\(A\)的特征值: \[ A=\sum_{i=1}^n\lambda_iA_i \]
【证明】:
因为\(A\)是单纯矩阵,有: \[ A=P\times \text{diag}\{\lambda_1,\cdots,\lambda_n\}\times P^{-1} \] 把\(P,P^{-1}\)按行列进行分块,有: \[ P=\left(v_1, v_2, \cdots, v_n\right), P^{-1}=\left(\begin{array}{c} \omega_1^T \\ \omega_2^T \\ \vdots \\ \omega_n^T \end{array}\right) \] 在这里,\(v_i\)其实就是属于\(\lambda_i\)的特征向量。
则有: \[ A=\sum_{i=1}^n v_i\lambda_iw_i^T=\sum_{i=1}^n\lambda_iA_i \] 其中 \[ A_i=v_iw_i^T \] 下证\(A_i\)是幂等矩阵。由\(P^{-1}P=I\),有: \[ w_i^Tv_i=1 \] 则有: \[ A_i^2=(v_iw_i^T)(v_iw_i^T)=v_i(w_i^Tv_i)w_i^T=v_iw_i^T=A_i \] 证毕。
其实,可用同样的方法证明:\(A_iA_j=O(i\neq j)\)。
进一步的,如果更一般的情况,即有\(m<n\)个特征值,其中\(d_i\)是特征值\(\lambda_i\)的重数, 有: \[ A=\sum_{i=1}^m \lambda_iE_i \] 其中 \[ E_i=\sum_{j=1}^{d_i} \alpha _{ij}\beta^{H}_{ij} \] 其中,\(\alpha_{ij}\)是第\(i\)个特征值的第\(j\)个特征向量,\(\beta_{ij}\)可由\(P^{-1}\)求出
【例】计算谱分解: \[ \boldsymbol{A}=\left[\begin{array}{rrr} 4 & 6 & 0 \\ -3 & -5 & 0 \\ -3 & -6 & 1 \end{array}\right] \] 【解】先计算特征值: \[ \lambda_1=\lambda_2=1,\lambda_3=-2 \] 对应的特征向量为: \[ \boldsymbol{\alpha}_1=[2,-1,0]^{\mathrm{T}}, \quad \boldsymbol{\alpha}_2=[0,0,1]^{\mathrm{T}}, \quad \boldsymbol{\alpha}_3=[-1,1,1]^{\mathrm{T}} \] 则有: \[ \boldsymbol{P}=\left[\begin{array}{rrr} 2 & 0 & -1 \\ -1 & 0 & 1 \\ 0 & 1 & 1 \end{array}\right], \quad \boldsymbol{P}^{-1}=\left[\begin{array}{rrr} 1 & 1 & 0 \\ -1 & -2 & 1 \\ 1 & 2 & 0 \end{array}\right] \] 则: \[ \boldsymbol{\beta}_1=[1,1,0]^{\mathrm{T}}, \boldsymbol{\beta}_2=[-1,-2,1]^{\mathrm{T}}, \boldsymbol{\beta}_3=[1,2,0]^{\mathrm{T}} . \] 由定义: \[ \begin{aligned} & \boldsymbol{E}_1=\boldsymbol{\alpha}_1 \boldsymbol{\beta}_1^{\mathrm{H}}+\boldsymbol{\alpha}_2 \boldsymbol{\beta}_2^{\mathrm{H}}=\left[\begin{array}{rrr} 2 & 2 & 0 \\ -1 & -1 & 0 \\ -1 & -2 & 1 \end{array}\right] \\ & \boldsymbol{E}_2=\boldsymbol{\alpha}_3 \boldsymbol{\beta}_3^{\mathrm{H}}=\left[\begin{array}{rrr} -1 & -2 & 0 \\ 1 & 2 & 0 \\ 1 & 2 & 0 \end{array}\right] \end{aligned} \]
关于单纯矩阵的谱分解,有性质:
- \(E_i=E^2_i\)
- \(E_iE_j=O(i\neq j)\)
- \(E_iA=AE_i=\lambda_iE_i\)
- \(\sum_{i=1}^mE_i=I\)
- 集合\(\{E_i\}\)唯一
有推论:
若\(f(\lambda)\)是一个多项式,有: \[ f(A)=\sum_{i=1}^m f(\lambda_i)E_i \] 进一步,若设\(f_i(\lambda)=\prod_{l=1,l\neq i}^m (\lambda-\lambda_l)\),则有: \[ E_i=\frac{\prod_{l=1,l\neq i}^{m} (A-\lambda_lI)}{\prod_{l=1,l\neq i}^{m} (\lambda_i-\lambda_l)} \]
例】计算谱分解: \[ \boldsymbol{A}=\left[\begin{array}{rrr} 4 & 6 & 0 \\ -3 & -5 & 0 \\ -3 & -6 & 1 \end{array}\right] \] 【解】先计算特征值: \[ \lambda_1=\lambda_2=1,\lambda_3=-2 \] 定义 \(f_1(\lambda)=\lambda+2, f_2(\lambda)=\lambda-1\), 则
\[ \begin{aligned} & \boldsymbol{E}_1=\frac{1}{f_1\left(\lambda_1\right)} f_1(\boldsymbol{A})=\left[\begin{array}{rrr} 2 & 2 & 0 \\ -1 & -1 & 0 \\ -1 & -2 & 1 \end{array}\right] \\ & \boldsymbol{E}_2=\frac{1}{f_2\left(\lambda_2\right)} f_2(\boldsymbol{A})=\left[\begin{array}{rrr} -1 & -2 & 0 \\ 1 & 2 & 0 \\ 1 & 2 & 0 \end{array}\right] \end{aligned} \]
正规矩阵的谱分解
正规矩阵是单纯矩阵的特殊情况。在正规矩阵的谱分解中,\(E_i\)都是正交矩阵。而且有: \[ E_i=\sum_{k=1}^{d_i} u_{ik}u_{ik}^H \] 其中\(u_i\)是属于\(\lambda_i\)的单位正交的特征向量们。
【例】求正规矩阵的谱分解 \[ \boldsymbol{A}=\left[\begin{array}{rrrr}0 & 1 & 1 & -1 \\ 1 & 0 & -1 & 1 \\ 1 & -1 & 0 & 1 \\ -1 & 1 & 1 & 0\end{array}\right] \] 【解】计算矩阵 \(\boldsymbol{A}\) 的特征值与特征向量, 分别为: \(\lambda_1=\lambda_2=\lambda_3=1\) ,\(\boldsymbol{\beta}_1=[1,1,0,0]^{\mathrm{T}}, \boldsymbol{\beta}_2=[1,0,1,0]^{\mathrm{T}}, \boldsymbol{\beta}_3=[-1,0,0,1]^{\mathrm{T}} ; \lambda_4=-3, \boldsymbol{\beta}_4=[1,-1,-1,1]^{\mathrm{T}}\).
将 \(\boldsymbol{\beta}_1, \boldsymbol{\beta}_2\) 和 \(\boldsymbol{\beta}_3\) 单位正交化, 并将 \(\boldsymbol{\beta}_4\) 单位化, 得 \[ \begin{gathered} \boldsymbol{\alpha}_1=\left[\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}, 0,0\right]^{\mathrm{T}} \\ \boldsymbol{\alpha}_2=\left[\frac{1}{\sqrt{6}},-\frac{1}{\sqrt{6}}, \frac{2}{\sqrt{6}}, 0\right]^{\mathrm{T}} \\ \boldsymbol{\alpha}_3=\left[-\frac{1}{\sqrt{12}}, \frac{1}{\sqrt{12}}, \frac{1}{\sqrt{12}}, \frac{3}{\sqrt{12}}\right]^{\mathrm{T}} \\ \cdot \boldsymbol{\alpha}_4=\left[\frac{1}{2},-\frac{1}{2},-\frac{1}{2}, \frac{1}{2}\right]^{\mathrm{T}} \end{gathered} \]
定义 \(\boldsymbol{E}_1=\boldsymbol{\alpha}_1 \boldsymbol{\alpha}_1^{\mathrm{H}}+\boldsymbol{\alpha}_2 \boldsymbol{\alpha}_2^{\mathrm{H}}+\boldsymbol{\alpha}_3 \boldsymbol{\alpha}_3^{\mathrm{H}}, \boldsymbol{E}_2=\boldsymbol{\alpha}_1 \boldsymbol{\alpha}_4^{\mathrm{H}}\), 则 \(\boldsymbol{A}=\boldsymbol{E}_1-3 \boldsymbol{E}_2\) 是 \(\boldsymbol{A}\) 的谱分解式。
若当标准型
接下来讨论不单纯的矩阵,也就是不能相似对角化的矩阵,如果非要把它相似对角化会怎样。
\(\lambda\)矩阵与三个重要因子
【\(\lambda\)矩阵】如果矩阵\(A\)的元素都是\(\lambda\)多项式,那么矩阵\(A\)称为\(\lambda\)矩阵。
例如,我们经常见到的特征矩阵\(\lambda I-A\)就是一个典型的\(\lambda\)矩阵。
\(\lambda\)矩阵的的秩定义为其非零子式的最大阶数。\(\lambda\)矩阵可逆,等价于其行列式\(|A(\lambda)|\)是非零的常数。
\(\lambda\)矩阵也可以进行初等行列变换,即:
- 交换行/列顺序
- 给某一行/列乘以非零常数
- 给某一行/列乘以一个\(\lambda\)多项式然后加到另一行/列上。
若\(A(\lambda)\)经过有限次初等变换变为\(B(\lambda)\),称这两个矩阵相抵。与数字矩阵不同的是,秩相同的\(\lambda\)矩阵不一定相抵。\(\lambda\)矩阵如果要相抵,除了秩相同以外,还要有相同的各阶行列式因子。
【行列式因子】一个矩阵的\(k\)阶行列式因子定义为其全部\(k\)阶子式的首\(1\)最大公因子,记为\(D_k(\lambda)\)。
【不变因子】不变因子可以通过下面的形式计算: \[ d_1=D_1,d_2=\frac {D_2}{D_1},\cdots,d_n=\frac{D_n}{D_{n-1}} \]
不变因子的前一项总是后一项的因子,而且有:
\[ D_k =\prod _{i=1}^k d_k \]
一个矩阵的特征矩阵的不变因子的最后一项\(d_n\)即为原矩阵的最小多项式。
【初等因子】把每个不变因子分解成一次因式的幂的乘积形式,所有这些一次因式的幂的集合(相同的必须按出现次数重复计算)称为矩阵的初等因子组。
【例】求矩阵 \[ \begin{bmatrix} \lambda+1 & 2 & -6\\ 1 & \lambda & -3\\ 1 & 1 & \lambda-4\\ \end{bmatrix} \] 的各阶行列式因子、初等因子和不变因子
【解】先求行列式因子:
三阶行列式因子: \[ \begin{vmatrix} \lambda+1 & 2 & -6\\ 1 & \lambda & -3\\ 1 & 1 & \lambda-4\\ \end{vmatrix}=(\lambda-1)^3 \] 二阶行列式因子:
求矩阵的9个子式的最大公因式,例如: \[ \begin{vmatrix} \lambda+1 & 2 \\ 1 & \lambda\\ \end{vmatrix}=(\lambda-1)(\lambda+2) \]
\[ \begin{vmatrix} 2 & -6 \\ \lambda &-3\\ \end{vmatrix}=6(\lambda-1) \]
等等。最终算出来最大公因式是\((\lambda-1)\)。
一阶行列式因子:
即所有元素的最大公因式:\(1\)
求不变因子: \[ d_1=D_1=1 \]
\[ d_2=\frac{D_2}{D_1}=\lambda-1 \]
\[ d_3=\frac{D_3}{D_2}=(\lambda-1)^2 \]
求初等因子: \[ (\lambda-1),(\lambda-1)^2 \]
设 \(\lambda\) 矩阵 \(A(\lambda)\) 为对角块矩阵, 即
\[ A(\lambda)=\operatorname{diag}\left(A_1(\lambda), \cdots, A_s(\lambda)\right) \]
则 \(A_1(\lambda), \cdots, A_S(\lambda)\) 初等因子的全体就是 \(A(\lambda)\) 的全部初等因子,其中 \(A_i(\lambda), i=1, \cdots, s\) 是适当阶数的 \(\lambda\)矩阵。
史密斯标准型
一个\(\lambda\)矩阵的史密斯标准型为: \[ A(\lambda)=\left(\begin{array}{llllll} d_1(\lambda) & & & & & & \\ & d_2(\lambda) & & & & & \\ & & \ddots & & & &\\ & & & d_r(\lambda) & & & \\ & & & & 0 & &\\ & & & & & \ddots & \\ & & & & & &0 \end{array}\right) \] 其中\(d(\lambda)\)是矩阵的不变因子。
史密斯标准型的求法是:
确定原矩阵的一阶行列式因子
通过初等变换,把原矩阵的左上角元素变成\(d_1=D_1\)
通过初等变换,把原矩阵的第一行、第一列除了第一个以外的元素都变成\(0\),此时矩阵为: \[ \begin{bmatrix} d_1 &0\\ 0 &B_1(\lambda) \end{bmatrix} \]
对\(B_1(\lambda)\)递归进行前三步。
【例】求史密斯标准型: \[ \left(\begin{array}{ccc} -\lambda+1 & 2 \lambda-1 & \lambda \\ \lambda & \lambda^2 & -\lambda \\ \lambda^2+1 & \lambda^2+\lambda-1 & -\lambda^2 \end{array}\right) \] 【解】
计算一阶行列式因子\(D_1=1\),则: \[ \begin{align} A(\lambda)=&\left(\begin{array}{ccc} -\lambda+1 & 2 \lambda-1 & \lambda \\ \lambda & \lambda^2 & -\lambda \\ \lambda^2+1 & \lambda^2+\lambda-1 & -\lambda^2 \end{array}\right) \\ \stackrel{C_3+C_1}{\simeq}&\left(\begin{array}{ccc} 1 & 2 \lambda-1 & \lambda \\ 0 & \lambda^2 & -\lambda \\ 1 & \lambda^2+\lambda-1 & -\lambda^2 \end{array}\right)\\ \stackrel{-R_1+R_3}{\simeq}&\left(\begin{array}{ccc} 1 & 2 \lambda-1 & \lambda \\ 0 & \lambda^2 & -\lambda \\ 0 & \lambda^2-\lambda & -\lambda^2-\lambda \end{array}\right)\\ \stackrel{}{\simeq}&\left(\begin{array}{c|cc} 1 & 0 & 0 \\ \hline 0 & \lambda^2 & -\lambda \\ 0 & \lambda^2-\lambda & -\lambda^2-\lambda \end{array}\right) \end{align} \] 计算右下方子矩阵的一阶行列式因子:\(\lambda\) \[ \begin{align} &\left(\begin{array}{c|cc} 1 & 0 & 0 \\ \hline 0 & \lambda^2 & -\lambda \\ 0 & \lambda^2-\lambda & -\lambda^2-\lambda \end{array}\right)\\ \stackrel{C_2\leftrightarrow C_3}{\simeq} &\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & -\lambda & \lambda^2 \\ 0 & -\lambda^2-\lambda & \lambda^2-\lambda \end{array}\right)\\ \stackrel{-R_2}{\simeq} &\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & \lambda & -\lambda^2 \\ 0 & -\lambda^2-\lambda & \lambda^2-\lambda \end{array}\right)\\ \stackrel{(\lambda+1)R_2+R_3}{\simeq} &\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & \lambda & -\lambda^2 \\ 0 & 0 & -\lambda^3-\lambda \end{array}\right)\\ \stackrel{\lambda C_2+C_3}{\simeq} &\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & -\lambda^3-\lambda \end{array}\right)\\ \stackrel{-R_3}{\simeq} &\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & \lambda^3+\lambda \end{array}\right)\\ \end{align} \]
若当标准型的求法
假如矩阵有一个不变因子是\((\lambda-k)^n\),那么它对应一个\(n\)阶,主对角线元素为\(k\),主对角线上一行元素为\(1\)的若当块。
对于矩阵\(A\)的特征矩阵\(\lambda I-A\)的初等因子组,它们对应的若当块以任意顺序组合,就是矩阵的若当标准型。
【例】已知三阶矩阵\(A\neq 2I\),且\(A^2-4A+4I=O\),求其若当标准型。
【解】因为 \[ (A-2I)^2=O \] 所以\((A-2I)^2\)是\(A\)的一个零化多项式。又因为\(A-2I\neq O\),所以是最小多项式。
考虑\(A\)的特征矩阵\(\lambda A-I\),其行列式\(|\lambda A-I|\)是其所有不变因子的积(史密斯标准型),也是矩阵的特征多项式。所以,其所有初等因子的最小公倍式就是\(A\)的最小多项式\((A-2I)^2\),所以其初等因子组是\((\lambda-2),(\lambda-2)^2\),其若当标准型为: \[ \begin{bmatrix} 2& 0& 0\\ 0& 2 &1\\ 0& 0&2 \end{bmatrix} \]
【例2】 \(\boldsymbol{A} \in C^{8 \times 8}, \quad \lambda \boldsymbol{I}-\boldsymbol{A} \cong \operatorname{diag}\left\{\lambda^2+1,1, \lambda^2-2,1, \lambda^2, \lambda, \lambda+1,1\right\}\) 。求 \(\lambda \boldsymbol{I}-\boldsymbol{A}\) 的初等因子,不变因子, 及 Smith 标准型。写出 \(\boldsymbol{A}\) 的 Jordan 标准型及最小多项式。
【解2】初等因子为:\((\lambda-i),(\lambda+i),(\lambda-\sqrt 2),(\lambda+\sqrt2),\lambda^2,\lambda,(\lambda+1)\)
考虑矩阵:\(\text{diag}\{1,1,1,\lambda,\lambda+1,\lambda^2,\lambda^2+1,\lambda^2-2\}\),先求其各阶行列式因子,再由行列式因子求出不变因子和史密斯标准型。
- \(D_1=D_2=D_3=1\)
- 求\(D_4\),因为\(\lambda\)和\(\lambda+1\)的最大公因式为\(1\),因此\(D_4=1\)
- 求\(D_5\),因为\(\lambda\cdot \lambda^2\)和\((\lambda+1)(\lambda^2-2)\)的最大公因式为\(1\),因此\(D_5=1\)
- 求\(D_6\),因为\(\lambda^3(\lambda+1)\)、\(\lambda^3(\lambda^2-2)\)和\((\lambda+1)(\lambda^2-2)(\lambda^2+1)\)的最大公因式为\(1\),因此\(D_6=1\)
- 求\(D_7\),因为原来的矩阵有\(8\)项,求\(D_7\)即选择其中的\(7\)项相乘。如果不选\(\lambda\),那么必选\(\lambda^2\);如果不选\(\lambda^2\),那么必选\(\lambda\),因此\(\lambda\)必定是其中一个公因式,而且是最大公因式。
- 求\(D_8\),为\(\lambda^3(\lambda+1)(\lambda^2-2)(\lambda^2+1)\)
因此,矩阵不变因子为: \[ d_1=d_2=d_3=d_4=d_5=d_6=1 \]
\[ d_7=\lambda,d_8=\lambda^2(\lambda+1)(\lambda^2-2)(\lambda^2+1) \]
史密斯标准型为: \[ \begin{bmatrix} 1&&&&&&&\\ &1&&&&&&\\ &&1&&&&&\\ &&&1&&&&\\ &&&&1&&&\\ &&&&&1&&\\ &&&&&& \lambda &\\ &&&&&&& \lambda^2(\lambda+1)(\lambda^2-2)(\lambda^2+1) \\ \end{bmatrix} \] 若当标准型为: \[ \left[\begin{array}{cccccccc} 0 & 1 & & & & & & \\ & 0 & & & & & & \\ & & 0 & & & & & \\ & & & i & & & & \\ & & & & -i & & & \\ & & & & & \sqrt{2} & & \\ & & & & & & -\sqrt{2} & \\ & & & & & & & -1 \end{array}\right] \] 最小多项式为: \[ m(\lambda)=d_8=\lambda^2(\lambda+1)(\lambda^2-2)(\lambda^2+1) \]
MOOC第三章答案
1 |
|
矩阵分析
向量范数
【向量范数】设\(V\)是数域\(F\)上的线性空间,\(\|x\|\)是\(x\in V\)的实值函数,如果满足:
- 正定:\(\|x\|\geq 0\)且当且仅当\(x=\theta\)时,\(\|x\|=0\)
- 齐次:\(\forall k\in F,\|kx\|=k\|x\|\)
- 三角不等式:\(\forall x,y\in V,\|x+y\|\leq \|x\|+\|y\|\)
称其为向量的范数,称这个线性空间为赋范线性空间。
有以下三种常用的范数:
- \(\|x\|_1=\sum_i |x_i|\),即所有元素的绝对值之和
- \(\|x\|_\infty=\max_i |x_i|\),即所有元素的绝对值中的最大值
- \(\|x\|_2=\sqrt {\sum_i |x_i|^2}\),即我们日常使用的「欧氏距离」
- \(\|x\|_p=\left(\sum _i |x_i|^p\right)^{\frac 1p}\),其中\(p\in [1,\infty]\),上面三个范数都是它的特殊情况。
问:内积空间是赋范线性空间吗?
答:是的,不仅如此,内积空间所定义的距离还满足「平行四边形法则」。
【范数等价】对于两个向量范数\(\|x\|_\alpha\)和\(\|x\|_\beta\),如果有: \[ k_1\|x\|_\beta\leq \|x\|_\alpha \leq k_2\|x\|_\beta \] 那么称这两个范数等价。范数等价满足等价的性质,即传递性、自反性和对称性。
事实上,有限维线性空间的所有范数都是等价的。
矩阵范数
【矩阵的向量范数】对于定义在\(\mathbb C^{m\times n}\)上的矩阵\(A\),如果满足:
- 正定:\(\|A\|\geq 0\)且当且仅当\(A=O\)时,\(\|A\|=0\)
- 齐次:\(\forall k\in F,\|kA\|=k\|A\|\)
- 三角不等式:\(\forall A,B\in \mathbb C^{m\times n},\|A+B\|\leq \|A\|+\|B\|\)
称其为矩阵的向量范数。这其实就是把矩阵”拉直“看成向量。如果要考虑真正的矩阵,就要满足第四条性质:
- 矩阵乘法相容性:\(\forall A,B\in \mathbb C^{m\times n},\|AB\|\leq \|A\|\|B\|\)
则称其为矩阵范数。
【向量范数与矩阵范数相容】 若对 \(A \in\) \(\mathbb{C}^{m \times n}\) 和 \(\boldsymbol{x} \in \mathbb{C}^n\), 向量范数 \(\|x\|_v\) 与矩阵范数 \(\|A\|_m\) 满足
\[ \|A x\|_v \leq\|A\|_m\|x\|_v \]
则称向量范数 \(\|x\|_v\) 与矩阵范数 \(\|A\|_m\) 相容.
给定一个\(\mathbb{C}^{n\times n}\)的矩阵范数\(\|A\|_m\),一定会对应一个\(\mathbb{C}^n\)的向量范数与之相容。这是显然的:\(\|x\|_v=\|x\alpha^T\|_m\),其中\(\alpha\)是任意非零向量。证明相容性,有: \[ \|A x\|_v=\left\|A x \alpha^T\right\|_m \leq\|A\|_m\left\|x \alpha^T\right\|_m=\|A\|_m\|x\|_v \] 已知向量范数,其实也有矩阵范数与之对应且相容,不过这个没有那么显然:
【算子范数/诱导范数】 设 \(\|x\|_v\) 是 \(\mathbb{C}^n\) 上的一个向量范数, 对任意 \(A \in \mathbb{C}^{m \times n}\) ,定义 \[ \|A\|=\max _{\|\boldsymbol{x}\|_v=1}\|A \boldsymbol{x}\|_v \]
则 \(\|A\|\) 是一个与 \(\|x\|_v\) 相容的矩阵范数, 称其是从属于向量范数 \(\|\cdot\|_v\) 的算子范数或由向量范数 \(\|\cdot\|_v\) 诱导的矩阵范数。
对于向量范数\(\|x\|_1,\|x\|_\infty,\|x\|_2\),有诱导范数\(\|A\|_1,\|A\|_\infty,\|A\|_2\),它们分别称为列和范数、行和范数和谱范数。
列和范数:每一列的元素绝对值之和的最大值: \[ \|A\|_1=\max _{1 \leq j \leq n} \sum_{i=1}^m\left|a_{i j}\right| \]
行和范数:每一行的元素绝对值之和的最大值: \[ \|A\|_{\infty}=\max _{1 \leq i \leq m} \sum_{j=1}^n\left|a_{i j}\right| \]
谱范数: \[ \|A\|_2=\sqrt{\lambda_{\text {max }}\left(A^H A\right)}=\sigma_{\text {max }}(A) \]
矩阵特征值的估计
【谱和谱半径】对于复方阵\(A\in \mathbb C^{n\times n}\),其所有特征值的集合\(S_p(A)\)叫做这个矩阵的谱,其中特征值最大的模叫做这个矩阵的谱半径。
谱半径本身不是范数(不满足正定性中的「范数为0等价于矩阵为\(O\)」),而且它不大于任何一个矩阵范数。
【盖尔圆盘】对于\(A\in \mathbb C^{n\times n}\),每一行来说,以它的主对角线上的那个元素为圆心,其它所有元素的模之和为半径的圆及其内部,叫做这个矩阵的盖尔圆盘。用数学公式来说,就是: \[ \delta_i=\sum_{j=1,j\neq i}^n |a_{ij}|,i=1\cdots n \] 定义盖尔圆盘 \[ G_i=\{z\in \mathbb C\mid\ |z-a_{ii}|\leq \delta_i\} \] 【盖尔圆盘定理】矩阵的所有特征值都在矩阵的所有盖尔圆盘的并集之内。
因为\(A\)与\(A^T\)有相同的特征值集合,所以实际上矩阵的所有特征值要落在\(A\)和\(A^T\)的所有盖尔圆盘的并集之内。
如果\(A\)的其中\(k\)个盖尔圆盘是并集形成一个联通的区域(相切也算),且该区域和其余圆盘都不相交,那么这个区域里面恰好有\(k\)个特征值。那么,孤立的盖尔圆盘里面有且只有一个特征值。如果矩阵有\(k\)个独立的盖尔圆盘,那么它至少有\(k\)个互异的实特征值。如果所有盖尔圆盘互不相交,那么矩阵是单纯矩阵。
如果原点不在任何盖尔圆盘内,矩阵就不是奇异矩阵。
【例】证明下面的矩阵至少有两个实特征值 \[ A=\left[\begin{array}{cccc} 9 & 1 & -2 & 1 \\ 0 & 8 & 1 & 1 \\ -1 & 0 & 4 & 0 \\ 1 & 0 & 0 & 1 \end{array}\right] \] 【解】矩阵的四个盖尔圆为: \[ \begin{aligned} & G_1:|z-9| \leq 4 \\ & G_2:|z-8| \leq 2 \\ & G_3:|z-4| \leq 1 \\ & G_4:|z-1| \leq 1 \end{aligned} \]
在紫色的圆里,有一个实特征值。矩阵是\(4\)阶矩阵,所以有四个特征值。因为复特征值都是成对出现的,所以最多只能有一对复特征值,所以至少有两个实特征值。
在使用盖尔圆估计特征值时,为了获得更多的孤立圆,我们可以构造一个矩阵\(D\),然后有: \[ B=DAD^{-1} \] 因为\(AB\)相似,所以它们具有相同的特征值。但是\(B\)的盖尔圆盘是相互孤立的,这样就能更加精准地估计了。
一般来说,构造\(D\)的方法是取一些非零实数\(\{d_1\cdots d_n\}\),然后有: \[ D=\text{diag}\{d_1,\cdots,d_n\} \] 通常,\(d_i\)的选取方法为:
- 如果\(d_i<1\),其它\(d\)都是\(1\),那么会缩小第\(i\)个盖尔圆、放大其它盖尔圆。
- 如果\(d_i>1\),其它\(d\)都是\(1\),那么会放大第\(i\)个盖尔圆,缩小其它盖尔圆。
【例】用盖尔圆隔离特征值: \[ \boldsymbol{A}=\left[\begin{array}{cccc} 1 & 1 & 0 & 0 \\ 1 & 9 & 1.3 & -2 \\ 1 & 0 & 15 & 1.4 \\ 0 & -1 & 0 & 4 \end{array}\right] \] 【解】原矩阵的四个盖尔圆为: \[ \begin{align} G_1&:|z-1|\leq 1\\ G_2&:|z-9|\leq 4.3\\ G_3&:|z-15|\leq 2.4\\ G_4&:|z-4|\leq 1 \end{align} \] \[ \boldsymbol{D}=\left[\begin{array}{llll} 5 / 3 & & & \\ & 1 & & \\ & & 1 & \\ & & & 1 \end{array}\right], \quad \boldsymbol{B}=\boldsymbol{D} \boldsymbol{A} \boldsymbol{D}^{-1}=\left[\begin{array}{cccc} 1 & 5 / 3 & 0 & 0 \\ 0.6 & 9 & 1.3 & -2 \\ 0.6 & 0 & 15 & 1.4 \\ 0 & -1 & 0 & 4 \end{array}\right] \] \(B\)的四个盖尔圆为: \[ \begin{align} G_1&:|z-1|\leq \frac 35\\ G_2&:|z-9|\leq 3.9\\ G_3&:|z-15|\leq 2\\ G_4&:|z-4|\leq 1 \end{align} \]
TIPS:往年题里,这个\(D\)的元素的选取,往往在\(1.6\sim 1.9\)之间。
矩阵幂级数
要讨论幂级数,就要先讨论收敛。要讨论矩阵,就要先讨论向量。
【向量按范数收敛】 \(\left(V,\|\cdot\|_\alpha\right)\) 是 \(n\)维赋范线性空间, \(x_1, x_2, \cdots, x_k, \cdots\) 是 \(V\) 中一个向量序列, 记为 \(\left\{\boldsymbol{x}_k\right\}\). 若存在 \(V\) 的向量 \(\boldsymbol{x}\) 满足
\[ \lim _{k \rightarrow \infty}\left\|x_k-x\right\|_\alpha=0 \]
则称向量序列 \(\left\{x_k\right\}\) 按范数 \(\|\cdot\|_\alpha\) 收敛于 \(x\), 记作
\[ \lim _{k \rightarrow \infty} x_k=x \text { 或 } x_k \xrightarrow{\alpha} x \] 因为有限维线性空间中所有范数都是等价的,所以只要向量按某种范数收敛,它就按所有范数收敛。
【向量按坐标收敛】设 \(\left(V,\|\cdot\|_\alpha\right)\) 是 \(n\)维赋范线性空间, \(\boldsymbol{\epsilon}_1, \cdots, \boldsymbol{\epsilon}_n\) 是 \(V\) 中一组基, \(\left\{\boldsymbol{x}_k\right\}\) 是 \(V\)中一个向量序列,并记向量序列 \(\left\{x_k\right\}\) 中的任一向量 \(\boldsymbol{x}_k\) 在 \(\epsilon_1, \cdots, \epsilon_n\) 下坐标为
\[ \xi_k=\left[\xi_1^{(k)}, \cdots, \xi_n^{(k)}\right]^T \in F^n \]
若存在 \(V\) 的向量 \(\boldsymbol{x}\) 满足 \(\lim _{k \rightarrow \infty} \xi_i^{(k)}=\xi_i, i=1, \cdots, n\)则称向量序列 \(\left\{x_k\right\}\) 按坐标收敛于向量 \(x\), 其中 \(\xi\) 是向量 \(\boldsymbol{x}\) 在基 \(\epsilon_1, \cdots, \epsilon_n\) 下坐标.
事实上,这些收敛的定义都是相互等价的:
矩阵的收敛和上面的一样,只需要把范数改成矩阵范数就行了。
【矩阵级数】设有矩阵序列\(\{A_k\}\),则 \[ \sum_{k=1}^\infty A_k \] 称为矩阵级数。
矩阵级数收敛,等价于:
部分和序列收敛 \[ S_n=\sum_{k=1}^n A_k \]
\(mn\)个数项级数 \[ \sum_{k=1}^\infty a_{ijk} \] 收敛。
矩阵级数绝对收敛,等价于:
\(mn\)个数项级数 \[ \sum_{k=1}^\infty |a_{ijk}| \] 收敛。
存在一个矩阵范数,使得 \[ \sum_{k=1}^\infty \|A_k\| \] 收敛。
【矩阵幂级数】设\(A\in \mathbb C^{n\times n}\),则定义矩阵级数 \[ \sum_{k=0}^\infty a_kA^k \] 其中\(A^0=I\)为矩阵幂级数。
关于其收敛性,有:设普通幂级数\(\sum_{k=0}^\infty a_kx^k\)的收敛半径为\(R\),则
- \(\rho(A)< R\),矩阵幂级数\(\sum_{k=0}^\infty a_kA^k\)绝对收敛
- \(\rho(A)>R\),矩阵幂级数\(\sum_{k=0}^\infty a_kA^k\)发散
- \(\rho(A)=R\),无法判断,只能通过定义(每个元素都收敛)判断
其中\(\rho(A)\)是矩阵的谱半径,即特征值的绝对值的最大值。
回顾:计算普通幂级数的收敛半径:
\[ R=\frac 1\rho \]
\[ \rho=\lim_{k\to \infty}\left|\frac{a_{k+1}}{a_k}\right| \]
【例】判断矩阵幂级数的收敛性,如果收敛,求其和。 \[ \sum_{k=0}^{+\infty}\left(\begin{array}{ll} 0.1 & 0.7 \\ 0.3 & 0.6 \end{array}\right)^k \] 【解】矩阵幂级数中,有:\(a_k=1\),因此普通幂级数 \[ \sum_{k=0}^\infty a_kx^k \] 的收敛半径为\(1\)。
矩阵的谱半径为 \[ \rho(A)=\frac{0.7+\sqrt{1.09}}{2}<1 \] 因此收敛。
当然,这里也并不是一定要求特征值。因为矩阵的行和范数是\(0.9\),而谱半径一定是小于行和范数的,所以谱半径一定小于\(0.9\),进而小于\(1\)。
求和: \[ \begin{align} S&=I+A+A^2+A^3+\cdots\\ AS&=A+A^2+A^3+\cdots \end{align} \] 相减,有: \[ (I-A)S=I \] 即 \[ S=(I-A)^{-1}=\frac{2}{3}\left(\begin{array}{ll} 4 & 7 \\ 3 & 9 \end{array}\right) \] 【例2】设 \(A=\left[\begin{array}{cc}-1 & 1 \\ 0 & -1\end{array}\right]\), 判断 \(\sum_{k=1}^{\infty} \dfrac{1}{k} A^k\) 的敛散性.
【解2】\(\rho(A)=1\),普通级数\(\sum_{k=1}^\infty \dfrac 1k x^k\)收敛半径也为\(1\),因此改用定义判断。
对于若当块的乘方,有:
$$ ( \[\begin{array}{ccccc} \lambda & 1 & & & \\ & \lambda & 1 & & \\ & & \lambda & \ddots & \\ & & & \ddots & 1 \\ & & & & \lambda \end{array}\] )_k^n=( \[\begin{array}{ccccc} \lambda^n & C_n^1 \lambda^{n-1} & C_n^2 \lambda^{n-2} & \cdots & C_n^{k-1} \lambda^{n-(k-1)} \\ & \lambda^n & C_n^1 \lambda^{n-1} & \cdots & C_n^{k-2} \lambda^{n-(k-2)} \\ & & \lambda^n & \cdots & C_n^{k-3} \lambda^{n-(k-3)} \\ & & & \ddots & \vdots \\ & & & & \lambda^n \\ \end{array}\])_k $$
代入到本题,有: \[ \begin{bmatrix} -1&1\\ 0&-1 \end{bmatrix}^k=\begin{bmatrix} -1^k&k(-1)^{k-1}\\ 0&-1^k \end{bmatrix} \] 容易发现, \[ \sum_{k=1}^\infty (-1)^{k-1} \] 发散,因此原矩阵级数发散。
矩阵函数
如果把收敛的矩阵幂级数写成函数的形式,就是矩阵函数: \[ f(A)=\sum_{k=0}^\infty a_kA^k \] 若矩阵函数 \(f(A)\) 的自变量由矩阵 \(A\)换成 \(A t\), 其中 \(t\) 为标量参数, 则有矩阵函数表达式为
\[ f(A t)=\sum_{m=0}^{\infty} c_m(A t)^m=\sum_{m=0}^{\infty} c_m t^m A^m,|t| \rho(A)<r \]
称之为含参矩阵函数。
尽管矩阵函数看起来好像是无穷级数,但是因为矩阵有个最小多项式,所以它总是可以表示成有限个矩阵次幂的线性组合。即:
设矩阵 \(A \in \mathbb{C}^{n \times n}\) 的最小多项式次数为 \(l\), 幂级数 \(f(z)=\sum_{m=0}^{\infty} c_m z^m\) 的收敛半径为 \(r\). 若 \(\rho(A)<r\),定义矩阵函数 \(f(A)\), 则必存在唯一的 \((l-1)\) 次矩阵多项式 \(p(A)=\beta_0 I+\beta_1 A+\cdots+\beta_{l-1} A^{l-1}\) 使得 \(f(A)=p(A)\).
现在,就是要求出这个有限和\(p(A)\)。
【复函数的谱上给定】如果对于复函数\(f(z)\)和矩阵\(A\),如果对于\(A\)的代数重数为\(n\)的特征值\(\lambda\),\(f(\lambda)\)和\(f(z)\)在\(\lambda\)处的\(1\sim n\)阶导数都有界,那么称复函数在矩阵的谱上给定。
【谱上一致】设复方阵 \(A\) 的最小多项式为 \(m_A(\lambda)=\left(\lambda-\lambda_1\right)^{n_1}\left(\lambda-\lambda_2\right)^{n_2} \cdots\left(\lambda-\lambda_S\right)^{n_S}\), \(\operatorname{deg}\left(m_A(\lambda)\right)=l\). 若函数 \(f(\lambda)\) 和 \(p(\lambda)\) 在谱上给定且满足
\[ \left\{\begin{array}{rl} f\left(\lambda_i\right) & =p\left(\lambda_i\right) \\ f^{\prime}\left(\lambda_i\right) & =p^{\prime}\left(\lambda_i\right) \\ & \vdots \\ f^{\left(n_i-1\right)}\left(\lambda_i\right) & =p^{\left(n_i-1\right)}\left(\lambda_i\right) \end{array}, i=1, \cdots, s\right. \]
则称函数 \(f(\lambda)\) 和 \(p(\lambda)\) 在矩阵 \(A\) 的谱上一致。
\(f(z)\)和\(p(z)\)在矩阵\(A\)的谱上一致是\(f(A)=p(A)\)的充要条件。
由此,可以利用谱上一致法计算矩阵函数,操作步骤为:
计算矩阵的最小多项式,假设最小多项式是\(m\)次
待定系数法,设 \[ f(At)=a_0(t)+a_1(t)A+\cdots+a_{m-1}A^{m-1} \]
把矩阵的各个特征值依次带入上面的方程(代入\(A\)的位置),得到方程组。如果特征值不够用,就对上面的方程两边求导,再代入,直到能求出\(a\)的唯一解。
【例】计算\(e^{At}\),其中: \[ A=\left(\begin{array}{ccc} -2 & 1 & 3 \\ 0 & -3 & 0 \\ 0 & 2 & -2 \end{array}\right) \] 【解】首先计算\(A\)的特征多项式: \[ (\lambda+2)^3(\lambda+3) \] 验证: \[ (A+2I)(A+3I)\neq O \]
\[ (A+2I)^2(A+3I)=O \]
故最小多项式为3次。
设: \[ e^{At}=a_0(t)+a_1(t)A+a_2(t)A^2 \] 把特征值代入\(A\)的位置,有: \[ \begin{cases} e^{-2t}=a_0-2a_1+4a_2\\ e^{-3t}=a_0-3a_1+9a_2 \end{cases} \] 发现方程不够,对原方程求导: \[ te^{\lambda t}=a_1+2a_2\lambda \] 代入,得到最终方程组: \[ \left\{\begin{array}{l} e^{-2 t}=a_0-2 a_1+4 a_2 \\ e^{-3 t}=a_0-3 a_1+9 a_2 \\ t e^{-2 t}=a_1-4 a_2 \end{array}\right. \] 解得: \[ \begin{cases} & a_0=(6 t-3) e^{-2 t}+4 e^{-3 t} \\ & a_1=(5 t-4) e^{-2 t}+4 e^{-3 t} \\ & a_2=(t-1) e^{-2 t}+e^{-3 t} \end{cases} \] 后略。
MOOC第四章答案
1 |
|
本站的运行成本约为每个月5元人民币,如果您觉得本站有用,欢迎打赏: