矩阵理论笔记

[toc]


线性空间引论

这一部分其实基本就高代的内容,复习一下。

非齐次线性方程组的解法

这个必须得会吧。为了防止遗忘,还是写一下。

对于非齐次线性方程组 \[ Ax=b \] 其解是由一个特解和齐次线性方程组\(Ax=0\)的通解组成的。接下来通过一个例子展示方程组的解法。

【例】 求

\[ \left\{\begin{array}{l}x_1-x_2+2 x_3-2 x_4=0 \\ 2 x_1-x_2-x_3+x_4=1 \\ 3 x_1-2 x_2+x_3-x_4=1\end{array}\right. \]

的通解。 【解】首先写出增广矩阵,也就是系数矩阵右边加上\(b\)这一列。 \[ \bar{A}=\left(\begin{array}{ccccc}1 & -1 & 2 & -2 & 0 \\ 2 & -1 & -1 & 1 & 1 \\ 3 & -2 & 1 & -1 & 1\end{array}\right) \rightarrow\left(\begin{array}{ccccc}1 & 0 & -3 & 3 & 1 \\ 0 & 1 & -5 & 5 & 1 \\ 0 & 0 & 0 & 0 & 0\end{array}\right) \] 因此 \[ r(\bar{A})=r(A)=2<4 \] 移项,得方程组的一般解为 \[ \left\{\begin{array}{l} x_1=1+3 x_3-3 x_4 \\ x_2=1+5 x_3-5 x_4 \\ x_3=x_3 \\ x_4=x_4\quad \end{array}\right. \]

即: \[ \left(\begin{array}{l} x_1 \\ x_2 \\ x_3 \\ x_4 \end{array}\right)=\left(\begin{array}{l} 1 \\ 1 \\ 0 \\ 0 \end{array}\right)+x_3\left(\begin{array}{l} 3 \\ 5 \\ 1 \\ 0 \end{array}\right)+x_4\left(\begin{array}{c} -3 \\ -5 \\ 0 \\ 1 \end{array}\right) \]

则取 \(\eta_0=(1,1,0,0)^T\) 为一个特解。

\(\xi_1=(3,5,1,0)^T, \xi_2=(-3,-5,0,1)^T\) 为导出组的一个基础解系, 从而方程组的通解为

\[ \eta=\eta_0+k_1 \xi_1+k_2 \xi_2 \]

线性空间和线性子空间

一般学习线性代数只会学习到向量空间,而不会学习线性空间,所以笔记从线性空间开始写。线性空间是向量空间的推广,为此需要首先定义两个概念:

【数域】数集\(F\)中任意两个元素经过四则运算后的结果仍然在\(F\)中,称\(F\)为一个数域。

常见的数域有:

  • 有理数 \(\mathbb Q\)
  • 实数\(\mathbb R\)
  • 复数\(\mathbb C\)
  • 扩域,例如\(\mathbb Q(\sqrt 3)=\{a+b\sqrt 3,ab\in \mathbb Q\}\)

【加群】在非空集合\(V\)上定义一种代数运算,称之为加法(记为“\(+\)” ),使得\(\forall ab\in V\)都有中唯一元素\(a+b\)与之对应,该元素称为\(a\)\(b\)的和,且满足如下性质

  • 交换律:\(a+b=b+a\)
  • 结合律:\((a+b)+c=a+(b+c)\)
  • 存在零:\(\exists \theta\in V,s.t.\forall a\in V,a+\theta=a\)
  • 存在负元:\(\forall a\in V,\exists -a\in V,s.t.a+(-a)=\theta\)

\((V,+)\)构成一个加群。

于是,可以将向量空间推广为线性空间:

【线性空间】 设 \((V,+)\) 是一个加群, \(F\) 是一个数域. 定义了 \(F\) 中的数与 \(V\) 中元素的一种代数运算, 称为数乘, 使得 \(\forall \lambda \in F, \boldsymbol{\alpha} \in V\), 有 \(V\) 中唯一元素 \(\lambda \alpha\) 与之对应, \(\lambda \alpha\) 称为 \(\lambda\)\(\alpha\) 的积, 且满足以下性质:

  • \(\lambda(\alpha+\beta)=\lambda\alpha+\lambda\beta\)

  • \((\lambda+\mu) \alpha=\lambda \alpha+\mu \alpha\)

  • \(\lambda(\mu \alpha)=(\lambda \mu) \alpha\)

  • \(1 \alpha=\alpha\)

此时,称\(V\)为数域\(F\)上的线性空间。此时,\(V\)中的元素称为「向量」,\(F\)中的元素称为「标量」。特别的,如果\(F\)是实数域或者复数域,称\(V\)为实线性空间或者复线性空间。

可能向量空间给人一种既定观念,就是向量一定是由标量组合而成的,但是其实并不是这样。考虑正弦函数集合: \[ S=\{a\sin(x+b),a,b\in \mathbb R\} \] 和数域\(\mathbb R\),很显然\(S\)\(\mathbb R\)上构成一个线性空间。此时这些正弦函数就是向量,标量仍然是普通的实数。可能很难说「正弦函数」这个东西是由实数组合而成的吧。

常见的线性空间有:

  • 向量空间
  • 矩阵空间,\(V\) 是复数域上所有\(m\times n\)矩阵构成的集合。
  • 一元多项式,\(V=P_n(x)=\{\sum_{i=0}^n a_ix^i\mid a_i\in \mathbb C\}\)
  • \(A\in \mathbb C^{m\times n},x\in \mathbb C^n\),则\(Ax=0\)的解集构成线性空间。
  • 定义在\([a,b]\)上的全体多项式、全体可微函数、全体连续函数、全体可积函数、全体实函数,都是\(\mathbb R\)上的线性空间。

在线性空间上有:

  • 零向量唯一

  • 任意向量的负向量存在且唯一

  • \(\forall k\in F,\alpha\in V\) \[ 0\alpha=\theta,(-1)\alpha=-\alpha,k\theta=\theta \]

  • \(k\alpha=\theta\to k=0 \or a=\theta\)

【线性子空间】设\(V\)\(F\)上的线性空间,\(V\)\(W\)的非空子集.若\(W\)的向量关于\(V\)的加法和数乘运算也构成\(F\)上的线性空间,则称\(W\)\(V\)的子空间。

例如,平面\(xOy\)是三维空间\(\mathbb R^3\)的一个线性子空间。但是不能说,\(\mathbb R^2\)\(\mathbb R^3\)的线性子空间,因为前者的元素是二维向量,后者的元素是三维向量,二维向量并不是三维向量的子集。可以说,\(W=\{(a_1,a_2,0)^T,a_1,a_2\in \mathbb R\}\)\(\mathbb R^3\)的子空间。

对于子空间的判别,以下三个命题等价:

  • \(W\)\(V\)的子空间
  • \(\forall k\in F,a\in W,ka\in W\)\(\forall a,b\in W,a+b\in W\)
  • \(\forall k,l\in F,a,b\in W,ka+lb\in W\)

其实,在实操中,判定子空间,一般首先看\(W\)中是否含有零元素。如果不含,那么一定不是子空间。如果包含,再验证第三个命题。

如果\(W_1,W_2\)都是数域\(F\)\(V\)的子空间,那么它们的交与和也是\(V\)的子空间。其中集合交的定义是显然的,集合的和指的是: \[ W_1+W_2=\{\alpha_1+\alpha_2\mid \alpha_1\in W_1,\alpha_2\in W_2\} \] 而且,交空间是包含于\(W_1,W_2\)的最大子空间,和空间是包含了\(W_1,W_2\)的最小子空间。两个子空间的并,不一定是子空间。

对于矩阵\(A\in C^{m\times n}\)来说,有两个相当重要的子空间:

【矩阵零空间】齐次线性方程组\(Ax=0\)的解集,记作\(N(A)\)

【矩阵列空间】\(A\)的列的所有线性组合构成的集合,记作\(R(A)\)。列空间也叫做值空间,是因为当且仅当\(b\in R(A)\)时,方程\(Ax=b\)才是有解的。

基和坐标

首先回顾一下线性相关和线性无关的概念,因为和线代里面的没啥区别,所以不重复写了。

【极大线性无关组与秩】设 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 是线性空间 \(V\) 的一组向量. 若 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 中存在 \(r\) 个线性无关的向量 \(\boldsymbol{\alpha}_{i_1}, \cdots, \boldsymbol{\alpha}_{i_r}\), 并且 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 中任一向量均可由向量组 \(\boldsymbol{\alpha}_{i_1}, \cdots, \boldsymbol{\alpha}_{i_r}\) 线性表示, 则称向量组 \(\boldsymbol{\alpha}_{i_1}, \cdots, \boldsymbol{\alpha}_{i_r}\) 为向量组 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 的极大线性无关组,数 \(r\) 称为向量组 \(\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\) 的秩, 记为

\[ \operatorname{rank}\left[\boldsymbol{\alpha}_1, \cdots, \boldsymbol{\alpha}_n\right]=r \] 向量组中的任一向量都可由极大线性无关组唯一表示。

由极大线性无关组,可以定义线性空间的基:

【基】设\(V\)是数域\(F\)上的线性空间,\(\{\alpha_1\cdots\alpha_n\}\)\(V\)里的一组向量,而且

  1. \(\{\alpha_1\cdots\alpha_n\}\)线性无关
  2. \(V\)中所有向量都可以由\(\{\alpha_1\cdots\alpha_n\}\)线性表示

那么说\(\{\alpha_1\cdots\alpha_n\}\)\(V\)的一组基。事实上,\(V\)中所有向量可以由基唯一表示,这叫唯一表示定理。

定义了基,其目的就是唯一表示其它的向量。这种表示的方法叫做坐标:

【坐标】 设 \(x_1, \cdots, x_n\) 是数域 \(F\) 上线性空间 \(V\) 的一组基, 对任意向量 \(x \in V\), 令

\[ \boldsymbol{x}=\sum_{i=1}^n \alpha_i \boldsymbol{x}_i=\left[\boldsymbol{x}_1, \cdots, \boldsymbol{x}_n\right]\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \]

称有序数组 \(\left[\alpha_1, \cdots, \alpha_n\right]^T \in F^n\)\(x\) 在基 \(x_1, \cdots, x_n\) 下的坐标,它由 \(x\) 与基 \(x_1, \cdots, x_n\) 唯一确定.

对于两个不同的基,存在过渡矩阵:

【过渡矩阵】 设 \(x_1, \cdots, x_n\)\(y_1, \cdots, y_n\) 是数域 \(F\) 上线性空间 \(V\) 的两组基, 令

\[ \boldsymbol{y}_i=a_{1 i} \boldsymbol{x}_1+\cdots+a_{n i} \boldsymbol{x}_n=\left[\boldsymbol{x}_1, \cdots, \boldsymbol{x}_n\right]\left[\begin{array}{c} a_{1 i} \\ \vdots \\ a_{n i} \end{array}\right] \]

引入矩阵表示:

\[ \left[y_1, \cdots, y_n\right]=\left[x_1, \cdots, x_n\right] A \]

其中 \(A=\left(a_{i j}\right) \in F^{n \times n}\), 称 \(A\) 是由基 \(\boldsymbol {x_1, \cdots, x_n}\) 到基 \(\boldsymbol{y}_1, \cdots, \boldsymbol{y}_n\) 的过渡矩阵(或变换矩阵).

对于\(V\)中的任意向量\(x\),设其在基\(\{x_1\cdots x_n\}\)中的坐标为\(\{\alpha_1\cdots \alpha_n\}\),在基\(\{y_1\cdots y_n\}\)中的坐标为\(\{\beta_1\cdots \beta_n\}\),则有: \[ \left[\begin{array}{c} \beta_1 \\ \vdots \\ \beta_n \end{array}\right]=A^{-1}\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \text { 或 }\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right]=A\left[\begin{array}{c} \beta_1 \\ \vdots \\ \beta_n \end{array}\right] \] 【维数】 在线性空间 \(V\) 中, 不同线性无关组中向量个数最大者叫作 \(V\) 的维数, 记为 \(\operatorname{dim} V\). 当 \(\operatorname{dim} V<\infty\), 称 \(V\) 为有限维空间, 否则称为无限维空间, 记 \(\operatorname{dim} V=\infty\)。其实,\(\dim V=n\)等价于\(V\)的任意一个基的向量个数为\(n\)

例:空间\(\mathbb C\)在数域\(\mathbb C\)\(\mathbb R\)上的维数分别是多少?

解:在\(\mathbb R\)上,向量组\(\{1,i\}\)\(\mathbb C\)的一组基,所以维数是2。在\(\mathbb C\)上,向量\(1\)\(i\)线性相关,且任一复数均可由\(1\)\(i\)线性表示.故向量组\(1\)\(i\)分别构成\(\mathbb C\)的一组基,即定义在\(\mathbb C\)上的线性空间\(\mathbb C\)的维数为\(1\) .

有维数定理:设\(W_1,W_2\)\(V\)的两个子空间,则: \[ \dim (W_1+W_2)=\dim W_1+\dim W_2-\dim(W_1\cap W_2) \]

内积空间

在线性空间上,额外定义对于两个向量\(\alpha,\beta\)的内积运算,内积运算的结果是数域\(F\)中的一个数,且满足:

  1. 共轭对称性: \((x, y)=\overline{(y, x)}\);
  2. 可加性: \((x+y, z)=(x, z)+(y, z)\);
  3. 齐次性: \((k \boldsymbol{x}, \boldsymbol{y})=k(\boldsymbol{x}, \boldsymbol{y})\);
  4. 正定性: \((x, x) \geq 0\), 当且仅当 \(x=\theta\) 时等号成立.

此时可以称\(V\)是一个内积空间。有限维的实内积空间叫欧几里得空间,有限维的复内积空间叫酉空间。

注意,齐次性只对第一个向量成立。对于第二个向量,有共轭齐次性: \[ (x,ky)=\bar k (x,y) \] 考虑\(\mathbb C^n\)中的向量\(x,y\),定义运算[1]\[ (x,y)=y^HAx \] 那么,\(A\)需要满足什么条件,才能使得这个运算成为内积呢?

由内积定义中的共轭对称性,有: \[ \begin{align} y^HAx&=\overline{x^HAy}\\ &=(x^HAy)^H\\ &=y^H(x^HA)^H\\ &=y^HA^Hx \end{align} \] > 这个推导有两点可能需要解释。第一,因为它的结果是个1*1的矩阵,所以共轭可以写作共轭转置。第二,\((AB)^H=B^HA^H\)

所以有: \[ A=A^H \] 我们将满足\(A=A^H\)的矩阵称为Hermite矩阵。此外,还需补充正定性: \[ x^HAx\geq 0 \]

\(f(x)=x^HAx\)称为二次型,\(A\)\(f(x)\)的矩阵,如果\(f(x)\geq0\)且等号仅在\(x=\theta\)取得,称\(A\)正定矩阵\(f(x)\)为正定二次型。

【度量矩阵】 设 \(\epsilon_1, \cdots, \epsilon_n\) 是内积空间 \(V\) 中的一组基, 称 \(n\) 阶矩阵

\[ A=\left(\left(\epsilon_i, \epsilon_j\right)\right)_{n \times n}=\left[\begin{array}{cccc} \left(\epsilon_1, \epsilon_1\right) & \left(\epsilon_1, \epsilon_2\right) & \ldots & \left(\epsilon_1, \epsilon_n\right) \\ \left(\epsilon_2, \epsilon_1\right) & \left(\epsilon_2, \epsilon_2\right) & \ldots & \left(\epsilon_2, \epsilon_n\right) \\ \vdots & \vdots & \vdots & \vdots \\ \left(\epsilon_n, \epsilon_1\right) & \left(\epsilon_n, \epsilon_2\right) & \ldots & \left(\epsilon_n, \epsilon_n\right) \end{array}\right] \]

\(V\) 关于基 \(\epsilon_1, \cdots, \epsilon_n\) 的度量矩阵 (或Gram矩阵),常记为 \(G\left(\epsilon_1, \cdots, \epsilon_n\right)\)。度量矩阵和基是一一对应的。

如果\(x,y\in V\),且其在基 \(\epsilon_1, \cdots, \epsilon_n\)下的坐标分别是\([\xi_1\cdots\xi n]^T\)\([\eta_1\cdots\eta_n]^T\),则有: \[ (x,y)=\eta^HG^H\left(\epsilon_1, \cdots, \epsilon_n\right)\xi \] 显然,度量矩阵是正定Hermite矩阵。

在内积空间中,可以定义一个向量的长度: \[ ||x||=\sqrt{(x,x)} \] 长度具有以下的性质:

  1. 齐次:\(||kx||=k||x||\)

  2. 正定:不再解释了

  3. 平行四边形法则: \[ \|x+y\|^2+\|x-y\|^2=2\left(\|x\|^2+\|y\|^2\right) \]

  4. 三角不等式(三角形两边之和大于第三边) \[ \|x+y\|\leq\|x\|+\|y\| \]

  5. Cauchy-Schwarz不等式(余弦定理) \[ \|x\|\cdot\|y\|\geq|(x,y)| \] 定义两个向量之间的夹角为: \[ \alpha=<x,y>=\arccos \frac{(x,y)}{\|x\|\|y\|}\in[0,\pi] \]

由内积和夹角,可以引出正交的概念:

【正交】对于内积空间\(V\)中的两个向量,如果有\((x,y)=0\),称这两个向量正交。一组互相垂直的向量组称为正交向量组,单位向量构成的正交向量组称为标准正交向量组。在\(n\)维内积空间中,由\(n\)​个向量组成的正交向量组称为正交基,由单位向量组成的正交基称为标准正交基。

向量正交于集合,指的是对于线性空间\(V\)中的一个向量\(x\)和子集\(W\)\(x\)正交于\(W\)中的任何一个向量,那么称\(x\)正交于集合\(W\)

集合正交于集合,指的是线性空间中的两个集合,其中任意两个向量都相互正交。

注意:集合正交于集合并不简单地等同于集合垂直于集合。考虑到3维欧氏空间中的两个相互垂直的平面,它们并不相互正交(因为两个集合的交集上任意两向量共线)。

【正交补】设\(W\)是线性空间\(V\)的子空间,那么所有和\(W\)正交的向量构成的集合称为\(W\)的正交补。正交补一定是线性子空间。 \[ W^\perp=\{x\in V\mid x\perp W\} \]

对于正交补,有: \[ W+W^\perp =V \]

直和与投影

【直和与正交直和】 设 \(W_1\)\(W_2\) 是线性空间 \(V\) 的子空间,若和空间 \(W_1+W_2\) 中任意向量均唯一地表示成 \(W_1\) 中的一个向量和 \(W_2\) 中的一个向量之和, 则称 \(W_1+W_2\)\(W_1\)\(W_2\) 的直和, 记为 \(W_1 \dot{+} W_2\)

特别的, 若 \(V=W_1 \dot{+} W_2\), 则称表达式 \(V=W_1 \dot{+} W_2\) 为直和分解.

进一步, 若 \(W_1 \perp W_2\), 则称直和 \(W_1 \dot{+} W_2\)\(W_1\)\(W_2\)的正交直和, 记为 \(W_1 \oplus W_2\)

其实,若 \(W_1 \perp W_2\),则\(W_1+W_2=W_1 \oplus W_2\).

【例】在立体直角坐标系中,\(W_1=xOy,W_2=yOz\),那么\(W_1+W_2\)是直和吗?

image-20241006105251194

【解】不是,因为 \[ \left[\begin{array}{l} 0 \\ 1 \\ 0 \end{array}\right]=\left[\begin{array}{c} 0 \\ \mu+1 \\ 0 \end{array}\right]+\left[\begin{array}{c} 0 \\ -\mu \\ 0 \end{array}\right] \] 所以分解不唯一。

为了判断一个和是不是直和,有以下四个等价命题:

  1. \(W_1\)+\(W_2\)是直和
  2. \(W_1+W_2\)中零元素表示方法唯一
  3. \(W_1\cap W_2=\theta\)
  4. \(\dim (W_1+W_2)=\dim W_1+\dim W_2\)

MOOC第一章答案

1
2
3
4
5
6
7
8
9
10
11
12
A A C D B
B B B C B
B BCD CD ABC ABC
ABD AD AC BCD C
BC ABCD 110
11111
11101
11100
01000
11001
10111
1011

矩阵和线性映射

映射和线性映射

【单射和满射】对于映射\(f:V\to W\),如果有\(\forall x_1,x_2\in V,x_1\neq x_2\to f(x_1)\neq f(x_2)\),那么\(f\)是一个单射也就是说,不同的元素一定被映射为不同的像。如果有\(\forall y\in W,\exists x\in V,f(x)=y\),那么\(f\)是一个满射。也就是说,像集里的每个元素都能被取到。如果既是单射又是满射,那么\(f\)是双射。也就是说,每个\(x\in V\)都有且仅有一个\(f(x)\in W\)与其对应。

考察实数域\(R\to R\)上的函数\(f(x)=2x\)\(g(x)=x^2\)。因为\(g(1)=g(-2)\),所以\(g\)不是单射;因为\(g(x)=-1\)无解,所以\(g(x)\)不是满射。\(f(x)\)既是单射又是满射,所以\(f(x)\)是双射。

【线性映射】如果对于映射\(T:V\to W\)和数域\(F\)(其中\(V,W\)\(F\)上线性空间)满足两条线性性质,称\(T\)\(F\)上的线性映射。如果\(W=V\),称为线性变换。

  1. 可加性:\(T(x+y)=T(x)+T(y)\)
  2. 齐次性:\(\forall \lambda\in F,T(\lambda x)=\lambda T(x)\)

【例】对于在其自身上[2]的线性空间\(Q(\sqrt 3)\)上的映射: \[ T(x+y\sqrt 3)=x \] 不是线性映射。因为\(T(\sqrt 3\times \sqrt 3)=3\neq \sqrt 3T(\sqrt 3)\)

关于线性映射,有以下推论:

  1. 保持原点不动:\(T(\theta)=\theta'\)

  2. 如果\(\{\alpha \}\)\(V\)中一组线性相关向量,那么\(\{T(\alpha)\}\)也是\(W\)中一组线性相关向量

  3. 如果\(\{T(\alpha) \}\)\(W\)中一组线性无关向量,那么\(\{\alpha\}\)也是\(V\)中一组线性无关向量

  4. 当且仅当\(T\)是单射,如果\(\{\alpha \}\)\(V\)中一组线性无关向量,那么\(\{T(\alpha)\}\)也是\(W\)中一组线性无关向量

    如果\(W,V\)维数相同,那么此时\(V\)中一组基的像是\(W\)中的一组基,\(T\)是双射

与矩阵相似地,定义线性映射\(T:V\to W\)的零空间和值空间:

  1. 零空间:\(N(T)=\{x\in V\mid T(x)=\theta\}\),即使得像为原点的\(x\)的值的集合。它的维数叫做\(T\)的「亏」。
  2. 值空间:\(R(T)=\{y\in W\mid y=T(x),x\in V\}\),即\(T\)的实际取值范围。它的维数叫做\(T\)的「秩」。

【亏加秩定理】线性映射的亏和秩之和等于其定义域空间的维数。 \[ \dim N(T)+\dim R(T)=\dim V \]

矩阵与同构

【线性映射的矩阵】设 \(V\)\(W\) 是数域 \(F\) 上的线性空间, \(\varepsilon_1, \cdots, \varepsilon_n\)\(\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 分别是 \(V\)\(W\) 的基,且 \(T \in\) \(\mathcal{L}(V, W)\). 因此 \(T\left(\boldsymbol{\varepsilon}_i\right)\) 可由基 \(\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 线性表示,即 \[ \begin{gathered} \left\{\begin{array}{c} T\left(\boldsymbol{\varepsilon}_1\right)=a_{11} \boldsymbol{\eta}_1+a_{21} \boldsymbol{\eta}_2+\cdots+a_{m 1} \boldsymbol{\eta}_m \\ T\left(\boldsymbol{\varepsilon}_2\right)=a_{12} \boldsymbol{\eta}_1+a_{22} \boldsymbol{\eta}_2+\cdots+a_{m 2} \boldsymbol{\eta}_m \\ T\left(\boldsymbol{\varepsilon}_n\right)=a_{1 n} \boldsymbol{\eta}_1+a_{2 n} \boldsymbol{\eta}_2+\cdots+a_{m n} \boldsymbol{\eta}_m \end{array}\right. \\ T\left(\boldsymbol{\varepsilon}_1, \cdots, \boldsymbol{\varepsilon}_n\right) \text{tr}iangleq\left[T\left(\boldsymbol{\varepsilon}_1\right), \cdots, T\left(\boldsymbol{\varepsilon}_n\right)\right]=\left[\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\right] A \end{gathered} \] 其中 \[ A=\left[\begin{array}{cccc}a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \vdots & \vdots \\ a_{m 1} & a_{m 2} & \cdots & a_{m n}\end{array}\right] \in F^{m \times n} \] 称为 \(T\)\(V\) 的基 \(\varepsilon_1, \cdots, \varepsilon_n\)\(W\) 的基 \(\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\) 下的矩阵.

简单理解:线性映射的矩阵,就是\(V\)中的基的像在\(W\)的基下的坐标,依次写成纵列,然后拼接起来。

当线性空间\(V\)\(W\)的基确定后,矩阵\(A\)和线性映射\(T\)唯一确定。即:有且仅有一个矩阵使得线性映射是\(T\),也有且仅有一个线性映射使得矩阵是\(A\)

【同构】设\(V,W\)\(F\)上的线性空间,如果有一个既是双射又是线性映射的映射\(f:V\to W\),那么称\(V\)\(W\)同构,\(f\)是同构映射。同构映射一定可逆,而且其逆映射也是同构映射。

所谓的「同构」,其实就是「一样」,「一回事」的意思。

两个线性空间同构,当且仅当其维数相等。

【同一个线性映射在不同基下的矩阵的关系】\(\operatorname{dim} V=n, \varepsilon_1, \cdots, \boldsymbol{\varepsilon}_n\)\(\varepsilon_1^{\prime}, \cdots, \boldsymbol{\varepsilon}_n^{\prime}\)\(V\) 的两组基,

\[ \left[\varepsilon_1^{\prime}, \cdots, \boldsymbol{\varepsilon}_n^{\prime}\right]=\left[\varepsilon_1, \cdots, \varepsilon_n\right] Q \]

\(\operatorname{dim} W=m, \boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\)\(\boldsymbol{\eta}_1^{\prime}, \cdots, \boldsymbol{\eta}_m^{\prime}\)\(W\) 的两组基,

\[ \left[\boldsymbol{\eta}_1^{\prime}, \cdots, \boldsymbol{\eta}_m^{\prime}\right]=\left[\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\right] P \]

\(T \in \mathcal{L}(V, W)\)\[ \boldsymbol{T}\left(\boldsymbol{\varepsilon}_1, \cdots, \boldsymbol{\varepsilon}_n\right)=\left[\boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_m\right] A \]

\[ \boldsymbol{T}\left(\boldsymbol{\varepsilon}_1^{\prime}, \cdots, \boldsymbol{\varepsilon}_n^{\prime}\right)=\left[\boldsymbol{\eta}_1^{\prime}, \cdots, \boldsymbol{\eta}_m^{\prime}\right] B \]

\(B=P^{-1} A Q\)。即:矩阵\(A\)可以通过有限次初等变换变成矩阵\(B\),两矩阵相抵(等价)。

特别的,如果线性映射是变换,即\(V=W\),那么有: \[ B=P^{-1}AP \] 也就是\(A\)\(B\)相似。可以看出,矩阵相似其实就是矩阵等价的特殊情况。

特征值和特征向量

【线性变换的特征值和特征向量】设线性变换 \(T \in L(V)\) ,若存在 \(\lambda_0 \in F\)\(V\)非零向量 \(\xi\) 使得

\[ T \xi=\lambda_0 \xi, \]

则称 \(\lambda_0\)\(T\) 的一个特征值, 称 \(\xi\)\(T\) 的属于特征值 \(\lambda_0\) 的一个特征向量。

需要注意:

  1. 从几何上来看,就是线性变换作用于特征向量后,仍然保持共线

  2. 属于同一个特征值的特征向量的线性组合也是属于这个特征值的特征向量

  3. 如果特征向量是线性变换零空间里的非零向量,那么其特征值是0

  4. \(T\)是线性变换,\(\xi_1, \cdots, \xi_n\)\(V\) 的一组基, 且\(T \xi_i=\lambda_i \xi_i(i=1, \cdots, n)\), 则 \(T\) 在基 \(\xi_1, \cdots, \xi_n\) 下的矩阵为对角阵

【矩阵的特征值和特征向量】设 \(A \in F^{n \times n}, \lambda\) 为一文字, 矩阵 \(\lambda I-A\) 称为 \(A\) 的特征矩阵, 其行列式 \(|\lambda I-A|\) 称为 \(A\) 的特征多项式, 方程 \(|\lambda I-A|=0\) 的根称为 \(A\) 的特征值(或特征根). 方程 \((\lambda I-A) \boldsymbol{\alpha}=0\) 的非零解向量 \(\boldsymbol{\alpha}\) 称为属于特征值 \(\lambda\)的特征向量。

\(\lambda\) 是线性变换\(T\)的特征值,当且仅当它是\(T\)的任意一个矩阵的特征值,属于同一线性变换的各个矩阵的特征值完全相同。

由定义可以知道,矩阵的特征值是一个一元\(n\)次方程式的根。这个根的重数是特征值的代数重数

一个矩阵的特征值之和等于其对角线上元素之和,这个和也叫做矩阵的「迹」,记作\(tr(A)\)

【特征子空间】矩阵的属于某个特征值\(\lambda\)的全体特征值再加上零向量,构成一个线性空间,叫做属于特征值\(\lambda\)的特征子空间,记作 \[ E(\lambda)=\{x\in C^n\mid Ax=\lambda x\} \] 特征子空间的维数是特征值的几何重数。几何重数不会超过代数重数。

如果所有特征值的几何重数等于代数重数,则矩阵可以相似对角化,即:\(B=P^{-1}AP\),其中\(B\)是对角矩阵。

酉变换和酉矩阵

酉变换是实数域中的正交变换推广到复数域中的结果。

【正交变换和酉变换】若欧氏(酉)空间中的线性变换 \(T\) 保持向量的内积不变,即

\[ (T(x), T(y))=(x, y), \forall x, y \in V \]

\(T\) 为正交(酉)变换。

【正交矩阵和酉矩阵】如果\(n\)阶实方阵满足\(AA^T=A^TA\),称为正交矩阵;如果\(n\)阶复方阵满足\(AA^H=A^HA\),称为酉矩阵。

标准正交基经过酉变换以后仍然是标准正交基,而且酉变换在标准正交基下的矩阵是酉矩阵。

酉矩阵的行列式的模是\(1\),所有特征值的模也是\(1\)

矩阵是酉矩阵的充要条件是它的\(n\)个列向量构成标准正交基。

幂等矩阵

这个书里面并没有,但是慕课作业里面有很多相关的内容,所以整理一下。

幂等矩阵指的是满足\(A=A^2\)的矩阵。从几何上看,幂等矩阵代表了一种投影变换,因为投影一次(\(Ax\))和投影两次(\(A^2x\))的结果一样。一个典型的幂等矩阵是: \[ A=\begin{pmatrix} 1 &0 &0\\ 0 &1 &0\\ 0 &0 &0 \end{pmatrix} \] 它就是把三维坐标投影到前两个维度构成的平面上的投影变换。

关于幂等矩阵\(P\)的性质,有:

  1. \(N(P)=R(I-P),R(P)=N(I-P)\)

    证明:注意到幂等矩阵的定义等价为\(P(I-P)=0\)。设\(x\in N(P)\),即\(Px=0\),则\(x=x-Px=(I-P)x\),则\(x\in R(I-P)\)

    \(x\in R(I-P)\),即\((I-P)y=x\),故\(Px=P(I-P)y=0\)

    因为\((I-P)(I-P)=I^2-2P+P^2=I-P\),所以\(I-P\)也是幂等矩阵,故第二部分证毕。

    \(P-I\)不是幂等矩阵,因为\((P-I)^2=P^2-2P+I^2=I-P\)

  2. \(R(P)\cap N(P)=\theta\)

    证明:设\(x\in R(P)\cap N(P)\),则有\(x=Py,x=(I-P)z\),有\(z=Py+Pz\),两边同时乘以\(P\)\(Pz=Py+Pz\),则\(x=Py=0\)

  3. \(\text{rank} P=\dim N(I-P)\)

    由第一条性质易得

  4. \(\text{rank} P+\text{rank} (I-P)=n\)

    亏加秩定理:\(\dim R(P)+\dim C(P)=\dim R(P)+\dim R(I-P)=n\)

  5. 可对角化为\(\text{diag}\{1,1\cdots 1,0,0,\cdots,0\}\)

    考虑任意一个特征值,有\(Px=\lambda x\),则\(P^2x=\lambda^2x\),但是\(P^2=P\),故\(\lambda^2=\lambda\)\(\lambda=0 \text{or}1\)

    其中,如果特征值为\(1\),其特征子空间是\(N(P-I)\),如果特征值为\(0\),其特征子空间是\(N(P)\).

    这两个特征子空间的基底合并以后可以生成\(R^n\)

  6. \(\text{rank} P=\text{tr} P\)

    特征值\(1\)的代数重数。

MOOC第二章答案

1
2
3
4
5
6
7
8
D C ACD BC BD
AB 1 1 1 1
1 BD 1 1 1
1 0 1 1 0
1 1 1 1 1
1 1 1 1 1
0 1 1 0 1
0 1 B A A B

矩阵分解

满秩分解

【满秩分解】设\(A\)\(m\times n\)的秩为\(r\)的矩阵,记作\(A\in \mathbb C^{m\times n}_r\),则存在\(B\in \mathbb C^{m\times r}_r\)\(C\in \mathbb C^{r\times n}_r\),使得 \[ A=BC \]

证明:假设\(A=[\boldsymbol{a_1,a_2,\cdots,a_n}]\),取\(R(A)\)的一组基\([\boldsymbol{b_1,b_2,\cdots,b_r}]\),则有: \[ \boldsymbol{a_i=[b_1\cdots b_r]}a_i \] 定义\(B=\boldsymbol{[b_1\cdots b_r]},C=\boldsymbol{[c_1\cdots c_n]}\),则有: \[ A=BC \] 其中,\(rank(B)=r\) 又因为\(rank(c)\geq rank(A)=r,rank(C)\leq r\)

所以\(rank(C)=r\).

可以看到,满秩分解取决于\(R(A)\)上基的选取,所以满秩分解并不唯一。

【例】求 \[ \begin{pmatrix} i & 1 & 1\\ 1 & -i & 1 \end{pmatrix} \] 的满秩分解。

【解】观察得,\([\boldsymbol{a_1,a_3}]\)构成\(R(A)\)的一组基。 则向量\(\boldsymbol{a_1,a_2,a_3}\)在这组基下的坐标分别是: \[ c_1=[1,0]^T,c_2=[-i,0]^T,c_3=[0,1]^T \]

故满秩分解为: \[ A=BC=\begin{pmatrix} i &1\\ 1 &1\\ \end{pmatrix} \times \begin{pmatrix} 1 &-i &0\\ 0 &0 &1\\ \end{pmatrix} \]

【矩阵的左右逆】设矩阵\(A\in \mathbb C^{m\times n}_r\),如果存在\(B\)使得\(AB=I\),称\(B\)\(A\)的右逆;如果存在矩阵\(B\)使得\(BA=I\),称\(B\)\(A\)的左逆。矩阵存在右逆的充要条件是它是行满秩矩阵;矩阵存在左逆的充要条件是它是列满秩矩阵。

关于矩阵的秩有重要结论: \[ \rank(A)=\rank(AA^H)=\rank(A^HA)=\rank(A^H) \]

QR分解

【QR分解】如果复(实)方阵\(A\)可以分解为: \[ A=QR \] 其中\(Q\)是酉(正交)矩阵,\(R\)是上三角矩阵,则称\(A\)可以被QR分解。QR分解也叫酉三角分解(正交三角分解)。

如果实数方阵\(A\)是满秩的,那么它可以被QR分解,而且分解方法唯一。

证明:设\(A=[\boldsymbol{a_1\cdots a_n}]\),那么这个向量组是\(\mathbb R^n\)的一组基。把这组基进行施密特正交化,得到标准正交基\([\boldsymbol{z_1\cdots z_n}]\)。注意到\(\{\boldsymbol{a}\}\),\(\{\boldsymbol{z}\}\)都是空间的基,有: \[ [\boldsymbol{a_1\cdots a_n}]=[\boldsymbol{z_1\cdots z_n}]R \] 其中\(R\)是过度矩阵。

考虑施密特正交化的过程: \[ y_k=a_k-\sum_{i=1}^{k-1}(a_k,z_i)z_i\\\\ z_k=\dfrac {y_k}{\|y_k\|} \] 则有 \[ R=\left[\begin{array}{cccc} \left\|y_1\right\| & \left(a_2, z_1\right) & \cdots & \left(a_n, z_1\right) \\ & \left\|y_2\right\| & \cdots & \left(a_n, z_2\right) \\ & & \ddots & \vdots \\ & 0 & & \left\|y_n\right\| \end{array}\right] \]

接下来考察长方形矩阵的QR分解。

【列/行正交规范矩阵】设\(Q\in \mathbb C^{m\times n}\),若 \[ Q^HQ=I_n \] 则称\(Q\)是列正交规范矩阵,\(Q^H\)是行正交规范矩阵。

考虑 \[ B=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right] \] 的QR分解。按照上面的施密特正交化法,有: \[ B=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right]=\left[\begin{array}{cc} \frac{3}{5} & 0 \\ 0 & 1 \\ \frac{4}{5} & 0 \end{array}\right]\left[\begin{array}{cc} 5 & 0 \\ 0 & 1 \end{array}\right]=Q_1R_1 \] 其中\(Q_1\)是列正交规范矩阵。我们把它的列补齐成\(C^3\)的标准正交基: \[ Q_1=\left[\begin{array}{cc} \frac{3}{5} & 0 \\ 0 & 1 \\ \frac{4}{5} & 0 \end{array}\right] \rightarrow Q=\left[\begin{array}{ccc} \frac{3}{5} & 0 & -\frac{4}{5} \\ 0 & 1 & 0 \\ \frac{4}{5} & 0 & \frac{3}{5} \end{array}\right] \] 则有: \[ B=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right]=\left[\begin{array}{ccc} \frac{3}{5} & 0 & -\frac{4}{5} \\ 0 & 1 & 0 \\ \frac{4}{5} & 0 & \frac{3}{5} \end{array}\right]\left[\begin{array}{ll} 5 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right]=Q R \] 所以 \(A \in \mathbb{C}_n^{m \times n}\) 可分解为 \(A=U R\), 其中, \(U\)\(m\)阶酉矩阵, \(R=\left[\begin{array}{c}R_1 \\ 0\end{array}\right]_{m \times n}, R_1\) 为正线上三角阵, \(n \leq m\).


  1. 其中的(y^H)是共轭转置的意思,也就是说(yH=yT) ↩︎
  2. 意思就是,线性空间的「数域」也是那个集合Q(√3) ↩︎

矩阵理论笔记
https://suzumiyaakizuki.github.io/2024/10/05/矩阵理论笔记/
作者
SuzumiyaAkizuki
发布于
2024年10月5日
许可协议