正方行列 $A$ と、$1\leq p\leq \infty$ に対して、行列のノルム $\|A\|_p$ を以下のように定めます:
$\|A\|_p=\displaystyle\max_{x\neq 0}\dfrac{\|Ax\|_p}{\|x\|_p}$
行列のノルムと、特に $p=1,2,\infty$ の場合の性質について解説します。
行列のpノルムの意味
$\|A\|_p=\displaystyle\max_{x\neq 0}\dfrac{\|Ax\|_p}{\|x\|_p}$
です。
$A$ は $n\times n$ 正方行列とします。$x$ は $n$ 次元ベクトル全体(からゼロベクトルを除いたもの)を動きます。
$\|x\|_p$ と $\|Ax\|_p$ は、ベクトルの $p$ ノルムを表します:
$\|x\|_p=\sqrt[p]{|x_1|^p+ \cdots +|x_n|^p}$
行列の $p$ ノルムは「変換前のベクトル $x$ の長さ」と「変換後のベクトル $Ax$ の長さ」の比の最大値を表します。つまり、拡大率の最大値とみなすことができます。
このノルムのことを「行列の作用素ノルム」「ベクトルの $p$ ノルムから誘導されたノルム」などと言うこともあります。
ノルムであること
$\|A\|_p$ がノルムであることは簡単に確認できます。例えば、$\|A+B\|_p\leq \|A\|_p+\|B\|_p$ という三角不等式を満たすことは、ベクトルの $p$ ノルムの三角不等式から簡単に導出できます。
他の表現
行列の $p$ ノルムは
$\|A\|_p=\displaystyle\max_{\|x\|_p=1}\|Ax\|_p$
と定義されることもあります。冒頭の定義と同値です。
($x$ を定数倍しても「拡大率」は変わらないので、そもそも長さが1のベクトルだけで最大値を考えても同じになります)
また、$\max$ ではなく $\sup$ を使って
$\|A\|_p=\displaystyle\sup_{x\neq 0}\dfrac{\|Ax\|_p}{\|x\|_p}$
と定義されることもあります。$A$ が無限次元の場合はこちらの定義を使う必要がありますが、有限次元の場合は $\max$ でも $\sup$ でも同じ値になるので、このページでは $\max$ を使っています。
行列の2ノルムの性質
$p=2$ の場合の行列ノルム $\|A\|_2$ のことを、行列のスペクトルノルムと言うことがあります。
$A$ の特異値分解を $A=UDV$ とします。$U,V$ が直交行列であることを使うと、
$\|A\|_2=\displaystyle\max_{\|x\|_2=1}\|UDVx\|_2\\
=\displaystyle\max_{\|y\|_2=1}\|Dy\|_2$
となります。これは、$y$ が「最大特異値に対応する成分」が $1$ でそれ以外が $0$ であるときに最大となり、最大値は最大特異値と一致します。
この結果を使うと「低ランク近似には特異値分解が良い」という定理(行列のフロベニウスノルムに関する Eckart–Young–Mirsky theorem)を証明することができます:
Low-rank approximation
行列の1ノルムの性質
(各列について絶対値の和を計算した際の最大値)
これを証明してみましょう。$A$ の列ベクトルを $v_1,\dots,v_n$ とします。すると、
$\|A\|_1=\displaystyle\max_{\|x\|_1=1}\|Ax\|_1\\
=\displaystyle\max_{\|x\|_1=1}\|x_1v_1+\dots +x_nv_n\|_1\\
\leq\displaystyle\max_{\|x\|_1=1}(|x_1|\|v_1\|_1+\dots +|x_n|\|v_n\|_1)$
となります。これは、$x$ が「$\|v_i\|_1$ が最大になるような $i$ 成分」が $1$ で、それ以外が $0$ のときに最大になります。最大値は「$A$ の各列について絶対値の和を計算した際の最大値」になります。
行列の∞ノルムの性質
(各行について絶対値の和を計算した際の最大値)
$1$ ノルムの場合と似ていますが、行と列の役割が入れ替わっています。
証明は、例えば Matrix Norms を参照してください。
次回は 行列のクロネッカー積の定義といろいろな性質の証明 を解説します。