応用数学レポート -

はじめに

JDLA E資格のシラバスの範囲をまとめ、ここに何回か掲載する。この記事は「応用数学」についてのもの。

背景

AIスキルを有していることの一つの証として、JDLA E資格に挑戦することにした。 JDLAのE資格を受験資格として、JDLA認定プログラムを修了することが条件となっている。その認定講座は、様々な会社が実施しているが、どれもそれなりの値段がする。まあ、会社での受験が前提となっているからだと思う。自分は個人で受験しようと考えているので、価格が重要なポイント。そこで見つけたのが、このラビッドチャレンジ。各ステージ毎のテストは修了したのだが、レポート提出が必要なことに気づかず、慌てて取り組んでいる。レポートは、Webに掲載して、そのURLを通知するシステムになっている。

上記の理由により、これから数回レポートをここに掲載する。本記事は「応用数学」の範囲をまとめたものである。

参考文献

シラバスの応用数学（線形代数、確率・統計、情報理論）に関連する参考文献として、自分が使っているものを以下に列挙する。

線形代数入門　齋藤正彦著　東京大学出版会
→ 理工系学生の教科書レベル。厳密に定義されており、初めての分野では理解が難しい（自分には）。
線形代数 −キャンパス・ゼミ−　馬場敬之著　マセマ出版社
→ 高校レベルの数学が理解できていれば、ついて行ける。アッそういう事かという部分多。
情報理論のエッセンス　平田廣則著　オーム社
→ エントロピーについて理解を深めるために参考にした。
東京大学のデータサイエンティスト育成講座　塚本邦尊・山田典一・大澤文孝著　マイナビ出版
→ Chapter 4「確率と統計の基礎」の部分を参考にした。

第1章線形代数

固有値と固有ベクトル

線形代数のパートでは、「固有値と固有ベクトル」について、新たに学び直したと感じており、以下にまとめる。

定義

ある行列$ A $に対して、$ A\boldsymbol{x}=\lambda \boldsymbol{x} $ が成り立つ時、$\lambda$を$A$の固有値（eigenvalue）といい、$\boldsymbol{x}$を固有ベクトル（eigenvector）という。固有値$ \lambda $は正・負、$ 0 $であっても良い。一方、固有ベクトル$ \boldsymbol{x} $は、$ 0 $を除くものとする。

固有値$ \lambda $と固有ベクトル$ \boldsymbol{x} $は、次の手順で求める。

固有方程式（以下に説明）から、（複数の）固有値$ \lambda_1, \lambda_2, \cdots $ を計算する。
それぞれの固有値$ \lambda_1, \lambda_2, \cdots $ に対応する固有ベクトル$ \boldsymbol{x_1}, \boldsymbol{x_2}, \cdots $ を求める。

求め方

例として、2次正方行列$ A= \left( \begin{matrix} 1 & 4\\2 & 3\\ \end{matrix} \right) $ の固有値・固有ベクトルを求める。

ステップ1

固有値の定義の式$A\boldsymbol{x}=\lambda \boldsymbol{x}$ を変形すると、$A\boldsymbol{x}-\lambda \boldsymbol{x}=0$ 、すなわち$(A-\lambda I)\boldsymbol{x} = 0$ を得る。自明な解以外の解を持つ（$\boldsymbol{x} \neq 0$）ことより、$|A - \lambda I| = 0$との固有方程式を得る。この固有方程式を展開すると、$(1-\lambda)(3-\lambda)-4\cdot 2 = 0$ が得られ、$\lambda$の2次式 $\lambda^2-4\lambda -5=0$ を得、更に$(\lambda-5)(\lambda+1)=0$となり、$\lambda = 5, -1$が得られる。

ステップ2

得られた2つの固有値を$(A-\lambda I)\boldsymbol{x} = 0$ にそれぞれ代入して、固有ベクトルを得る。

$\lambda = 5$の時、$\boldsymbol{x} = k_1\left( \begin{matrix} 1 \\ 1 \\ \end{matrix} \right)$。ここで$k_1$は任意の実数。
$\lambda = -1$の時、$\boldsymbol{x} = k_2\left( \begin{matrix} 2 \\ -1 \\ \end{matrix} \right)$。ここで$k_2$は任意の実数。

固有値・固有ベクトルを学ぶ意義

ここで学んだ固有値・固有ベクトルが、機械学習・深層学習でどのように利用されているのか考えてみた。

主成分分析（PCA）の第一主成分に射影することは、数学的には固有値問題に帰着する。
正方行列の場合、固有値による対角化することで、行列のn乗が簡単に行える。これについてはステージテストの演習でも実感した。しかし現実の問題として行列のn乗が簡単に行えることの利便性については、よく分からない。
正方行列以外の場合、固有値が特異値分解（singular value decomposition;SVD)に使われることが教材により理解できた。さらに特異値分解が画像圧縮に使われる例も教材にあり、高ランクの元画像を特異値分解により低ランクの行列で近似できるようになると理解。

第2章確率・統計

確率・統計のパートについては、ステージテストを受けてみて、よく理解しておいた方が良いと思われる、重要な公式を中心にまとめる。

条件付き確率

事象$A$が生じた条件の下で事象$B$が生じる確率を、$A$が与えられた下での$B$の条件付き確率といい、 $$ P(B|A) = \frac{P(A \cap B)}{P(A)} $$ と表す。この式は、次の通り変形することができる。この式を乗法定理という。 $$ P(A\cap B) = P(B|A)P(A) $$

ベイズの定理（ベイズ則）

事象$A$が起こるという条件の下で、$k$種の事象$B$（$B_1, B_2, \cdots, B_k$ ；但し互いに排反）が起こる時、事象Aが起こるという条件の下で、事象$B_i$が起こる条件付き確率は、前節の説明の通り、次で与えられる。 $$ P(B_i|A) = \frac {P(A \cap B_i)}{P(A)} $$ 上式に前節の乗法定理$P(A\cap B_i) = P(A|B_i)P(B_i)$ を代入すると、ベイズの定理が得られる。 $$ P(B_i|A) = \frac {P(A \cap B_i)}{P(A)} = \frac {P(A|B_i)P(B_i)}{P(A)} $$

ベルヌーイ分布

ベルヌーイ分布は、離散確率分布の一種であり、確率変数$X$が確率$p$で$1$、確率$q = 1 - p$で$0$を取るような分布をいう。勝ち／負け、表／裏、成功／失敗等、2種類のみの結果しか得られないような試行の結果を$0$と$1$で表した分布である。確率質量関数は次の式で表される。 $$ f(k;p) = p^{k}(1-p)^{1-k} $$ ここで、$k$は成功／失敗を表し、$1$か$0$である。

二項分布

二項分布は、互いに独立したベルヌーイ試行を$n$回行った時に、ある事象が何回起こるかの確率分布をいう。確率質量関数は次の式で表される。 $$ f(x) = {}_nC_x p^x (1-p)^{n-x} $$

正規分布（ガウス分布）

確率変数$X$が、平均$\mu$、分散$\sigma ^{2}$の正規分布に従うとき、その確率密度関数は次の式で表される。 $$ f(x) = \frac {1}{\sqrt{2\pi\sigma^2}}\exp(- \frac{(x - \mu)^{2}}{2\sigma^2}) $$

期待値（平均）

期待値とは、ある試行を行った時、その結果として得られる数値の平均値のことである。すなわち、試行によって得られる数値$X$が$x_1, x_2, \cdots, x_n$ であり、それぞれの値をとる確率が$p_1, p_2, \cdots, p_n$ とすると、$X$の期待値$E(X)$を次の通りである。 $$ E(X) = \sum_{i}^{n} x_i p_i $$ サイコロの目は1から6の値をとり、それぞれの確率は$1/6$であるから、期待値は$1\times1/6 + 2\times1/6 + \cdots + 5\times1/6 + 6\times1/6 = 3.5$ となる。

上記は、離散型確率分布場合である。連続型確率分布の場合も同様に考え、連続型確率変数$X$、確率密度関数$f(x)$ の期待値$E(X)$は、次の通り。 $$ E(X) = \int _{-\infty}^{\infty} x f(x) dx $$

分散

分散は、「確率変数のとり得る値と期待値（平均値）の差の2乗」と「確率」との積を全て足し合わせたもので、確率変数$X$の分散$V(X)$は、次で与えられる。 $$ V(X) = \sum_{i=1}^{n} (x_i - \mu)^2 p_i $$ ここで、$\mu$は期待値（平均値）$E(X)$で、$p_i$は$x_i$の起こる確率を表す。

先の節で例に出したサイコロの場合を上式に当てはめてみると次の通り。 $$ \begin{align} V(x) &= \sum_{i=1}^{n} (x_i - \mu)^2 p_i \\ &= \sum_{i=1}^{n} (x_i - 3.5)^2 p_i \\ &= \frac{(1-3.5)^2}{6} + \frac{(2-3.5)^2}{6} + \cdots + \frac{(5-3.5)^2}{6} + \frac{(6-3.5)^2}{6} \\ &= \frac{1}{6}(6.25+2.25+0.25+0.25+2.25+6.25) \\ &= \frac{17.5}{6} = \frac{35}{12} \end{align} $$ 同様に連続型確率変数$X$の分散は、次の式で与えられる。 $$ V(X) = \int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx $$

分散と期待値

分散は期待値を用いて、次の式から求められる。 $$ V(X) = E(X^2) - {E(X)}^2 $$ 上式は、分散の定義から次の通り変形することで求められる（$\mu=E(X)$であることに留意）。 $$ \begin{align} V(X) &= \int_{-\infty}^{\infty} (X-\mu)^2 f(X)dX \\ &= \int_{-\infty}^{\infty} (X^2-2X\mu+\mu^2) f(X)dX \\ &= \int_{-\infty}^{\infty} X^2f(X)dX -\int_{-\infty}^{\infty} 2X\mu f(X)d(X)+ \int_{-\infty}^{\infty} \mu^2f(X)dX \\ &= E(X^2)-2\mu \int_{-\infty}^{\infty}Xf(X)dX + \mu^2 \\ &= E(X^2)-2\mu \times E(X) +\mu^2 \\ &= E(X^2)-2{E(X)}^2 + {E(X)}^2 \\ &= E(X^2)-{E(X)}^2 \end{align} $$

第3章情報理論

情報理論のパートについても、ステージテストを受けて、よく理解しておいた方が良いと思われる、重要な公式を中心にまとめる。

情報量（自己情報量）

次の２つの条件を満たす情報量を定義する。

発生する確率が低いこと（珍しいこと）が分かった時の方が、情報量が多い
情報量は足し算で増えていく

あることが分かった際の「そのことの情報量」を自己情報量と呼び、以下で定義する。 $$ 自己情報量：I(x) = -\log_2P(x) $$ ここで、$P(x)$は、あることが起こる確率を表す。

シャノンエントロピー

$X$が起こると分かった時に得られる情報量の期待値をエントロピーという。また、エントロピーは平均情報量ともいい、事象$X$が起こったと分かった時に得られ情報量の期待値を指す。エントリピー$H(x)$を式で表すと次の通り。 $$ \begin{align} H(x) &= E(I(x)) \\ &= -E(\log(P(x))) \\ &= -\sum(P(x)\log(P(x))) \end{align} $$

相互情報量

2つの事象$X,Y$がある時、$Y$を知ることによって$X$のエントロピーがどれだけ減少したかを相互情報量という。相互情報量$I(X,Y)$は、次の式が表される。 $$ I(X,Y) = H(X) - H(X|Y) $$ ここで、$H(X)$は$X$のエントロピー、$H(X|Y)$は$Y$が分かった上での$X$のエントロピーを表す。

カルバック・ライブラーダイバージェンス

KLダイバージェンスは、２つの確率分布の擬距離を定量化する指標である。$P,Q$を連続型確率変数$X$についても確率分布$p(x),q(x)$を$P,Q$の確率密度関数とすると、KLダイバージェンスは、以下で求められる。 $$ \begin{align} D_{KL}(P||Q) &= E_{x\sim P}\left[ \log\frac{P(x)}{Q(x)} \right] \\ &= E_{x\sim P}\left[ \log P(x) - \log Q(x) \right] \\ &= \int_x P(x) \left(\log P(x) - \log Q(x) \right) \\ &= \int p(x) \frac{p(x)}{q(x)}dx \\ \end{align} $$ このKLダイバージェンスは、次の特性を持つ。

同じ確率分布だと$0$となる
確率分布が似ていないと、正の大きな値となる

また、KLダイバージェンス$D(P||Q)$は、$P$と$Q$を入れ替えると値が変わる（対称性がない）ので不便であり、対称となるように定義した指標がJensen-Shannon(JS)ダイバージェンスである。 $$ D_{JS} = \frac{1}{2}D_{KL}(P||M) + \frac{1}{2} D_{KL}(Q||M) $$ ここで、$M(x) = \frac{P(x) + Q(X)}{2}$である。

交差エントロピー

同じ確率空間における2つの分布$P$と$Q$において、$Q$の$P$に対する交差エントロピーは、以下の通り定義される。 $$ H(P,Q) = -E_{X\sim P} \log Q(x) = H(P) + D_{KL}(P||Q) $$ ここで、$H(P)$は$P$のエントロピー、$D_{KL}(P||Q)$のKLダイバージェンスである。

$P$と$Q$が離散型確率変数なら、次の通り。 $$ H(P,Q) = - \sum_x P(x) \log Q(x) $$ 連続型確率変数なら、同様に次の通り。 $$ H(P,Q) = \int_x P(x) \log Q(x) dx $$

応用数学