Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

(講義ノート)統計的機械学習第11回

前回はこちら。📄Arrow icon of a page link(講義ノート)統計的機械学習第10回 。内容は以下の通り。

3層のDNN(隠れ層が1)のもののRademacher複雑度の抑え方は以下の通り。B1,B2B_1, B_2は係数の上界であり、mmは隠れ層のノード数

Rn(F)=Ex,σ[supfθF1ni=1nσifθ(xi)]2B1B2CmnR_n(\mathcal{F}) = \mathbb{E}_{\mathbf{x, \boldsymbol \sigma}} [\sup_{f_\theta \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i f_\theta(\mathbf{x}_i)] \leq 2 B_1 B_2 C \sqrt{\frac{m}{n}}

ResNetについては、📄Arrow icon of a page link2019-NIPS-Are deep ResNets provably better than linear predictors? がありそれについて、以下のようにResNetのRademacher複雑度を抑えらえれるとわかった。

Image in a image block

通常の全結合ネットワークとは分子からm\sqrt{m}が消えていることが違いであり、これは隠れ層のノード数がいくら増えたとしても、Rademacher複雑度に影響しないという評価である。影響するのは、各パラメタの上界だけ。

万能近似定理

Neural Networkは十分なパラメタと適切な活性化関数を設定すれば、1層の隠れ層だけを持つNNとして、任意の連続な関数に好きな精度で近似できる=稠密(ちゅうみつ)である

なお、稠密であることと完備性があるというのは同じではない。有理数は実数に対して稠密であるが、無理数がないので穴だらけですよね。

つまり微分できる関数ならテイラー展開、マクローリン展開に従って多項式で近似できる!というようなことを言っている。

厳密に定義するなら以下のように定義されている。

Image in a image block

線形空間から位相線形空間へ

無限次元のベクトル=関数による空間=関数空間、考えられるといろいろ便利ですよね?

基底について、部分集合BVB \subset Vが基底というのは、BBが有限集合である必要はなく、BB自身の有限部分集合で、もともとのVVに含まれる任意の元を構築できるベクトル集合を持てるならBBは基底。

ただこれだと、xV\forall x \in Vは有限個のベクトルで表現する必要があるが、x=i=1aivix = \sum_{i=1}^\infty a_i v_iというような無限次元の表現が出てきてしまう。例えばフーリエ変換とか、カーネル法による

この無限級数の表現が収束するかのような議論が必要になり、そのために位相が求められる。

なので、有限個の基底という概念からさらに進化させて、無限個を許容しそれの収束性なども証明し、それが「位相」となる。

位相空間とは

一部だけかいつまんで。

ある集合に、「位相」を定義したものが位相空間。位相を定義するのに以下のものが必要。

  1. 点の近傍
  2. 開集合
  3. 閉集合
  4. 閉包

これら4つはそれぞれ相互に定義可能であり、1つ定義できればその他はそれを使い同様に表せる。

位相空間の定義

部分集合系OOについて、以下の3点が成り立てばOOXXの位相であり、(X,O)(X,O)は位相空間とい。

例)XXが実数なら、OOは実数区間を元とする集合みたいな

  1. ϕ,XO\phi, X \in O 空集合とXX自身は含む。aaに対して[a,a][a,a]みたいな感覚。
  2. U1,U2,U1U2O\forall U_1, U_2, U_1 \cap U_2 \in O 位相に含まれる元の積集合も必ず位相に属する
  3. 任意の添え字集合Λ\Lambdaについて、λΛUλO\bigcup _{\lambda \in \Lambda} U_{\lambda} \in Oが成り立つ。 任意の添え字でOOに含まれる元UλU_\lambdaの和集合をとっても絶対に入っている

また、言い方として、OO自身を「開集合」と定義しちゃってて、XX自体を位相空間と言ったりする

もう1つの例は有限集合S={a,b,c}S=\{a,b,c \}について、O={{a},{a,b},{a,c},S}O=\{ \{a\}, \{a,b\}, \{a,c\}, S \}だというもの。これも確かに位相空間(S,O)(S,O)である。

なので、開区間はもう定義できた。

なお、集合の集合を集合族、集合系と言ったりする。族はその集合の集合に何かしらの操作をすることを前提にしているが、系の場合は集合の集合自体に興味があり操作なくていいもの。

閉集合

開集合が定義されたとき、開集合の補集合が閉集合である。

定義は開集合と似ているがひっくり返したもの。F\mathcal{F}だとする。

  1. ϕ,XO\phi, X \in O 空集合とXX自身は含む。
  2. U1,U2,U1U2O\forall U_1, U_2, U_1 \cup U_2 \in O 位相に含まれる元の和集合も必ず位相に属する
  3. 任意の添え字集合Λ\Lambdaについて、λΛUλO\bigcap _{\lambda \in \Lambda} U_{\lambda} \in Oが成り立つ。 任意の添え字でOOに含まれる元UλU_\lambdaの積集合をとっても絶対に入っている

連続関数の定義

Image in a image block

連続ならば、行った先の位相空間から元々の位相空間への逆像があるということ

開集合から写像した先から逆像で戻したらちゃんと開集合になるということ。

ここで、逆像と逆写像とは違う。写像の定義として全単射があるがそれを満たさなくてもいいということ。

連続というのは、ϵ>0,δ>0\forall \epsilon >0, \exist \delta > 0で、xx0<δf(x)f(x0)ϵ|x -x_0| < \delta \Rightarrow |f(x) - f(x_0)| \leq \epsilonである。これを先ほどの集合に転用させると、以下のようになる。

ϵ>0,δ>0,xUδ(x0)f(x)Uϵ(f(x0))\forall \epsilon > 0, \exist \delta > 0, x \in U_{\delta}(x_0) \Rightarrow f(x) \in U_{\epsilon}(f(x_0))

つまり、写像した先の変動が微小というのを、UU_*というもので表現した(例でいうと開区間がそれにあたる)

OOが開集合ならば、以下のが成り立つ。

Image in a image block

距離空間

XXを集合とする。に変数関数d:X×XRd : X \times X \to \mathbb{R}が、任意のa,b,cXa,b,c \in Xに対して、以下が成り立つなら、(X,d)(X,d)は距離空間という。

  1. 正定値性 d(a,b)0d(a,b) \geq 0であり、a=bd(a,b)=0a=b \Leftrightarrow d(a,b)=0でもある。
  2. 対称性 d(a,b)=d(b,a)d(a,b)=d(b,a)
  3. 三角不等式 d(a,b)d(a,c)+d(c,b)d(a,b) \leq d(a,c) + d(c,b)

この距離空間について、Uϵ(a)={xXd(x,a)<ϵ}U_\epsilon (a) = \{ x \in X | d(x,a) < \epsilon \}を、中心aXa \in X、半径ϵ\epsilonの開球という。

不等号は等号を含まない!開球なのに含まない!理由はちゃんとある!

そしてこの開球を用いて、開集合、閉集合を定義することもできる。

  1. AAが開集合とは、以下のようなことである。つまり、開集合のどんな元を選んでも、それを中心とした何かしらの半径の開球は、開集合AA自身の中に含まれている
    1. 実際どんな開集合[a,b][a,b]を選んでも、なんでもいいので距離の尺度dd(ユークリッドと考えてもいい)があるとして、あるϵ\epsilonがあって、d([a,b],[c,d])>ϵd([a,b], [c, d]) > \epsilonとなるすべての[c,d][c,d]は開集合なので、確かになりたつみたい。
    2. つまり、元(開区間)の近傍の性質によって元(開区間)全体から成る本体の集合(開集合)の性質が定義される
aA,ϵ>0:Uϵ(a)A\forall a \in A, \exist \epsilon > 0 : U_\epsilon (a) \subseteq A
  1. BBが閉集合とは、以下のようなことである。
bBc,ϵ>0:Uϵ(b)B=ϕ\forall b \in B^c , \exist \epsilon > 0 : U_\epsilon(b) \cap B = \phi
逆像の良さ
Image in a image block

逆像は等号成立が非常に多いので、使いやすく、連続の定義はよって逆像で定義している。

位相空間(X,O),(X,O)(X,O), (X^\prime, O^\prime)の間の写像f:XXf : X \to X^\primeが連続であるということは、

UOf1(U)OU^\prime \in O^\prime \Rightarrow f^{-1}(U^\prime) \in O

が成り立つということ。任意のXX^\primeの開集合の逆像がXXの開集合であれば、ffが連続であるという。

移した前での近傍のものは、移した先でも近傍であってほしい。

近傍

xXx \in XXXにおける近傍V(x)XV(x) \subseteq Xとは、ある開集合UV(x)U \subseteq V(x)が存在し、xUV(x)x \in U \subseteq V(x)

xxの近傍とは、V(x)V(x)という集合族の元の集合がすべてxxを含むものである、というもの11を相手と考えるなら、{{1},{1,2},{1,3},{1,3,4}}\{ \{1\}, \{1, 2\}, \{1, 3\}, \{1, 3, 4\} \}みたいな。開区間も集合であるので、R\mathbb{R}という大きな集合に、開区間が集合として包含されるということ

さらに、V(x)V(x)が開集合ならば、開近傍である。

内点

位相空間(X,O)(X,O)を考える。AXA \subset Xだとする。

  • xxAAの内点であるとは、UO,xUA\exist U \in O, x \in U \subseteq Aである。
    • ある開集合UUがあり、それはxxを元として含み、部分集合AAUUを含むというもの。
    • 近傍の定義そのままで、xxの近傍V(x)V(x)の内点がxxである。
  • 位相空間のみならず、距離まで完備である距離空間の場合、内点であるというのは、以下の数式である。
    • UUが開球のUϵU_\epsilonである。
ϵ>0,Uϵ(x)A\exist \epsilon > 0, U_\epsilon(x) \subseteq A
  • さらに言えば、XXが実数体R\mathbb{R}上のノルム線形空間の場合、以下である。
    • どんな向きのベクトルyyであっても、あるϵ\epsilonだけ足したらAAに入ってるなら内点。
    • UϵU_\epsilonがさらに具体的になった。
yX,ϵ>0,t<ϵx+tyA\forall y \in X, \exist \epsilon > 0, |t| < \epsilon \Rightarrow x + ty \in A

すべての内点の集合が内部。

内部とコア

内点についてはさらに、XXが実数体R\mathbb{R}上のノルム線形空間の場合を考える。上で解説した通り、線形空間に含まれるどの向きのベクトルでも少し動いてもちゃんと収まるということ。

この時、0t<ϵ0 \leq t < \epsilonと0も許容する=ギリギリ境界上でもOKならば、それはコアである。

外部、境界

ことばの定義みたいなもの。

  • コア=内部+境界
  • 全部=コア+外部

内部はAA^\circであり、外部はAcA^cと書く。境界はA\partial Aと書く。

内部と開近傍の和

AAを位相空間XXの部分集合とする。A=AA=A^\circ(自分の内部は自分と同じ これから示すように開集合ならば必ず成り立つものである)であるとする。

xAx \in A^\circAA^\circにおける開近傍をV(x)AV(x) \in A^\circとすると、以下を満たす開近傍VVが存在する。

AA^\circ、つまり内部に含まれるすべての内点の開近傍について、それの和集合はAA^\circつまり内部と同じである。

A=xAV(x)A^\circ = \bigcup _{x \in A^\circ} V(x)
証明

内点の定義により、xA\forall x \in A^\circについて、xV(x)Ax \in V(x) \subseteq A^\circが成り立つ。なので、xxAV(x)x \in \bigcup_{x \in A^\circ}V(x)が当然成り立つ。すべての元xxについて成り立つので、AxAV(x)A^\circ \subseteq \bigcup_{x \in A^\circ}V(x)も成り立つと思う。

次に V(x)AV(x) \subseteq Aであるが、仮定としてA=AA=A^\circなので、V(x)AV(x) \subseteq A^\circである。すべてのxxについても同様に成り立つので、AxAV(x)A^\circ \supseteq \bigcup_{x \in A^\circ}V(x)

よって両側で示せた。

内部は開集合

内点の定義により、xA\forall x \in A^\circについて、xU(x)Ax \in U(x) \subseteq Aとなる開近傍UUが存在する。なので、先ほどの定義から、すべてのxxについて考えればAxAU(x)A^\circ \subseteq \bigcup_{x \in A^\circ} U(x)となる。

A=AA=A^\circという仮定がないのでちょっとむずかしい証明になる。

UUAAに含まれる任意の開集合とする。この時、xUAx \in U \subseteq Aにより、xxはAの内点。任意の開集合について、UAU \subseteq A^\circ(内点なので内部の中であるよね?)が常に成り立つので、xAU(x)A\bigcup _{x \in A^\circ} U(x) \subseteq A^\circも成り立つ。

なので、AA^\circ、Aの内部は開集合。

部分集合が開集合の必要十分条件

AAは位相空間XXの部分集合である。この時、AAXXの開集合\Leftrightarrow A=AA^\circ = Aである。

証明

→をまず証明する。AAXXの開集合ならば、xA,xAA\forall x \in A, x \in A \subseteq Aが当然成り立つので、xAx \in A^\circであり、AAA \subseteq A^\circである。内部の定義により、逆向きも成り立つので示せた。

←を証明する。A=A=xAV(x)A=A^\circ=\bigcup_{x \in A^\circ} V(x)となる開集合VVが存在する。開集合の和は開集合なので、AAはちゃんと開集合である。

内部と最大の開集合の関係

今までの流れを踏まえてこれを考えたらこのようになった。

AAを位相空間XXの部分集合である。AA^\circAAに含まれる最大の開集合である

証明

UUAAに含まれている任意の開集合とする。xUAx \in U \subseteq A。すべてのUUについてこれは成り立つ。すべてのUUの成分は結局すべてのAAの成分であり、xA=Ax \in A^\circ = Aとなるが、開集合なのに同じ、となっているのでつまり最大の開集合であるということ。

微分における内点/開集合

微分は定義するとき以下の時のようになる。これは右極限、左極限が必要であるが、実はaaの周り(aϵ,a+ϵ)(a - \epsilon, a + \epsilon)ffが定義されている必要がある。つまり、aaffの定義域の内点である

limxaf(x)f(a)xa\lim_{x \to a} \frac{f(x) - f(a)}{x - a}

触点と閉包

xXx \in XAAの触点であるというのは、xxの任意の開近傍U(x)U(x)AAと交わることである。

なので、触点はAAの内部か、境界上にある。(内部がすべて触点というわけではない)

U(x)AϕU(x) \cap A \neq \phi

AAの触点の集合をAAの閉包という。閉包はAˉ\bar{A}とあらわす。

内部か境界上にあるので、Aˉ=AA\bar{A} = A^\circ \cup \partial Aである。

そしてさらに自明にではあるが、AAˉA \subseteq \bar{A}である。

集積点(極限点)と閉包

xXx \in XAAの集積点であるということは、xxの任意の開近傍U(x)U(x)xxをのぞいてAAと交わること

(U(x)\{x})Aϕ(U(x) \backslash \{x\}) \cap A \neq \phi

ここで重要なこととして、集積点自身がAAに含まれなくてもよい。あくまで任意の開近傍がAAと交わればよい。

ドーナツみたいな感じ。触点から自分自身が含まれるを除いた

定義からして、AAの集積点は閉包に含まれている。集積点のすべての開近傍はAAと交わるから。

集積点ではどんな小さい開近傍であってもAAと交わるので、本当にAAとスレスレかAAの中にいるとわかる。周りのどの点でもAAである。

閉包は閉集合である

すべての触点の集合が閉包であるがそれが閉集合だと示す。

閉包の補集合が開集合であることを示せばいい。開集合の定義が明確である以上こちらで証明するというテク。

Image in a image block

補集合に含まれる元はAAと交わらず、閉包の定義からして当然のようにAˉ\bar{A}とも交わらない。よって、補集合に含まれる点の任意の近傍も補集合に含まれる。これって内点そのものであるので、内点の集合=内部=開集合である。

これは逆も成り立つ

閉包と稠密性

AAを位相空間XXの部分集合だとする。稠密(ちゅうみつ, dense)であるとは、閉包Aˉ\bar{A}について、Aˉ=X\bar{A}=Xである。

  • AAの閉包=触点(すべての近傍がAAに含まれるような点)をすべて集めた集合ではあるが、これが位相空間XX全体を覆っているという状況。
  • xXx\in Xの近傍にはaAa \in Aがいる。これは極限や近似として使える。
  • 例えば実数に対しては有理数QR\mathbb{Q \subset R}は稠密。有理数自身は少しでも動けば=任意の近傍、実数になる。なので、有理数の閉包は実数。