Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

(講義ノート)乱択アルゴリズム第2回

第2回は集中不等式。どれだけの確率でアルゴリズムが成功するのかの判定。

マルコフの不等式

XXを非負の確率変数とする。

Pr[XkE[X]]1kPr[X \geq k \cdot \mathbb{E}[X]] \leq \frac{1}{k}

なぜなら、1/k1/kを超える確率でkE[X]k \mathbb{E}[X]を最低でも取るなら期待値はかならずE[X]\mathbb{E}[X]を上回るので矛盾する

実はかなりガバガバな評価式。

クイックソートの評価

クイックソートは最悪O(N2)O(N^2)、期待値はO(NlogN)O(N \log N)である。

計算時間が2cnlogn2c n\log nを超えたらソートを止めてやり直す。それ以外ならソートしなおす。最大このようなソートのやり直しはたかだかdd回やるとする。ccは定数。

これをマルコフの不等式で評価する。

Pr[fail]=Pr[calc  time2cnlogn]d12dPr[fail] = Pr[calc \; time \geq 2 cn \log n] ^ d \\ \leq \frac{1}{2^d}

このように指数的に収束するとわかる。

チェビシェフの不等式

分散V[X]=E[X2]E[X]2\mathbb{V}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2と標準偏差σ[X]=V(X)\sigma[X] = \sqrt{\mathbb{V}(X)}を定義できる。次の式がチェビシェフの不等式。

Pr[XE[X]kσ[X]]1k2Pr[|X - \mathbb{E}[X]| \geq k \sigma[X]] \leq \frac{1}{k^2}

標準偏差のkk倍を外れる確率は、たかだか1/k21/k^2である。

非負であるという条件はないし、両側の確率を抑えている。マルコフだと、kσ[X]k \sigma[X]のかわりにk2E[X]k^2 \mathbb{E}[X]となることから、抑える精度のオーダが1つ上がったと言える。

Hoeffding’s Inequality

まだ直感だがX=X1+X = X_1 + \cdotsのように、有限個とすら限らない確率変数の和だとする。このとき、個数を無限まで増やすとXXはガウス分布に収束する=中心極限定理があるので、以下のように更に指数関数的に集中しそうじゃない?

Pr[XE[X]kσ[X]]ek2Pr[|X - \mathbb{E}[X]| \geq k \sigma[X]] \leq e^{-k^2}

不等式

X=i=1nXi,Xi  are  independent  each  other,Xi[0,1]X = \sum_{i=1} ^ n X_i, X_i \mathrm{\; are \; independent \; each \;other}, X_i \in [0, 1]
Pr[XE[X]t]2exp(t2/n)Pr[|X - \mathbb{E}[X]| \geq t] \leq 2 \exp(-t^2 / n)
先ほどの式とは実は同じものである。導出過程はこちら。
V[X]=i=1nV[X]i=1nE[X2]i=1n1=nσ[X]n\mathbb{V}[X] = \sum_{i=1}^n \mathbb{V}[X] \leq \sum_{i=1}^n \mathbb{E}[X^2] \leq \sum_{i=1}^n 1 = n \Rightarrow \sigma[X] \leq \sqrt{n}

ttnσ[X]t \leq \frac{t}{\sqrt{n}} \sigma[X]と言い換えられる。ここで、代入すると上の式がちょうど出てくる。

使用例

全人口の中である属性を持った人の数を知りたい。

全部でnn人ある中でbb人がその属性を持っている。上手くサンプリングしてbbを推定したい。

サンプルは独立で重複ありで選ぶことで作る。数がいっぱいあるので重複あったところで問題はない。サンプルの中で属性を持つのがbsb_sとすると、簡単にbbs/s×nb \approx b_s / s \times nとなるが、それが十分に正しいと示すのに使える

示したいこと
α>0,δ>0,s=log(2/δ)α2Pr[bssnb>αn]δ\forall \alpha > 0, \forall \delta > 0, s = \frac{\log(2/\delta)}{\alpha^2} \\ Pr[|\frac{b_s}{s} n - b| > \alpha n] \leq \delta

δ\deltaは信頼度、αn\alpha nは誤差だと言える。誤差を下げるのは大変(誤差を半分にするとサンプル数が4倍必要)だが、信頼度を上げるのは簡単(誤差を下げるとき、サンプル数はlog2α2\frac{\log 2}{\alpha^2}増やせばいい)

証明

XiX_iii番目のサンプルが属性を持っていると1、持たないときは0とする。

E[X]=i=1sE[Xi]=sbnPr[XE[X]αs]2exp(α2s2s)=2exp(α2s)\mathbb{E}[X] = \sum_{i=1}^s \mathbb{E}[X_i] = \frac{s \cdot b}{n} \\ Pr[|X - \mathbb{E}[X]| \geq \alpha s] \leq 2 \exp(-\frac{\alpha^2 s^2}{s}) = 2 \exp(- \frac{\alpha^2}{s})

α2s=log(2/δ)\frac{\alpha ^2 }{s} = \log(2 / \delta)となるので、これを代入して計算すると、見事に上の式が得られる。

使用例2

ベルヌーイ分布pX(1p)1Xp^X(1-p)^{1-X}に従うコイン投げの結果を重ねると、二項分布B(s,p)B(s, p)となる。これは、ss回コインを振って表が出た回数。

ここで、p=0.5p=0.5という前提で、ss回コイン投げて表の回数がs/2+αss/2 + \alpha sとなる確率を正確に計算できる。二項係数をスターリングの近似を用いることで計算すると、2πseα2s\sqrt{\frac{2}{\pi s}} e^{-\alpha^2 s}になるとわかる。これはHoeffding Inequalityでの評価と一致するものであるので、不等式の評価は非常に正確であるということ

しかし、性質上推定値には1/s\sqrt{1/s}の誤差が出るのは仕方ない。