Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

(講義ノート)乱択アルゴリズム第10回

前回は📄Arrow icon of a page link(講義ノート)乱択アルゴリズム第9回 です。

分布の検査

分布からサンプリングしたnn個のデータについて、分布は学習することができる。しかし、学習するより早く検査することはできるか?

具体的には何をするか。

分布上の性質は、分布の集合だと考えられる。○○を満たす集合の中に、該当分布が入っているかどうか。

アルゴリズムが以下を満たすとき、ϵ\epsilon検査器。

  1. もしpPp \in \mathbb{P}なら、2/3の確率以上で受理。
  2. もしdist(p,P)>ϵdist(p, \mathbb{P})>\epsilonならば、2/3①以上の確率で拒否する。

分布間の距離

以下のような距離がある。DD^\primeはサンプルしデータ点

全変動距離

すべての変数の間での距離である。

p(s)q(s)TU=maxSDp(s)q(s)||p(s) - q(s)||_{TU} = \max_{S \in D^\prime} |p(s) - q(s)|

下じゃないの?

p(s)q(s)ds\int |p(\mathbf{s}) - q(\mathbf{s})| d \mathbf{s}

Lr距離

p(s)q(s)r=rp(s)q(s)rds||p(s) - q(s)||_{r} = {}^{r}\sqrt{\int |p(s) - q(s)|^r ds}

分布の学習

学習するには、何個のサンプルが必要か。SS回サンプルするとする。経験分布として、要素ssが差プルされた回数をq(s)=1/Sq(s) = 1/Sと書ける。

定理

以下の定理が成り立つ。

Scnlognϵ2S \geq \frac{c n \log n}{\epsilon^2}とする。高い確率で、s\forall sで以下が成り立つ。

  1. もし、p(s)ϵ/3np(s) \leq \epsilon / 3nならば、実はq(s)ϵ/2nq(s) \leq \epsilon / 2nでもある。
  2. もし、p(s)ϵ/3np(s) \geq \epsilon / 3nならば、実はq(s)(1±ϵ/2)p(s)q(s) \in (1 \pm \epsilon / 2) p(s)

これが成り立つとき、L1距離を測ってみると、

pq1=sp(s)q(s)=s:p(s)ϵ/3np(s)q(s)+s:p(s)>ϵ/3np(s)q(s)s:p(s)ϵ/3nϵ2p(s)+s:p(s)>ϵ/3nϵ2nϵ2+ϵ2=ϵ||p - q||_1 = \sum_s ||p(s) - q(s)|| = \sum_{s : p(s) \leq \epsilon / 3n} ||p(s) - q(s)|| \\ + \sum _{s : p(s) > \epsilon / 3n} ||p(s) - q(s)|| \leq \sum_{s : p(s) \leq \epsilon / 3n} \frac{\epsilon}{2} p(s) + \sum_{s : p(s) > \epsilon / 3n} \frac{\epsilon}{2n} \\ \leq \frac{\epsilon}{2} + \frac{\epsilon}{2} = \epsilon

さらに、Scn/ϵ2S \geq c n /\epsilon^2で、pqTVϵ||p-q||_{TV} \leq \epsilonならば、最大負荷はΘ(lognloglogn)\Theta(\frac{\log n}{\log \log n})

分布の検査のアルゴリズム

分布p,up,uが同じ分布であるかどうかをO(n/ϵ2)O(n/\epsilon^2)個のサンプルで検査できるか?できます。

なんなら、O(n/ϵ2)O(\sqrt{n}/\epsilon^2)個でいいです。

補題

pu1>ϵ||p-u||_1>\epsilonとする。これの2乗ノルムはpy22>(ϵ/n)2=ϵ2/n||p-y||_2^2 > (\epsilon / \sqrt{n})^2 = \epsilon^2 / nである。

補題として、もしpu1>ϵ||p-u||_1 > \epsilonならば、p22>1/n+ϵ2/n||p||_2^2 > 1/n + \epsilon^2 / n

もし分布が同じであるなら、p22=1/n||p||_2^2=1/nである。

発送

p22||p||_2^2を推定する。先の補題で