前回は📄
(講義ノート)乱択アルゴリズム第9回 です。
分布の検査
分布からサンプリングしたn個のデータについて、分布は学習することができる。しかし、学習するより早く検査することはできるか?
具体的には何をするか。
分布上の性質は、分布の集合だと考えられる。○○を満たす集合の中に、該当分布が入っているかどうか。
アルゴリズムが以下を満たすとき、ϵ検査器。
- もしp∈Pなら、2/3の確率以上で受理。
- もしdist(p,P)>ϵならば、2/3①以上の確率で拒否する。
分布間の距離
以下のような距離がある。D′はサンプルしデータ点
全変動距離
すべての変数の間での距離である。
∣∣p(s)−q(s)∣∣TU=maxS∈D′∣p(s)−q(s)∣ 下じゃないの?
∫∣p(s)−q(s)∣ds Lr距離
∣∣p(s)−q(s)∣∣r=r∫∣p(s)−q(s)∣rds 分布の学習
学習するには、何個のサンプルが必要か。S回サンプルするとする。経験分布として、要素sが差プルされた回数をq(s)=1/Sと書ける。
定理
以下の定理が成り立つ。
S≥ϵ2cnlognとする。高い確率で、∀sで以下が成り立つ。
- もし、p(s)≤ϵ/3nならば、実はq(s)≤ϵ/2nでもある。
- もし、p(s)≥ϵ/3nならば、実はq(s)∈(1±ϵ/2)p(s)
これが成り立つとき、L1距離を測ってみると、
∣∣p−q∣∣1=∑s∣∣p(s)−q(s)∣∣=∑s:p(s)≤ϵ/3n∣∣p(s)−q(s)∣∣+∑s:p(s)>ϵ/3n∣∣p(s)−q(s)∣∣≤∑s:p(s)≤ϵ/3n2ϵp(s)+∑s:p(s)>ϵ/3n2nϵ≤2ϵ+2ϵ=ϵ さらに、S≥cn/ϵ2で、∣∣p−q∣∣TV≤ϵならば、最大負荷はΘ(loglognlogn)
分布の検査のアルゴリズム
分布p,uが同じ分布であるかどうかをO(n/ϵ2)個のサンプルで検査できるか?できます。
なんなら、O(n/ϵ2)個でいいです。
補題
∣∣p−u∣∣1>ϵとする。これの2乗ノルムは∣∣p−y∣∣22>(ϵ/n)2=ϵ2/nである。
補題として、もし∣∣p−u∣∣1>ϵならば、∣∣p∣∣22>1/n+ϵ2/n。
もし分布が同じであるなら、∣∣p∣∣22=1/nである。
発送
∣∣p∣∣22を推定する。先の補題で