前回は📄
(講義ノート)乱択アルゴリズム第8回
ボールと瓶に対するポアソン近似
- 各ビンiは確率Piで選ばれる(カテゴリ分布)。
- もちろん、∑iPi=1
- これをm回繰り返す。
こうすると、二項分布の3つ以上の選択肢があるようになると考えられ、これは多項分布である。
多項分布に従う時、以下のようなことになる。
Pr[Xi=k]=mCkpik(1−pi)m−k≈k!mkpke−pi(m−k)=k(pim)ke−pim=k!μke−mu ここでは、kがmよりずっと小さく、その時は(1−pi)m−k≈e−pi(m−k)と置き換えている。
するとこれによってポアソン分布を導けた。
二項分布に従い毎回確率pで起きる事象について、n回の試行について考える。この時、np=constと固定して、極限でn→∞とすれば、同様にポアソン分布が得られる。このような場面での計算にポアソン分布を使うと言い、という感じ。
Pr[y=k]=k!μke−μ ポアソン分布の性質は以下の通り。
E[y]=μ,V[y]=μ μへの集中度合
例えば、Pr[y=μ]を計算してみる。二項分布では、試行回数を増やすと、真ん中に集中するけどぴったりμとなる確率は1/nのオーダーで減少していた。これはポアソン分布でも同様に成り立つ。スターリングの近似を使う。
k!=2πk(k/e)kPr[y=μ]≈2πμμke−μμke−μ=2πμ1 翻って、Pr[y=μ+Δ],−μ≤Δ≤μの間に収まる(つまりy∈[0,2Δ]に収まる確率を計算してみる。
Pr[y=μ+Δ]=(μ+Δ)!μμ+Δe−μ=2π(μ+Δ)(μ+Δ)μ+Δe−(μ+Δ)μμ+Δe−μ=2πμ1+(Δ/μ)1(1+(Δ/μ))μ+ΔeΔ=2πμ1+(Δ/μ)1 ここでは、最後にeΔの項の分母で極限をとってるわけではないが、eを作り出すと考えると、そこが1になって、ちょうど打ち消し合う。わりとy=μの場合とも整合性取れてそう。
ポアソン分布の和はポアソン分布
yi∼Poi(μi)⇒∑iyi∼Poi(∑iμi) つまり、ポアソン分布のパラメタの和を取ったものに従う変数は、別々のポアソン分布だと考えた時の変数の和と同じ。
証明は以下の通り。
Pr[y1+y2=k]=∑0≤k1≤kPr[y1=k]Pr[y=k−k1]=∑0≤k1≤kk!e−μμ1k1(k−k1)!e−μ2μ2k−k1=k!e−(μ+μ2)∑kμ1k1μ2k−k1k1!(k−k1)!k!=k!e−(μ1+μ2)(μ1+μ2)k ボールとビンとポアソン分布
p1,⋯が固定されているとする。Xiをm回ボールを投げた時のi番目のビンのボールの数とする。
yi(m)∼Poi(mp2)だとする。
次に、以下のようにベクトルを定める。
- xm=(x1(m),⋯,xn(m)) これは各要素は相関している。
- ym=(y1(m),⋯,yn(m)) これは各要素は独立している。
これについて、条件付等価性が成り立つ。成り立つならば、相関している難しい分析を独立している簡単な分析ですり替えられる。
∑iyi(m)=kが成り立つとき、xkとymの分布が一致するという特徴がある。
つまり、ポアソン分布に従う変数の和がkで固定されるなら、ボールビンのxkと等しくなる。
まず、両辺をそれぞれ展開する。
Pr[xk=(k1,⋯,kn)]forthiscondition(∑iki=k)=k!∏i=1npik2ki!piki 次に、ymを展開する。これは前提があるので、条件付確率である。以下のように導ける。
Pr[ym=(k1,⋯,kn)∣∑iki=k]=e−mmk/k!∏i=1ne−mpi(mpi)ki/ki!em∏i=1ne−mpimk∏i=1nmkik!∏i=1n(ki!piki)=1⋅1⋅e−−Δ2/μ×Θ(μ1)∑0≤k1≤kk1!e−μ1μ1k1(k−k1)!e−μ2μ2k−k1 ポアソン近似の範囲
以下のように取りうる範囲が抑えられる。
非負のf:Rn→R+があり、E[f(xm)]はmに対して広義単調増加か、広義単調減少が成り立つとする。この時以下のように成り立つ。
E[f(xm)]≤2E[f(ym)] 証明
E[f(ym)]=∑k=0∞E[f(ym)∣∑iyi(m)=k]Pr[∑iyi(m)=k]=∑k=0∞E[f(xk)]Pr[∑iyi(m)=k] まず、先ほど示した条件付等価性で置き換えられる。
≥∑k=m∞E[f(xk)]Pr[∑iyi(m)=k]≥∑k=m∞E[f(xk)]Pr[∑iyi(m)≥m]⇒E[f(xm)]≤2×E[f(y(m))] 最初の不等号では、fは非ゼロなので成り立ち、2つ目の不等号はE[f]は広義単調増加なので成り立つ。もし、広義単調減少であると考えたいときは、Pr[∑iyi(m)≤m]で置き換えればよい。
そして、最後に∑iyi(m)はポアソン分布Poi(m)に従う(ポアソン変数の和もまたポアソン変数である)ことから、これがmを超える確率ということに。これは1/2よりは大きい値になるので、最後の結果が成り立つということ。
ポアソン化は何がうれしいか
- xmの相関を消したい。
- だが、xkとym∣∑i=1yi=kの分布が同じ。
この時、代わりにポアソン分布の変数ymをみればいい。
具体例
コイントスをm回繰り返す。表がpの確率で出るとき、表の回数Bi(m,p)であり、裏の回数はBi(m,1−p)である。
ここで、k∼Poi(m)とおして、k個コイントスをする。この時、表の回数と裏の回数は独立である。