今回は黒木玄氏がTwitterで言及していたベイズ統計で誤解されやすい点についてまとめようと思います。

 以下のツイートにより言及されています。

 上記の投稿にもある通り、ベイズ統計ではデータを定数、母集団のパラーメータを確率変数とみなすと表記されることが多いですが、ベイズ統計学でも頻度論同様データは確率変数、パラメータは定数であると考えます。
また、ベイズ確信区間(信用区間)についての記述で事後分布により導出された、95%確信区間は真のパラメータを95%含む区間であるという表現がなされますが、これもまた誤りであり、誤解されやすい点です。
以下では上記二点について説明していきます。

データが確率変数とは

 確率変数とは変数の取りうる値がそれぞれその値をとる確率を持つ変数のことを指します。
 データが確率変数であると考えるのは、用意したサンプルデータが、確率上偏ったサンプルであることを考慮することが目的です。

ベイズ確信区間とは

 上記でデータは確率変数であることについて述べました。
事後分布は以下のように計算されます
p(w|X^n)=\frac{1}{Z}\varphi(w)\prod_{i=1}^np(X_i|w)
ここでZは正規化定数です。
 上記からもわかるように事後分布はX^nにより変動する確率変数となります。
 またそれにより導出される確信区間も確率変数となります。
確信区間を95%真のパラメータを含む範囲と考えると、定数であるはずの真のパラメータが変動してしまうことになります。
 では、確信区間とは何を意味しているのでしょうか。
 ベイズ推定はXが統計モデルp(x|w)から生成され、そのパラメータwが事前分布\varphi(w)から生成されると仮定する推定方法です。
 事後分布は上記のモデルと事前分布の仮定のもと、サンプルX^nが生成されたという条件でのwの従う条件付確率になります。確信区間は事後分布のもとでwが95%含まれる区間を求めたにすぎません。

ベイズ推定は何ができるの?

 当然これまでの話ではベイズ推定は何ができるのか、わからないと思います。ベイズ推定は真のパラメータが従う確信的数値が得られるわけではありません。しかしこれはどの統計手法も同じです。ベイズ推定はあくまでもサンプルから母集団を推定しているにすぎません。
 しかし、ベイズ推定により得られた分布が程度母集団を推定できているか、汎化誤差をWAICやクロスバリデーションを用いて推定推定することができます。
これは以下の渡辺先生のHPで紹介されています。
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/waic2011.html

参考文献

渡辺澄夫(2012):ベイズ統計の理論と方法 , コロナ社

(著:deepblue)

Deepblueでは統計やAIの平和的活用を一緒に取り組んでいただける方を募集してます。詳しくはRecruitをご覧ください。

関連記事