『異端の統計学ベイズ』

f:id:Hash:20140822041848j:plain

再読ポイント:

  • 補遺Bの乳がん検査への応用
  • 訳者あとがきにも実例がある

第一部: ベイズの登場

事後確率は事前確立と尤度の積に比例する

まず最初に主観的意見(今では事前確率と呼ばれてるやつ)を仮定するところが大不評

1700年ごろから科学データの爆発. それをどう扱うかが課題になってきた.

そこでラプラス. ラプラスベイズの法則を完成させた.

当時確率理論はほぼないも同然. ド・モアブル『偶然性の理論』がかろうじて出てるくらい. ラプラスは確率の哲学的な意味をライフワークとした.

原因の確率の理論を最初に出したのはベイズだが, ラプラスは独力で同じ理論を発見していた. ベイズの論文は英国の雑誌にちょろっと発表されただけで忘れ去られていた.

ラプラスベイズの発明「出発点となるguess」を知ると, すぐに自分の理論に組み込んだ.

手計算が大変なことが多かった. いろいろ近似テクニックを考え, その中でも母関数はまだ残ってる.

フランス革命: 有名な科学者達が命を落とした. と同時に, 革命によって科学が趣味から職業になった.

ラプラス, 科学界の重鎮となる. ナポレオンとも関わり深い. ナポレオンとの「神という仮説は私には必要ない」といった議論は有名.

さらに1810年, 中心極限定理を発見. 同じような項の平均は釣鐘型の正規分布になる, というもの.

科学においても統計学においても空前絶後の発見と言ってもいいこの定理

62歳で大きな方向転換. ベイズの法則を捨てて頻度論者になる. 20世紀の理論化はこの頻度論でベイズを抹殺した. 転換した理由: データが膨大であればどっちの方針でも同じ結論が得られるため. とはいえ, 曖昧な事例ではベイズが役立つ.

最後にラプラスベイズの法則の一般形を作る.

ラプラスの確率論は直感が基盤.

「本質的には, 数学へと還元された常識感覚以外の何者でもない. これを使えば, 健全な精神が本能的に感じ取るもの -- 説明できないことが多い何かの正しさを正確に評価できる」

が, ラプラスが亡くなった頃から直感に反する自然の事象が次々出て来た.

数値万歳の時代. 「主観」が嫌われベイズ不遇の時代. フランス軍, アメリカ労災保険料など実用場面で使われ続け細々と生き残る.

ベイズの筆頭, フィッシャー. クズだったらしいな. あとはネイマンも半ベイズ. とくに事前確率をとりあえずすべての可能性が等しいと仮定することを詐欺だと.

フィッシャーの友人, ジェフリーズはベイズを再評価. ラプラス以後はじめてベイズを実践的に使い, 近代的なベイズ統計学の創始者となる. フィッシャーが不確かさの尺度としたのは「p値と有意水準」であったが, ジェフリーズはp値が十分に小さい時(偶然起きた確率が小さい時)しか仮設を棄却できないことに疑問. 実際に起きた情報を元に「自分の仮説が正しい確率」を知りたいけど, なんで実際に起きてない事柄を拠り所に仮設を棄却せねばならんのだ, と.

p=0.0.4でも, ベイズ派は棄却せずに起こる確率(オッズ)が100にひとつはある, と見る.

ジェフリーズは科学的応用に興味があり, 将来使われる戦争における意思決定の問題は触れてなかった.

第二部: 第二次大戦時代

チューリングによるエニグマ解読. 「逐次分析」を始めて行った. オッズの単位を決めて, 主観的推測を(computerこそなかったが)システム化した. でも結局物理で殴ってドイツ兵から暗号表の一部を掠め取ってようやく解読できたみたい. エニグマ強いな.

イギリスのチューリング, アメリカのベル研究所にいたシャノンと出会う. シャノンによって電気による音声通信(映像も)の基礎が数学理論としてまとめられた. 情報量を計測する単位bitもシャノンが考えた.

対潜水艦作戦で導入されたのがオペレーションズ・リサーチ(作戦研究, OR). ベイズア・プリオリな手法がORで大きな役割を果たす.

どこにUボートがいるか, マス目で先に居場所を仮定して情報を追加して, とやった.

戦争が終わると, 再びベイズは冬の時代に. 頻度万歳時代の到来.

第三部: 再興

保険数理士の世界から再評価.

ベイズ流損害保険料率を使うとなぜかうまくいくので使ってた. アーサー・ベイリーが保険数理士として就職して1年, けしからんと間違ってることを証明しようと頑張ったが, 結果正しいことがわかっただけだった.

最終的に, 保険数理士が「起きなかった出来事の確率をゼロにする」フィッシャー式の最尤法を使うのは自殺行為だという結論に. ;; 意見を変えることが出来るのすごい

ベイズを再生に導いた数学者

  • ジャック・グッド (戦時中チューリングの助手)
  • レオナード・ジミー・サヴェッジ
  • デニス・V・リンドレー

チューリングは戦後コンピュータに忙しかったので, グッドはチューリングの許可を得てベイズ的着想をpublishしていった. 頻度論者がやるように, 非常に確率の低い事象をゼロとおくのでは現実を表せないことがある.

グッドは愛弟子っぽい立ち位置で, のこりのふたりはベイズ派のリーダーとなっていく.

ガンと煙草の関係を調べた世界初の症例対照研究, ベイズが使われる.

1回の作業で自己が起きる確率が100万分の1であったとしても, 1万回行えばそれなりに確率は高くなる.

ベイズの二人組, フィッシャーとネイマンに言わせれば, 手元にある統計データと出所が異なる知識を取り込むという発想そのものが, 破門に値する異端だった.

p.237

1960年代, 雨後の筍のようにベイズ派の理論が増えてくる.

;; 数万種類は派閥があるらしくこの時代の流儀は分類して把握するのは無益だな.

古来から使われてきた「逆確率」という言葉は「ベイズ推定」に置き換わるのもこのへん.

フィッシャーの義理の息子(つーか娘のムコか)ジョージ・ボックスは大学で「統計学の基礎」を教えるウチ, またデータ不足の科学者を手伝ううちに, 従来の統計学ではめちゃくちゃな解しか出ないことに気づく. 「データが釣鐘状の確率曲線」「中央の値がアベレージ(平均値かつ代表値)」であるときに限っては頻度主義でもいけた. が...

出て来たのが「スタインのパラドックス」 スタインは頻度論者で, 数世紀前からの問題...具体的な問題に対してどのタイプの「中央の値」が最適か, という問題に頭を悩ませていた. 平均, 中央値etc. 研究の結果導いたのが縮小推定(シュリンケージ), またの名をスタインのパラドックス. だがこの手法を単純化するうちに, 例の保険数理士が使っていたベイズ起源の式が得られた.

フィッシャーは

自分が知らないと考えること != すべての可能性の確率が同じだと考えること

という認識を持っており, これが決定的な溝であった.

第四部: ベイズの実力

意思決定にベイズを使う.

ライファとシュレイファーがベイズを実用にたるものにした ;; 何段階実用的になってんだよベイズ

でも結局めっちゃ普及させたのはこの二人でもない. ;; だんだん歴史が鬱陶しくなってきたぞ

第五部: ベイズの勝利

1980に入るとコンピュータの時代. ベイズ派も頻度主義者も「次元の呪い」に悩まされた.

MCMC(マルコフ連鎖モンテカルロ法)がもたらしたインパク

;; MCMC, ベイズと繋がりのある話と理解してなかった

MCMCとギブス・サンプリングが, 統計学者が問題に取り組む際の手法を(パラダイムシフトと言って良いほど)大きく変えた. コンピュータの反復演算が数式に代わって「正確な」結果を出す世界へ突入した.

ジュン・S・リウによれば, ベイズや双方向(?)MCMCを使えばprotein/DNAのモチーフを判別できると. ヒトゲノム計画で出始めてたデータを分析してみせた.

キャプチャ

f:id:Hash:20140822042111p:plain

f:id:Hash:20140822063759j:plainf:id:Hash:20140822063812j:plain f:id:Hash:20140822063821j:plain f:id:Hash:20140822042106p:plain f:id:Hash:20140822042059p:plain f:id:Hash:20140822042054p:plain f:id:Hash:20140822042048p:plain f:id:Hash:20140822042042p:plain f:id:Hash:20140822042034p:plain