ベイズ統計学による心理学研究のすゝめ(4)

マルコフ連鎖モンテカルロ法

この大きな問題に対し,A. E. ゲルファンドとA. F. M. スミスは1990年の論文で,困難な積分計算を数値的なサンプリングで置き換える方法を提案しました(1)。彼らのアイディアは,困難な多次元の積分演算を行う代わりに,1次元ずつの分布から発生させたランダムな数(乱数)をたくさん集めることで,実用上十分な精度で事後分布について知ることができるというものです。この方法を使えば,例えばあるパラメータの事後平均を知りたい場合には,単純に,そのパラメータについて何千個も発生させた乱数の平均を計算すればよいのです。

こうした方法はいまでは,マルコフ連鎖モンテカルロ(Markov chain Monte Carlo: MCMC)法と総称されます。MCMC法の特長の1つは,その汎用性の高さです。以前のように,統計モデルごとに個別に開発されたアルゴリズムを使うのではなく,基本となるアルゴリズムを非常に幅広い統計モデルの推論に適用できるのです。また,MCMC法は分布の全体から発生させた乱数を利用するので,単に点推定だけでなく,任意の確率を与えての区間推定をすることもでき,さらにモデル選択のために拡張することもできます。MCMC法の登場によって,ベイズ推論が実用的なものになったのです。

BUGSとStan

また,統計手法が普及するにあたっては,ソフトウェアの存在が不可欠です。汎用性の高さというMCMC法の特長を生かせば,さまざまなモデルを柔軟に推定できるソフトウェアをつくることができそうです。

1990年代初頭から,こうした期待に最初に応えたのがBUGSプロジェクト(2) です。BUGSはスミスのもとで学んだD. シュピーゲルハルターらのグループが開発した,MCMC法を用いたベイズ推定を行うためのソフトウェアです。BUGSの大きな特徴は,ユーザーはモデルを記述しさえすれば,ソフトウェアがそのモデルについてMCMC法を用いた推定を実行してくれ,ユーザーが細かい計算アルゴリズムをプログラミングしなくてよいことです。利用する確率分布や変数の数,変数間の依存関係などを応用場面に合わせて自由に研究者が指定できることになり,統計モデリングがますます便利になりました。特にWindows版のWinBUGSは長い間,幅広いユーザーに利用されてきました。その後21世紀に入って,BUGSプロジェクトはオープンソース版のOpenBUGSに移行しました。またM. プラマーによって独立に開発され,安定さに定評のあるJAGS(3)の開発にもつながりました。

一方,コロンビア大学のA. ゲルマンらのグループは近年,新しいMCMC法を実装したソフトウェアStan(4)を公開しました。この中で利用されているハミルトニアン・モンテカルロ法というMCMCのアルゴリズムは,階層性や潜在変数を含むような複雑なモデルでも,サンプリングを効率よく行えることが特徴です。Stanの開発チームは精力的に開発を進めており,新しい機能もどんどん実装されていて,いま最も活発なMCMCソフトウェアのコミュニティとなっています。

なお,ここで述べたソフトウェアはいずれも無償で公開されています。

私も参加した,昨夏の世界最大規模の統計学の学会(JSM(5))で披露された映画のようなStanのトレイラー。講演の最初に流され,会場は大きく盛り上がりました。

統計モデリングの重要性

MCMC法の登場,そして,それを実装したBUGSやStanのようなソフトウェアの隆盛により,私たちはもっぱらデータに合ったよい統計モデルをつくることに集中できるようになりました。統計モデルとは,データがどのようにして得られたのか,その背後にある規則や生成メカニズムを,確率分布を使って数学的に表現したものです。表現するモデルのベイズ推定は,基本的にソフトウェアに任せることができるからです。このため,現代ではよい統計モデルを構築することの重要性が,これまでに以上に重要になっています。

前回の話とも一部重なりますが,一昔前の典型的な統計分析とは,「○○検定」や「○○分析」といった,いくつかの定型的な方法があらかじめ組み込まれたソフトウェアにデータを読み込み,数回クリックして分析を実行することでした。実験心理学でいえば,分散分析モデルによるF検定と,その後の下位検定(多重比較)という流れが典型的でした。しかし現代では,柔軟なモデルのベイズ推定ができるのですから,データがどのような機序で観測されたのか,その生成メカニズムを,そして背後の理論や集団差などを組み込んだ統計モデルを構築できるのです。よいモデルは,データからより多くの情報・知見を教えてくれます。そしてモデルのよさは,前回紹介したベイズファクターや,予測の観点から評価をすることができます。有意性検定から,統計モデリングへ――これは現在の統計学の応用における大きな潮流と言ってよいと思います。


1 2 3
執筆: