意外といける！学習心理学（3）

学習理論って難しいんじゃないですか？

Posted by Chitose Press | On 2016年02月15日 | In サイナビ！, 連載

条件づけを行うときには、条件刺激は1つだけとは限りません。光刺激と音刺激を同時に提示し、その後に無条件刺激が来るといった実験も行われています。この場合には、光刺激が無条件刺激の到来を予測する程度と音刺激が無条件刺激の到来を予測する程度が合計されて、全体としての予測の強さが決まると考えられます。そこで、理論2の式の中の予期を、「複数の刺激のもつ予測の強さ予期の合計」に書き改めておきましょう。これで、複数の条件刺激がある場合にも対応できる理論ができます。

理論3：ある試行での無条件刺激に対する予期の変化量＝条件刺激の強さ×(無条件刺激の強さ－複数の刺激のもつ無条件刺激に対する予期の合計)

これって何？

なんとか理論が作れたようです。オリジナルな理論、とは残念ながらいきません。できあがった理論は、レスコーラ＝ワグナー・モデル ^（1）と呼ばれるもので、正式には以下のような式で表されます。

ΔV＝αβ (λ－ΣV)

Δ（デルタ）は変化量という意味で、Vは無条件刺激に対する予期、α（アルファ）は条件刺激の強さ、λ（ラムダ）は無条件刺激の強さに対応します。Σ（シグマ）は合計を計算することを意味しています。β（ベータ）は無条件刺激の強さに関するものですが、今回は省略しました ^（2）。この理論は1972年に発表されて、古典的条件づけのさまざまな現象を説明できただけでなく、それまでに知られていない現象を予測し、そして実験的にその予測が確かめられたために、いまでも高い評価を得ているものです。レスコーラ＝ワグナー・モデルの重要な点は、理論を作る過程で見たように、複数の条件刺激による無条件刺激の予測の外れ具合を使って学習の速度を決めるというものです。すなわち、予測が外れて意外なことが起こると学習が進み、予測があたるようになると学習が進まなくなるというわけです。このように、予測誤差（prediction error）が学習において重要な役割を果たすというアイデアは、強化学習（reinforcement learning）と呼ばれる学習の枠組みにもつながり、また脳内のドパミン神経系の活動が予測誤差に対応しているという仮説が提案されるなど、学習心理学の枠を超えてさまざまな分野に影響を与えています ^（3）。

あらためて、理論を作る過程を見直してください。実験事実は実際に確認されたものですが、いくつかの仮定も設定しました。これはあくまでも仮定ですので、別の仮定を設定してもかまいません。別の仮定を導入して作られた理論もたくさんあります。今回は条件反応の変化に関する理論を考えましたが、他の学習現象に関しても同様の方法で理論を作ることができます。

まとめ――たかが理論、されど理論

大きな役割を果たしたレスコーラ＝ワグナー・モデルですが、万能というわけではありません。説明できない現象はたくさん報告されています。これは他の理論も同様で、少なくとも現時点では、古典的条件づけのすべてを説明できる理論は存在しません。その意味では、既存の理論はすべて間違いである、といえるでしょう。それでも、僕たちは学習理論の研究をしています。それは、正しい理論を作ろうという目標もさることながら、理論を研究することは事実の発見につながるという意味があるからです。異なる仮定を設定する理論のどちらがより妥当かを検証するためには実験が必要であり、実験を通じて新しい事実が発見できます。新しい事実は、既存の理論のどれかを支持することがあるかもしれませんし、まったく新しい理論が必要になることもあるかもしれません。とっつきにくいと言われる学習理論ですが、これがあるからこそ学習心理学は多くの実験事実を積み重ねて前進してきたわけです。

いかがでしたでしょうか。学習理論も、そこまで恐れるほどの難解さではないと思っていただけたでしょうか。予想していたのと違う？その予測誤差こそ、学習の原動力です！

（→第4回に続く）

文献・注

（1）　Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A. H. Black & W. F. Prokasy (Eds.), Classical conditioning II: Current research and theory. Appleton Century Crofts. pp. 64-99.

（2）　Vは条件刺激と無条件刺激の結びつきの強さ（連合強度）と書くべきですが、ここでは説明を簡単にするために予測の強さとしました。レスコーラ＝ワグナー・モデルの詳細は、（1）の元論文か、（3）の書籍を参照。

（3）　レスコーラ＝ワグナー・モデルを含むさまざまな古典的条件づけ理論については、今田寛監修、中島定彦編 (2003).『学習心理学における古典的条件づけの理論――パヴロフから連合学習研究の最先端まで』培風館を、強化学習に関してはSutton, R. S., & Barto, A. G.、三上貞芳・皆川雅章訳 (2000).『強化学習』森北出版が詳しいですが、入門としては八谷大岳・杉山将 (2008).『強くなるロボティック・ゲームプレイヤーの作り方――実践で学ぶ強化学習』毎日コミュニケーションズ、あるいは伊藤一之 (2007).『ロボットインテリジェンス――進化計算と強化学習』オーム社を参照。ドパミン神経と予測誤差についてはSchultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599や筒井健一郎・渡邊正孝 (2008).「報酬の脳内表現」Japanese Journal of Physiological Psychology and Psychophysiology, 26(1), 5-16などを参照。

1 2 3

執筆：澤幸祐