テスト理論から見た大学入試改革論(3)

次が重要なポイントですが,それぞれの項目は,その正答確率が能力レベルの関数としてわかっている(実際には,データから推定されている)ので,それぞれの正誤パターンとなる確率も,能力レベルの関数として表すことができます。たとえば,パターン2の〇〇×となる確率は,項目1に正答する確率×項目2に正答する確率×(1-項目3に正答する確率)です(3)

figure3-2

図2 最尤推定法の原理

図2は,3通りの正誤パターンのそれぞれについて,そのパターンが生じる確率を能力レベルの関数としてグラフ化したものです。これを見ると,たとえばパターン2の〇〇×となる確率は,能力レベルの上昇とともに高くなっていき,能力レベルが0と1の間くらいで最大となって,その後は低くなっていくことがわかります。易しいほうの2問に正答して,最も難しい1問に誤答するというパターンが生じるには,ある程度の能力レベルが必要ですが,それ以上に高い能力レベルだと,最も難しい1問にも正答する可能性が高くなるので,パターン2の確率は低くなるということです。

では,このパターン2のように解答した受験者の能力レベルはどの程度だと推定できるでしょうか。最ゆう推定法とよばれる推定法では,このパターンを生じる確率が最大となる能力レベルをもって,その受験者の能力レベルの推定値とします。パターン2の場合,計算すると能力レベルが0.59のとき確率が最大になりますので,能力レベルは0.59と推定されます。同様にパターン1の〇××の場合は,-0.59という推定値になります(4)

このように,項目の特性曲線さえ与えられていれば,どの項目の組み合わせでテストを構成しても,そのテストにおける正誤パターンから,能力レベルの推定が可能になります。つまり,複数回受験で,回ごとにテストを構成する項目が異なっても,問題なく,公平な能力推定ができ,互いに比較可能になるということです。

共通テストでのIRT適用の可能性

このように,理論的にはIRTを適用することで,複数回受験を行っても得点の比較可能性が確保できることがわかります。しかし,その前提として,各項目の特性曲線が推定されていなければならず,そのためには,プレテストをして実際に解答データを得る必要があります。IRTを活用しているテストの実際の運用では,本番のテストにおいて,一部,本番の採点には使用しないプレテスト項目を混ぜておいて,そこで項目特性曲線の推定のための解答データを収集する方法などが採用されています。

しかし,この方法を採用するためには,非常に多くの項目が用意されていて,プレテスト項目として混ぜた項目が,その後,本番のテストで使用されてもほとんど影響がないような状況が必要です。このような条件は,現在の大学入試センター試験でも,また今後の共通テストでも実現することが難しいといわざるをえません。

ところで,一連の議論の中では,IRTを利用して能力推定をし,結果は段階評価で,という案が出たことがあります。しかし,IRTは1点刻みよりももっと細かく,そして高い精度で能力推定をするための理論ですので,おおくくりの段階評価とは目指す方向が違います。

→第4回に続く(近日掲載予定)

文献・注

(1) アメリカにおけるミニマム・コンピテンシーテスト(課程修了のための最低基準をクリアしているか否かを判断するテスト)における基準設定については,専門家が「基準設定に関する文献が何か決定的な点をもっているとしたら,それは,コンピテンシーテストで,擁護しうる基準を設定することの困難さについてである」と述べています(Jaeger, R. M. (1989). Certification of student competence. In R. L. Linn (Ed.), Educational measurement (3rd ed.). New York: Macmillan. pp. 485-514.(井上俊哉訳,1992「学生のコンピテンスの証明」池田央・藤田恵璽・柳井晴夫・繁桝算男監訳『教育測定学』下巻,みくに出版,pp. 215-257.)の翻訳版のp. 226)。

(2) 「平成30年度東京大学推薦入試学生募集要項」p. 5,p. 35。

(3) このように掛け算で確率が求められるためには,能力レベルを所与としたとき,ある項目に正答するかどうかが,他の項目に正答するかどうかと独立であるという「局所独立性」を仮定する必要があります。これはIRTの適用において非常に重要な仮定で,テストの内容構成によっては無理な仮定にもなりますが,本稿では詳細は割愛します。関心のある方は,やや専門的な議論になりますが,以下の説明などを参照してください。
南風原朝和 (2000).「個人正答確率に基づく局所独立性の概念の明確化――実験的独立性および一次元性との関係を中心に」

(4) パターン3の〇〇〇の場合,つまり全問正答の場合は,能力レベルが高ければ高いほどそのパターンとなる確率が高くなりますので,最尤推定値は無限大になってしまいますが,実際の推定プログラムでは,有限の値になるように調整がなされます。


1 2 3