随時でも耐えられるような試験問題の作り方とは？

IRT - Item Response Theory

2018-12-17

前回のお話しの続きです。対象はCBT試験になると思いますが、随時でも使えるような問題を作る方法についてです。

随時可能＝「何度受験しても正しく受験者を評価できるような試験問題作り」と定義します。

【1】試験問題は世に出ていない初物でないと意味がない！？

「初物でないと意味がない！」とはよく聞く意見ですが、それは本当にそうなのでしょうか？初物は数学的な証明がなされていない問題とも言えます。その正答率や受験者を識別する力は本当に出題者の意図ほど効果的に働いているのでしょうか？

私はそうは思いません。
あくまでデータに基づく証明をしない限り、それがその受験者の能力を正しく評価しているとは言えないと思います。

実際に本番前に仮想受験者に受験を行わせ、どのような受験者にどういう結果が出た問題なのかデータを取得すること。これは主にフィールドテスト等と呼ばれていたりします。本試験に利用する前にこの問題の能力を正確に測ろうと事前に調査することを目的としています。

このように問題の正確な能力を測ろうとする試みは非常に大変でコストもかかります。正確に受験者の能力を測ろうと努力をされている試験主催者様はそれだけでも尊敬に値すると思います。テストの主旨は、受験者の能力を正確に数値化することです。その点において、能力が分かった問題で問題を構成するのと、そうでない場合では大きく異なる取組みであると思います。

【2】「等化」とは？

『「等化」とは、異なったテストの結果、異なった受験者に対してのテストの結果を、項目パラメータや被験者能力値に関係なく、共通の原点と単位をもつ尺度に変換することである。』
・・・はい、分かりづらいですよね。

言い換えますと「等しい形になるように計算し直す」ということです。
例えば採点が非常に甘いAさんと辛いBさんがいたとします。これが実技試験で、同じ受験者にAさんBさんが採点を行った結果、同じ受験者なのに、Aさんは85点、Bさんは65点をつけました。現実社会ではよくあることではないでしょうか。
この場合、Bさんを基準にすると、Aさんの点数は甘すぎるので、-20点して65点と再配点します。そうすることを「等化」処理したと表現します。

等化は同一の受験者を軸にしたり、共通問題を軸にしたりすることで行うことが出来ます。これらの行為により、各問題の正確な能力を診断することが可能になります。

初物の試験問題でテストを行うと、前回より良い平均点が出た場合が発生すると思います。その場合に、果たしてこれは問題が簡単すぎてこの点数だったのか、受験者の母集団がただ単に優秀な集まりだったのかを証明することは出来ません。ですが、ここに例えば採点に利用しない正答率が分かっている共通問題を入れておくことで、今回の受験者の母集団が優秀な人達であったか、そうでなかったのかを判定することが出来ます。それにより、どのくらいの点数を合格基準にすれば良いか？また、今回の問題の正当な正答率等の性質を正確に算出していくことが「等化」することで可能となります。

【3】随時で同難易度の問題セットを作ろう！

問題の正答率等のデータが取れたら、次にそれを利用して同レベルの難易度の問題セットを作る方法を考えていきましょう。

仮に総問題が200問あって、ここから40問出題するという試験を作る場合を考えてみます。これをそのままランダムで出題すると、簡単な問題ばかりが出たり、難しい問題ばかりが出たりということが発生します。この場合ですと受験者の能力を測るのに相応しい問題セットの作り方とは言えません。そこで、難易度が同じようになるランダム出題形式を作ってみてはどうかと考えます。

問題の正答率で、簡単な問題A、普通の問題B、難しい問題Cに分けて、A,Cから各10問、 Bから20問ランダムで出題するように作ってみましょう。こうすると、どの受験者が受けても同じ割合で、難しい問題と簡単な問題が出題することになります。普通のランダムよりかなり試験の品質を上げることが出来ます。これを3段階ではなく、5段階にしたり、全体正答率の平均値を一定数値に近づける処理等を含めれば、同じ難易度で統一された試験をランダム出題で実現することが出来ます。

このような問題抽出方式をLOFT(Linear-on-the-fly Testing)方式といいます。難易度の不明な新問40問は、難易度が分かっていないので、ただランダムに抽出された前述の40問セットと同じです。それより、難易度のデータが取れている問題で同難易度の問題セットを作る方が、受験者の能力をより正確に測ることが出来ると言えましょう。

【4】IRTとは？

上記のようなことを行いたい場合に、試験問題の分析には、古典的試験理論等、様々な方法がありますが、近年最もテスト業界で注目を集めて採用されているのは、IRT（＝Item Response Theory：項目応答理論）です。
正直このIRTさえ分かっていれば、他の理論はいらないんじゃないかとまで思うほど良く出来ていると私は思います。（言い過ぎかもしれませんが。。）

IRTでは、受験者の回答データから、その問題の「識別力」、「困難度」を求めることが可能です(二母数モデルとしています)。

「困難度」は難易度です。
これは正答率と同じような意味で考えてもらってよい指標です。

優れているのは「識別力」です。
これはその問題が、どれだけその能力者の能力を適正に評価できるかを示す指標となります。
例えば、成績優秀者が多く間違え、成績が良くない層が多く正解してしまうような問題は、能力判定にふさわしくないため、この問題の識別力は低くなります。

この識別力と困難度を利用することで、その受験者の正確な能力を測ることが出来るような計算式がIRTでは提供されております。また、問題データの性質が分かっているわけですから、「等化」処理を行うことで、より最適にどの受験者が受験しても同じように能力を測ることが出来る試験問題セットを作ったりすることが出来ます。

単なる難易度だけでなく、識別力があることで、どれくらいの「情報量」＝「結果の信頼性」を表現する値も算出することが出来、一定量の情報量以上が期待される問題セットを作ることで、より信頼度の高いテストの作成が可能になります。

IRTでは、理論を活用することで以下のようなことが出来ます。

問題のステータス「識別力」「困難度」を測定できる。
問題のステータスより受験者の能力を　問題のばらつきに関係なく採点できる。
問題のステータスを利用することで　同等の質を持った問題セットを作成できる。
CAT（Computer Adaptive Testing＝適応型試験）を作成できる。

命題の随時可能＝「何度受験しても正しく受験者を評価できるような試験問題作り」ですが、結論としては、【3】のような正答率を利用して、同程度の難易度の試験問題が出来る作り方や【4】のようにIRT等の理論を利用してより高度に問題セットを作成する方法等があります。もちろん他にも複数のフォームを作ったりCATを作ったり様々な手法があります。

いずれにしても、命題はクリアできますので、CBT化に向けて、どうしても一斉試験や同じ試験問題でなくてはと悩まれている団体様は今回の随時でも能力を正しく評価できる問題の作り方について、参考にしてみてはと思います。また詳細に知りたい方は、是非当社にお問い合わせください。最適な問題セットの作り方や採点方法についてアドバイスさせていただきます。

【1】試験問題は世に出ていない初物でないと意味がない！？

【2】「等化」とは？

【3】随時で同難易度の問題セットを作ろう！

【4】IRTとは？

Categories