IRT(項目応答理論)で実現できる事
Item Response Theory
最近、お客様よりIRT(Item Response Theory)の質問・問い合わせが増えてきました。
テスト業界においてより良いテストを作成するためにとても良い事だと思います。
IRT(Item Response Theory)の活用方法
さて、いただいた質問の中で感じた事なのですが、そもそもIRTを使って何を得たいのか?何ができるのか?という事を整理した方が良いのでは?と感じる事が多くなってきました。
今一度、初歩的なところから説明していきたいと思います。
IRTでできる事は以下の3点です。
(1)受験者の能力を正しく推定する。
(2)問題の分析を行う。
(3)適正な問題セットを作成する。
派生形はありますが、主には上記の為にIRTを活用します。
「いや、異なる試験でも等化して評価できるだろう」
「CAT(Computer Adaptive Test)ができるだろう」
など思う方もいらっしゃるかもしれませんが、前者は(1)もしくは(2)であり、後者は(3)とやりたい事は同じかと思います。
(1)受験者の能力を正しく推定する
受験者の能力を正しく推定するには、IRTでは受験者の能力をΘ(シータ)値として推定できますので、それを得点とする事で評価できます。
異なる試験においても等化処理をする事で、等化後の能力値Θを出す事ができますので、それぞれの試験で共通の能力値Θを算出する事が可能です。
主に100点換算にする場合、得点=aΘ+bで算出を行うのが一般的です。
このa,bに関しては線形近似曲線の式で簡単に求められます。
Excelを使えば、
a = SLOPE(yの範囲, xの範囲)
b = INTERCEPT(yの範囲, xの範囲)
となります。100点以上、0点以下は丸めて処理を行ってください。
等化については、共通指標が必要になるので、異なる問題を同じ受験者に解かせるか、同じ問題を異なる受験者に解いてもらうか、その共通の部分を基準に等化するという方式で行います。
ですが、受験者の能力が時期によって変わる事やコスト面を考えると、信頼性のある同じ共通問題をダミー問題としてセットし、それを軸に等化を行うという処理が望ましいでしょう。
(2)試験問題の分析を行う
試験問題の分析を行うについては、IRTでは主に二母数モデルを使いますので、a値(識別力)、b値(困難度)を算出できます。
(三母数で当て推量が・・・という考えもあるかと思いますが、そこは恐らく実践的には使わないので無視して良いでしょう)
a値が問題の品質を表し、b値が問題の難易度を表します。
この時、算出される能力値Θとb値(困難度)の関係性は等しいと考える事ができます。
Θ=2.5の人は、b=2.5の問題まで解くことができると考えて良いので、問題の分析として使えます。
a値、b値も等化処理を行う事ができますので、異なる試験でも共通のa値、b値を算出できます。
この点はIRTのメリットと言えるでしょう。
(IRTでなくても数学に詳しければ古典的試験理論の数値でも等化処理を行う事自体は可能です。しかし一般化されていない為、利用されるケースは少ないようです)
(3)適正な問題セットを作成する
これが一番IRTでやりたい事ではないかと思います。
(2)で問題のa値、b値が求められていますので、それらを活用して、同様の問題の品質、難易度をもった問題セットを複数セット作成しよう。
あるいはCATで正しく能力を推定できる問題出題形式を作成しよう。
というものです。
問題群からの複数セットの作り方は色々あります。
重要な考え方としては複数回利用を許すのか、どのセットでも1回しか使用を認めないのかです。
複数回の利用を許せば、相当な問題セットを作りだす事ができますので、随時形式や複数回試験を行うのに相応しい問題の作り方が実現できます。
なお、当社のCBTでは、a値、b値が算出されていれば、複数の問題セットをプログラム的に作る方法やCAT形式の出題方式は既にプログラム化がされており、製品サービスとして容易に実現が可能です。
上記の様にとても便利なIRTですが、弱点は何かと言いますと、算出にコストがかかる点と一度導入するとずっとその形式で評価、分析を行わないといけない点です。
導入する場合は、継続していく事を前提として採用・導入する必要があります。
以上がIRTで実現できる事のまとめとなります。
IRT利用を検討されている試験主催者様は、IRT理論を何に利用したいと考え、どのような結果を得たいのか、そのためにIRT採用が適正であるのかについて、今一度整理して検討していただけるとよろしいかと思います。