Column

コラム

Column

IRT(項目反応理論)とは?試験問題作成者が知るべき理論

現代社会で生活するうえで、「試験」は切っても切り離せないものになっています。

学生時代の定期試験に始まり、進級試験や入学試験。社会に出てからも、社内試験や資格試験など、いつの時代においても能力や習熟度を測る手段として試験は行われてきました。

そこで浮かび上がる問題が、「試験問題の妥当性」であり、常に問題作成者を悩ませるテーマにもなっています。

この記事では、試験問題の妥当性を確認するために必要な、IRT(項目反応理論 / 項目応答理論: Item Response Theory / Item Latent Theory)について紹介します。

「合格するべき人が合格するための試験問題」を作成するための、必要な理論を知るきっかけになれば幸いです。

IRT(項目反応理論)とは

項目反応理論は、テスト項目に対する反応(どの選択肢に回答して正答、誤答の答えをだしたかなど)を見て、各項目ごとのモデルから受験者の能力や性格などを分析する理論体系を指します。

従来のテストでは、正答項目数で受験者の能力を判断していたのに対して、潜在特性尺度上の観点から受験者の能力や特性を判断する点に違いがあります。

心理学で使われ始めましたが、従来のテスト範囲を超えた問題に対して有効な解決法を与えてくれるため、教育分野・医療系分野のQOL尺度開発の場面では北米や欧州ではすでに実用水準で用いられてきました。しかし、日本では発展途上の段階で、近年ようやく公的試験でも用いられるようになりました。

IRT(項目反応理論)が必要とされる背景

従来のテストでは、問題ごとに配分された点数のうち、正答した項目の合計得点をもって受験生の能力として判断してきました。テストに含まれる項目は実施前に固定されるため、どのような項目をテストに含めるかによって受検者の能力判断の基準は異なってきます。

易しい問題の配点が高ければ多くの受験生が高得点になり、難しい問題の配点が高ければ多くの受験生が低得点になります。

 

単純な合計得点を判断基準に用いた場合、受験生の能力と問題の難易度の両方の影響を受け、高得点を獲得しても能力が高いのか配点に問題は無かったのか、判断が難しいという問題がありました。

テストに対する批判と評価

テストは、学校教育だけでなく社会生活においても、個々の能力や適性を測る手段として広く活用されています。

一方で、「点数で人の能力は計れない」「詰め込み教育の延長線上にあるテストに意味はあるのか」「多枝選択問題では思考力の育成につながらない」といった批判にさらされる場面もよくあります。

 ただ、テスト批判の中には、テストそのものに対する理解が不十分であったり、論点の違う問題の代替え批判であったりします。そのような事例も含めて、テストの作成や評価方法を検討する必要があることは否めない事実といえるでしょう。

テストの作成では、属人化は許容されるものではなく、作成目的や基準が明確であることが求められます。しかし、能力判定が目的テストや学力判定のテストでは、妥当性の確立されたテストが行われているかというと、疑問符がつく場面も少なくありません。

未だ、必要性の認知がいきわたっていない、テストそのものに対する信ぴょう性を上げ、高く評価されるテスト作成が急務といえます。

現在のテストが抱える問題点

受験者にとって有益なテストであるか?

問題点を集約すると、受験者視点の欠如が浮かび上がってきます。

問題作題者の意図や採点基準が公表されていたり、専門家による講評がなされているものもあります。しかし、それらはあくまでも作題者、専門家からみた印象評価であり受験者にとってどのようなテストだったのかという観点からの意見ではありません。

出題意図が伝わりにくい問題や意地の悪いひっかけ問題、思考力を問うという名目で、いたずらに難易度を高くしているだけの問題。

正解が正答であることが理解できない問題など、作成者の思惑が一方通行になっているテストが少なくないのが現状です。

視点の変換こそが、見直すべき問題点となっています。

テストについての研究が必要とされる

テストでの評価が受験生の人生に与える影響は、決して小さなものではありません。それゆえに、学校および試験実施団体は受験者の能力を適切に評価する義務があり、適切に評価できるテストを作成する必要があります。

現実問題として試験をなくすことが難しい以上、テストの内容を改良することが最良の改善策でしょう。しかし、テストを科学的に研究するためには、出題分野の理解には当然として、人間の心理に対する理解やある程度以上の情報学・数学の力が必要となってきます。

テスト作成に関する研究は、文理融合型で学際的な領域ともいえます。

できの悪いテストを排除して、良いテストのみ供給するように努力することは、大変意義の大きいことであり、テスト作成について研究することが必要となります。

IRT(項目反応理論)でできること

テストを作成・実施した後は、妥当性を確認する作業が必要となります。

受験生の解答データをチェックして、「意図の明確な問題であったか」「問題内容の品質はどうか」「適切な難易度であったか」などの確認が不可欠です。

PDCAサイクルを回すうえで、の”C”の部分にあたる妥当性確認の中でITR(項目反応理論)を活用することができます。

ここからは、ITR(項目反応理論)の手法を活用したテスト品質の評価を紹介します。

項目反応理論と従来の理論の違い

まず、項目反応理論について説明する前に、従来の合計得点の問題点についておさらいから始めます。

・問題の難易度と配点の影響

易しい問題と難しい問題の配分と配点についての問題です。合計得点を用いた場合、受験者の能力に加えて問題の難易度の影響から、高得点であっても能力が高いのか問題が易しかったのか区別できないという問題があります。

高い能力を有する者だけを選抜するのが目的であれば有効かもしれませんが、多くの受験者の能力を適正に判断できるかどうかは、疑問符がつきます。

さらに、選択式の完全正答のみに配点がされた問題では、理解度の判定がより困難になるでしょう。

IRT(項目反応理論)では、項目の難易度や識別力などの「項目特性」から、受験者が正答する確率を考えます。そのうえで、受験者の解答データが得られやすい能力値を推定して得点とします。

項目特性と受験者自身の能力を、分離して考慮されているため、項目の難易度や配点の不具合による影響は受けません。

また、同質の能力を測るテストであれば、異なるテストで出された得点の比較まで可能となり、受験者自身の能力変化も捉えることができます。

項目反応理論で得られるデータ:項目特性曲線

項目特性曲線とは、項目と能力の関係を表す線を指します。さまざまな能力レベルにおける、項目別のプロットをしめしたもので、受験者の能力値を推定することが可能となります。

また、仕組みについて詳しく理解するには、「項目特性関数」について知る必要があります。

項目特性関数を数学で例にとって、図解を交えて解説していきます。

・測定項目は3つ。易しい項目、中程度の項目、難しい項目に分けます。

・図で表す横軸は受験者の能力。縦軸は項目に対して正答を出す確率を表す。

以上の条件で、3項目の正答率を表す曲線を見ていきます。

項目特性関数

①の線は、能力の低い受験者でも正答できる易しい項目を表しています。反対に、難しい項目を表す線は③で、中程度の項目を②の線が表しています。

この図で表す、受験者の正答率に対応する線を項目特性曲線と呼び、この線を書くための関数を項目特性関数と呼びます。

この項目特性関数は、困難度や識別力などの項目特性を表す値(パラメータ)によって決まり、その数値に沿った曲線が描かれます。

能力値の推定

前述した3項目のテストをしたと仮定して、能力値の推定を行ってみます。

能力値が②の線より下とされる受験者は、①の易しい項目は正答できても、②・③の項目は

正答できる確率が低いとみなされ、正誤のパターンは「1,0,0」になると推察します。

一方、能力値3以上とされる受験者は、すべての項目に正答するとみなされ、正誤パターン「1,1,1」になると推定されます。

難易度や識別力の項目特性値のデータが揃った項目を使いテストを行うと、各項目に対する解答パターンから受検者の能力値を推定することができます。実際の計算はコンピューターで行なわれますが、項目応答理論ではこの推定値の算出を項目特性関数を用いて数学的に行います。

このように、項目応答理論では解答パターンのデータを利用して能力値を推定するため、同じ正答数に対しても違う能力値で推定できます。

ただし、実際のテストにおいては、能力値に対して一定数を掛けたり足したりして、適度な数字に変換して使われています。

IRT(項目反応理論)に必要な要件

項目反応理論は、確固たる根拠を持つテスト理論であり、実用性に優れた特徴をもっています。しかし、すべての曲面で使えるものではありません。

問題構成のモデルの仮定が満たされないテストや、受験者数の少ないテストに対して適用しても効力を発揮しません。たとえば、臨時で作成された小テストや、クラス分けに利用される実力テストのように、限定的な集団に対して特別な目的をもって実施されるテストです。

そのような場合では、必ずしも項目反応理論を適用する必要性がなく、従来のテストの枠組みでも十分有用な情報が得られるでしょう。また、項目反応理論では、複雑なモデルが単純なモデルよりも優れているとは限りません。

従来のテストに対する問題点の解決策になるためには、重要な要件を揃える必要があります。

大量のデータ

適切な推定値を算出するためには、根拠となる大量のデータが必要となります。

項目の難易度や識別力、能力値推定に必要な項目数。適切な判断に必要なデータ量は、最低でも1,000人規模のデータが必要とされ、1回1回のテストで大規模な収集が必要になります。

 

適切な推定値を算出するためには、不可欠な重要要件となってきます。

データ項目の非公開

テストでは、 「予備調査項目」と呼ばれる、 難易度や識別力などの項目特性値を推定するための項目と、「本試験項目」と呼ばれる能力値を推定するための項目を混在させます。

どちらのものかは受験者に対して知らせることはせず、予備調査で推定した項目を、後日の本試験項目として使用します。

難易度や識別力は項目を公開すると、受験産業で利用されたり過去問題集に掲載されたりして、データとしての価値が下がるためです。そのため、項目応答理論を用いたテストでは、項目を非公開にする必要があります。

重要なテストほど受検者が多くなり、項目が漏洩する可能性も高くなります。テストの妥当性を保つためにも、非公開が原則とされています。

項目をストックする必要性

テストでは、幅広い受験者の能力を適正に測定することが求められます。そのため、易しい項目から難しい項目まで、大量の項目をストックしておく必要が出てきます。

仮に、項目を繰り返し使用していると、項目の難易度や識別力が変化してしまうこともあるので、大量の別項目をストックすることが求められます。

どの領域にどのような特性を持った項目をどのくらいストックしておくのか。何問くらい蓄積が必要か、以前使用したのはいつか?重複した項目と内容がないかなど、あらゆる情報を管理することが必要であるため、「項目プール」というものを構築します。

テストの規模によっては、数千~数万個の項目をストックしておく必要があるでしょう。

項目間依存の排除

項目応答理論において、受験者が各項目に正答する (誤答する) 確率は互いに独立した関係であると仮定することが必要です。

直前の問題の答えを使って次の問題を解くような問題は、前の問題に誤答したら必然的に次の問題も誤答になってしまい要件が満たされません。

前後の正誤に依存関係のないテストの構成が、項目応答理論においては大前提となっています。専門的には「局所独立性の仮定」と呼ばれ、1つの題材に対して複数の問題を設定する大門形式の問題は項目反応理論の妥当性を損なうことになります。

多肢選択問題を採用

項目反応理論をテストに活用する際に、2値の解答データ「正答を値1、それ以外は値2」が用いられる場合が多くあります。

「正答1、部分解答2、それ以外0」といった、多値データを利用する場合もありますが、算出計算が複雑化するうえに、より大量のデータが必要になります。

そのため大抵は、データ収集には容易で正確性の高い、「択一式多枝選択式問題」が採用されています。

IRTを活用して良質の試験問題を作成するために

従来のテストが抱える問題の解決策となるIRT(項目反応理論)。テストの信ぴょう性や妥当性を保つためにも、今後不可欠な理論となるでしょう。

IRTの活用は、欧米ではすでに浸透していますが、日本では認知度すら薄い状況です。また、活用には揃えるべき要件もあり、個人や1団体だけの動きでは難しい環境であることも事実です。

しかし、CBTソリューションズのサービスを使えば、IRTを活用した良質なテストの作成が可能となります。(対象サービス:https://cbt-s.com/service/analysis.html

不要な不合格者を出さないための良質なテスト作成にむけて、現場への導入検討をする余地がないかと自らに問いかけてみてはいかがでしょうか。

人気の記事