試験分析に必要なサンプル受験者数の考え方
Number of examinees valid for test analysis
先日、あるお客様より「試験分析をするのに有効なサンプル受験者数の基準を教えてほしい」との質問を受けましたので、本日はこちらの話題に触れます。
恐らく多くの見識者に聞くと、250人だの、1万人だの、違う答えが返ってきてしまい、一体どの説を信用すればいいねん!ってなるんだと思います。
これはいずれも不正解ではなく、条件によって考え方が異なるからになります。
一般的に必要なサンプル数 n は、
n=λ^2×(p(1-p)÷d^2)
の式で求める事ができます。
λ:信頼水準
p:回答比率
d:標本偏差
^2は、2乗の意味
となります。はい、もう分からないですよね。
更にこの式は簡略化されており、実際には、対象の母集団の規模によっても数値は影響を受けます。
問題の性質によってこれらの値はややこしく変化しますので、一般的には?となると難しいものがあります。
更に、
1. 信頼係数を何%にするのか?
2. 許容できる誤差はどれくらいか?
を決める必要があります。ああ、ややこしい。
という事で、簡略化してしまおうと思います。一般的な目安と思ってください。
まず1について、これは偏差値の項目で触れた内容ですが、水準として、68%、95%、99%の基準のいずれかを選択します。
で、結果はほとんどの方が95%を選択します。
その場合、λ=1.96となります。(σ1.96個分が95%に当たるという意味です)
次に、2の許容できる誤差=標本偏差dについて、乱暴ですが、まぁ5%(0.05)と設定します。
これは統計学の基準的なものなので、こういうものだと思ってください。
回答比率 p に関しては、正解と不正解があるので、0.5としてしまいます。
そうすると、
n=1.96^2×(0.5(1-0.5)÷0.05^2)=384.16
となります。
凄くざっくりとした計算ですが、95%程度の信頼のおける誤差5%を目安とした基準で考えるならば、384人のサンプル受験者を集めればいいという話になります。
ただこの式では母集団の多さを意識していないものになりますので、これを考慮して、、と考えていくと面倒ですので、もう信頼レベル95%で許容誤差1-10%目安とした早見表を作ってみました。
式は割愛します。
母集団 | 許容誤差 | ||
---|---|---|---|
--- | 10% | 5% | 1% |
100 | 50 | 80 | 99 |
500 | 81 | 218 | 476 |
1,000 | 88 | 278 | 906 |
10,000 | 96 | 370 | 4900 |
100,000 | 96 | 383 | 8763 |
上記で考えると、許容誤差を10%にしてしまえば、100件程度のデータでも、まぁ意味がないわけではないし、1%の誤差という厳しい条件であれば1万人近くのサンプルが必要となるという事になります。
しかし一般的にといわれると、250~380人程度のデータがあれば、95%の確率で許容誤差5%に収める(=一般的に信頼できる)と考える数値となります。
分析する際の一つの目安としていただければ幸いです。