テストの品質を維持向上し続ける｜IIBCの活動｜IIBCについて

本連載では、TOEIC Programを開発するETSが、テスト品質の維持向上のために行っている取り組みについて、お伝えしていきます。ここまで、テスト品質を構成する３大要素のうち、「妥当性」について取り上げてきましたが、今回は、「信頼性」を見ていきましょう。

妥当性：測るべきことを、測れている
信頼性：テスト結果に一貫性がある
公平性：誰にでも公平なテストである

テストにおける「信頼性」とは主に「テストの結果に一貫性がある」こと、つまり「いつどこで誰が受けても一貫性がある結果をスコアとして返す」ことを指します。

具体例を挙げてみましょう。「Ａさんがテストを受け、その晩は何も勉強せず、翌日に同じテストを受験したら、同程度のスコアだった」場合には、Ａさんの能力に変化がないことがスコアによって示されているため、テストの「スコア基準」がぶれていない、つまり「一貫性がある＝信頼性がある」と解釈することができるでしょう。

このようにスコア基準にぶれが生じないからこそ、スコアを基にした受験者同士の能力の比較（例：AさんよりもBさんのスコアの方が高い→Bさんの方がそのテストで測定される能力が高い）や、経時的な能力の推移（例：1年前よりもスコアが上がった→1年前よりもそのテストで測定する能力が上がった）の把握ができるようになります。

TOEIC Programを開発するETSでは、テストフォームごとの難易度のばらつきなど、コントロール可能な変数を取り除くことで、一貫性がある結果（スコア）を返し、信頼性の高さを維持できるよう取り組んでいます。具体的には、 TOEIC L&Rの問題を作成する過程において、フォーム間の一貫性が保たれているかどうかを、複数回におよぶ厳密なレビューによって検証しています。

さらには、公開テストを実施するたびに、全ての新フォームのスコア分布を分析し、フォーム間で生じる難易度の差異をequating（等化）と呼ばれる統計的な処理によって解消した上で、スコア基準が一貫している度合いを検証しています。その度合いは「信頼性係数」という数値で算出されます。信頼性係数は「０から１の値」で表され、「１」に近いほど信頼性が高いとされます。信頼性係数が「１」ということは「完全に一貫している」ことを意味するため、テストに付随する様々な変数（受験者のコンディションなど）を考えると、現実的にはまずあり得ないでしょう。

TOEIC L&Rの信頼性係数は、1979年の第１回公開テスト実施以来、リスニングセクションとリーディングセクションともに、常に「0.90以上」を維持し続けています。一般的なテストでは、信頼性係数が「0.75から0.80」程度で比較的高い信頼性があると言われますので、「0.90」を超えるものは非常に信頼性が高いテストであると言うことができます。

さらに、信頼性係数が算出されるまでのプロセスで明らかになった分析結果は、テスト開発メンバーにフィードバックされ、さらなる品質の向上に役立てられています。このようにして、ETSでは常に信頼性の高いテストを提供するべく、TOEIC Programの品質維持向上のサイクルを実践しています。