妥当性と信頼性がともに高いテストを提供｜IIBCの活動｜IIBCについて

本連載では、TOEIC Programを開発・制作するETSが、テスト品質の維持向上のために行っている取り組みについて、お伝えしていきます。ここまで、テスト品質を構成する以下の3大要素のうち、「妥当性」と「信頼性」について簡単に解説してきました。

妥当性：測るべきことを、測れている
信頼性：テスト結果に一貫性がある
公平性：誰にでも公平なテストである

今回は、両者の違いを整理しておきましょう。TOEIC Programの開発ディレクターを務めたProtase Woodford氏は、テストの「妥当性」と「信頼性」の違いについて、以下のように端的に表現しています。

「信頼性のあるテストであっても、必ずしも妥当性があるとは限らない」

これは具体的にはどういった意味なのでしょうか？Woodford氏が、以下のように説明しています。

「アラビア語のテストがあるとします。アラビア語文法の全ルールを理解し、中東史の知識も持つ受験者が数回にわたりいずれも高得点だった場合、テストの信頼性はとても高いと言えます。一方で、仮にそのテストがスピーキング力を測るテストでありながら、アラビア語のスピーキングタスクを課していないとしたら、そのテストには妥当性がないと言えます」

いかがでしょうか？　このアラビア語のテストは、測定に一貫性があるので信頼性は高いのですが、測ろうとしていることが測れていない（＝スピーキングテストでありながら、スピーキング問題が含まれない）ため、妥当性に乏しいわけです。つまり、信頼性は高いが妥当性はない、というケースが成り立つことを示しています。

では、さらに整理するために、図を用いて考えてみましょう。以下は妥当性と信頼性の関係性をダーツに例えた図です。円はダーツの的を、点は当たった矢の跡を表しています。これをテストに見立てたとき、妥当性と信頼性がともに高いのはA、B、Cのどれでしょうか？

正解はCです。Cでは標的に一貫して命中しています。これをテストに見立てると、測るべき対象を一貫して測れている、ということになります。対して、Aは標的を外していて（妥当性が低い）、当たる場所も様々（一貫性がない）ですし、Bは当たる場所は常に同じ（一貫性がある）ですが、標的を大きく外しています（妥当性が低い）。つまり、Cのみが、妥当性と信頼性がともに高い、テストとしての在るべき姿を表していると言えます。なお、妥当性や信頼性については様々な角度から研究や議論がされており、唯一解はありませんが、ここでは両者の関係性を明確にする目的で単純化して示しています。

TOEIC Programについても、設計・開発・実施・運営の全てのプロセスにおいてCのような在るべきテストの姿を追求し、妥当性・信頼性の高いテストをお届けしています。