時代とともに歩み続けるテスト｜IIBCの活動｜IIBCについて

本連載では、TOEIC Programを開発するETSが、テスト品質の維持向上のために行っている取り組みについて、お伝えしていきます。今回も引き続きテストの「妥当性」を取り上げたいと思います。まずは前回のポイント2点を振り返りましょう。

ETSではテストの品質維持向上に向け、以下の3要素を高い水準で満たすため、常に自己点検している
- 妥当性：測るべきことを、測れている
- 信頼性：テスト結果に一貫性がある
- 公平性：誰にでも公平なテストである
TOEIC L&Rの開発スタート時、ETSは「妥当性」担保のため、「測るべきこと」を明確にすべく、「測定対象の能力」を実地調査し、言語モデルを構築した

それでは、本記事では「妥当性」について、どのような検証が行われたのかを見ていきましょう。実は、TOEIC L&Rの本格的な妥当性検証、つまり「測るべきことを、測れているか」を実証するための検証は、第1回公開テスト実施の直後に、実際の受験結果データを用いて行われました。その検証をETSでは、Initial Validity Study（初期妥当性調査）と呼んでいます。もちろん、設計からパイロット実施と評価までの全プロセスを通じて、一貫して妥当性を確認しながら開発が進められ、一定の妥当性の確認はできていたのですが、“本格的な妥当性検証”は公開テスト実施後だったのです。なぜ、実施前ではなく、実施後だったのか？　その理由はETSの研究員Donald Powersの言葉を借りると、「テスト開発者はテストの提供前にも妥当性検証をする必要があるが、本当の意味での妥当性検証は、受験者が真剣にテストに向き合う段階で初めて可能となる」ためです。事前の試行的な環境ではなく、受験者のその後の人生を左右し得るような本番環境で、真剣に受験していただいたTOEIC L&Rのスコアデータを用いることが、妥当性検証の精度や信憑性を上げる上で非常に重要な要素となるからです。

Initial Validity Study では、TOEIC L&Rの受験者500名をスコア帯ごとにグルーピングして抽出し、妥当性が確立している、言い換えれば高いスコア取得者には高い英語コミュニケーション能力があることが検証されている別のテスト（各技能を直接測定するテストや、TOEFL®テスト）を受験してもらい、TOEIC L&Rと各テストの結果に十分な相関性があるかを検証しました。統計分析の結果、TOEIC L&Rと、各テストとの間には高い相関性があることが明らかになり、TOEIC L&Rの妥当性を裏付ける結果となりました。

実は、こうして妥当性が証明されても、妥当性の追求は続きます。妥当性を裏付けるエビデンスは多いほど良いとも言われます。また、時代や環境の変化に伴いテスト自体が改訂・アップデートされれば、改めて妥当性検証が必要になります。実際TOEIC L&Rも2006年のテスト改訂時、16年のテスト内容のアップデート時に、妥当性検証を実施しています。先のPowersいわく“...validation is a never-ending process, and the process still continues for the TOEIC Tests.”。まさにTOEIC L&Rは時代とともにnever-ending processを歩み続けるテストと言えるでしょう。次回は「信頼性」を取り上げます。