ETSのテスト品質3要素｜IIBCの活動｜IIBCについて

本連載では、TOEIC Programを開発するETSが、テスト品質の維持向上のために行っている取り組みについて、お伝えしていきます。まず、「テストの品質」を具体的にイメージしていただくために、逆に「こんな品質のテストでは困ってしまう」という例を挙げてみたいと思います。

測るべきことを、測れていない（的外れな問題が多い）
テスト結果に一貫性がない（難易度が毎回著しく異なる）
誰にでも公平なテストになっていない（特定の文化等に偏った問題が多い）

いかがでしょうか？これでは、安心して受験することはとてもできません。裏返せば、これら3つの点を満たすことは、テストの品質を担保する上で必須と言えます。テスト用語ではそれぞれ、「妥当性・信頼性・公平性」と言い換えることができます。

測るべきことを、測れている→ 妥当性がある
テスト結果に一貫性がある→ 信頼性がある
誰にでも公平なテストである→ 公平性がある

そして、この３要素を高水準で満たすことこそ、TOEIC Programを開発するETSが、テスト品質維持の基本方針としていることなのです。「テストに妥当性・信頼性・公平性がある」ことは、一見当たり前のように思えるかもしれません。ですが、ETSではこれらの要素が、科学的なエビデンスに裏打ちされていることを重視しています。そのため研究員らが量的データに基づくリサーチと検証を重ね、この３点を高水準で満たしているかどうかを常に自己点検し、テスト品質の維持向上に努めています。また、エビデンス情報もホームページや学会等を通じて開示しています。

今回は、3要素の1つである「妥当性」について、少し見ていきたいと思います。先述のとおり、「妥当性がある」状態とは「測るべきこと」を「測っている」状態を指します。では、「測るべきこと」とは何を指すのかと言えば、当然、そのテストが「測定対象としている能力」ということになります。TOEIC L&Rを例に取れば、「グローバルな日常や職場でコミュニケーションをするための国際共通語としての英語リスニング＆リーディング力」となります。1979年のローンチに向けてTOEIC L&Rの開発に着手したETSは、この「国際共通語としての英語」を正確に捉えるために、実地調査を実施しました。国際企業で働く非アメリカ人や、英語を母語としない地域で英語を教える教員へのヒアリングを通じて「国際共通語としての英語」の特徴を明らかにし、理論と実地の両面からの検証を重ね、測定対象の言語モデルを構築していきました。この科学的な手続きこそが、妥当性あるテスト開発の出発点となり、第1回公開テスト実施後に行われた検証によって、その妥当性が実証されるに至った訳ですが……この続きはまた次回にしましょう。