公平性が高いテストを提供｜IIBCの活動｜IIBCについて

本連載では、TOEIC Programを開発するETSが、テスト品質の維持向上のために行っている取り組みについて、お伝えしていきます。ここまで、テスト品質を構成する以下の３大要素のうち、「妥当性」と「信頼性」について解説してきましたが、今回は、「公平性」を見ていきましょう。

妥当性：測るべきことを、測れている
信頼性：テスト結果に一貫性がある
公平性：誰にでも公平なテストである

世界中の多様な受験者を対象とするTOEIC Programでは、テストの公平性を担保すべく、様々な取り組みを行っています。

例えば、テスト問題を新たに作成するプロセスにおいては、「内容レビュー」「公平性レビュー」「センシティビティレビュー」といった複数のレビューが実施され、全てのテスト問題はこれらのレビューを通過しなければなりません。レビューでは、テスト問題に以下のような要素が含まれることのないよう、テスト開発の専門家がフィルタリングをしています。

測定対象外の知識やスキルを必要とする要素
受験者集団の属性^※（人種、民族、性別、年齢、障がいなど）によって有利・不利に働く要素
受験者が不快に感じる要素（差別や偏見など）

全てのレビューを通過し、無事にテストフォームに組み入れられた問題は、テスト実施後、今度は統計学的に「公平性」が検証されます。TOEIC L&RやTOEIC Bridge L&Rでは、テストが実施されるたびに、ETSの心理測定学者が全ての新規問題が意図したとおりに機能したか ──受験者集団の属性によって有利・不利に働く問題が発生していないか── を、実際の受験結果データを用いた統計分析を通じて検証しています。

例えば、問題に受験者の「性別」による有利・不利を生じさせる要素が含まれているかを検証する場合には、同じテストフォームを受験した受験者を男女別に分けて、問題の正答率を比較します。以下は架空の例ですが、問題B（下記右グラフ）のように、男女間で正答率に一定の水準を超えた差が発生する可能性があります。

統計分析の結果、問題Bのスコア帯別正答率が女性に比べて男性の方が有意に低いと判断された場合、問題Bは「受験者集団の属性（ここでは「性別」）によって有利・不利に働く可能性がある」として検知され、専門家による再レビューの対象となり、公平性の観点から不適格と判断された場合には、採点の対象から除外されます。

ETSでは、テストの設計・開発といった最上流の工程はもちろん、上記のようなテスト制作・実施・採点、さらにはリサーチや関連サービスも含めた全プロセスにおいて、「公平性」を担保すべく、厳正に取り組んでいます。

TOEIC Programでは受験者の皆様に、性別や年齢、その他背景情報（学歴や雇用状況等）の収集にご協力いただいています。これらの情報はスコアの公平性を担保するために欠かせない統計分析や、テストおよび関連サービスの品質向上のためのリサーチ等に活用させていただいております