日本語教育能力検定試験に出題される、「良いテスト」についてまとめました。
主に心理学の概念や用語が用いられているので、やや違和感を感じるところでもあります。
良いテストの条件には、妥当性、信頼性、有用性の3つがあります。
1妥当性(validity)
妥当性には、構成概念妥当性、内容的妥当性、基準関連妥当性、表面的妥当性の4つがあります。
構成概念妥当性(construct validity)
測定しようとする構成概念が、実際にどれくらい適切に測定されているかです。
たとえば、「英語の能力」を測るテストはいくつも存在しますが、それらのテストがはたして英語の能力を的確に測定できているのかを見ます。
また、テストが現実の言語使用場面をどれだけ反映しているかという真正性(authenticity)も重要です。
ちなみに、「構成概念」は心理学用語で、「概念」と大体同じ意味のようです。つまり、目には見えないけど、それによって行動などを説明できると想定されるものです。
内容的妥当性(content validity)
テストの内容が自分の調べたいことを含んでいるかです。
会話の能力を調べるテストで、内容が作文だったらそれは内容妥当性が低いと言えます。
また、テスト内容が出題範囲内から出題されているか(逸脱していないか)を領域適切性、テストの出題範囲の中から偏りなく出題されているかを領域代表性といいます。
基準関連妥当性(crierion–related validity)
外部基準(関連のあるほかのテスト)と相関するかです。
簡単に言うと、(関連する)別のテストの結果と比べるということですね。
たとえば、自分のテストの得点と、ほかの関連するテスト(外部基準)の得点との相関が高ければ、基準連関妥当性が高いと言えます。
表面的妥当性(face validity)
テストの見た目が整っている、見やすい、テストらしく見えるかです。
2.信頼性(reliability)
信頼性とは、そのテストが信頼できるかです。主にテストの安定性と一貫性を見ます。信頼性を測る方法として、再テスト法と平行テスト法があります。
再テスト法(test-retest method)
同じ人に期間を空けて同じテストを2回させます。そして、1回目と2回目のテスト結果を比較します。
平行テスト法(parallel test method)
同じ人に2つのテストを行い、2つのテストの一致度を見ます。
ただし、2つのテストは設問や難易度、質、量は同じものを用います。 つまり、表面的には違いますが、内容的には同じテストです。
- 再テスト法=同じ人に同じテストを2回
- 平行テスト法=同じ人に2つのテスト
3.有用性(usefulness)
テストの有用性には、効率性と実用性の2つがあります。
効率性
テストが時間や手続きの面で実施しやすいかどうかです。
実用性
テストが費用、労力、設備などの面で経済的負担が大きくないか、実施がスムーズに行えるかです。