良いテストのためには、最低限、次の二つのことを満たさねばなりません。
それは、妥当性と信頼性です。
妥当性…そのテストが本当に測定したいものを測定しているか 信頼性…そのテストの結果は、状況にあまり左右されず、テスト対象の一貫した解答を期待できるか
つまり、車の速度を測るのに温度計は無意味(妥当性なし)ですし、壊れた速度計は速さの結果に一貫性を持ちません(信頼性低い)。
テストの目的のところで触れましたが、テストは必要な情報を得るために行われます。そのため、テストの目的に合致した内容のテスト、言い換えればテストの妥当性がなければなりません。 また、その場その場で結果が変わるのでは、テストによって得られたデータは信用がおけません。つまりテストの信頼性も求められます。
妥当性を測るには、データの蓄積が必要(別のデータとの相関を調べるため)ですが、信頼性は簡単に測ることができます。
次に、良いテストの条件として、良いテスト項目が挙げられます。 テストの問題は、記述式試験などを除けば、一対一対応が原則です。特に到達度評価の目安という位置づけでテストを行う場合は絶対です。一対一対応とは、一つの質問は、一つの知識によって答えることができる、ということを意味します。以下のような例です。
上の問では、鎌倉時代の将軍と主従関係を結んだ武士の名称、下の問では、指数の演算の知識があれば解くことができます。 つまり、室町時代や江戸時代の年号をいくら知っていても、平方根の外し方を知っていても解けないのです。
・・・ということは、問ができれば知識を持っていて、できなければその領域の知識の習得ができていないことがわかります。 一対一対応でないとこれが明確にはなりません。例えばこんな場合です。
この例では、花こう岩であると答えるためには「深成岩」と「有色鉱物が20パーセント以下」「けいちょう質」の、三つの知識が必要です。 もしこの問題で誤答があった場合、三つの知識のうち、どの知識の欠落による誤答なのかが明確になりません。もちろん、応用問題としての位置づけ(つまり基礎的な知識がある程度存在する)であれば、この問題自体は的外れではありません。
「公平でなくてはならない」というもの良いテストの条件です。同じ知識を持っているならば、同じくらいの点数が取れる、ということです。 できる限り、まぐれあたりを避けることが必要です。同時にヤマをはった人が、満遍なく勉強した人より点が良いというのも公平ではありません。 まぐれあたりを避けるといっても、多枝選択問題を否定するわけではありません。このことに関しては後ほど、ご紹介します。
公平であるために必要なことは、第一にテストの目的の沿ったものを満遍なく問題に組み込むことです。 こうすることによって、必然的に問題数が多くなり、山師とカタギの不公平をなくすことができます。 ただし、テスト時間の関係もありますので、問題の編成については後述する「細目積み上げ方式」を用いた方がよいでしょう。 第二に、選択問題はできるだけ設定しないことが必要です。
選択できる問題の相互の難易度は、果たして同じといえるでしょうか?センター試験などでは、平均点に一定の差が生じた場合に得点調整を行っています。平均点の差が20点なら得点調整を行う、となっていた場合に、点差が19点だったらどうなるのでしょうか?救済なしです。 つまり、選択問題同士の難易度の差を考えていないから、このようなことが起きるのです。 後述するアイテムバンク方式というテスト理念に基づいている場合においては、選択問題も問題ないのですが、そうでなければ避けるべきでしょう。
|