Salkind (2006) setzt Reliabilität mit Testqualität gleich, wenn konsistente Messungen garantiert sind1 – ein Ziel, dem sich Lehrpersonen auch im Schulalltag nähern könnten, wenn sie sich z. B. für das gemeinsame Ausarbeiten von TestspezifikationenTestspezifikationen (s. Abschnitt 5.3) entschließen und bereit sind, über die Fachteams oder -arbeitsgemeinschaften an den Schulen Tests (Klassen-/Schularbeiten) in Parallelklassen einzusetzen oder in vergleichbaren Jahrgängen auch an anderen Schulen durchzuführen.
Ein wesentliches Kennzeichen von Reliabilität ist der ReliabilitätskoeffizientReliabilitätskoeffizient, der den Grad der Messfehlerfreiheit eines Tests wiedergibt, oder der Wert der inneren Konsistenz (internal reliability) von Items – ermittelbar mithilfe eines Computer-Software-Programms wie SPSS (= Statistical Package for the Social Sciences). Der Koeffizient drückt aus, dass die einzelnen Items eines Tests zueinander passen, dasselbe theoretische KonstruktKonstrukt (z.B. Leseverständnis) überprüfen und dass die einzelnen SchülerInnen auf die gleichen Rangplätze verwiesen werden (vgl. Fulcher & Davidson 2007, 106). Auch wenn LehrerInnen nicht über die zeitlichen und technischen Ressourcen verfügen, die innere KonsistenzInnere Konsistenz von Testitems ist Voraussetzung für das Messen eines Konstrukts. von Testitems zu ermitteln (wie z. B. in Green 2013, 35–40 dargestellt), so können sie doch eine Reihe von einfachen statistischen Maßnahmen ergreifen, die ihre Klassen-/Schularbeiten und Tests reliabler machen2. Neben einer präzisen und klaren Aufgabenstellung sind dafür u.a. die Testlänge (Anzahl der Items bzw. der Aufgaben), die Homogenität der Items, der Schwierigkeitsgrad der einzelnen Aufgaben sowie die Bandbreite der Aufgaben (scope), die Wahlmöglichkeiten eher ausschließt, ausschlaggebend (vgl. Green 2014, 73; Schelten 1997, 117).
Je länger der TestTestlänge, homogene Items und trennscharfe Aufgaben erhöhen die Reliabilität. ist, desto geringer wird der Zufall sein, der das Testergebnis beeinflusst. Eine Aufgabe zu erstellen, die aus lediglich drei oder vier Items zum Gebrauch von Adverb/Adjektiv im Englischen oder aus vier oder fünf Items zur Verwendung der глаголы движения (Verben der Fortbewegung) im Russischen besteht, wird nur eine sehr geringe Aussagekraft über die grammatische Kompetenz der/des Sprachverwendenden haben. Je mehr Items zum Einsatz kommen und je homogener diese sind, desto reliabler wird das Ergebnis und die damit verbundene Interpretation in Bezug auf das gemessene Konstrukt (z.B. jenes der grammatischen Kompetenz). Ein Test zur Überprüfung des Leseverständnisses, der sowohl Items zum selektiven als auch zum detaillierten Lesen enthält, wird das Konstrukt Lesen deutlicher und umfassender repräsentieren, als wenn nur globales Lesen überprüft wirdKonstruktunterrepräsentation.
Je trennschärfer die Aufgaben sind, desto klarer kann zwischen lernstarken und lernschwachen SchülerInnen unterschieden werden und umso messgenauer ist die Klassen-/Schularbeit. Das bedeutet, dass mehrere schwache SchülerInnen nicht jene Items eines Tests lösen können sollen, an denen ein/eine gute/r SchülerIn scheitert. Man spricht in diesem Fall von ItemdiskriminierungItemdiskriminierung: Trennschärfe von Testitems. Deswegen gilt es zu leichte bzw. zu schwierige Items, Items, die das Erraten von Lösungen zulassen, oder Items, die Ausnahmen überprüfen, zu vermeiden, da sie die Reliabilität einer Aufgabe verringern (vgl. Alderson, Clapham & Wall 1995).
Die Beachtung der angeführten Punkte führt bei large-scalelarge-scale test oder high stakeshigh stakes test testing definitiv zu konsistenteren und genaueren Messungen, die Ergebnisse einer Überprüfung werden zuverlässiger und die Interpretationen gültiger. Reliabilität ist deshalb die Grundvoraussetzung für das folgende Testprinzip, die Validität oder Gültigkeit. Die Notwendigkeit, reliable, also konsistente Messungen im Schulkontext bzw. in classroom-based assessmentclassroom-based assessment zu erzielen, wird in der Testforschung erst in jüngster Zeit kontroversiell diskutiert (vgl. z. B. Jang 2012; Turner 2012) – auch in Zusammenhang mit der Ausbildung von FremdsprachenlehrerInnen (vgl. Graham 2005) und dem Begriff der Bewertungskompetenz (assessment literacyassessment literacy, s. Kapitel 10). WissenschaftlerInnen scheinen sich aber einig zu sein, dass die Anwendung psychometrischer Testverfahren mit exakter Datenaufbereitung und -evaluation im Klassenzimmerkontext nicht wirklich zielführend ist (vgl. u.a. Ingenkamp & Lissmann 2008, 173). Der Hauptunterschied zwischen large-scale- und classroom-based testing liegt in „the need for evidence“ (Turner 2012, 68): Summative und formative Bewertung im Klassenzimmer (s. Kapitel 10) hat das vorrangige Ziel, durch FeedbackFeedback den Lehr-/Lernprozess zu gestalten, zu verbessern bzw. zu verändern und neue Lernmöglichkeiten zu eröffnen – high stakes testshigh stakes test verfolgen dieses Ziel nicht. Reliabilität im schulischen Kontext könnte und sollte vor allem durch klare und transparente Angaben hinsichtlich Lern- und Bewertungszielen (learning and assessment intentions) wesentlich verbessert werden (vgl. Rea-Dickens 2006, 182).
4.1.3 ValiditätValidität
Das Testgütekriterium Validität und die Definition des KonstruktsKonstruktInhaltsvalidität: Tests enthalten eine repräsentative Auswahl von Aufgaben., das getestet werden soll, stehen in einer engen Wechselwirkung zueinander. Grotjahn (2006, 223) definiert Validität folgendermaßen: „Die Validität bezieht sich darauf, inwieweit ein Test das erfasst, was er erfassen soll, und inwieweit er zu fairen Entscheidungen führt“. „Das, was er erfassen soll“ verweist auf den TestinhaltKonstruktvalidität: Ein Test misst ein zugrunde liegendes theoretisches Konzept (Modell) von Sprachfähigkeit (language ability).. Klassen-/Schularbeiten müssen inhaltsvalideInhaltsvalidität sein, d.h. sie überprüfen den Sprachstand und somit eine aussagekräftige Auswahl dessen, was an Sprachverwendung und Sprachkompetenz gelehrt bzw. gelernt wurde. Dazu ist es notwendig, im Einklang mit dem Lehrplan zu sein (Quetz 2008), um der curricularen Validität zu entsprechen. Die Klassen-/Schularbeit muss zudem in ein KonstruktKonstruktvalidität, d.h. in ein theoretisches Konzept eingebettet sein; falls der GeR als Referenzquelle für die Erstellung von Tests herangezogen wird, muss die Klassen-/Schularbeit mit dessen Ansatz der Handlungsorientiertheit und seinem kommunikativen Kompetenzmodell kompatibel sein (vgl. Europarat 2001, 2.1, 2.1.2 und Kapitel 2 dieses Bands). Mit anderen Worten: Überprüft die Klassen-/Schularbeit tatsächlich eine repräsentative Stichprobe der sprachlichen Aktivitäten, die sie zu überprüfen vorgibt? Spiegeln die Interpretationen, die auf Basis der Ergebnisse der Klassen-/Schularbeit im Anschluss gemacht werden, das ihr zugrunde liegende Konstrukt wider und lassen diese Ergebnisse Verallgemeinerungen bzw. Rückschlüsse auf real life results zu (vgl. Green 2014, 75)? Wir können es noch anders formulieren: Was bedeutet die Note „Genügend“ im dritten Lernjahr des Wahlpflichtfachs Russisch auf A2-Niveau an einer Allgemeinbildenden höheren Schule (AHS)? Oder die Note „Gut“ im Leistungskursfach Russisch in der gymnasialen Oberstufe einer Gesamtschule? Wenn eine Klassen-/Schularbeit eine Antwort auf diese Frage geben kann, dann hat sie ihren Zweck erfüllt. Damit sie diesen erfüllt, muss sie adäquat gestaltet werden.
Klassen-/Schularbeiten orientieren sich als Leistungstests am Sprachstand der SchülerInnen und daran, ob diese gewisse Unterrichtsziele (des Konstrukts) erreicht haben – sie überprüfen also, „was unterrichtet worden ist“ (Europarat 2001, 9.3.1); aufgrund der am GeR ausgerichteten Lehrpläne ist der Unterricht kompetenzorientiert zu gestalten und Klassen-/ Schularbeiten müssen Bezug auf Kriterien nehmenkriterienorientierte Bewertung, die durch die in einem bestimmten Lernjahr zu erreichende Kompetenzniveaustufe vorgegeben sind1. Laut GeR (Europarat 2001, 9.3, 179) erfordert Kriteriumsorientierung
die Darstellung eines Kontinuums der Sprachkompetenz (vertikal – die Kompetenzniveaustufen von A1–C2) und eines Spektrums relevanter Lebensbereiche (horizontal – die Domänen privater, öffentlicher, beruflicher und bildungsinstitutioneller Bereich), sodass die individuellen Ergebnisse in einem Test mit Bezug auf den gesamten Kriterienbereich situiert werden können.
Das erfordert sowohl die Festlegung