Kapitel 9 befasst sich für die klassischen Sprachen Latein und Griechisch mit der Überprüfung von Kompetenzen sowie deren sprachreflexiven Besonderheiten hinsichtlich der zentralen Fertigkeiten „Übersetzen“ und „Interpretieren“. Beides sind mehrstufige, komplexe Prozesse, die sowohl der Analyse als auch der Reflexion bedürfen. Bisherige Beurteilungs- und Korrekturpraktiken sorgten meist für negativen Washback, da „Sinn“ als wichtigste Beurteilungsdimension schwer zu fassen und die bisherige Negativkorrektur der Validität nicht zuträglich war, sodass man dazu überging, objektivierbare Teilkompetenzen zu messen.
Kapitel 10 zeigt den komplexen Begriff der Beurteilungs- bzw. Bewertungskompetenz (assessment literacy) auf, der anhand der Bereiche assessment of, assessment for und assessment as learning näher beschrieben wird. In diesem Kapitel werden verschiedene Funktionen der Leistungsbeurteilung erläutert sowie alternative Formen der Beurteilung (wie dynamic assessment) oder Methoden zur Datenevaluierung wie think alouds vorgestellt, die eine Brücke zwischen Lehren, Lernen und Testen ermöglichen.
Das abschließende Kapitel 11 ist der, vor allem punktuellen, Leistungsbewertung im Schulalltag gewidmet und beleuchtet (in)formelle Tests und teacher made tests. Dabei wird der Frage nachgegangen, welche Aspekte Prüfungsaufgaben im schulischen Kontext aufweisen sollen, um Anforderungen wie Transparenz und gute Nachvollziehbarkeit zu erfüllen.
Abschließend sei folgenden Personen und Mitwirkenden aufrichtig und herzlich gedankt, ohne deren Unterstützung dieses Buch nicht möglich gewesen wäre: den AutorInnen der einzelnen Kapitel, Katrin Schmiderer für die professionelle und unermüdliche Arbeit am Manuskript, Herrn Seger, Frau Lembke und Frau Gastring vom Narr Verlag für ihre Geduld und die gute Zusammenarbeit, Margareth Graf und Renate Stadler für das aufmerksame Korrekturlesen und, last but not least, allen Studierenden, die die Ausbildung am IMoF durchlaufen haben und durch ihre kritischen Fragen, Anmerkungen und wertvollen Diskussionsbeiträge auch ImpulsgeberInnen für das vorliegende Buch waren.
Barbara Hinger und Wolfgang Stadler
1. Ein historischer Einblick in das Testen und Bewerten von Fremdsprachen
Barbara Hinger
Kann-Beschreibungen
Ich kann
die historische Entwicklung des Sprachentestens in groben Zügen skizzieren.
die drei Sprachtestparadigmen nach Spolsky (1976) erklären.
aktuelle Desiderate der Sprachtestforschung beschreiben.
Die Forschungsliteratur zu Testen und Bewerten von Fremdsprachen kann bislang nur wenige Arbeiten nennen, die sich systematisch mit der geschichtlichen Entwicklung dieses Bereichs auseinandersetzen. Dabei verweisen die meisten AutorInnen zunächst auf die allgemeine Geschichte des Testens und Bewertens, die bereits in der Zeit der kaiserlichen Dynastien Chinas vor über 2000 Jahren, und damit sehr früh, einsetzte. Die damals etablierten Testverfahren dienten dem Zweck, die Bestqualifizierten – unabhängig von ihrer Zugehörigkeit zu einer bestimmten sozialen Klasse oder Familie – für den Staatsdienst auszuwählen (vgl. Spolsky 2008, 445; s. auch Fulcher 2010, 1ff.; Kunnan 2008, 135; O’Sullivan 2012). Dieses Chinesische PrinzipNormorientierte Bewertung bei der Auswahl der Besten nach dem Chinesischen Prinzip (Macaulay 1853; Spolsky 1995) machte in anderen asiatischen Ländern, wie Korea oder Japan, ebenfalls Furore. Nach Europa gebracht wurde das Prinzip der Auswahl der Besten von den Jesuiten, die es geschickt mit dem hier im Mittelalter vorherrschenden Treviso-Prinzip (Spolsky 2008, 444) verbanden. Diesem ging es nicht um das Feststellen der Bestqualifizierten, sondern um den Nachweis der Leistung von SchülerInnen am Ende eines Lernjahres: Je nach Erfolg der SchülerInnen bezahlte die Stadt das Gehalt der verantwortlichen Lehrperson. Damit standen der curriculare Inhalt und dessen Umsetzung im Mittelpunkt: Erfüllten die SchülerInnen die Vorgaben zu den Lehrinhalten, hatten sie bestanden. Aus heutiger Sicht kann vermutet werden, hier einen Vorläufer kriterienorientierterkriterienorientierte BewertungTreviso-Prinzip als Vorläufer kriterienorientierter Bewertung, inhaltsvalider Verfahren vorzufinden, bei dem die Testkriterien auf dem Curriculum basieren und die gelehrten Inhalte mit jenen der Prüfungen übereinstimmen sollten. Demgegenüber wäre die chinesische Art des Überprüfens wohl als normorientiertnormorientierte Bewertung zu charakterisieren: Die Leistung des Einzelnen wurde vermutlich zur Leistung der Gesamtheit der TestteilnehmerInnen in Beziehung gesetzt. War ein Jahrgang leistungsschwächer, konnte eine Person mittlerer Leistung eher zu den Besten zählen als in einem Jahrgang mit einer leistungsstarken Gruppe. Im weiteren Lauf der Geschichte bleiben beide Zugänge zum Testen und Bewerten erhalten. Sie finden sich auch in aktuellen Debatten und begleiten die Auseinandersetzungen insbesondere in Zeiten von Änderungen und Umbrüchen in einem Prüfsystem. Grundsätzlich ging es jedoch im Chinesischen Prinzip wie im Treviso-System darum, Günstlingswirtschaft durch Fähigkeits- und Leistungsnachweise zu ersetzen und damit einer subjektiv gehaltenen oder auf sozialen Faktoren beruhenden Auswahl eine Objektivierung der Leistungsbewertung gegenüber zu stellen. Diese zielte letztendlich auf Chancengleichheit ab (vgl. O’Sullivan 2012, 9). Historisch gesehen gelang es damit in China, den Einfluss der Aristokratie zurückzudrängen und eine kaisertreue Beamtenschaft zu etablieren (vgl. Kunnan 2008, 136). Auch das Auftreten einer education industry, die die verschiedenen Tests erstellte, war – inklusive negativer Rückkoppelungen (WashbackWashback) (s. Abschnitt 4.2.2) – schon zu beobachten (vgl. O’Sullivan 2012, 9f.).
Aufgaben zur Überprüfung bestimmter sprachlicher Fertigkeiten waren in den chinesischen Tests bereits inkludiert. So musste nachgewiesen werden, dass man in der Lage war, einen politischen Essay zu schreiben oder Gedichte anhand formaler Vorgaben wie Reimbildung zu verfassen (vgl. Kunnan 2008, 136).
In Europa trugen vor allem die Universitäten zur Verbreitung von Tests und Prüfungen beiVerbreitung von Tests und Prüfungen durch Universitäten und neu etablierte staatliche Bildungssysteme. Die Umgestaltung respektive Neuetablierung staatlicher Bildungssysteme, wie in Frankreich, Preußen und Österreich insbesondere im 18. Jahrhundert, und die damit einhergehende Ausweitung und Öffnung der Schulsysteme zogen ähnliche Effekte nach sich. Interessanterweise hinkte das britische System hier zeitlich gesehen hinterher, wie O’Sullivan ausführt:
Testing became a bigger issue in Britain in the 19th century when the establishment realized they needed to select people according to capability and end the practice of patronage (the French and Germans had already come to that conclusion almost half a century earlier). The introduction of competitive examinations to the civil service in the UK was preceded by the Oxford University Commission, which led to the introduction of examinations within the education system in 1850, […]. (O’Sullivan 2012, 10)
In Großbritannien wurden Anfang des 20. Jahrhunderts Tests für Englisch als Fremdsprache für Personen eingeführt, die aus den Kolonien stammten und eine Ausbildung im britischen Bildungssystem anstrebten (vgl. O’Sullivan 2012, 11). In den USA reichen erste Vorläufer von large-scale language testslarge-scale test respektive Sprachtests für eine hohe Anzahl an TestteilnehmerInnen