Wie oben bereits angedeutet, belegt mittlerweile eine zunehmende Zahl von statistischen Generalisierbarkeitsstudien, dass der Anteil der Varianz in den Messwerten, der auf die jeweilige Methode der Messung – und zwar insbesondere auf die Facetten „AufgabenAufgaben“ und „Beurteilende“ – zurückzuführen ist, zum Teil größer ist als der Anteil, der durch Unterschiede in der Schreibkompetenz bedingt ist (vgl. z.B. Bouwer et al., 2015; Van Steendam, Tillema & Rijlaarsdam, 2012). Insbesondere der starke Effekt von Genre und ThemaThemen auf die Schreibleistung sollte in der unterrichtlichen Prüfungspraxis verstärkt beachtet werden. Geht man von einer weiten Definition von Schreibkompetenz aus, dann reicht es nicht aus, zur Überprüfung nur auf ein einziges Genre und Thema zurückzugreifen.
Außerdem ist noch kritisch anzumerken, dass die beobachteten Aufgabeneffekte nicht notwendigerweise als konstruktirrelevant anzusehen sind. Konzeptualisiert man Schreibkompetenz nicht als eine stabile Disposition, sondern als dynamisches, kontextuell variierendes mehrdimensionales und sich nichtlinear entwickelndes Konstrukt (vgl. z.B. Chalhoub-Deville, 2003; Mislevy & Yin, 2009; Van Steendam, Tillema & Rijlaarsdam, 2012, S. xx; Verspoor, Schmid & Xu, 2012), dann ist in Abhebung von der Generalisierbarkeitstheorie die Varianz, die auf die eingesetzten AufgabenAufgaben zurückgeht, als konstruktrelevant zu interpretieren (vgl. auch Bouwer et al., 2015, S. 96). Folgt man dieser Argumentation, hätte dies allerdings u.a. zur Folge, dass Aussagen zum Stand der Schreibkompetenzen stets einschränkend im Hinblick auf die eingesetzten Aufgaben zu formulieren sind, z.B. als Fähigkeit zum Schreiben argumentativer und deskriptiver Texte (vgl. auch die Ausführungen zum TestkonstruktTestkonstrukt in Kapitel 5).
Abschließend ist noch darauf hinzuweisen, dass die im Zusammenhang mit der ReliabilitätReliabilität mehrfach angesprochene Frage nach der Generalisierbarkeit im Sinne der Gültigkeit der Generalisierungsinferenz nicht zu verwechseln ist mit der Frage, inwieweit ein Test es ermöglicht, anhand der beobachteten Leistungen auf die Fähigkeit zur Bewältigung äquivalenter Schreibaufgaben außerhalb der Testsituation zu schließen. Dieser Schluss, der Generalisierbarkeit normalerweise voraussetzt, wird auch als Extrapolationsinferenz bezeichnet und ist ein Aspekt der im Folgenden besprochenen ValiditätValidität (vgl. z.B. Kane, 2013, S. 10f.; 28f.).
4.2.3 ValiditätValidität
Die ValiditätValidität (Gültigkeit) gilt als das wichtigste GütekriteriumGütekriterien eines Tests. Es handelt sich allerdings um ein komplexes, kontrovers diskutiertes „polymorphes Konzept“ (Eckes, 2015b), das häufig in einem sehr weiten und unscharfen Sinne oder auch in sehr unterschiedlichen und z.T. inkompatiblen Bedeutungen verwendet wird (vgl. Newton & Shaw, 2014, 2016). Bevor man ValiditätValidität als TestgütekriteriumGütekriterien verwendet, ist deshalb stets zu klären, von welchem Verständnis des Konzepts man ausgeht.
4.2.3.1 ValiditätValidität als umfassendes Konzept
ValiditätValidität kann sich zunächst einmal auf das Ausmaß beziehen, in dem die Testergebnisse das erfassen, was sie erfassen sollen oder auch inwieweit wir mit Hilfe der Testergebnisse auf die angezielten fremdsprachlichen Verwendungskontexte extrapolieren können (Gültigkeit der Extrapolationsinferenz). Weiterhin kann sich ValiditätValidität auf die Frage beziehen, inwieweit die mit Hilfe der Testergebnisse getroffenen Entscheidungen gerechtfertigt sind. Die ValiditätValidität wird damit als von der Interpretation und Verwendung der Testergebnisse abhängig gesehen (vgl. bereits Messick, 1989, 1996, 1998). Ändert sich die Interpretation und/oder Verwendung oder sprechen neue theoretische und/oder empirische Belege für oder gegen die bisherige Interpretation und Verwendung, ist auch die ValiditätValidität jeweils neu zu bewerten (vgl. hierzu auch Moss, 2016).
Der beschriebene Sachverhalt spiegelt sich auch in der folgenden Definition von ValiditätValidität in der jüngsten Auflage der international höchst einflussreichen Standards for Educational and Psychological Testing (American Educational Research Association et al., 2014) wider:
Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests. The process of validation involves accumulating relevant evidence to provide a sound scientific basis for the proposed score interpretations. It is the interpretations of test scores for proposed uses that are evaluated, not the test itself. (S. 11)
Es ist allerdings nicht unumstritten, inwieweit bei der Bewertung der ValiditätValidität die Verwendung der Testwerte überhaupt eine Rolle spielen sollte. So schließen einige Autoren diesen Aspekt explizit aus ihrem Verständnis von ValiditätValidität aus und propagieren ein eher enges, konservatives Konzept von ValiditätValidität. Dies bedeutet allerdings nicht, dass diese Autoren die Wichtigkeit der Testwertverwendung für die Bewertung der Qualität eines Testinstruments negieren (vgl. die Diskussion dieses Aspekts in Kane, 2016; Markus, 2016; Newton & Shaw, 2016; Sireci, 2016).
Für eine explizite Ausweitung der ValiditätstheorieValidität in Richtung auf eine stärkere Berücksichtigung der tatsächlichen Verwendung von Testergebnissen in der Praxis spricht sich u.a. Moss (2016) aus – und zwar mit folgendem Argument:
By focusing validity theory exclusively on intended interpretations and uses of test scores, we overlook an important aspect of how tests actually inform and impact teaching and learning. Intended interpretations from standardised tests are always locally mediated and provide, at best, partial answers to local questions … A comprehensive validity theory in educational assessmentassessment needs to acknowledge the ways that education professionals – teachers, school and district leaders, and policy-makers – use tests and other evidence relevant to their students learning in their ongoing work. (S. 247)
Bei der Betrachtung der ValiditätValidität als umfassendes Konzept können eine Reihe von Einzelaspekten unterschieden werden. ObjektivitätObjektivität und ReliabilitätReliabilität (Generalisierbarkeit/Verlässlichkeit) gelten zumeist als notwendige, jedoch nicht hinreichende Voraussetzungen für ValiditätValidität. Dies bedeutet, dass eine hohe ObjektivitätObjektivität und ReliabilitätReliabilität nicht notwendigerweise auch eine hohe ValiditätValidität implizierten, dass aber ohne eine hinreichende ObjektivitätObjektivität und ReliabilitätReliabilität keine ausreichende ValiditätValidität erreicht werden kann (vgl. auch Hartig, Frey & Jude, 2012). So hat z.B. ein in hohem Maße objektiver und reliabler computerbasiertercomputerbasiertes Testen LexiktestLexik im Hinblick auf die Messung eines breiten Konstrukts von Schreibkompetenz nur eine sehr eingeschränkte ValiditätValidität. Gleichzeitig gilt, dass eine Beurteilung von Schreibkompetenzen anhand von unzuverlässigen Kriterienrastern und Bewertenden nicht hinreichend valide sein kann – z.B. im Sinne einer Übereinstimmung mit einem unabhängigen Außenkriterium. Vor diesem Hintergrund ist bei der Betrachtung der ValiditätValidität von Schreibaufgaben eine Berücksichtigung der GütekriterienGütekriterien der ObjektivitätObjektivität und ReliabilitätReliabilität und der verwendeten BewertungskriterienBeurteilungskriterien unverzichtbar.
Legt man allerdings ein sehr enges Verständnis von ValiditätValidität zugrunde, bei dem es lediglich darum geht, inwieweit die zu messenden Kompetenzen die Unterschiede in den Messergebnissen kausal bewirken, dann ist eine hohe ReliabilitätReliabilität weder notwendig noch hinreichend für die Erfüllung des Kriteriums der ValiditätValidität. Nach diesem Verständnis können Schreibaufgaben durchaus valide sein, auch wenn sie die angezielten Schreibkompetenzen wenig reliabel messen (vgl. zu dieser Position Markus, 2016, S. 256f.; Markus & Borsboom, 2013, S. 64; Newton & Shaw, 2016, S. 283f. sowie auch die Ausführungen zur KonstruktvaliditätValiditätKonstruktvalidität weiter unten).
Üblicherweise versucht man bereits beim Design und der Entwicklung eines Tests u.a. durch eine genaue Spezifikation der Testziele und des TestkonstruktsTestkonstrukt sowie durch strenge Qualitätskontrollen bei der Entwicklung der AufgabenAufgaben und Beurteilungsskalen soweit a priori möglich die ValiditätValidität eines Tests zu gewährleisten (Design-ValiditätValidität oder a priori ValiditätValidität; vgl. auch Kim & Davidson, 2014; Mislevy & Yin, 2012). Zum (vorläufigen) Nachweis der ValiditätValidität