Bouwer, Renske, Béguin, Anton, Sanders, Ted & van den Bergh, Huub. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1), 83–100. doi: 0.1177/0265532214542994
Brennan, Robert L. (2011). Generalizability theory and classical test theory. Applied Measurement in Education, 24(1), 1–21. doi: 10.1080/08957347.2011.532417
Brindley, Geoff. (2013). Task-based assessment. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1–6). Chichester: Wiley-Blackwell. doi: 10.1002/9781405198431.wbeal1141
Brown, Annie. (2012). Ethics in language testing and assessment. In Christine Coombe, Peter Davidson, Barry O'Sullivan & Stephen Stoynoff (Hrsg.), The Cambridge guide to second language assessment (S. 113–121). Cambridge: Cambridge University Press.
Brown, James D. & Hudson, Thom. (2002). Criterion-referenced language testing. Cambridge: Cambridge University Press.
Bühner, Markus. (2011). Einführung in die Test- und Fragebogenkonstruktion (3., aktual. und erw. Aufl.). München: Pearson Studium.
Cambridge English Language Assessment. (2013). Principles of good practice: Quality management and validation in language assessment. Cambridge: Cambridge English Language Assessment. [abrufbar unter http://www.cambridgeenglish.org/research-and-validation/quality-and-accountability/]
Caspari, Daniela, Grotjahn, Rüdiger & Kleppin, Karin. (2010). Testaufgaben und Lernaufgaben. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 46–68). Münster: Waxmann.
Chalhoub-Deville, Micheline. (2003). Second language interaction: Current perspectives and future trends. Language Testing, 20(4), 369–383. doi: 10.1191/0265532203lt264oa
Chapelle, Carol A.. (2012). Validity argument for language assessment: The framework is simple … Language Testing, 29(1), 19–27. doi: 0.1177/0265532211417211
Chapelle, Carol A., Enright, Mary K. & Jamieson, Joan M. (Hrsg.). (2008). Building a validity argument for the Test of English as a Foreign LanguageTM. New York: Routledge.
Chapelle, Carol A. & Voss, Erik. (2014). Evaluation of language tests through validation research. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. III: Evaluation, methodology, and interdisciplinary themes (S. 1081–1097). Chichester: Wiley-Blackwell.
Cheng, Liying, Sun, Youyi & Ma, Jia. (2015). Review of washback research literature within Kane's argument-based validation framework. Language Teaching, 48(4), 436–470. doi: 10.1017/S0261444815000233
Eckes, Thomas. (2010). Die Beurteilung sprachlicher Kompetenz auf dem Prüfstand: Fairness in der beurteilergestützten Leistungsmessung. In Karin Aguado, Karen Schramm & Helmut J. Vollmer (Hrsg.), Fremdsprachliches Handeln beobachten, messen, evaluieren: Neue methodische Ansätze der Kompetenzforschung und der Videographie (S. 65–97). Frankfurt am Main: Lang.
Eckes, Thomas. (2011). Facetten der Genauigkeit. Zur Reliabilität der Beurteilung fremdsprachlicher Leistungen. Deutsch als Fremdsprache, 48(4), 195–204.
Eckes, Thomas. (2012). Operational rater types in writing assessment: Linking rater cognition to rater behavior. Language Assessment Quarterly, 9(1), 270–292. doi: 10.1080/15434303.2011.649381
Eckes, Thomas. (2015a). Introduction to many-facet Rasch measurement: Analyzing and evaluating rater-mediated assessments (2., rev. und erw. Aufl.). Frankfurt am Main: Lang.
Eckes, Thomas. (2015b). Validität: Flexionen eines polymorphen Konzepts. In Jessica Böcker & Anette Stauch (Hrsg.), Konzepte aus der Sprachlehrforschung – Impulse für die Praxis. Festschrift für Karin Kleppin (S. 449–468). Frankfurt am Main: Lang.
Field, John. (2013). Cognitive validity. In Ardeshir Geranpayeh & Lynda Taylor (Hrsg.), Examining listening: Research and practice in assessing second language listening (S. 77–151). Cambridge: Cambridge University Press.
Fischer, Johann, Chouissa, Catherine, Dugovičová, Stefania & Virkkunen-Fullenwider, Anu. (2011a). Evaluer par les tâches les langues à fins spécifiques à l’université: Un guide. Graz: European Centre for Modern Languages. [abrufbar unter http://gult.ecml.at/]
Fischer, Johann, Chouissa, Catherine, Dugovičová, Stefania & Virkkunen-Fullenwider, Anu. (2011b). Guidelines for task-based university language testing. Graz: European Centre for Modern Languages. [abrufbar unter http://gult.ecml.at/]
Gebril, Atta. (2010). Bringing reading-to-write and writing-only assessment tasks together: A generalizability analysis. Assessing Writing, 15(2), 100–117. doi: 10.1016/j.asw.2010.05.002
Grigorenko, Elena L. (2009). Dynamic assessment and response to intervention: Two sides of one coin. Journal of Learning Disabilities, 42(2), 111–132. doi: 10.1177/0022219408326207
Grotjahn, Rüdiger. (2008). Tests und Testaufgaben: Merkmale und Gütekriterien. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 149–186). Berlin: Cornelsen Scriptor.
Grotjahn, Rüdiger. (2015). Dynamisches Assessment: Grundlagen, Probleme, Potenzial. In Jessica Böcker & Anette Stauch (Hrsg.), Konzepte aus der Sprachlehrforschung – Impulse für die Praxis. Festschrift für Karin Kleppin (S. 469–488). Frankfurt am Main: Lang.
Grotjahn, Rüdiger & Kleppin, Karin. (2008). Bewertung produktiver sprachlicher Leistungen. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 187–204). Berlin: Cornelsen Scriptor.
Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt.
Gwet, Kilem L. (2014). Handbook of inter-rater reliability: the definitive guide to measuring the extent of agreement among raters (4. Aufl.). Gaithersburg, MD: Advanced Analytics.
Hamp-Lyons, Liz. (2016). Purposes of assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 13–27). Boston: De Gruyter.
Harsch, Claudia & Martin, Guido. (2013). Comparing holistic and analytic scoring methods: issues of validity and reliability. Assessment in Education: Principles, Policy & Practice, 20(3), 281–307. doi: 10.1080/0969594X.2012.742422
Harsch, Claudia & Rupp, André A. (2011). Designing and scaling level-specific writing tasks in alignment with the CEFR: A test-centered approach. Language Assessment Quarterly, 8(1), 1–33. doi: 10.1080/15434303.2010.535575
Hartig, Johannes, Frey, Andreas & Jude, Nina. (2012). Validität. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 143–171). Heidelberg: Springer.
Hudson, Thom. (2014). Criterion-referenced approach to language assessment. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II: Approaches and development (S. 561–577). Chichester: Wiley-Blackwell.
Huhta, Ari, Alanen, Riikka, Tarnanen, Mirja, Martin, Maisa & Hirvelä, Tuija. (2014). Assessing learners’ writing skills in a SLA study: Validating the rating process across tasks, scales and languages. Language Testing, 31(3), 307–328. doi: 0.1177/0265532214526176
In’nami, Yo & Koizumi, Rie. (2016). Task and rater effects in L2 speaking and writing: A synthesis of generalizability