Um größtmögliche Repräsentativität der Stichprobe zu gewährleisten, muss in der Forschungspraxis oft auf mehrstufige Sampling-Verfahren zurückgegriffen werden. Dies lässt sich beispielhaft an der Studie von Grum (2012) darstellen: Untersucht wurde das Leistungsspektrum mündlicher englischer Sprachfähigkeit von Schülerinnen und Schüler der zehnten Jahrgangsstufe mit und ohne Bilingualem Sachfachunterricht in Berlin. Da es zum Erhebungszeitpunkt eine überschaubare Menge an Schulen mit bilingualem Sachfachunterricht gab (drei Gymnasien und drei Realschulen), wurden alle Schulen in die Studie aufgenommen. Anschließend wurden zu gleichen Anteilen aus den bilingualen wie regulären Klassen per Zufall, stratifiziert nach Geschlecht und Leistung, 84 Schülerinnen und Schülern gezogen, die an einem mündlichen Test teilnahmen. Der Stichprobenplan stellt somit eine Kombination aus Vollerhebung und geschichteter Stichprobe dar. Als weiteres Beispiel aus der Sprachlehr-Lernforschung sei hier die Studie von Özkul (2011) zur Berufs- und Studienfachwahl von Englischlehrenden genannt. Auch hier wurde auf eine Mischform der Stichprobenziehung zurückgegriffen. Die GrundgesamtheitGrundgesamtheit lässt sich folgendermaßen beschreiben: alle Lehramtsstudierende mit Anglistik/ Amerikanistik an deutschen Hochschulen im Wintersemester 2008, die an studieneinführenden Veranstaltungen teilnahmen. An 19 von 40 möglichen Hochschulen wurden Fragebögen verschickt, die von den Studierenden beantwortet wurden. Dieses Verfahren scheint zu einer Klumpenstichprobe in Kombination mit einer Zufallsstichprobe zu führen. Allerdings kann dieses Verfahren nicht als probabilistisch beschrieben werden, da sich Hochschulen und Studierende selbst für die Teilnahme an der Fragebogenergebung entschieden haben (SelbstauswahlSelbstauswahl) und nicht per Zufall ausgewählt wurden. Somit ist die Stichprobe nicht zufällig, sondern willkürlich entstanden und als nicht-probabilistisch einzustufen.
Bei nicht-probabilistischen Sampling-Strategien (QuotenauswahlstrategienQuotenauswahlstrategien) spielt der Zufall keine Rolle, sodass ein höheres Risiko besteht, Auswahlfehler zu begehen, die zu einem verzerrten Abbild der Grundgesamtheit führen. Aus nicht-probabilistischen Stichproben gewonnene Ergebnisse erlauben daher keine verallgemeinernden Aussagen über die Grundgesamtheit, gleichwohl lässt sich aber die Stichprobe beschreiben. Daher sind nicht-probabilistische Stichprobenverfahren dann sinnvoll, wenn beispielsweise die Grundgesamtheit unbekannt ist oder eine Studie zu rein deskriptiven oder explorativen Zwecken durchgeführt wird. Zu nicht-probabilistischen Sampling-Strategien gehören u.a. folgende Stichprobentypen:
Ad-hoc-Ad-hoc-StichprobeStichprobe (BequemlichkeitsauswahlBequemlichkeitsauswahl oder GelegenheitsstichprobeGelegenheitsstichprobe): Eine bereits bestehende Personengruppe bildet die Stichprobe (z.B. eine Schulklasse oder Lerngruppe, Passanten). Es ist meist nicht zu rekonstruieren, welche Grundgesamtheit eine Ad-hoc-Stichprobe abbildet (vgl. z.B. Bortz/Döring 2006: 723, Bortz/Schuster 2010: 82, Cohen/Manion/Morrison 2011: 155–6).
QuotenstichprobeQuotenstichprobe: Die Zusammensetzung der Stichprobe erfolgt nach Merkmalsquoten, die analog zur Zusammensetzung dieser in der Population erfolgt. Es werden gezielt vermeintlich passende Untersuchungsobjekte in die Stichprobe aufgenommen, um die Quote für bestimmte Merkmalskategorien zu erfüllen. Die Erfüllung der Quoten spielt dabei eine größere Rolle als die zufällige Auswahl der Stichprobe und erfolgt nicht per Zufall, sondern nach subjektiven Kriterien der Datenerhebenden (vgl. z.B. Bortz/Döring 2006: 483, Bortz/Schuster 2010: 82, Cohen/Manion/Morrison 2011: 156). Von einer Quotenauswahl kann beispielsweise dann gesprochen werden, wenn die Vorgabe ist, je vier Englischlehrerinnen und -lehrer zu befragen und der Interviewer sich in den Schulpausen im Lehrerzimmer solange passende Interviewpartner sucht, bis die Quote erfüllt ist.
Theoretische StichprobeStichprobetheoretische: Nicht zufalls-, sondern theoriegeleitet werden für eine Forschungsfrage besonders typische oder untypische Fälle ausgewählt, mit dem Ziel, deren Verteilung in der Grundgesamtheit in der Stichprobe widerzuspiegeln (vgl. z.B. Bortz/Döring 2006: 742–3, Bortz/Schuster 2010: 82, Cohen/Manion/Morrison 2011: 156–7). Dieses Verfahren wird auch bei quantitativen Studien eingesetzt, findet aber primär in der qualitativen Forschung Anwendung (s. Kapitel 4.3).
3 StichprobengrößeStichprobengröße
Um eine möglichst hohe Repräsentativität für die Aussagekraft der Ergebnisse einer Studie zu erzielen, ist neben der Genauigkeit, mit der eine Stichprobe die Grundgesamtheit abbildet, und dem Grad an Zufälligkeit, mit der die Elemente der Grundgesamtheit in die Stichprobe gewählt werden, auch die Größe der Stichprobe von Bedeutung. Prinzipiell lassen sich statistische Kennzahlen mit jedem ‚irgendwie‘ erhobenen Datensatz jeglicher Größe berechnen – jedoch lassen sich weder die Qualität der Ergebnisse noch die Aussagekraft der Studie nachvollziehen. Wird ein quantitativ-empirisches Forschungsdesign mit auf die Grundgesamtheit schließenden inferenzstatistischen Verfahren angestrebt, lässt sich a priori der Umfang für die probabilistisch zu erhebende Stichprobe berechnen. Dabei wird ein möglichst optimaler Stichprobenumfang angestrebt, denn zu kleine Stichproben verringern die TeststärkeTeststärke und zu große Stichproben erhöhen den Erhebungsaufwand unnötig. „Stichprobenumfänge sind optimal, wenn sie einem Signifikanztest genügend Teststärke geben, um einen getesteten Effekt bei vorgegebener Effektgröße entdecken und auf einem vorgegebenen Signifikanzniveau absichern zu können“ (Bortz/Döring 2006: 736). Statistisch gesehen hängen Teststärke, EffektgrößeEffektgröße, α-Fehlerniveau und Stichprobenumfang voneinander ab. Dies bedeutet, dass sich die Stichprobengröße berechnen lässt, wenn man Teststärke, Effektgröße und α-Fehlerniveau festlegt. Diese Berechnung ist auch abhängig vom gewählten statistischen Verfahren, das auf die Daten angewendet werden soll. Das α-Fehlerniveau wird oftmals auf 5 % oder 1 % festgelegt und die Teststärke (1-β) auf .80. Die Effektgröße hingegen ist stark abhängig vom Forschungszusammenhang und wird oft in kleinere, mittlere und größere Effekte unterteilt. Der optimale Stichprobenumfang lässt sich für spezifische statistische Tests beispielsweise mit der Software G*Power berechnen oder in Tabellen nachschlagen (vgl. z.B. Cohen/Manion/Morrison 2011: 147–8, Bortz/Döring 2006: 627–8).
Zusammenfassend lässt sich für die Planung eines quantitativen Samplings folgender Ablaufplan erstellen: Zuerst wird entschieden, ob es nötig ist, eine Stichprobe zu ziehen oder ob eine Vollerhebung durchgeführt werden kann. Danach wird die Population in ihrer Größe und ihren erhebungsrelevanten Merkmalen definiert. Anschließend erfolgt die Festlegung auf eine für die Studie passende Sampling-Strategie. Zum Schluss wird überprüft, ob Zugang zur Stichprobe besteht (gatekeepersgatekeepers) oder ggf. die Sampling-Strategie geändert werden muss.
4.3.3 Sampling in der qualitativen Forschung
Da qualitative Forschungen nicht statistische Repräsentativität der Ergebnisse anstreben, spielt die Frage auch keine Rolle, ob die für die Datenerhebung gewählte Stichprobe für die Gesamtheit einer Population repräsentativ ist. Bei qualitativen Studien werden Auswahlentscheidungen deshalb nicht von probabilistischen, sondern eher von inhaltlichen Gesichtspunkten gesteuert; sie sind eng mit dem Forschungsprozess verbunden und stellen sich auf drei Ebenen, nämlich (1) der Ebene der Datenerhebung, (2) der Ebene der Datenauswertung und schließlich (3) der Präsentation der Ergebnisse (vgl. Flick 2011: 155). Damit das jeweilige Forschungsvorhaben intersubjektiv nachvollziehbar ist, muss das Sampling transparent und damit nachvollziehbar sein. Im Folgenden sollen solche Auswahlentscheidungen unter Berücksichtigung ausgewählter Forschungsarbeiten aus den Fremdsprachendidaktiken skizziert werden.
1 Vorabentscheidungen und Festlegung des Samples für die Datenerhebung
Die Festlegung der Stichprobe wird zunächst durch die Forschungsfrage und die theoretischen Vorüberlegungen des Forschers bestimmt; sie leiten eine von Kriterien bestimmte, gezielte Auswahl. Die Entscheidung ist demnach theorie- und kriteriengeleitet: purposive samplingpurposive