Experimentelle Versuchspläne können auch wesentlich komplexer ausfallen. So ist es oft von Interesse, durch Vergleiche von Vorher- und Nachhermessungen in Treatment- und Kontrollgruppen zeitliche Veränderungen zwischen t1 und t2 zu erfassen. Der Treatmenteffekt wird in solchen Fällen mittels der Differenz zwischen den Gruppen und den zwei Messzeitpunkten berechnet. Solche Designs sind angebracht, wenn man davon ausgeht, dass auch ohne Setzen eines Treatments messbare Veränderungen (z. B. Reifung, Lernen) stattfinden. Außerdem ist es möglich, dass man den Zweigruppenvergleich systematisch erweitert. So können mehrere Treatment-Gruppen miteinander verglichen werden, etwa wenn verschiedene Treatment-Stärken eingesetzt werden. In den berühmten Milgram-Experimenten zur Gehorsamkeit gegenüber Autoritäten wurde etwa die Distanz-Nähe-Beziehung zu den vermeintlichen Opfern variiert und hinsichtlich der gezeigten Reaktionen verglichen (Milgram 1963, 1974). Außerdem ist häufig von Interesse, mehrere Bedingungen (mehrere unabhängige Variable) zugleich systematisch zu variieren und dabei jeweils mehrere Ausprägungen von Treatments zu berücksichtigen. Man spricht dann von mehrfaktoriellen Designs, wobei hier häufig sog. Moderatoreffekte erforscht werden: Je nach Ausprägung einer Drittvariable Z fällt der Zusammenhang von T und Y anders aus. Beispielhaft sind etwa Studien zum sog. Stereotype-Threat zu erwähnen. Nach der Theorie des Stereotype-Threat ist die Aktivierung eines negativen Selbstbilds, das dann nachfolgend zur Leistungsverschlechterung in Testsituationen führt, von situationalen Faktoren (z. B. der konkreten Aufgabenstellung) abhängig (Aronson et al. 1999).
Qualitätskriterien
Qualitätskriterien der mittels Experiment gewonnenen Daten sind die interne und die externe Validität (oder Gültigkeit). Von interner Validität spricht man, wenn die Randomisierung und das Setzen des Treatments durch die Versuchsleiter den Anforderungen entsprechend erfolgt. Die Zufallsaufteilung von Versuchsobjekten (in den Sozialwissenschaften: Probanden) ist deswegen elementar, weil nur so weitere, unkontrollierte Einflussfaktoren in ihrer Wirkung ausgeschaltet werden können. Man geht davon aus, dass durch die Randomisierung mögliche Störgrößen zufällig auf Treatment- und Kontrollgruppe [116]verteilt werden und sich in ihrer Wirkung aufheben. Damit dies wahrscheinlich wird, ist eine gewisse Mindestbesetzung beider Gruppen notwendig. Weiterhin kann die Setzung des Treatments misslingen oder beeinträchtigt werden. In diesem Fall ist die interne Validität nicht gegeben. Externe Validität bezieht sich auf die Verallgemeinerbarkeit des Treatmenteffekts aus der experimentellen Situation, häufig in Laboren, auf nicht-experimentelle Situationen.
Ein allgemeines Problem experimenteller Forschung ist die mögliche Reaktivität der Erhebungssituation auf die Probanden. Sie reagieren nicht nur auf das gegebene Treatment, sondern unkontrolliert auf die Randbedingungen der Durchführung des Experiments. Bekannt sind etwa Versuchsleitereffekte. Je nachdem, wer die Experimente durchführt, zeigen sich andere Resultate. Wenn Probanden oder Versuchsleiter über die Forschungshypothese Bescheid wissen oder nur meinen, Bescheid zu wissen, kann dies die Ergebnisse beeinflussen. Diesbezüglich werden Doppeltblindversuche, bei denen weder Probanden noch Versuchsleiter wissen, wer in der Treatment- und wer in der Kontrollgruppe ist, empfohlen. Außerdem sind in vielen Experimenten die Probanden eine selektierte Gruppe, oftmals handelt es sich um Studierende. Selbst wenn man diese Probanden zufällig auf Treatment- und Kontrollgruppe verteilt, sind die Ergebnisse des Experiments hinsichtlich der Generalisierbarkeit oft stark beeinträchtigt.
Feld- und natürliche Experimente
Man kann neben Laborexperimenten auch sog. Feldexperimente durchführen, die in für die Versuchspersonen gewöhnlichen (Alltags-)Kontexten stattfinden. Bei Feldexperimenten wissen die Probanden in der Regel nicht, dass sie an Experimenten teilnehmen. In solchen Fällen sind Feldexperimente nicht reaktiv. In den letzten Jahren haben sich zur Aufdeckung von Diskriminierung sog. Audit-Studien und Korrespondenztests etabliert (Überblick bei Pager/ Sheperd 2008). Dabei variiert man in realen Bewerbungssituationen etwa in Anschreiben und Lebensläufen den ethnischen Hintergrund von Bewerbern und analysiert die Reaktionen der Adressaten. Hier stellt sich die Frage der externen Validität nicht, allerdings müssen die Forscher den erzielbaren Wissensfortschritt gegenüber ethischen Bedenken abwägen. Von Feldexperimenten, bei denen die Versuchsleiter in einer gewohnten Umgebung experimentelle Bedingungen herstellen, sind natürliche Experimente zu unterscheiden, bei denen ein exogenes (oft natürliches, nicht vorhersehbares) Ereignis eine Randomisierung in Treatment- und Kontrollgruppe bewirkt. Joshua Angrist und William Evans wollten beispielsweise die Auswirkungen eines dritten Kinds auf die Arbeitsmarktbeteiligung von Müttern untersuchen (1998). Sie betrachteten die Geschlechtermischung von Familien mit zwei Kindern als eine Art von Zufallsaufteilung, weil der Geschlechtermix nicht manipulierbar erscheint. Bei zwei gleichgeschlechtlichen Kindern ist die exogen (d. h. nicht durch Präferenzen oder Arbeitsmarktchancen) beeinflusste Wahrscheinlichkeit größer, ein drittes Kind zu bekommen, als bei Familien mit zwei gegengeschlechtlichen Kindern. Die Ergebnisse natürlicher Experimente müssen besonders sorgfältig daraufhin geprüft werden, ob die gewünschte Zufallsaufteilung nicht durch kaum zu bemerkende Selektionsprozesse unterlaufen wurde. In diesen Fällen wäre der Kausalschluss wiederum gefährdet.
Experimente in der Evaluationsforschung
Ein wichtiges Anwendungsfeld experimenteller Forschung in den Sozialwissenschaften ist die methodisch kontrollierte Evaluationsforschung. Selten kann in Evaluationsstudien (»was bewirkt eine bestimmte Maßnahme«?) ein reines Experiment durchgeführt werden. Etwa ist eine wirkliche Randomisierung auf die Treatment- und Kontrollgruppe nicht möglich. Man spricht dann von sog. Quasi-Experimenten. In der Evaluationsforschung haben sich verschiedene Methoden etabliert, die experimentelle Idealsituation möglichst gut anzunähern. So wird etwa über das sog. Propensity-Matching, eine statistische Technik zur Bildung von Treatment- und Kontrollgruppe, angestrebt, in beiden Gruppen möglichst ähnliche Verteilungen hinsichtlich gemessener Störgrößen zu erreichen. Solche Verfahren waren in den letzten Jahren sehr hilfreich, die Logik experimenteller Designs mit dem Ziel kausalen Schließens auch in der empirischen Soziologie zu verbreiten (Gangl 2010). Hauptprobleme in Evaluationsstudien sind die Selbstselektion in die Treatment- und Kontrollgruppe. Dies kann man sich leicht an Hand der in vielen Universitäten üblichen Evaluation der Lehrveranstaltungen [117]verdeutlichen. Die Studierenden verteilen sich nicht zufällig auf die unterschiedlichen Veranstaltungen. Präferenzen nach Fach bzw. Wahloder Pflichtveranstaltung oder Rahmenbedingungen der Veranstaltungen (Uhrzeit, Gruppengröße, etc.) machen einen Vergleich der Resultate pro Veranstaltung schwierig bis unmöglich.
In der Praxis der (quasi-)experimentellen Forschung muss man sich mit dem Problem der Randomisierungsverzerrung beschäftigen. Es sollte ausgeschlossen sein, dass mit der Teilnahme an der Treatmentgruppe (und nicht durch das Treatment) eine Veränderung gegenüber der Kontrollgruppe einhergeht. Weiterhin sollte vermieden werden, dass Probanden, die der Treatmentgruppe zugeordnet wurden, aus systematischen, also nicht-zufälligen Gründen das Treatment verweigern. Eine Substituierungsverzerrung tritt auf, falls Mitglieder der Kontrollgruppe das nicht erhaltene Treatment ersetzen.
Der Einsatz von Experimenten in der Soziologie
Der vergleichsweise seltene Einsatz von Experimenten in der Soziologie hat mit ihren Forschungsgegenständen zu tun. Die in der Soziologie interessierenden sozialen Prozesse lassen sich vielfach nicht sinnvoll in Laboren nachstellen – etwa wenn es um die Wirkung von Bildung auf berufliche Chancen geht. Selbst wenn man hinsichtlich der institutionellen Variation von Bildungssystemen, in denen Probanden beschult wurden, von einer angenäherten Randomisierung ausgehen könnte (allerdings unter der Annahme: Eltern und ihre Kinder wählen das Bundesland, in dem sie wohnen, nicht nach dem Schulsystem), sind doch zu viele