Ein wichtiger Grundsatz in der Gesprächsanalyse ist die Beschäftigung mit realen, ‚natürlichen’ Gesprächsdaten. Darunter sind jene Kontexte zu verstehen, die auch ohne Forschende ihre Existenz haben und nicht speziell für ein Forschungsprojekt arrangiert wurden. Arrangierte Gesprächskontexte wären beispielsweise Befragungen, Rollenspiele oder fiktive Gespräche aus literarischen Werken. Da es jedoch bei der Gesprächsanalyse im Wesentlichen darum geht, Aspekte der sozialen Ordnung in realen Gesprächen aufzudecken und zu verstehen, können nur reale Gesprächsdaten als Datengrundlage dienen. Dies wird bei Mondada (2013: 33) deutlich:
CA insists on the study of naturally occurring activities as they ordinarily unfold in social settings, and, consequently, on the necessity of recordings of actual situated activities for a detailed analysis of their relevant endogenous order.
Wichtig ist also, dass untersuchte Gesprächssituationen authentisch sind und auch normalerweise in denselben Kontexten auftreten. Dass dabei mit Aufnahmen gearbeitet werden soll, scheint eine logische Konsequenz zu sein. So besteht dann bei einer Aufnahme auch das Ziel darin, möglichst die reale Situation in ihrer Ganzheit zu bewahren und für Detailanalysen aufzuzeichnen. Erst bei der wiederholten Analyse der Daten können die relevanten Mikrophänomene der Gesprächsordnung im entsprechenden sozialen Kontext herausgearbeitet werden und es ist daher notwendig, die Daten für mehrfache Analysezugänge aufzunehmen.
Durch die Aufnahme der Daten entsteht jedoch das wohlbekannte observer’s paradox, das erstmals von Labov (1972: 113) besprochen wurde und von ihm folgendermassen beschrieben wird:
To obtain the data most important for linguistic theory, we have to observe how people speak when they are not being observed.
Er geht also davon aus, dass die Forschenden durch ihre blosse Anwesenheit Einfluss auf das Geschehen nehmen können und folglich muss die Natürlichkeit der Daten wiederum infrage gestellt werden.1 Durch ein entsprechendes Forschungsdesign kann der mögliche negative Einfluss ansatzweise eingegrenzt und kontrolliert werden. Mondada (2013: 34) betont, dass einerseits die technologischen Entwicklungen so fortgeschritten sind, dass kleine und unauffällige Geräte eingesetzt werden können. Andererseits könne man die Forschungssituation derart in die Analyse einbeziehen, dass Ausschnitte diskutiert werden, in denen sich Teilnehmende in irgendeiner Weise der Kamera oder dem Aufnahmegerät zuwenden. Dadurch wird das Beobachterparadoxon akzeptiert, indem diejenigen Momente, in denen die anwesenden Forschenden offensichtlich Einfluss auf das beobachtete Geschehen nehmen, selbst zum Gegenstand der Untersuchung gemacht werden. Wie gross der Einfluss der Forschungssituation tatsächlich ist, lässt sich schwer abschätzen und auch ten Have (2007: 69) hält fest, dass das Beobachterparadoxon wohl immer einwirkt, dass aber das Ausmass durch das Verhalten der Forschenden und das Arrangement der Aufnahme klein gehalten werden kann.
Während also Konsens darüber besteht, dass Aufnahmen von natürlichen Daten verwendet werden, herrscht noch Uneinigkeit darüber, ob zusätzlich zu den Gesprächsdaten auch ethnografische Daten erhoben werden sollen. Es gibt dazu längere Debatten, die sich mit der Frage des nötigen Kontextes in der Gesprächsanalyse beschäftigen (vgl. ten Have 2007: 73; Mondada 2013: 37). Nach Vorgaben der klassischen Konversationsanalyse werden grundsätzlich keine zusätzlichen Daten zu den Aufnahmen erhoben und miteinbezogen, da es sich bei ethnografischen Daten um Kontextfaktoren handelt, die im Gespräch nicht zwingend relevant gesetzt werden und so auch nicht unbedingt die soziale Aktivität mitstrukturieren, die wir zu analysieren versuchen. Diese Forderung wird beispielsweise von Schegloff (1991: 52) vertreten, der mit dem Ausdruck procedural consequentiality betont, dass der Kontext nur insofern relevant ist, wenn er im Gespräch einen direkten Einfluss auf die Sequenz hat. Nur wenn die Gesprächsteilnehmenden in irgendeiner Weise eine Orientierung am Kontext zeigen, soll dieser spezifische Aspekt des Kontextes oder Settings in die Analyse einbezogen werden. Demnach ist es nicht zulässig und der Analyse von Gesprächen nicht dienlich, weitere Kontextinformationen zu erheben. Die Analysen sind einzig auf die Gesprächsdaten zu stützen und Kontext wird nur dann relevant, wenn die Gesprächsteilnehmenden dies im Gespräch anzeigen.
Wenn also in der Konversationsanalyse von Kontext gesprochen wird, ist in der Regel der unmittelbare Kontext im Gespräch gemeint und nicht etwa das Setting oder Informationen zu den Teilnehmenden. Zentral im Zusammenhang dieser Diskussion ist das Begriffspaar context-shaped und context-renewing und die damit verstandene doppelte Kontextleistung jeder Äusserung (vgl. z.B. Drew & Heritage 1992a: 18f.; Heritage 1984a: 242; Heritage & Clayman 2010: 21f.). Eine Äusserung wird in einem lokalen Kontext produziert und rezipiert und ist demnach direkt beeinflusst von den vorgängigen Handlungen. Gleichzeitig konstruiert jede neue Äusserung einen wiederum veränderten Kontext, welcher die Folgehandlungen beeinflussen kann. Der Kontext wird also durch die indexikalische Leistung sprachlicher Praktiken gebildet und laufend reflexiv von den Gesprächsteilnehmenden aktualisiert und verändert (vgl. Garfinkel & Sacks 1970 zur Indexikalität und Reflexivität; vgl. auch Auer 1999: 127ff.; Stukenbrock 2013: 221f.).2
Obschon dieser ausschliessliche Fokus auf die Gesprächsdaten bei Untersuchungen zur grundlegenden Organisation von Gesprächen seine Berechtigung hat, gibt es dennoch Forschungsinteressen, für die der Einbezug weiterer Daten wünschenswert ist. Insbesondere in institutionellen Kontexten wird vermehrt empfohlen, zusätzliche ethnografische Daten zu erheben, um dadurch ein besseres Verständnis der Gespräche in ihrer sozialen Umgebung zu gewährleisten (vgl. Kap. 2.1.3 zu ethnografischen Daten in institutioneller Kommunikation sowie Kap. 3.1 zum konkreten Vorgehen in dieser Studie).
2.1.2 Prinzipien der Gesprächsorganisation
Gespräche verlaufen nach bestimmten Ordnungsprinzipien, die eine wechselseitige Interaktion überhaupt erst ermöglichen und verhindern, dass mehrere Beteiligte unkoordiniert durcheinander sprechen. Sacks, Schegloff und Jefferson (1974) definieren in ihrem zum Klassikertext avancierten Artikel A simplest systematics for the organization of turn-taking for conversation die grundlegende Organisation des sogenannten Sprecherwechsels (turn-taking). Es geht dabei zum einen um die Struktur von Redebeiträgen (turn-constructional component) und zum anderen um die Regelhaftigkeit der Verteilung von Rederechten und Redegelegenheiten (turn-allocation component).
Ein Redezug (turn) ist in Bezug auf die Länge nicht vordefiniert und kann ein einzelnes Wort, eine Phrase, einen Satz oder gar ein längeres konversationelles Projekt wie eine Erzählung umfassen (vgl. Sacks, Schegloff & Jefferson 1974: 702; Stukenbrock 2013: 230). Redezüge können aus mehreren kleineren Turnkonstruktionseinheiten (turn constructional units, TCU) bestehen, welche jeweils von den Gesprächsbeteiligten als redeübergaberelevante Stellen (transition relevance place, TRP) interpretiert und für Sprecherwechsel genutzt werden können (vgl. Gülich & Mondada 2008: 39; Sacks, Schegloff & Jefferson 1974: 703). Durch die syntaktische, prosodische und nonverbale Realisierung zeigen Gesprächsbeteiligte an, wann sie einerseits einen Turn beginnen möchten und andererseits ihn als (vorläufig) beendet betrachten (vgl. Gülich & Mondada 2008: 40; Stukenbrock 2013: 237). Diese Anzeigeleistung bezeichnet man als Projektion (vgl. Auer 2005: 8). Es kommt dabei an übergaberelevanten Stellen immer wieder zu Überlappungen, die aber wiederum bezeugen, dass sich Gesprächsbeteiligte an Turnkonstruktionseinheiten orientieren und basierend auf ihrer ständigen Verarbeitung der laufenden Interaktion Erwartungen bezüglich der Fortsetzung bilden und den Fortgang antizipieren (vgl. Gülich & Mondada 2008: 40f.). Grundsätzlich gilt aber die Regel „one party talks at a time“ (Sacks, Schegloff & Jefferson 1974: 700), die auch im interkulturellen Vergleich von Stivers et al. (2009) getestet wurde und die sich in einer generellen Vermeidung von Überlappungen sowie zu langen Pausen zwischen Redebeiträgen manifestiert.
In Bezug auf die Verteilung von