Die Verarbeitung auditiver Daten erfolgt hingegen durch die Aufnahme von Schallwellen über die Ohrmuschel in den Gehörgang, wo diese über das Trommelfell und im Mittelohr über die drei Gehörknöchelchen (Hammer, Amboss, Steigbügel) an die im Innenohr gelegene Cochlea (Ohrschnecke) weitergeleitet werden. Dies führt zu einer Aktivierung der dortigen Hörsinneszellen und Entstehung von Nervenimpulsen, die über den Hörnerven (Nervus vestibulocochlearis) zum auditiven Cortex gelangen (cf. ibid. 387sqq.).
Die sensorischen Module treffen in einem übergeordneten zentralen amodalen System zusammen, das die wesentlichen verbalen und nonverbalen Informationen mit bereits vorhandenen Konzepten abgleicht und weiterverarbeitet bzw. neue Konzepte aktiviert und in Form nichtsprachlicher Schemata organisiert (cf. Ballstaedt 1988, 10). Dieses befindet sich vermutlich in dem Bereich zwischen dem visuellen, dem auditiven und dem taktilen Verarbeitungsmodul (cf. Abb. 4).
Abb. 4: Areale modalitätsspezifischer Verarbeitung im menschlichen Gehirn (Schünke/Schulte/Schumacher 2006, 378)
Neuroanatomischen Erkenntnissen zufolge geht man weiter davon aus, dass der Gyrus angularis „die Eingänge vom visuellen, akustischen und somatosensorischen Cortex [koordiniert] und […] die Wernicke-Region [beeinflusst]“ (Schünke/Schulte/Schumacher 2006, 381). Die Wernicke-Region ist für das Sprachverständnis zuständig und steht in direkter Verbindung zur Broca-Region, die für die Sprachproduktion verantwortlich ist. Beide Sprachzentren befinden sich normalerweise in der linken Hemisphäre des Gehirns und „sind durch den Fasciculus longitudinalis superior (=arcuatus) [sic] miteinander verbunden“ (ibid.) (cf. Abb. 5). Im Hinblick auf die Sprachverarbeitung geben aktuelle Studien zudem Hinweise darauf, dass sich die neuronale Aktivierung bei der Erst- (L1) und Zweitsprache (L2) teilweise voneinander unterscheidet. Dies gilt nach dem heutigen Kenntnisstand zwar nur für gewisse Teilfunktionen, könnte für die Schulung des fremdsprachlichen Hör-Seh-Verstehens aber dennoch von Bedeutung sein (cf. Mueller/Rüschemeyer/Friederici 2006, 182).
Abb. 5: Sprachregionen der normalerweise dominant linken Hemisphäre des menschlichen Gehirns (Schünke/Schulte/Schumacher 2006, 381)
Obgleich die neuronale Verarbeitung audiovisueller Stimuli – auch im Hinblick auf das fremdsprachliche Hör-Seh-Verstehen – weiterer Forschung bedarf, haben sich innerhalb der Fachdiskussion verschiedene Theorien der audiovisuellen Informationsverarbeitung herausgebildet, deren Modelle im Folgenden kurz skizziert werden. Eine ausführliche und detaillierte Gegenüberstellung kann an dieser Stelle nicht geleistet werden. Bei den Grundmodellen handelt es sich um ein dualistisches, ein monistisches sowie ein alternatives Modell der audiovisuellen Informationsverarbeitung. Allen Ansätzen ist gemein, dass sie von einem 3-Stufen-System ausgehen. Die erste Stufe beschreibt periphere Prozesse und Repräsentationen, bei der die Informationen modalitätsspezifisch aufgenommen und getrennt voneinander verarbeitet werden. Unterschiede bestehen zwischen den Modellen erst ab Stufe zwei, der Phase der repräsentationalen Informationsverarbeitung. Während Vertreter der dualistischen Theorie (e.g. Paivio) annehmen, dass eine Interaktion der Kanäle erst bei der referenziellen Informationsverarbeitung in Stufe drei stattfindet, gehen Vertreter des monistischen Modells von der Speicherung beider Sinnesmodalitäten in nur einem System aus (auch: amodales System).
Demgegenüber steht das sogenannte alternative Modell, bei dem (in Übereinstimmung mit der dualen Theorie nach Paivio) von einem „eigenständigen Repräsentationssystem für akustische und visuelle Prototypen“ (Gilmozzi 2002, 156) ausgegangen wird, bei dem Wort- und Bildstimuli im Zuge zentraler Prozesse (Stufe 2) zwar gemäß ihrer Modalität verarbeitet werden, jedoch durchaus miteinander in Verbindung treten können. Das Modell stellt somit einen Kompromiss zwischen der dualen und der monistischen Theorie dar (cf. Stachelscheid/Testrut 1997, 37). Es findet Unterstützung durch jüngste wissenschaftliche Erkenntnisse (cf. Abb. 6).
(S)= Sprachliche Information, (B)= Bildliche Information
Abb. 6: Drei Grundmodelle audiovisueller Informationsverarbeitung modifiziert nach Stachelscheid/Testrut (1997, 37)
Unter Berücksichtigung der konzeptuellen Nähe zwischen eingegangenen und vorhandenen Informationen unterscheidet Ballstaedt ferner zwischen drei Arten audiovisueller Integration, deren Verarbeitung an das jeweils vorliegende Verhältnis zwischen Text und Bild anschließt und über die Komplexität der geforderten Denkleistungen bestimmt. Diese umfassen Integration durch (1) Redundanz, (2) Komplementarität und (3) Inferenz.
Während bei redundanten Text-Bild-Beziehungen eine Aktivierung über das gleiche Konzept erfolgt, setzt die Integration durch Komplementarität voraus, dass mittels Text und Bild zwar unterschiedliche Konzepte angeregt werden, diese jedoch zueinander in Verbindung stehen und sich zu einer Botschaft ergänzen. Bei der Integration durch Inferenz findet die Integration hingegen erst durch die Aktivierung unterschiedlicher Konzepte im amodalen System statt, aus denen dann Schlussfolgerungen gezogen werden können. Bei den genannten Integrationsarten ist zu berücksichtigen, dass sie mit jeweils unterschiedlichem Vorwissen und einem unterschiedlichen Maß an Verarbeitungsaufwand verbunden sind, zumal inferente Text-Bild-Beziehungen weitaus komplexer sind als bei vorliegender Redundanz oder Komplementarität (cf. Ballstaedt 1988, 10sqq.).
Prinzipiell bedeutet der Einsatz audiovisueller Medien eine erhöhte Informationsdichte und folglich eine komplexere Verarbeitung gegenüber der einkanaligen Informationsaufnahme. Um der Gefahr einer Überforderung entgegenzuwirken, greift das menschliche Gehirn auf verschiedene Strategien zur Selektion von Informationen zurück, dank derer wir trotz Informationsfülle handlungsfähig bleiben (cf. ibid. 21sq.). Diese werden nachstehend erläutert.
3.2 Wahrnehmung als komplexer Prozess: Selektionsmechanismen und Aufmerksamkeitslenkung
In Ergänzung zu den Überlegungen des vorangehenden Kapitels geht die kognitive Theorie des multimedialen Lernens nach Mayer (2001, 43) davon aus, dass die Rezeption und Verknüpfung audiovisueller Inhalte dreierlei Maximen unterliegen. Diese umfassen die Prinzipien der dualen Kodierung, die eines begrenzten Arbeitsspeichers und die der aktiven Informationsverarbeitung.
Mayers Theorie basiert auf der Annahme, dass sprachliche und bildliche Informationen gemäß ihrer Sinnesmodalität automatisch getrennt voneinander aufgenommen werden, wobei Wörter im Gegensatz zu Bildern sowohl über die Augen als auch über die Ohren wahrgenommen werden können. Folglich können die Sinneskanäle durchaus interagieren. Dies ist etwa der Fall bei in Bildern oder Filmen auftauchenden Schriftzügen, deren Repräsentation zunächst anhand des visuellen und schließlich anhand des auditiven Kanals erfolgt. Gleiches gilt für erfahrene Lerner bei der mentalen akustischen Artikulation visueller Reize und vice versa.
In diesem Zusammenhang spielt die begrenzte Kapazität des menschlichen Arbeitsspeichers eine wichtige Rolle. Mit Verweis auf die cognitive load theory schreiben Wissenschaftler wie Baddeley, Chandler und Sweller unserem Gehirn ein limitiertes Maximum an Informationsverarbeitung pro Sinneskanal zu. Infolgedessen werden die eingegangenen Informationen einer Selektion unterzogen. Bei der Selektion handelt es sich um einen aktiven Prozess, bei dem relevante Informationen herausgefiltert werden. Der Abgleich und die Organisation bereits vorhandener bzw. gespeicherter Informationen mit neuen Reizen mündet in der Integration bildlicher und sprachlicher Konzepte. Ziel ist die mentale Repräsentation und Konstruktion kohärenter Sinneinheiten unter Rückgriff auf Informationen aus dem Langzeitgedächtnis. Sie gelten als Voraussetzung für erfolgreiches Lernen (cf. Mayer 2001, 46sqq.).
Die beschriebenen Vorgänge können dem von Mayer (2001, 44) entwickelten Modell zur kognitiven Theorie multimedialen Lernens, ebenfalls bekannt als S-O-I Modell (Selection – Organization – Integration),