Um dies zu überprüfen, suchen wir im Bonner Frühneuhochdeutschkorpus (FnhdC) nach Belegen, die dem Lemma Frau bzw. Weib zugeordnet sind. Weil im FnhdC aber auch Komposita wie Jungfrau dem Lemma Frau zugeordnet sind, entfernen wir diese anschließend manuell aus der Konkordanz. Daraufhin entscheiden wir für jeden Beleg anhand des Kontexts, ob der jeweilige Begriff positiv, neutral oder negativ verwendet wird. So geht aus dem Kontext recht eindeutig hervor, dass Weib in Beispiel (5) eher positiv verwendet wird, in (6) hingegen äußerst negativ, in (7) dagegen neutral.
(5) | Ist das du mir den apphel gebist ich wil dir zu kone geben das schonste unde edilste weip das alle Krichenlandt hat (Johannes Rothe: Chronik, 15. Jh.) ‚Wenn du mir den Apfel gibst, will ich dir die schönste und edelste Frau geben, die es in ganz Griechenland gibt‘ |
(6) | Schluͤßlich man wird vil narrischer als jennes alte hirnschellige Weib Acco das mit ihrer Bildnuß in dem Spiegel als mit einer Muhmen reden und conversiren wollen (Gotthard Heidegger: Mythoscopia, spätes 17. Jh.) |
(7) | daß jederman sehen koͤnne daß kein ander Weib noch Kind darunter sey (Hiob Ludolf: Schaubühne, 17. Jh.) |
Bei der Annotation wird allerdings schnell klar, dass nur die wenigsten Fälle so eindeutig sind wie die drei genannten Beispiele. Umso wichtiger ist es, klare Annotationskriterien zu definieren, sich konsequent daran zu halten und sie in der Präsentation der Ergebnisse transparent zu machen. Einige Fragen, die sich im Blick auf die Daten zu Frau/Weib ergeben, sind beispielsweise:
1 Frau kommt häufig in der festen Fügung unsere Frau bzw. unsere liebe Frau vor, die sich auf die Jungfrau Maria bezieht. Werden diese mit einbezogen oder mit der Begründung, dass es sich dabei um stehende Wendungen handelt, die mit der freien Verwendung von Frau nichts zu tun haben, getilgt? Beides ist möglich, doch muss die Entscheidung transparent gemacht und begründet werden. Wenn die Belege berücksichtigt werden, stellt sich die Folgefrage, ob sie grundsätzlich als „positiv“ annotiert werden sollen oder nur dann, wenn ein positives Attribut wie lieb im unmittelbaren Kontext steht.
2 Eine ähnliche Frage stellt sich im Blick auf alle anderen Belege: Kann ein Beleg schon als „positiv“ annotiert werden, wenn über eine Frau gesagt wird, dass sie etwas Gutes, Richtiges, Lobenswertes tut – oder muss im unmittelbaren Kontext eindeutig ein positives Attribut oder Prädikat stehen, z.B. die edle Frau oder diese Frau ist höchst lobenswert? Das gleiche gilt umgekehrt natürlich für die Annotation „negativer“ Verwendungsweisen.
3 Sowohl Frau als auch Weib werden in den Belegen synonym mit ‚Ehefrau‘ verwendet. Sollen diese Belege mit einbezogen, getilgt oder gesondert behandelt werden? Erneut gilt: Alles ist möglich, solange es konsequent umgesetzt, transparent gemacht und gut begründet wird.
4 Was tun mit Belegen, in denen eine eindeutige Interpretation nicht möglich ist – etwa wenn man den Verdacht hat, dass in einem Beleg edles Weib ironisch gebraucht wird, sich aber nicht sicher ist und auch keine Möglichkeit hat, den größeren Kontext zu überprüfen? In solchen Fällen empfiehlt es sich, eine Kategorie „unklar“ einzuführen und ggf. in einer Kommentarspalte zu vermerken, worin die Unklarheit besteht.
Sobald wir Korpusbelege auf semantische Aspekte annotieren, stellen sich solche Fragen immer. Weil hier stets die Gefahr besteht, allzu subjektive Entscheidungen zu treffen, empfiehlt es sich, die Daten nach Möglichkeit von zwei Personen kodieren zu lassen und anschließend die Fälle, in denen keine Übereinstimmung besteht, zu diskutieren (intercoder reliability). Bei Seminar- oder Abschlussarbeiten ist das meist keine Option und wird daher auch in aller Regel nicht erwartet, aber für größer angelegte Studien sollte man, wenn irgend möglich, von dieser Möglichkeit Gebrauch machen. Wenn man die Ergebnisse berichtet, kann man dann angeben, wie hoch die Übereinstimmung war, in wie vielen Fällen nach einer Diskussion der strittigen Punkte Übereinstimmung erzielt wurde und in wie vielen Fällen keine Übereinstimmung erzielt werden konnte; die letztgenannten Fälle sollten in der Analyse nicht berücksichtigt werden.
Zum Weiterlesen
Scherer (2006) bietet eine gut lesbare, knappe Einführung in die Korpuslinguistik. Etwas ausführlicher ist die englischsprachige Einführung von McEnery & Wilson (2001). Lemnitzer & Zinsmeister (2015) gehen in ihrer Einführung auch auf die Geschichte der Korpuslinguistik und auf wissenschaftstheoretische Hintergründe ein. Wie man die Programmiersprache R in der quantitativen Korpuslinguistik fruchtbar einsetzen kann, zeigt Gries (2016).
Wer ernsthaft quantitative Linguistik betreiben möchte, muss sich auch mit Statistik auseinandersetzen. Eine gute deutschsprachige Einführung bietet Meindl (2011). Mit Levshina (2015) liegt eine noch recht neue, gut lesbare Einführung in Grundlagen der Statistik sowie verschiedenste quantitative Methoden vor. Gries (2013) bietet ebenfalls einen guten Einstieg, zumal seine Beispiele zumeist der Korpuslinguistik entstammen; teilweise ist das Buch allerdings etwas unübersichtlich, es gibt keinen Index und die Kapitelüberschriften sind nicht immer aussagekräftig. Das – allerdings recht anspruchsvolle – Standardwerk ist jedoch noch immer Baayen (2008).
Aufgaben
1 Im Begleitmaterial findet sich ein Spreadsheet mit Belegen zu „Weib“ und „Frau“ (weibfrau.csv). Öffnen Sie es mit Calc oder Excel. Achten Sie darauf, dass Sie in Excel unmittelbar nach dem Öffnen zunächst unter Daten > Text in Spalten angeben müssen, dass Tabs als Trennzeichen und einfache Anführungszeichen (’) als Textqualifizierer verwendet werden. In Calc sollte sich zunächst automatisch ein Fenster öffnen, das genau danach fragt. Hier können Sie auch angeben, dass die Datei in UTF-8 kodiert ist. Da Excel standardmäßig die Kodierung ASCII verwendet, kann es sein, dass einige Sonderzeichen nicht richtig angezeigt werden.Filtern Sie die Tabelle nun so, dass nur noch die Belege für die Lemmata „Weib“ und „Frau“ (ohne Komposita) angezeigt werden, und annotieren Sie diese in der ersten leeren Spalte nach der Verwendungsweise im Kontext: „positiv“ vs. „neutral“ vs. „negativ“.Überprüfen Sie, ob sich das Verhältnis zwischen positiven, negativen und neutralen Kontexten für beide Begriffe diachron verschiebt. Informationen dazu, wie Sie aus den Daten auf einfache Weise Tabellen und Grafiken generieren können, finden Sie im Tutorial „Korpuslinguistik mit Excel und Calc“ in den Begleitmaterialien.
2 Die Datei „suesswaren.csv“ im Begleitmaterial enthält die DWDS-Daten, die Fig. 5 zugrunde liegen. Öffnen Sie sie mit Excel oder Calc und erstellen Sie mit Hilfe des Tutorials „Tabellen mit Excel und Calc“ ein Histogramm ähnlich jenem in Fig. 5. Probieren Sie gerne auch weitere Visualisierungsvarianten aus!
Leider sind die meisten Konkordanzen, die man mit Hilfe der Online-Schnittstellen von Korpora wie dem Deutschen Referenzkorpus exportieren kann, für die Bearbeitung in Tabellenkalkulationsprogrammen nicht unmittelbar geeignet. Im digitalen Begleitmaterial finden sich daher einige Tutorials sowie interaktive Skripte, mit denen sich die Exportdateien in „gute“ Konkordanzen überführen lassen.
Was eine „gute“ Konkordanz ausmacht,