Gerade im Entstehen befindet sich die MoCoDa2. Diese Datenbank ist – wie der Name schon nahelegt – eine Erweiterung der MoCoDa. Ende 2019 verfügte die Datenbank über 367 Chats, 31.811 Nachrichten, 247.587 Tokens und damit 1.021.704 Zeichen. Zu Erweiterung der Datenbasis werden fortlaufend Datenspenden gesammelt. Ein Video zur Anleitung ist unter der folgenden Adresse verfügbar:
Vorstellen möchten wir auch das Projekt What’s up Switzerland. Im Rahmen dieses Projekts wurde 2014 eine große WhatsApp-Datenbasis erstellt (ca. 617 Chats, ca. 750.000 Nachrichten, ca. 5,5Mio. Tokens und 350.000 Emojis). Es gibt auch ein Satellitenprojekt What’s up Deutschland. Aus dem Projekt gingen nicht nur zahlreiche Publikationen hervor. Die Forscher*innen sind derzeit zudem dabei, die Datenbasis für die sprachwissenschaftliche Forschung aufzubereiten, die voraussichtlich ab März 2020 verfügbar sein wird.
Eine Sammlung mit etwa 1.500 SMS von Schülern und Schülerinnen und Studierenden der Universitäten Osnabrück und Hannover kann als pdf-Datei von der Seite mediensprache.net heruntergeladen werden. Dialogische Sequenzen finden sich hier nicht, aber Angaben zum Geschlecht und dem Alter der Autor*innen.
Ein aus neun Teilkorpora bestehendes Wikipedia-Korpus ist über das Portal und Recherchesystem COSMASII des Leibniz-Instituts für Deutsche Sprache Mannheim unter den Bedingungen der CC-BY-SA-Lizenz nutzbar. Es umfasst Artikelseiten aus den Jahren 2013, 2015 und 2017 im Umfang von 3.160.142.331 Textwörtern, Diskussionsseiten der Jahre 2013, 2015 und 2017 im Umfang von 733.809.373 Textwörtern und Nutzerdiskussionen aus den Jahren 2015 und 2017 im Umfang von 612.561.557 Textwörtern.
Weblogs und Kommentare sind in das BBAW-Korpus zum Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS) integriert (Barbaresi/Würzner 2014). Mit Hilfe des Fußballlinguistik-Korpus von Simon Meier (TU Dresden) können 290 Taktikanalysen der Taktikblogs niemalsallein.de und halbfeldflanke.de untersucht werden. Darüber hinaus bietet das Korpus derzeit ein umfangreiches mehrsprachiges vollannotiertes Repertoire an Liveticker-Daten, Spielberichten und Taktikanalysen aus den Jahren 2006 bis 2017 (31,5 Mio. Tokens). Das Korpus kann nach einer unkomplizierten Registrierung kostenlos genutzt werden (Meier 2017).
Unter
annotieren: zusätzlich zu den sprachlichen Daten innerhalb einer Datenbank werden sprachwissenschaftlich relevante Daten gespeichert, z. B. Wortarten (‚taggingtagging‘) oder die syntaktische Struktur bei komplexen Äußerungen (‚parsing‘). Das ist ein mühsamer manueller Vorgang, der deshalb häufig von automatischen Verfahren übernommen wird. Diese sind wiederum sehr fehleranfällig, so dass eine manuelle Nachbearbeitung notwendig ist.
lemmatisieren: die einem Lexem zugehörige unflektierte Grundform wird notiert, z. B. für das Lexem ging das Lemma gehen oder für Räume das Lemma Raum.
KonkordanzKonkordanz: Liste von Kotexten für ein Schlüssel-Lexem
Bruchpilot in: „Die Bilanz von Bruchpilot Wowereit“ (n-tv.de, 2013-03-19); „Streicht dem Bruchpiloten Wowereit die Pension“ (berliner-kurier.de, 2012-07-21); „Bruchpilot Wowereit tauft den A380“ (bz.de, 2012-05-22); „Die Nähe zur Partei wurde der Zeitung jedoch spätestens mit dem Grounding der Swissair und ihrer [sic!] freisinnigen Bruchpiloten zum Verhängnis“ (zeit.de, 2010-04-08)
KollokationKollokationen: Ausdruck aus mehreren Wörtern mit (statistisch) starkem Zusammenhalt
auf Nummer sicher gehen in: „Die Flughafenplaner wollen auf Nummer sicher gehen: Die endgültige Entscheidung für den Termin werde der Aufsichtsrat nun voraussichtlich erst im August fällen, erklärte Berlins Regierender Bürgermeister Klaus Wowereit als Chef des Kontrollgremiums.“ (spiegel.de, 2012-06-22)
Part-of-speech-Tagging (POS-tagging): regelbasiertes Etikettieren von Token im KorpusKorpus mit entsprechenden Wortarten
In/PRÄP Berlin/N sprach/VFIN man/PRONINDEF über/PRÄP den/ART Rücktritt/N von/PRÄP Klaus/EIGENN Wowereit/EIGENN1.
TokenToken: Kleinste Einheit in einem Korpus. Über die Anzahl der Tokens wird die Korpusgröße bestimmt.
Von1 Anfang2 an3 war4 der5 massive6 politische7 Einfluss8 von9 Wowereit10 und11 Platzeck12 das13 Todesurteil14 für15 das16 Bauprojekt17 an18 Berlins19 Stadtrand20.
TypeType: Identische Tokens in einem KorpusKorpus. Über die Anzahl der Types wird die Vokabelgröße bestimmt.
Von1 Anfang2 an3 war4 der5 massive6 politische7 Einfluss8 von Wowereit9 und10 Platzeck11 das12 Todesurteil13 für14 das Bauprojekt15 an Berlins16 Stadtrand17.
DiDi-Korpus: https://commul.eurac.edu/annis/didi
deWac: http://wacky.sslmit.unibo.it/doku.php?id=corpora
Chat-Korpus: www.chatkorpus.tu-dortmund.de
MoCoDa: https://mocoda.spracheinteraktion.de
MoCoDa2: https://db.mocoda2.de/#/c/home
SMS: www.mediensprache.net/archiv/corpora/sms_os_h.pdf
Wikipedia: https://cosmas2.ids-mannheim.de/cosmas2-web/
Blogs und Webkorpus: www.dwds.de/d/k-spezial#blogs Liveticker und Blogs: https://fussballlinguistik.linguistik.tu-berlin.de
Welche Schwierigkeiten können sich bei der Arbeit mit bereits bestehenden Korpora ergeben?
Mit bestehenden, annotierten Korpora zu arbeiten, birgt durchaus Nachteile, insbesondere wenn man die Linguistik als Wissenschaft auffasst, die „regelmäßige Beziehungen