1.3.2 So zitiert man wissenschaftliche Publikationen
Für das Zitieren von wissenschaftlichen Publikationen, die im WWW veröffentlicht sind, gilt die etablierte Kurzform „Zitatbeginn … Zitatende“ (Autor*innen Publikationsjahr: Seitenzahl/en). Bei PDF-Dokumenten ist das sehr gut zu bewerkstelligen. HTML-Dokumente hingegen enthalten keine Seitenzahlen. Stattdessen definieren manche Seitenbetreiber sogenannte Sprungmarker (auch Anker, Links). Diese können auch den Rezipient*innen Ihrer Arbeit als Orientierung dienen und sollten anstelle der Seitenzahlen in die Kurzform eingefügt werden, Beispiel (1-10).
(1-10)
„Kookkurrenzen oder auch KollokationenKollokationen sind Gruppen von Wörtern, die häufiger zusammen auftreten, als dass es rein zufällig sein könnte.“ (Bubenhofer 2011: Kookkurrenzen)
Sind keine Anker vorhanden, wird in der Kurzform im Fließtext auf eine spezifizierende Angabe verzichtet, Beispiel (1-11).
(1-11)
„Das tut Schrift ja immer: persönliche (face-to-face) Kommunikation einfrieren und unabhängig von Raum und Zeit ermöglichen. Schrift, zumal Handschrift, ist aber immer auch Bild.“ (Schmitz 2003)
Schmitz, U. (2003): Sommer liegt in der Luft. Text-Bild-Lektüre im Deutschunterricht. linse. http://www.linse.uni-due.de/publikationenliste/articles/sommer-liegt-in-der-luft-text-bild-lektuere-im-deutschunterricht.html
Allerdings ist dieser Artikel 2004 unter dem Titel „Bildung für Bilder. Text-Bild-Lektüre im Deutschunterricht“ in dem von J. Hartmut und P. Josting herausgegebenen Sammelband „Ästhetik –Medien – Deutschunterricht. Jutta Wermke zum 60. Geburtstag gewidmet“ im Münchener kopead-Verlag erschienen. Deshalb kann in diesem Fall der zitierte Textausschnitt entsprechend präziser der Druckfassung entnommen und gemäß den üblichen Regeln zitiert werden: Schmitz, U. (2004): Bildung für Bilder. Text-Bild-Lektüre im Deutschunterricht. In: Hartmut, J./Josting, P. (Hrsg.) (2004): Ästhetik –Medien – Deutschunterricht. Jutta Wermke zum 60. Geburtstag gewidmet. München: kopaed, 219–232.
Generell gilt: Lässt sich der*die Autor*in einer Online-Publikation (oder auch der Betreiber einer Internetseite) nicht ermitteln, ist diese Publikation als wissenschaftliche Quelle nicht zitierfähig. Fehlende Jahresangaben oder Seitenzahlen sollten durch Vermerke wie o. J. (ohne Jahr) oder o. A. (ohne Angabe) – auch in der Bibliographie – vermerkt werden. Publikationen jedoch, für die sich diese Angaben nicht ermitteln lassen, sind genauestens auf ihre Ziterfähigkeit aber auch auf ihre Relevanz zu prüfen.
1.4 Onlinedaten erheben – Durchaus eine Herausforderung
Angesichts der Fülle an Daten, die sekündlich im WWW generiert werden, mag es paradox erscheinen, dass die Datenerhebung eine wirkliche Herausforderung darstellt. Diese besteht darin, die benötigten und für die aktuelle Forschungsfrage relevanten Daten zu finden, sie müssen dabei reliabel und reproduzierbar sein und einen systematischen Bezug zur Sprachwirklichkeit haben (vgl. Bickel 2006). Im folgenden Abschnitt werden verschiedene Wege der Datenerhebung, wie Korpusgenerierung, Einsatz von Fragebögen, Flyern oder Keyloggern, auf ihre Anwendbarkeit für die Internetlinguistik geprüft.
1.4.1 WWW = Korpus?
Korpora, die natürlichsprachliche Daten enthalten, ermöglichen eine Beobachtung authentischen Sprachverhaltens. Hierbei kann es sich um Sprachmaterial handeln, das mündlich entsteht und verschriftlicht wird (private oder öffentliche Gespräche) oder das bereits schriftlich fixiert vorliegt (Zeitungsartikel, Webtexte).
Ein Korpus zu erstellen, ist eine sehr aufwändige Arbeit, die das zeitliche und finanzielle Budget innerhalb von Forschungsprojekten durchaus übersteigen kann. Führt man sich die Anforderungen, die ein Korpus erfüllen muss, vor Augen, könnte man zu dem Schluss gelangen, dass sich die Erstellung eines umfangreichen Daten-Korpus gar nicht in den Rahmen einer Hausarbeit einpassen ließe.
Korpora sind umfangreiche Sammlungen gesprochener und geschriebener Texte, die
mit Blick auf spezifische Erkenntnisinteressen oder Anwendungsszenarien zusammengestellt wurden, um möglichst alle charakteristischen Eigenschaften des betreffenden Sprachausschnittes abzubilden;
in einer Größenordnung von meist mehreren Millionen Textwörtern vorliegen;
normalerweise elektronisch verfügbar und maschinenlesbar sind;
in der Regel nur sinnvoll unter Einsatz von Computern, typischerweise mittels statistischer Verfahren, untersucht und analysiert werden können. (Paprotté 2002: 366)
Auch Texte, die online erschienen sind, sind inzwischen in Korpora erfasst worden. Das Didi-Korpus beispielsweise (DiDi = „Digital Natives – Digital Immigrants. Schreiben auf Social Network Sites“) basiert auf Datenspenden von 136 Nutzer*innen. Es umfasst etwa 650.000 Tokens und setzt sich aus 11.102 Facebook-Status-Meldungen, 6.507 Pinnwand-Kommentaren und 22.218 Chat-Nachrichten zusammen. Diese sind für Nutzer*innen frei zugänglich, die eine Vertraulichkeitsvereinbarung unterzeichnen.
Das Korpus deWac ist Teil eines Projektes, das unter dem Namen WaCky von Linguist*innen und Fachinformatiker*innen initiiert wurde. Es wurde über Suchanfragen aus Webseiten der de-Domäne zusammengestellt und enthält 1,7 Milliarden Wörter, die nach Wortarten erfasst und gekennzeichnet (POS-tagged) sowie lemmatisiert (verstichwortet) wurden. Das Korpus kann nach einer Anmeldung per E-Mail auf den eigenen Rechner geladen werden. Auch für andere Sprachen sind nach diesem Muster Korpora generiert worden.
Das Dortmunder Chatkorpus beinhaltet Chats aus den Handlungsbereichen Freizeit, Beratung, Medien und Lehr-/Lernkontexten und ist sowohl für linguistische als auch für sprachdidaktische Zwecke geeignet (siehe Beißwenger 2013). Es umfasst 478 Chat-Mitschnitte (140.240 Nutzerbeiträge, 1,06 Millionen Token), die in den Jahren 2002–2008 zusammengestellt und nach Äußerungsbeiträgen, Zuschreibungsbeiträgen und Systemmeldungen annotiert wurden. Die Suche nach Emoticons, Ausdrücken in Asterisken oder @-Adressierungen ist mit Hilfe eines Java-basierten Suchwerkzeuges möglich. Ein Releasekorpus mit 385 Dokumenten (59.876 Chat-Beiträgen bzw. 551.762 lfd. Wortformen) ist frei verfügbar. Die Beiträge sind ebenfalls grob nach inhaltlichen (und technologischen) Kriterien annotiert: Äußerungsbeiträge werden von Zuschreibungsbeiträgen und Systemmeldungen unterschieden. Bei Äußerungsbeiträgen handelt es sich um Eingaben in das Texteingabefeld, wie z. B.: Hallo ruebennase, wieso langweilst du dich?. In Zuschreibungsbeiträgen referieren Chatter*innen zumeist in der 3. Person auf sich selbst oder das Chat-GeschehenChat, indem sie die Eingabe durch ein Codesegment so modifizieren, dass ein Platzhalter für die Namen der Teilnehmer*innen entsteht, der dann durch das System eingesetzt wird, wie z. B. ruebennase langweilt sich immer noch … Systemmeldungen machen technische Funktionen, wie einloggen, ausloggen etc., sichtbar, sie werden vom Server erzeugt, wie z. B. rübennase betritt den Raum. (vgl. zum gesamten Abschnitt Beißwenger 2013a).
Daten aus der Alltagskommunikation mittels elektronischer Kurznachrichten liegen in der MoCoDa (Mobile Communication Database) vor. Die derzeit 2.206 Dialoge (19.224 Nachrichten, 1.063.531 Zeichen) sind im vertrauten mehrfarbigen für mobile Messengerdienste typischen Layout abgebildet. Metadaten wie Alter, Geschlecht, Bildungsgrad, Standort, Tarif, Eingabemodus, Beziehung der Schreiber*innen zueinander, ergänzende Informationen zum