Korpusgestützte Textanalyse. Manfred Stede. Читать онлайн. Newlib. NEWLIB.NET

Автор: Manfred Stede
Издательство: Bookwire
Серия: narr studienbücher
Жанр произведения: Документальная литература
Год издания: 0
isbn: 9783823301547
Скачать книгу
denn bei ihnen handelt es sich um geschlossene Wortklassen von relativ überschaubarem Umfang.1 Eine zweite Gruppe, repräsentiert durch die Ellipsen, ist prinzipiell zunächst nicht suchbar, weil das Phänomen eben durch die Abwesenheit einer eigentlich erwarteten lexikalischen Form charakterisiert ist. Um hierzu Korpusuntersuchungen anzustellen, bedarf es daher zuvor einer manuellen Annotation. Die dritte Gruppe schließlich bilden Kohäsionsmittel, die für den Menschen leicht beobachtbar, für die Maschine aber schwer erkennbar sind. Dazu zählt die Substitution: Um die kohäsive Relation in Weil Paul die Buche im sumpfigen Boden pflanzte, gedieh der Baum nur schlecht zu identifizieren, ist lexikalisches Wissen erforderlich; genauer: eine Ressource, die Hypo- und Hyperonyme sowie Synonyme zu einem gegebenen Wort liefert. Für viele Sprachen sind diese, mit unterschiedlichem Umfang, in maschinenlesbarer Form verfügbar, vor allem WordNet2 für Englisch (Miller, 1995), sowie GermaNet3 für Deutsch (Hamp u. Feldweg, 1997, Henrich u. Hinrichs, 2010). Mit ihrer Hilfe lassen sich Programme schreiben, die versuchen, die genannten lexikalischen Relationen in Texten zu identifizieren und damit Substitutionen zu erfassen.

      Textkorpora, in denen gezielt die kohäsionsstiftenen Mittel annotiert wurden, sind bisher rar. Eine interessante Ausnahme bildet das GECCoGECCo Korpus Projekt (Kunz u.a., 2017), das sich einerseits für eine translationswissenschaftliche Fragestellung (wie unterscheiden sich Kohäsionsphänomene im Deutschen und Englischen) und andererseits für Unterschiede zwischen verschiedenen Arten von Texten interessiert hat. Dazu wurde ein Korpus aus deutschen und englischen Dokumenten zusammengestellt: Transkriptionen von Interviews und akademischen Vorträgen sowie eine Reihe schriftlicher Textklassen wie etwa fiktionale Texte, politische Essays oder Bedienungsanweisungen.

      Eingebettet in die Software der Corpus Workbench4 wurden die Texte automatisch mit morphosyntaktischer Information versehen und dann teilautomatisch mit den folgenden Kohäsionsmerkmalen annotiert:

       Koreferenz (Verweis auf denselben Diskursgegenstand);

       One-anaphora und Ellipsen (Verweis auf dieselbe Klasse von Diskursgegenständen);

       komparative Verweise, z.B.: Wir können einen Spaziergang machen. Eine noch bessere Möglichkeit wäre ein Fußballspiel;

       Konnektoren;

       einige lexikalische Relationen wie Hyperonymie oder Meronymie (allerdings nur teilweise behandelt).

      Durch statistische Analysen auf den annotierten Daten konnten Kunz u.a. (2017) beispielsweise herausfinden, dass die deutschen gesprochensprachlichen Texte signifikant mehr Kohäsionsmittel einsetzen als die englischen, während der Unterschied bei geschriebenen Texten nur gering ist. Die häufigsten Mittel sind generell die Koreferenz und Konnektoren. Innerhalb der deutschen Texte variiert der Anteil von Kohäsionsmitteln (gemessen an der Zahl der token des Texts) zwischen 4,84 % (Bedienungsanweisungen) und 15,25 % (Interviews), und es lässt sich im Deutschen auch eine größere Differenzierung der kohäsiven Mittel zwischen den Textklassen nachweisen als im Englischen. Dadurch ist es mit recht guter Zuverlässigkeit möglich, für einen gegebenen Text seine Klasse nur anhand der Verteilung der Kohäsionsmittel automatisch zu ermitteln (für die Unterscheidung zwischen gesprochen und geschrieben sogar sehr zuverlässig).

      Ein durchaus häufig in Korpora annotiertes Phänomen ist die Koreferenz, die wir in Kapitel 4 vertieft behandeln werden. Auch für den Phänomenereich der durch Diskursrelationen gestifteten Kohärenz gibt es eine Reihe verfügbarer Datensätze; darauf gehen wir später in Kapitel 10 ein.

       Weiterführende Literatur

      Die hier nur sehr kurz angedeutete geschichtliche Entwicklung der Textlinguistik im deutschsprachigen Raum wird ausführlicher dargestellt im ersten Kapitel von (Adamzik, 2004).

      Der auch heute noch sehr lesenswerte „Klassiker“ zu den Themen Kohäsion und Kohärenz ist das ursprünglich 1976 erschienene Cohesion in English (Halliday u. Hasan, 1989). Dieses Buch bespricht die Themen Referenz, Substitution, Ellipse, Konjunktion und lexikalische Kohäsion am Beispiel des Englischen mit bemerkenswerter Gründlichkeit. Zu beachten ist, dass die Untersuchungen der englischen Phänomene sich nicht ganz einfach auf das Deutsche übertragen lassen; zudem ist wichtig, dass Halliday und Hasan – anders als wir es hier getan haben – terminologisch nicht zwischen ‚Kohäsion‘ und ‚Kohärenz‘ unterscheiden; sie verwenden den Begriff cohesion in einem allumfassenden Sinn.

      Die oben nur angerissenen Schwierigkeiten der Kategorisierung von lexikalischen Assoziationen werden von (Hoey, 1991) gründlich anhand von Beispieltexten besprochen; der Autor schlägt u.a. Flussdiagramme vor, die die Einordnung von Wortpaaren zur Kategorien der lexikalischen Kohäsion erleichtern.

      Stärker auf den auch von uns verwendeten Kohärenz-Begriff zugeschnitten ist die Untersuchung Coherence, Reference, and the Theory of Grammar (Kehler, 2002), die eine Theorie der Kohärenzrelationen entwirft und damit einige linguistische Phänomene der Referenz und Elision behandelt. Eine kurze Zusammenfassung der zentralen Aspekte dieser Arbeit liefert Kehler (2004).

      

2.6 Übungsaufgaben

      1 Markieren Sie in Ihrem Kommentar (s. Übung 1 auf S. 21) alle kohäsiven Mittel mit einer fortlaufenden Nummerierung und erläutern Sie jedes gefundene Mittel kurz.

      2 Versuchen Sie, Ihren Kommentar dergestalt umzuformulieren, dass er möglichst unkohäsiv wird – wobei seine inhaltliche Kohärenz allerdings nicht oder möglichst wenig leiden sollte.

      3 Lesen Sie noch einmal den Absatz nach der Auflistung der kohäsiven Mittel auf Seite 2.2.1 und folgen Sie dem dort unterbreiteten Vorschlag: Gehen Sie die Liste der vorgestellten Mittel durch und entscheiden Sie jeweils, zu welchem Grad es auf einer Auswahlentscheidung bei der Textherstellung beruht oder nicht.

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «ЛитРес».

      Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

/9j/4AAQSkZJRgABAQEBLAEsAAD/4Q/RRXhpZgAATU0AKgAAAAgABwESAAMAAAABAAEAAAEaAAUA AAABAAAAYgEbAAUAAAABAAAAagEoAAMAAAABAAIAAAExAAIAAAAiAAAAcgEyAAIAAAAUAAAAlIdp AAQAAAABAAAAqAAAANQAAAEsAAAAAQAAASwAAAABQWRvYmUgUGhvdG9zaG9wIENDIDIwMTggKFdp bmRvd3MpADIwMTg6MTE6MDggMTI6NDE6MDQAAAOgAQADAAAAAQABAACgAgAEAAAAAQAAC7igAwAE AAAAAQAAEIwAAAAAAAAABgEDAAMAAAABAAYAAAEaAAUAAAABAAABIgEbAAUAAAABAAABKgEoAAMA AAABAAIAAAIBAAQAAAABAAABMgICAAQAAAABAAAOlwAAAAAAAABIAAAAAQAAAEgAAAAB/9j/4AAQ SkZJRgABAQEBLAEsAAD/2wBDAAQCAwMDAgQDAwMEBAQEBQkGBQUFBQsICAYJDQsNDQ0LDAwOEBQR Dg8TDwwMEhgSExUWFxcXDhEZGxkWGhQWFxb/2wBDAQQEBAUFBQoGBgoWDwwPFhYWFhYWFhYWFhYW FhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhb/wAARCACgAHEDASIAAhEBAxEB /8QAHQABAAEFAQEBAAAAAAAAAAAAAAYDBAUHCAkBAv/EADoQAAEDAwMCAgcIAQIHAAAAAAEAAgME BREGBxITIRQxGCI3QXWz0wgVFiMyUVaTYTRSQnGDkaGx0f/EABwBAQACAwEBAQAAAAA