Deskriptive Statistik verstehen. Christian FG Schendera. Читать онлайн. Newlib. NEWLIB.NET

Автор: Christian FG Schendera
Издательство: Bookwire
Серия:
Жанр произведения: Математика
Год издания: 0
isbn: 9783846339695
Скачать книгу
Kodierungen I: Numerisch: Für die Kodierung der Ausprägungen von Ratingskalen, z.B. Schulnoten („sehr gut“, „gut“, usw.), Zustimmung („sehr“, „überwiegend“, usw.) oder Zutreffen („trifft sehr zu“, „trifft zu“ usw.), werden üblicherweise Zahlen vergeben (meist 1 bis 4 bzw. 6, je nach Rangskala). Das Problem der zugewiesenen numerischen Skala ist, dass sie meist über regelmäßige Abstände verfügt. Das gilt auch für scheinbar alternative Kodierungen, wie z.B. 2, 4, 6 usw., 10, 20, 30 usw. oder auch 11, 12, 13 usw. In allen Fällen wurde die original „qualitative“ Ordinalskala unzulässigerweise um die Information der Äquidistanz angereichert. Das Problem ist: Diese Kodierungen suggerieren, dass die Abstände zwischen den quantitativen Stufen (1, 2, 3, usw.) exakt gleich sind, obwohl sie es faktisch nicht sind („sehr gut“, „gut“, „befriedigend“ usw.). Die Methodenforschung bemüht sich zwar um den Nachweis, dass sich Skalen mit wenigen qualitativen Rängen in etwa den Abständen zwischen den quantitativen Stufen annähern. Als eine echte Lösung des Problems von Ordinalskalen erschließt sich dies jedoch nicht. Unkonventionellere Kodierungen (wie z.B. 1, 8, 13, 27) zu wählen, ist ebenfalls keine befriedigende Lösung, weil die jeweils gewählte quantitative Kodierung außerdem einen Einfluss auf die erzielten Statistiken haben kann. Wenn Mittelwerte unbedingt mit Ordinaldaten berechnet werden müssen (was z.B. oft Auswertungsmanuale psychometrischer Skalen verlangen), so sollte zumindest der Effekt verschiedener Kodierungen überprüft und ausgeschlossen werden.

      ■ Kodierungen II: String / Text: Ränge können auch direkt, alphanumerisch, als Text an die Software übergeben werden. In diesem Falle sollten Text-Rangfolgen auf mögliche Sortierfehler geprüft werden. Korrekt und konsistent wäre z.B. eine Text-Rangfolge wie z.B. „klein“, „mittel“ oder „riesig“ (konsistente Rangreihe: k < m < r). Inkorrekt, weil inkonsistent, wäre z.B. eine Text-Rangfolge wie z.B. „schwach“, „mittel“ oder „stark“ (inkonsistente Rangreihe: s > m < s).

      Exkurs ◄

      Tipp!

      Vermeiden Sie alphanumerische Kodierungen, z.B. von Bewertungen („schwach“, „mittel“, „stark“ oder „high“, „average“ und „low“) oder z.B. von Monaten (z.B. „Jan“, „Feb“, „Mar“ usw.) oder Jahreszeiten („Frühling“, „Sommer“ usw.). Alphanumerisch sortiert würde z.B. „mittel“ zwischen „schwach“ und „stark“, „high“ zwischen „average“ und „low“, „Apr“ vor „Feb“ oder auch der „Herbst“ vor „Sommer“ usw. sortiert werden.

      Ordinalskalierte Variablen erlauben im Gegensatz zu nominal skalierten Variablen schon Aussagen i.S.v. größer oder kleiner, aber das um wie viel besser, größer, stärker oder intensiver kann erst ab dem Intervallskalenniveau numerisch, also quantitativ, ausgedrückt wiedergegeben werden.

      Ordinaldaten sind heikel für die deskriptive Statistik (und nicht nur dort). Die Empfehlung ist, sofern möglich, Daten für u.a. Differenz- oder Mittelwerte nur ab Intervallskalenniveau zu erheben (damit wäre eine Mittelwertbildung zulässig).

      Während die Abstände der einzelnen Ränge also bei Ordinalskalen noch nicht gleich sind, unterscheidet sich die Intervallskala darin, dass die Ränge auf ihrer Skala gleiche Abstände aufweisen (Äquidistanz). Gleiche Abstände bedeuten, dass ab nun Differenzen gemessen werden können. Daher kann erst ab dem Intervallskalenniveau das um wie viel besser, größer, stärker oder intensiver usw. in Zahlen ausgedrückt werden.

      ■ Definition: Messungen auf einer Intervallskala liegen dann vor, wenn neben Gleichheit/Verschiedenheit (Eigenschaft der Nominalskala), größer/kleiner-Relationen (Eigenschaft der Ordinalskala) auch die Größe von Unterschieden feststellbar ist.

      ■ Mögliche Aussagen: Äquidistanz: Die Differenzen von zwei (oder mehr) einzelner (oder auch Gruppen von) Merkmalsträgern sind gleich (oder auch ungleich).

      ■ Beispiele: Merkmal: Temperatur. Ein Unterschied zwischen 4 und 8 Grad Celsius ist gleich groß wie zwischen 20 und 24 °C; Merkmal: Uhrzeiten (Zeitmessungen): Die Differenz zwischen 20:15 und 21:45 ist genauso groß wie zwischen 18:00 und 19:30; Merkmal: Bundesligapunkte: Der Unterschied zwischen 81 und 73 Punkten ist genau so groß wie zwischen 48 und 40.

      ■ Transformation: linear.

      ■ Mögliche Maße: Lagemaße: Mittelwert, Minimum, Maximum, Median (auch berechnet), Quantile, Modus. Streumaße: Standardabweichung, Varianz, Spannweite R, Interquartilsabstand, Quantildifferenzen.

      ■ Zulässige Rechenoperation: numerische Differenzen, Mittelwert; f (Anzahl, frequency) bzw. Prozentanteile.

      Welche Spalten aus der Bundesligatabelle enthalten Daten auf Intervallniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen und deren Abstände genau gemessen werden können. Tricky ist es bei der Spalte „Platz“. Einerseits ließe sich argumentieren: Der Abstand zwischen den Rangwerten 1 und 3 erscheint genauso groß wie zwischen den Rangwerten 5 und 7 bzw. größer als zwischen den Rangwerten 5 und 6. Damit besäße die Spalte „Platz“ also auch ein Intervallniveau. Andererseits wäre es nicht weniger plausibel zu argumentieren: Die Rangwerte sind in Wirklichkeit nur „Kodes“, deren Abstände in Wirklichkeit auch unterschiedliche Punktzahlen aufweisen können (vgl. „Pkt“). Der Abstand zwischen den Plätzen 1 und 2 (8 Punkte) ist größer als zwischen den Plätzen 4 und 5 (4 Punkte) bzw. größer als zwischen den Plätzen 5 und 6 (1 Punkt). Damit besäße die Spalte „Platz“ weiterhin „nur“ ein Ordinalniveau. Der Unterschied zwischen Ordinalniveau (auf der Basis von Kodes) und Intervallniveau (auf der Basis von Werten) lässt sich über den Rückgriff auf Informationen „außerhalb“ der betreffenden Ordinaldaten differenzieren. Die Spalte „Platz“ hat damit zwei Gesichter: Die numerischen Kodes haben (selbstverständlich) Intervallniveau. Die Ränge, die diese Kodes repräsentieren, weisen jedoch keine äquidistanten Abstände auf, sind also (weiterhin) Ordinalniveau. Für welche Interpretation man sich nun entscheidet, liegt im Ermessen des Anwenders. Für uns, so legen wir jetzt fest, besitzt die Spalte „Platz“ weiterhin „nur“ Ordinalniveau. Die Spalte „Verein“ besitzt, wie wir wissen, nur das Nominalniveau. Wie sieht es mit den Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ aus? Nehmen wir zunächst die Spalte „Spiele“. Der Unterschied zwischen 34 und 34 Punkten ist jeweils exakt gleich groß. Springen wir gleich zur Spalte „Pkt“. Der Unterschied zwischen 81 und 73 Punkten ist genau so groß wie zwischen 48 und 40 Punkten, aber größer als zwischen 31 und 30 Punkten. Die Spalten „Spiele“ und „Pkt“ besitzen also auch ein Intervallniveau. Die Spalte „Tore“ besitzt, nach unserem Dafürhalten, nur das Nominalniveau. Wie es mit den Spalten „S“, „U“, „N“ und „Diff“ aussieht, überlassen wir bis zum nächsten Abschnitt vertrauensvoll der Kompetenz der werten Leserinnen und Leser. Das Zwischenfazit an dieser Stelle lautet: „Verein“ und „Tore“ beschränken sich auf das Nominalniveau. Alle anderen Spalten besitzen neben dem Ordinalniveau auch das Intervallniveau.

      Während das Ordinalniveau nur aus sagt, dass etwas besser oder schlechter sei, erlaubt ein Intervallniveau auch auszusagen, um wie viel besser ein Wert ist. Gemeinsam von Ordinal- und Intervallniveau ist die Aussage, dass etwas gleich bzw. nicht verschieden ist. Ein Intervallniveau wird nicht mehr als diskret, sondern als kontinuierlich bezeichnet. Ab intervallskalierten Variablen wird auch von quantitativen Variablen gesprochen.

      ■ Definition: Messungen auf einer Verhältnisskala liegen dann vor, wenn neben Gleichheit / Verschiedenheit (aus: Nominalskala), größer / kleiner-Relationen (aus: Ordinalskala), die Größe von Unterschieden (aus: Intervallskala) auch ein eindeutiger Nullpunkt vorliegt. Weiter unten finden sich weitere