Qualitative und quantitative Variablen: Art der Ausprägungen
Qualitative Variablen
Qualitative Variablen lassen sich in ihren Ausprägungen nur durch ihre Art oder ihren Rang unterscheiden. Qualitative Variablen sind nominal- oder ordinalskalierte Variablen, da diese nur in einer Qualität oder ihrem Rang unterschieden werden können.
Beispiele
Spielart: „Auswärtsspiel“, „Heimspiel“, „Freundschaftsspiel“, „Geisterspiel“ usw.
Schulnoten: „sehr gut“, „gut“ etc.
Quantitative Variablen
Quantitative Variablen sind Variablen ab dem Intervallniveau, die auf der Basis einer numerischen Skala mit einem einheitlichen Abstandsmaß genau geordnet werden können.
Beispiele
Punktestand (z.B. zur Winterpause).
Alter (z.B. in Jahren).
Temperaturen (z.B. in C).
Diskrete und stetige Variablen: Anzahl theoretisch möglicher Ausprägungen
Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Stetige Variablen sind dagegen Variablen, die eine unübersehbare, unbegrenzte Anzahl von Werten aufweisen. Zu den diskreten Skalen werden üblicherweise Nominal- und Ordinalvariablen gezählt. Diskrete Skalen werden oft als Klassifikationsvariablen verwendet. Diskrete Skalen werden auch als topologische Skalen bezeichnet.
Intervall-, Verhältnis- und Absolutvariablen werden üblicherweise zu den stetigen Skalen gezählt (können jedoch auch als stetig skaliert definiert werden). Stetige Skalen werden bevorzugt als abhängige Variablen in Kausalmodellierungen verwendet. In der Praxis können stetige Variablen auch wie diskrete Variablen behandelt werden, z.B. eine Altersangabe in Jahren als Klassifikationsvariable (bei einer überschaubaren Anzahl an Werteausprägungen). Stetige Skalen werden auch als kontinuierliche bzw. Kardinalsskalen bezeichnet.
Diskrete Variablen
Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Diskrete Variablen können nur bestimmte Werte annehmen, aber nicht jeden beliebigen. Es handelt sich damit um abzählbar viele Werte.
► Beispiele
Fußballmannschaft: Anzahl von Spielern pro Team: Die Anzahl der Spieler ist auf 11 begrenzt und kann als diskret gelten.
Ticketkauf: Am Ticketschalter enthält man immer nur diskrete Stückzahlen, z.B. 3 oder 4 Tickets, aber z.B. niemals 3,43 Tickets.
Anzahl der Tore in einem Spiel: Die Anzahl der Tore in einem Fußballspiel (zumindest der Gegenwart) gilt generell als überschaubar und damit als diskret.
Stetige Variablen
Stetige Variablen sind Variablen, die im Prinzip eine unübersehbare, unbegrenzte Anzahl von Werten aufweisen können, auch in einem begrenzten Wertebereich.
► Beispiele
Spieldauer: Die Dauer eines Spieles ist üblicherweise auf 90 Minuten plus Nachspielzeit begrenzt. Die Werte bis zum Abpfiff sind aber nicht notwendigerweise überschaubar, da die Ausprägungen theoretisch unendlich genau sein können. Professionelle „Live-Ticker“ können bis auf Sekundenbruchteile genau sein, sofern es denn erforderlich ist. Die Dauer eines Spieles ist eine stetige Variable.
Public-Viewing-Besucher: Die Anzahl von Besuchern beim Public Viewing oder von Fanmeilen kann, bei ansprechenden Turnieren und einer günstigen Außenwitterung, oft nicht mehr genau gezählt werden, sondern ist nur noch als eine unübersehbare Anzahl darstellbar. Die Anzahl von Besuchern beim Public Viewing wird daher als stetige Variable betrachtet.
Anzahl der Zuschauer in einem Fußballspiel: Obwohl die Anzahl der maximal möglichen Zuschauer in einem Stadion auf einen bestimmten Wert begrenzt ist, können die möglichen Zuschauerzahlen unter diesem Wert theoretisch unendlich fein gemessen werden. Die Anzahl der Zuschauer in einem Fußballspiel ist eine stetige Variable.
Das Verhältnis der Skalenniveaus untereinander
Die Skalenniveaus sind hierarchisch geordnet. Jedes höhere Skalenniveau erfüllt auch die Anforderungen aller niedrigeren Niveaus. Die Nominalskala enthält nur die eindeutige Zuordnung nach „gleich“ / „ungleich“. Die Ordinalskala enthält zstzl. die größer-kleiner-Relation. Die Intervallskala enthält zstzl. die Äquidistanz der Ränge. Die Verhältnisskala enthält zstzl. einen Nullpunkt. Die Absolutskala enthält zstzl. eine natürliche Maßeinheit.
Je höher also das Skalenniveau, umso mehr Information lässt sich mit einem geeigneten statistischen Verfahren aus den Daten ableiten. Für „niedrige“ Skalen konzipierte Verfahren können auch auf höher skalierte Variablen angewendet werden (weil diese auch die Eigenschaft der niedrigeren Skalenniveaus mit enthalten). Allerdings ist dies mit einem Informationsverlust verbunden. Für Ordinaldaten konzipierte Verfahren können z.B. auch auf intervallskalierte Variablen angewendet werden, weil diese ebenfalls die größer/kleiner-Eigenschaft (neben der Nominalinformation) enthalten. Der Informationsverlust besteht darin, dass ein Ordinalverfahren für intervallskalierte Variablen nur die größer/kleiner-Relation (neben der Nominalinformation) erfasst, aber nicht mehr das Ausmaß der Unterschiede.
Voreinstellungen der verschiedenen Analysesoftware
Stringvariablen (syn.: alphanumerisch, „Character“ oder Text) werden üblicherweise als Nominalniveau interpretiert. Interessant wird es bei neu angelegten numerischen Variablen. Bestimmte Datenmerkmale führen dazu, dass die jeweilige Analysesoftware automatisch ein Skalenmessniveau zuweist. SPSS weist z.B. automatisch das Intervallskalenniveau zu, wenn z.B. die betreffende Variable mindestens 24 (Voreinstellung) gültige, eindeutige Werte aufweist (bei weniger als 24 gültigen Werten weist SPSS nicht das Ordinal-, sondern das Nominalniveau zu). Enthält die betreffende Variable das Format „Dollar“, „Spezielle Währung“ oder auch „Datum“ oder „Uhrzeit“ (jedoch nicht bei MONTH und WKDAY), so weist SPSS ebenfalls automatisch das Intervallskalenniveau zu.
Auch bei anderer Gelegenheit, z.B. der Migration von Daten aus einer Datenhaltung in eine andere, stellen Anwender nach dem Einlesen von Fremddaten fest, dass die numerischen Daten bereits vor bzw. während dem Einlesen fälschlicherweise als Strings definiert worden waren. Um ausgewertet werden zu können, müssen diese Daten zuvor das richtig Messniveau oder zumindest den korrekten Datentyp erhalten. Ein Umdefinieren des Typs von hunderten oder tausenden von Datenspalten „per Hand“ kommt für gewiefte Anwender selbstverständlich nicht infrage und kann mit Makroprogrammierungen ausgesprochen elegant gelöst werden (für SAS: vgl. Schendera, 2012, 2011; für SPSS: vgl. Schendera, 2007, 2005).
2.4 Konsequenzen des Messniveaus für die praktische Arbeit mit Daten
Die Bedeutsamkeit des