Anders ausgedrückt: Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Zahlen anhand von Ziffern beschrieben und als Werte interpretiert werden. Was als selbstverständlich erscheint, ist es nicht: Die NASA verlor z.B. sogar einen Satelliten, weil die einen Ingenieure mit metrischen Einheiten arbeitete, die anderen jedoch mit englischen Einheiten. Dazu später mehr.
Gerade bei der Analyse von Daten internationaler Unternehmen ist auch auf das korrekte Format von Kalenderdaten zu achten. Es gibt derzeit mindestens drei, die europäische (TT.MM.JJJJ), die internationale (JJJJ.MM.TT) und die amerikanische Datumskonvention (MM.TT.JJJJ). Berechnungen (z.B. Differenzen) auf der Basis nicht korrekt interpretierter Kalenderdaten führen zwangsläufig zu fehlerhaften Ergebnissen. Diese Konvention ist dabei nicht der einzige Fallstrick; dazu kommen die Stellen der Jahresangabe, der Interpunktion, eine uneinheitliche zeitliche Granularität und natürlich auch allgemeine Datenfehler (z.B. Schendera, 2007, 62–66).
2.3 Messniveau einer Variablen: oder: Was hat Messen mit meinen Daten zu tun?
„Wir müssen jetzt mit dem Boden auf den Füßen bleiben.“
Jürgen Röber
Der Inhalt von Datentabellen besteht nicht nur aus Zahlen, Ziffern und Werten, die Daten besitzen auch ein Messniveau. Was bedeutet das für mich? Daten sind immer das Resultat von Messungen. Messungen können auf unterschiedlichen Niveaus vorgenommen werden. Das Messniveau ist wichtig. Das Messniveau sagt mir,
■ wie viel und welche Information (z.B. anhand welcher Maße) ich aus den Daten herausholen kann,
■ welche Aussagen ich mittels der deskriptiven Statistik treffen kann (und welche nicht),
■ welche Grafiken und Tabellen zur Visualisierung infrage kommen (und welche weniger geeignet sind) und zu guter Letzt,
■ welches inferenzstatistische Verfahren für meine gewählte Hypothese zulässig ist.
Nochmals: Das Messniveau ist wichtig! Wozu?
Kenne ich das Messniveau der auszuwertenden Daten, weiß ich, mit welchen passenden Maßen und Verfahren ich sie auswerten kann. Kenne ich das zugrunde liegende Messniveau der Maße und Verfahren, weiß ich, welche Daten ich damit auswerten kann. Die Kenntnis des Messniveaus ist wichtig für die Passung zwischen Daten und Maß bzw. Verfahren.
Für eine souveräne deskriptive Statistik schadet es also ganz und gar nicht, wenn das Messniveau der Daten selbst und die Grundlagen des Messens (zumindest in Grundzügen) bekannt sind. Was nun „Messen“ ist, versucht die Messtheorie als eine Art „Brücke“ zwischen der „wirklichen“ Welt und der Welt der „Zahlen“ zu definieren.
■ Messen ist demnach das Zuweisen von Zahlen zu Gegenständen, die eine bestimmte, empirisch beobachtbare Eigenschaft aufweisen. Eine gemessene Temperatur erhält z.B. eine bestimmte Gradzahl, eine bestimmte Laufstrecke erhält eine bestimmte Längenzahl.
■ Jedem Element aus dem empirischen Relativ wird dabei genau ein Element aus der Menge aller Zahlen (numerisches Relativ) zugeordnet. Die Laufstrecke A bekommt nur die Zahl A zugewiesen, aber nicht B oder C.
■ Zahlen (im sog. numerischen Relativ) müssen dabei dieselben Eigenschaften ausdrücken wie die beobachtbaren Gegenstände (im sog. empirischen Relativ). Wenn also die Laufstrecke A kleiner als Laufstrecke B ist, dann hat auch die zugewiesene Zahl für A kleiner als die für B zu sein.
Das Ziel ist, dass ein numerisches Relativ ein empirisches Relativ strukturgetreu abbildet. Sobald ein empirisches System auf ein numerisches System in der Weise eindeutig abgebildet wird, dass die empirischen Relationen innerhalb des empirischen Systems in den numerischen Relationen des numerischen Systems erhalten bleiben, liegt eine sog. Skala vor. Messen ist also die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts und die regelgeleitete Zuordnung von Zahlen zu Messobjekten. Liegt eine Skala vor, kann sie verschiedenen Messniveaus (Skalentypen) zugeordnet werden. Ein Messniveau kann anhand von Metadaten, Projektdokumentation oder, falls nicht vorhanden, anhand messtheoretischer Grundlagen mittels eines gesunden Menschenverstands in Erfahrung gebracht werden. Die Kenntnis der Skaleneigenschaften ist entscheidend. Jedes Skalenniveau macht erst bestimmte Maßzahlen, Grafiken oder auch statistische Verfahren sinnvoll. Auch Maße und Verfahren der deskriptiven Statistik setzen jeweils ein bestimmtes Messniveau voraus.
Abb. 3: Eine Systematisierung von Skalen- bzw. Messniveaus
In der Abbildung steigt das Skalenniveau von links („nominal“) nach rechts („verhältnis“) an. „verhältnis“ ist darin das höchste Skalenniveau, „nominal“ das niedrigste Skalenniveau. Jedes höhere Skalenniveau enthält auch die Merkmale der jeweils niedrigeren Niveaus. Je höher also das Skalenniveau, umso mehr Information bzw. komplexere Aussagen lassen sich mit einem geeigneten Maß bzw. Verfahren (z.B. der deskriptiven Statistik) „herausholen“. Welche, werden die Abschnitte 2.3.1 bis 2.3.6 erläutern.
Bei der Passung der Skalenniveaus der Daten und der Maße bzw. Verfahren sind u.a. drei Risiken zu vermeiden: der Informationsverlust, der errechnete Unfug und versteckte Klassierungen.
■ Informationsverlust: Für „niedrige“ Skalen konzipierte Maße (z.B. Modus) oder Verfahren (z.B. Häufigkeitsanalyse) können zwar auch auf höher skalierte Daten (z.B. Intervallniveau) angewendet werden, eben weil diese auch die Eigenschaften der niedrigeren Variablenniveaus (z.B. Nominalniveau) mit enthalten. Man muss sich aber klar sein, dass dies mit einem Informationsverlust verbunden ist: Der Informationsverlust besteht darin, dass „niedrigere“ Maße oder Verfahren außer Häufigkeit und Modus keine Aussagen über (je nachdem) größer / kleiner, Differenzen oder auch Verhältnisse erlauben, obwohl dies mit den vorliegenden Daten (z.B. auf Intervallniveau) möglich wäre, jedenfalls mit Maßen und Verfahren ab dem Intervallniveau.
■ „Errechneter Unfug“: Umgekehrt darf ich z.B. aus Daten auf Nominalniveau keinen Mittelwert bilden, weil dazu u.a. mindestens das Intervallniveau erforderlich ist. Abschnitt 2.3.1 wird anhand von Rückennummern veranschaulichen, warum das Berechnen eines Mittelwerts aus Trikotnummern zwar mathematisch möglich, aber konzeptionell sinnfrei ist.
■ Gemeinerweise können ausgerechnet in Intervalldaten klassierte Extremwerte enthalten sein, z.B. anstelle der Werte 95, 96, 97 und 98 einfach die Information „>94“. Hier sollten die Aufmerksamkeitsglocken Alarm schlagen: Diese Kategorisierung hebt die Gleichheit der Abstände auf; es handelt sich also nicht mehr um ein Intervall-, sondern um ein Ordinalniveau. Ist dieser Hinweis sogar noch als Text hinterlegt, handelt es sich womöglich sogar nur noch um ein Nominalniveau.
Liegt also eine Skala vor, kann sie verschiedenen Niveaus (Skalentypen) zugeordnet werden. Das Bestimmen des Typs einer Skala, und die Zuordnung der Art und Menge der zulässigen Transformationen wird als „Eindeutigkeitsproblem“ bezeichnet. Als die am wenigsten eindeutige Skala gilt die Nominalskala (nur die eindeutige Zuordnung von Zahlen bzw. Namen zu Entitäten ist zulässig). Weitere Skalen sind die Ordinalskala (zstzl. größer-kleiner-Relation), Intervallskala (zstzl. Äquidistanz der Ränge) und die Verhältnisskala (zstzl. mit Nullpunkt).