Die Statistik (engl. statistics) fungiert innerhalb der Psychologie als Hilfswissenschaft zur Auffindung und Beschreibung von nichtdeterministischen Gesetzen (Relationen). “Statistics is a set of concepts, rules and methods for (1) collecting data, (2) analyzing data, and (3) drawing conclusions from data” (Iversen & Gergen, 1997, 4). Wenn in der Nachrichtentechnik damit gerechnet wird, dass elektronische Signale von Störungen überlagert werden, dann sendet man gleiche Signale mehrmals hintereinander, um beim Empfang auf Basis ihres Mittelwerts (Durchschnitt) auf das ursprüngliche „wahre“ Signal schließen zu können. Nach dem gleichen Prinzip werden in der Psychologie wiederholt oder simultan Daten über psychische Abläufe, Einstellungen oder Fähigkeiten gesammelt, um daraus Schätzungen über die untersuchten Phänomene ableiten zu können. Die (klassische) Testtheorie postuliert diesem Prinzip gemäß, dass sich jeder Messwert (z.B. eine physiologische Ableitung, eine Fragebogenantwort, eine Prozentschätzung) aus einem wahren Wert - und einem zufälligen Fehlerwert zusammensetzt und dass sich Fehlerüberlagerungen durch Heranziehung mehrerer Messwerte des gleichen Ereignisses „ausmitteln“ lassen.
| Abb 3.7
Ähnlich wie physikalische Objekte in einem (euklidischen) Raum Positionen einnehmen können, lassen sich auch Fälle als „Datenobjekte“ auffassen und in einen (multidimensionalen) Variablenraum projizieren. Die Datenobjekte sind einander umso näher, je ähnlicher ihre Variablenausprägungen sind. Ebenso lässt sich die Ähnlichkeit von Variablen in Objekträumen abbilden. Im Beispiel sind drei Objekte (z.B. Personen) im Zweivariablenraum (z.B. Gewicht und Größe) dargestellt und daneben die gleichen Variablen im Dreiobjekteraum.
3.6.1 | | Deskriptivstatistik – beschreibende Statistik |
Die deskriptive Statistik bietet charakteristische, formelhafte Beschreibungen oder grafische Darstellungen für eine große Zahl von Fällen, Variablen oder Variablenrelationen an. Wie schon erwähnt (Abb. 3.7), werden Fälle als Punkte in einem multidimensionalen Raum von Variablen gedacht, und ihre Verteilung wird durch statistische Kennwerte bzw. Statistiken näher charakterisiert. Eine Voraussetzung für eine solche Darstellung von Variablen (sowie ihres Einbezugs in komplexe statistische Auswertungsverfahren) ist, dass sie quantitativ interpretierbar sind, d.h., dass ihre Ausprägungen unterschiedliche Quantitäten einer Eigenschaft oder eines Merkmals von Fällen kennzeichnen (Backhaus et al., 2003).
Um die quantitative Bedeutung der Ausprägungen von Variablen einzustufen, werden diese hinsichtlich ihrer Skalenqualität, d.h. nach Skalenniveau bzw. Messniveau, differenziert:
1. Nominalskala: Wenn eine Variable nur dieses Skalenniveau zugeschrieben bekommt, sind ihre Ausprägungen (Zahlenwerte) im Sinne von Klassifikationen zu verstehen. Es handelt sich also um Variablen, die („qualitative“) Eigenschaften, wie etwa Geschlecht, Beruf, Nationalität oder Haarfarbe, kennzeichnen.
2. Ordinalskala (Rangskala): Die Werte von Variablen mit ordinaler Skalenqualität gestatten nicht mehr bloß die Unterscheidung zwischen gleich- und ungleichartig, sondern erlauben zusätzlich die Erstellung einer quantitativ begründeten Rangreihe der Variablenausprägungen. Typische Ordinalvariablen sind Listen von Schulnoten oder Rangreihungen bei Wettbewerben.
Merksatz
Die quantitative Interpretierbarkeit von empirischen Variablen bzw. der durch sie beschriebenen Indikatorausprägungen wird durch die ihnen zugeschriebene Skalenqualität (Messniveau) charakterisiert.
3. Intervallskala: Für Variablen dieses Typs wird angenommen, dass ihre aufeinanderfolgenden Zahlenwerte die Zunahme einer variablenspezifischen Eigenschaftsquantität immer um den gleichen Betrag symbolisieren (der Quantitätszuwachs von 1 auf 2 ist der gleiche wie etwa von 4 auf 5). In der Psychologie erwartet man zumindest Intervallskalenniveau von all jenen Variablen, die quantitative Abstufungen von individuellen Leistungspotenzialen (z.B. Konzentration, Intelligenz) oder von psychischen Dispositionen (z.B. Einstellungen, Persönlichkeitsdimensionen) zum Ausdruck bringen wollen.
4. Verhältnisskala (Rationalskala): Variablen dieser Art sind gewissermaßen Intervallskalen mit einem fixen Nullpunkt. In der Psychologie gehören Verhältnisschätzungen für Wahrnehmungsreize diesem Skalentyp an oder bestimmte probabilistische Testkennwerte („Item-Response-Modelle“).
5. Absolutskala: So bezeichnet man Variablentypen, die ebenfalls einen fixen Nullpunkt haben, bei denen aber auch „echte“ Einheiten gegeben sind. Zu diesem Typus zählen alle Variablen, die Häufigkeiten bzw. Frequenzen zum Ausdruck bringen (z.B. Schätzungen der Anzahl von Objekten oder Personen).
Als quantitative Variablen im engeren Sinne zählen für die Statistik nur solche, die als Intervall-, Verhältnis- oder Absolutskalen zu interpretieren sind.
Eine empirische Variable hat noch eine weitere, für komplexe statistische Auswertungen wichtige Eigenschaft: die Verteilung ihrer Ausprägungen.
Die Betrachtung der Verteilung empirischer Variablen ist aus verschiedenen Gründen wichtig:
1. Aus ihr geht hervor, welche Zahlenwerte mit welcher Wahrscheinlichkeit in einer Population zu erwarten sind (z.B. Mess- oder Testergebnisse).
2. Sie kann Hinweise darüber geben, ob der Wertebereich einer Variablen für die Beschreibung eines empirischen Prozesses optimal gewählt wurde (z.B. nicht optimal bei „schiefen“ Verteilungen, wenn sich die Werte bei den Minimal- oder Maximalwerten der Variablen häufen).
3. Ein weiterer Grund für die Verteilungsprüfung von Variablen liegt in der notwendigen Prüfung von Verteilungsvoraussetzungen (z.B. dem Erfordernis der Normalverteilung von Fehlerkomponenten) für bestimmte multivariate statistische Auswertungsmethoden (z.B. der „Regressionsanalyse“).
Die besondere Bedeutung der Normalverteilung (oder „Gauß’schen Glockenkurve“) und der (mit ihr verwandten) Binomialverteilung in der Statistik ist darauf zurückzuführen, dass beide als Idealformen zufallsbedingter Verteilungsprozesse angesehen werden. Wie bereits erwähnt, wird bei empirischen Variablen angenommen, dass sich ihre Werte aus einer wahren Komponente und einer zufälligen Fehlerkomponente zusammensetzen.
Um den „Schwerpunkt“ von mehreren Variablenwerten zu bestimmen, werden Maße der „Zentraltendenz“ („Lageorientierung“) herangezogen, wie etwa der Mittelwert (m) bzw. „Durchschnittswert“, nämlich die Summe (Σ) aller Werte (x) dividiert durch die Anzahl der Werte (n):
Ebenfalls als Maß der Zentraltendenz gebräuchlich ist der Median (jener Wert, von dem aus etwa 50 % aller Werte größer oder kleiner sind).
Eine zweite wichtige Kennzeichnung von Variablen sind statistische Kennwerte, die den „Streubereich“ („Dispersion“) der Ausprägungen von Variablen aufzeigen. Maße dafür sind etwa die Streubreite (Bereich vom maximalen Wert bis zum minimalen Wert), die Varianz
oder die Standardabweichung:
Die Varianz (v) ist als Durchschnittswert für die Abweichungsquadrate aller Werte (x) vom Mittelwert (m) definiert. Die Standardabweichung (s) als Wurzel der Varianz bezeichnet jene Abweichungen vom Zentrum der Normalverteilung, innerhalb derer etwa 68 % aller Werte liegen.
Um nun Variablen (mit verschiedenen Mittelwerten und Streuungen) besser miteinander vergleichen und auf wechselseitigen Zusammenhang (Korrelation) überprüfen zu können, werden sie oft durch einen einfachen Rechenvorgang in sogenannte Standardvariablen mit jeweils einem Mittelwert von 0,0 und einer Streuung von 1,0 umgewandelt (Standardisierung). Dies wird erreicht, indem alle Werte einer Variablen um ihren Mittelwert reduziert und durch die Streuung dividiert werden („lineare Transformation“, s. auch Abb. 8.19):