–1,0. Dieser in den Sozialwissenschaften häufig verwendete statistische Kennwert wird auch als „Produkt-Moment-Korrelation“ bezeichnet und lässt sich für zwei Standardvariablen sehr einfach, nämlich als mittleres Produkt der z-Werte, bestimmen (gebräuchliche Formeln zur Berechnung einer Korrelation findet man in statistischen Lehrbüchern oder im Internet):
(Σ = Summenzeichen, n = Anzahl der Fälle, z und z = Standardwerte der Variablen Y und X)
Eine praxisrelevante Nutzanwendung dieser Statistik besteht in ihrer Vorhersagefunktion für die Ausprägungen einer Variablen (Y), wenn die Werte einer anderen, mit ihr (linear) korrelierenden Variablen (X) bekannt sind:
zy = r · zx
lat. regredere: zurückgehen, zurückführen
Da mittels dieser (linearen) Funktion die Werte einer Variablen auf jene einer anderen Variablen zurückgeführt werden können (Abb. 3.8), nennt man diese Bezugsherstellung Regression - und das statistische Verfahren Regressionsrechnung. Mittels der Korrelation lässt sich somit der vermutete Einfluss einer Variablen auf eine andere Variable abschätzen. Das Ausmaß des statistischen Effektes einer Variablen auf eine oder mehrere andere Variablen wird als Effektstärke bezeichnet. So etwa kann man aus dem Quadrat des Korrelationswertes die Stärke des vermuteten Einflusses einer Variablen auf eine andere abschätzen (z.B. r = 0,5, r2 = 0,25, d.h. 25 % Prädiktion), wenn es sich um eine bidirektionale (notwendige und hinreichende) Beziehung handelt (s. Abb. 3.3), was bei psychologischen Effekten eher selten der Fall ist. Neben dem Korrelationskoeffizienten existieren noch weitere Kennwerte für Effektstärken (s. Bortz & Döring, 1995; Westermann, 2000).
Abb 3.8 |
Wenn zwei Variablen (X, Y) durch zwei Einheitsvektoren symbolisiert werden (d.h. als Standardvariablen mit Standardabweichung von s = 1), und die Variablen miteinander im Ausmaß von r = 0,80 korrelieren, dann kann diese Relation durch einen Winkel von 37° zwischen den Vektoren und im Variablenraum dargestellt werden: r = 0,80 = Cos (37°). Der Wert r entspricht somit der Abbildung einer Variablen auf eine andere.
Eine Besonderheit der geometrischen Betrachtungsweise von Variablen besteht darin, dass das Ausmaß ihrer linearen Beziehung (Korrelation) durch den Winkel ihrer Vektordarstellungen im Variablen- bzw. Merkmalsraum dargestellt werden kann (Andres, 1996; Abb. 3.8). Da jeder Vektor eine variablenspezifische Eigenschaft symbolisiert und gleichgerichtete Bündelungen von Vektoren somit auf Eigenschaftsüberlappungen der entsprechenden Variablen hinweisen, können für solche Variablencluster gewissermaßen „Schwerpunktvektoren“ berechnet werden, die man Faktoren nennt und die als oberbegriffliche Beschreibungen der durch die Variablen symbolisierten Eigenschaften aufzufassen sind (Abb. 3.9).
Mittels solcher faktorieller Beschreibungen kann man nicht nur komplexe Variablensysteme auf ihre „Hauptkomponenten“ reduzieren, sondern auch den korrelativen Zusammenhang zwischen verschiedenen Gruppen von Variablen (mit ähnlicher Eigenschaftsbedeutung) bestimmen. (Statistische Verfahren, die auf diesem Prinzip basieren, sind etwa die „Faktorenanalyse“, die „Multivariate Varianzanalyse“, die „Kanonische Korrelation“ oder die „Diskriminanzanalyse“.)
| Abb 3.9
Das Prinzip der „Faktorenanalyse“: Wenn zwischen je zwei dieser acht Variablen der Korrelationskoeffizient berechnet wird und die Variablen in den entsprechenden Winkeln zueinander grafisch dargestellt werden, können Bündel davon durch sogenannte Faktoren (I, II) charakterisiert werden. Die vorliegenden acht Variablen lassen sich relativ gut in nur zwei Dimensionen darstellen, wobei die Länge der Variablenvektoren das Ausmaß ihrer Charakterisierbarkeit durch die beiden senkrecht zueinander stehenden Faktoren widerspiegelt. Im Beispiel könnten die vier Variablen A, B, C und D etwa die Eigenschaften schön, vielfältig, harmonisch und heiter von architektonischen Objekten symbolisieren und aufgrund ihrer vektoriellen Bündelung einen Faktor (I) beschreiben, den man ästhetischer Eindruck nennen könnte.
Eine Erweiterung dieser Verfahren ist die sogenannte „topologische Datenanalyse“ (Wasserman, 2018; Morris, 2015), bei der Daten an empirische Formen oder Strukturen angepasst werden (z.B. Protein-Strukturen, Kommunikationsnetze).
Inferenzstatistik – schließende und prüfende Statistik | | 3.6.2 |
Wie mehrfach erwähnt, müssen in der Psychologie Schlussfolgerungen über die allgemeine Gültigkeit von Gesetzen auf Basis von Stichproben gezogen werden. Dies geschieht zumeist unter Verwendung der Wahrscheinlichkeitstheorie, mittels derer man zu bestimmen versucht, ob die in den Daten festgestellten Variablenrelationen nur zufällig oder doch durch Einwirkung eines Gesetzes zustande gekommen sind.
Vereinfacht, aber sehr prägnant kann das Bestreben empirischer Sozialforschung anhand des mathematischen Bayes-Theorems illustriert werden:
lat. a posteriori: von dem, was nachher kommt
lat. a priori: von vornherein, ohne Einbezug von Erfahrungen
In empirischen Wissenschaften geht es um die Einschätzung der Wahrscheinlichkeit p(H|D) für die Gültigkeit einer Hypothese (H) unter der Bedingung, dass hypothesenbestätigende (oder widerlegende) empirische Daten (D) berücksichtigt werden. Die „Aposteriori-Wahrscheinlichkeit“ p(H|D) für eine Hypothese (d.h. nach Einbezug der Daten) nimmt zu, wenn die „Apriori-Wahrscheinlichkeit“ für die Hypothese p(H) größer wird und/oder wenn die Wahrscheinlichkeit p(D|H) für das Auftreten hypothesenbestätigender Daten ebenfalls zunimmt. Sie nimmt hingegen ab, wenn die hypothesenrelevanten Daten auch unabhängig von der Hypothese häufiger auftreten, das heißt, wenn p(D) größer wird.
Die Plausibilität dieses Ansatzes kann am Beispiel einer medizinischen Diagnose über das Vorliegen einer Covid-19-Infektion illustriert werden: Die Annahme, dass eine Person an Covid-19 (C) erkrankt ist, wenn sie Fieber hat (p(C/F)), stimmt umso eher, (1) je größer p(C) ist, das heißt, je mehr Personen bereits an Covid-19 erkrankt sind (z.B. bei einer Epidemie), (2) je größer p(F|C), die Wahrscheinlichkeit von Fieber bei dieser Viruserkrankung, ist und (3) je kleiner p(F) ist, nämlich die Erwartung des Auftretens von Fieber im Allgemeinen (s. auch 8.5.3; Tschirk, 2019).
Merksatz
Die möglichst stabile Kennzeichnung von Personen oder Personengruppen hinsichtlich wichtiger Eigenschaften, Einstellungen oder Handlungsweisen („Punktschätzungen“) ist eine zentrale sozialwissenschaftliche Zielsetzung.
Eine zentrale sozialwissenschaftliche Zielsetzung besteht in der möglichst stabilen Kennzeichnung von Personen oder Personengruppen hinsichtlich wichtiger Eigenschaften, Einstellungen oder Handlungsweisen („Punktschätzungen“). Da solche Kennwerte immer fehlerbehaftet sind, wird mittels statistischer Techniken ein Vertrauensintervall bzw. Konfidenzintervall für sie bestimmt, innerhalb dessen mit 95%iger (99%iger) Wahrscheinlichkeit der „wahre“ Kennwert vermutet wird.
Es ist leicht einzusehen, dass der Schätzfehler für einen statistischen Kennwert mit zunehmender Größe der Stichprobe immer kleiner wird und schließlich gegen Null geht, wenn alle möglichen