Warum so viel Statistik?
Statistische Erhebungen und Auswertungen werden im öffentlichen Raum von Akteuren aus Wirtschaft, Politik, Gesundheitswesen usw. primär aus dem Grund verwendet, um die Glaubwürdigkeit der eigenen Aussagen zu erhöhen bzw. die Sinnhaftigkeit oder Alternativlosigkeit der eigenen Handlungen zu begründen. Im günstigen Fall sollten Statistiken dabei dem Verständnis der wesentlichen inneren Strukturen und der natürlichen zeitlichen und räumlichen Veränderungen von wirtschaftlichen und/oder politischen Einheiten vieler Menschen oder „Gemeinwesen“ dienen.
Obwohl mindestens ein Viertel der erwachsenen Deutschen durch ihr Studium und ihre berufliche Praxis mit den Grundkonzepten der deskriptiven und der Inferenzstatistik vertraut sein sollte, gibt es wenig Widerrede oder Fragen zum fragwürdigen bis falschen Einsatz von Statistik im öffentlichen Diskurs. Mutmaßungen, warum dem so ist, können dem in den Redaktionen antizipierten Wunsch der Leser, dass Komplexität reduziert werden soll, Rechnung tragen. Ebenso plausibel ist, dass die meisten Redakteure auch renommierter Medien Absolventen von Studiengängen sind, die weitgehend statistikfrei sind. Diese Vermutung läßt sich relativ einfach verifizieren: Vgl. z.B. https://www.faz.net/redaktion/ und https://www.spiegel.de/impressum.
Wenn Sie über das Bonmot von Des MacHale „Der durchschnittliche Mensch hat einen Busen und einen Hoden“ lachen, sollten Sie sich an die bereits erfolgte Erörterung der Sinnhaftigkeit der Aussage „Die Lebenswartung in Deutschland beträgt 80,99 Jahre“ erinnern. Nachfolgend ein paar „Bullet Points“, die Sie ggf. im Hinterkopf behalten sollten, wenn Sie Texte, die statistische Informationen beinhalten, lesen. Am Ende dieses Exkurses finden Sie eine kurze Liste guter „Unterhaltungsbücher“ zu Statistik und Wahrscheinlichkeitslehre.
Datenerhebung
Intuitiv einleuchtend ist, dass Sie keine sinnvollen Aussagen zu den Lesegewohnheiten der deutschen Gesamtbevölkerung generieren können, wenn Sie Ihre Befragungen am Eingangstor einer Universität durchführen: Ebenso wird Ihnen sofort einleuchten, dass es keine gute Idee ist, die Körperlängen der Spieler der Basketballnationalmannschaft zu messen und von diesen Daten auf die deutsche (männliche) Gesamtbevölkerung zu schließen. Diese „Beispiele“ mögen Ihnen albern vorkommen, aber genau hier liegt oft das grundsätzliche Problem: Wann immer Statistiken sinnvoll verwendet werden, sollte klar sein, wer gemessen hat, wie gemessen wurde, welche Daten intrapoliert und welche Daten extrapoliert wurden.
Damit kommt die Illusion der Präzision ins Spiel, die ein psychologisches Bedürfnis zu bedienen scheint. Für die meisten Menschen glaubwürdig sind exakte Zahlen (bei relativen Werten gern mit mehreren Nachkommastellen), obwohl selten hinreichend geklärt ist, wie das zugrunde liegende Datenmaterial erhoben wurde oder ob es „passt“. Denken Sie zum Beispiel einmal über die Sinnhaftigkeit der Aussage „In China lebten im Jahr 2019 1.401.764.328 Menschen.“ nach.
Wenn im Frühjahr oder Sommer 2020 zum Beispiel von Corona-Infektionszahlen in unterschiedlichen Staaten oder auch Bundesländern die Rede war, so wurden diese auf der Basis unterschiedlichster Testhäufigkeiten und Verfahren ermittelt. Statistiker bemühen bei Zahlen, deren zugrundeliegenden Rohdaten unterschiedlich erhoben werden, das Bild der Unmöglichkeit, sinnvoll „Äpfel mit Birnen zu vergleichen“.
Ein weiteres grundsätzliches Problem besteht darin, dass die Zahlen, die verwendet werden, oft nicht sinnvoll eingeordnet werden können. Dazu bieten sich, bei allen Schwächen, die überschlagsmäßige Ermittlung von Durchschnittswerten und bei zeitlichen Vergleichen von durchschnittlichen Wachstumsraten an.
Wenn Sie wieder an die Frühphase der Coronakrise im März und April 2020 zurückdenken, wurden damals u.a. Begriffe wie exponentielles Wachstum, tägliche Neuinfektionen, die relativen Veränderungen der Neuinfektionen, Verdoppelungszeiträume von Infizierten und Reproduktionsfaktoren ins Feld der Diskussion geführt. Oft verwendet wurde auch der den meisten Deutschen bis dato nicht bekannte Begriff der Überschusssterblichkeit. Dieser ist allerdings durch ein Problem charakterisiert, das wir bereits bei der Fertilität kennengelernt haben. Weitgehend richtig ermitteln können wir die Überschusssterblichkeit nur für die bereits vergangene Zeit. Zudem ist hier mit kausalen Ausssagen jeder Art Vorsicht geboten. Wir sehen also nicht einmal im Rückspiegel genau, ob die schwedische Regierung klüger handelte als die deutsche, die chinesische oder die US-amerikanische. Interessant zu beobachten wird sein, inwieweit der zumeist nicht hinreichend erläuterte Sprung von einer zu einer anderen Kennzahl das Vertrauen oder besser die Nachfrage nach statistischen Zahlen zukünftig verändern wird. Bereits erwähnt wurde, dass damit offensichtlich vor allem ein psychologisches Bedürfnis der Empfänger der statistischen Botschaft bedient wird. Zudem werden damit eine vermeintliche Sicherheit bzw. Objektivität transportiert.
Der Gebrauch des arithmetischen Mittels
Die eine alles erklärende Maßzahl gibt es nirgendwo. Sonst bräuchten wir auch keine Statistik (und ein Kochbuch mit den ultimativen Rezepten und eine Philosophie täten es vermutlich auch).
Denken Sie hier zum Beispiel an die zahlreichen Kennzahlen, die in der Unternehmensbewertung Verwendung finden oder an das Kurs-Gewinn-Verhältnis, das Gewinnwachstum, die Dividendenrenditen, den freien Cash-Flow usw. bei der Aktienanalyse. Selbst die Kombination mehrer „guter“ Kennzahlen schützt Sie nicht vor Fehleinschätzungen und damit Fehlentscheidungen.
In jedem Grundkurs der Statistik, der diesen Namen verdient, werden Sie mit den Maßen der sogenannten zentralen Tendenz Mittelwert, Median und Modalwert, diversen Streuungs- oder Dispersionsmaßen sowie Maßen für Symmetrie oder Spitzgipfligkeit einer Verteilung bekannt gemacht. In den Medien ist es aber das arithmetische Mittel, das trotz beschränkter Aussagekraft zumeist im Alleingang verwendet wird.
Nehmen Sie zum Beispiel an, dass im Jahr 2018 das durchschnittliche Einkommen eines Bürgers einer deutschen Großstadt mit 250.000 Einwohnern 40.000 Euro betrug. Die Aussagen, dass das Gesamteinkommen dieser Stadt mit 250.000 Einwohnern 10.000.000.000 Euro (10 Milliarden Euro) beträgt und dass das durchschnittliche Einkommen 40.000 Euro beträgt, sind äquivalent. Sie stellen lediglich unterschiedliche Perspektiven dar. Zu dieser Bevölkerung gehören natürlich Kinder, Empfänger von Transferleistungen usw.
Nehmen Sie nun an, dass Bill Gates, Microsoft-Gründer, Multimilliardär und Chef der Bill und Melinda Gates-Stiftung,1 in diese Stadt zieht. Sie können leicht verifizieren (Google ist diesem Fall wirklich Ihr Freund), dass Bill Gates’ Einkommen (Dividenden, Wertzuwachs von Microsoft- Aktien und anderen Anlangen) im Jahr 2018 etwa 10 Milliarden Euro betrug. Wenn Sie also das neue Durchschnittseinkommen Ihrer Großstadt ermitteln, werden Sie 20 Mrd. Euro durch 250.001 dividieren und folglich auf Grund des einen Ausreißers einen Wert von näherungsweise 80.000 Euro Durchschnittseinkommen ermitteln. Nur hat sich das durchschnittliche Einkommen (wie dieser Durchschnitt zustande gekommen ist, wissen wir hier übrigens auch nicht) der ursprünglichen 250.000 Menschen nicht geändert. Der Effekt wäre natürlich noch beeindruckender gewesen, wenn Bill Gates in ein Dorf gezogen wäre: Je kleiner die Populationsanzahl, umso größer ist der Bias (auf deutsch Verzerrung), auch wenn sich für fast alle Menschen nichts geändert hat. Auch ohne Bill Gates gilt jedenfalls, dass mehr als die Hälfte einer Bevölkerung weniger als das Durchschnittseinkommen verdienen. Wieviele das sind, hängt von der Einkommensverteilung ab.
Aus Gründen der besseren Interpretierbarkeit ziehen Statistiker im Normalfall den Einkommensmedian, das ist der Wert, für den die eine Hälfte der Bevölkerung ein niedrigeres und die andere Häfte ein höheres Einkommen erzielt, dem BIP per capita bzw. dem Pro-Kopf-Einkommen vor. Im Jahr 2019 betrug das Pro-Kopf-Einkommen in Deutschland 41.342 Euro, während der Einkommensmedian bei „nur“ 2.503 Euro pro Monat, also ca. 30.000 Euro pro Jahr lag. Diese Werte sind zwar nicht direkt vergleichbar: Jenseits von Arbeitgeberbeiträgen zur Sozialversicherung wird der Unterschied aber noch größer, wenn man berücksichtigt, dass bei der Berechnung des Pro-Kopf-Einkommens die Gesamtbevölkerung und beim Medianeinkommen nur die arbeitende Bevölkerung gezählt