Kapitel 2 stellt die Grundlagen der deskriptiven Statistik als ein „Heimspiel“ vor. Mit einem Heimspiel ist gemeint: Man spielt mit dem eigenen Team im eigenen Stadion vor eigenem Publikum. Man kennt sich bestens aus. Die Grundlagen der deskriptiven Statistik sind bekannt, man ist bestens vorbereitet. Abschnitt 2.1 beginnt daher mit einer der am häufigsten betrachteten Tabellen in Deutschland, nämlich einer Bundesligatabelle. Das Ziel ist, anhand dieser Tabelle die wichtigsten Grundbegriffe der deskriptiven Statistik zu erläutern. Fußball erklärt also die deskriptive Statistik. Abschnitt 2.2 beginnt mit der Erläuterung des Inhalts von Datentabellen und geht auf Begriffe wie z.B. Zahlen, Ziffern und Werte anhand von Beispielen aus dem Fußball ein. Abschnitt 2.3 geht anschließend mit der Frage: „Was hat Messen mit meinen Daten zu tun?“ auf das sog. Messniveau einer Variablen über. Anhand der Bundesligatabelle werden Messniveaus und ihre grundlegende Bedeutung für jede (nicht nur deskriptive) Statistik erläutert. Abschnitt 2.4 hebt die Konsequenzen des Messniveaus für die praktische Arbeit mit Daten hervor. Begriffe wie z.B. Genauigkeit, Reliabilität und Validität sowie Objektivität werden z.B. mittels Torjägern veranschaulicht. Heimspiel bedeutet auch, dass man es durch eine gute Vorbereitung selbst in der Hand hat, auch ein anspruchsvolles Auswärtsspiel in die Kontrollierbarkeit und Niveau eines Heimspiels zu wandeln. Der Fokus von Kapitel 2 ist daten-nahe, und beschränkt sich daher auf Information in einer Datentabelle. Kapitel 3 beschreibt dagegen den Kontext von Daten, also Information, die man nicht notwendigerweise durch das Analysieren einer Datentabelle erfährt.
Kapitel 3 stellt grundlegende Fragen zusammen, die vor der Durchführung einer deskriptiven Statistik geklärt sein sollten. Den Anfang macht Abschnitt 3.1, der fragt: Wie wurden die Daten erhoben? und stellt damit z.B. Fragen nach dem Messvorgang. Abschnitt 3.2 stellt Fragen nach verborgenen Strukturen, wie z.B. Ziehung und Auswahlwahrscheinlichkeit. Anhand von Entdeckungsreisenden in Sachen Fußball wird erläutert, was eine naive von einer systematischen Ziehung und Gewichtung von Daten unterscheidet. Aber selbst wenn diese Frage zufriedenstellend geklärt ist, ist damit noch nicht selbstverständlich, dass eine deskriptive Statistik erstellt werden kann. Abschnitt 3.3 fragt nach der Fitness der Daten (Darf eine deskriptive Statistik überhaupt erstellt werden?) und stellt mehrere mögliche Spielverderber vor. Abschnitt 3.4 ist eine Art Exkurs („Auszeit“) und stellt Strukturen von Datentabellen vor, welche technische Eigenschaften (Attribute) sie haben und wie sie u.a. von Software verarbeitet werden. Abschnitt 3.5 widmet sich abschließend der womöglich spannendsten Frage: Was kann ich an meinen Daten beschreiben? Die Antwort darauf muss lauten: „Es kommt darauf an…“
Kapitel 4 beschreibt (endlich!) die Reise ins Herz der deskriptiven Statistik. Abschnitt 4.1 erläutert Maße für das Beschreiben von Mengen und Anteilen: Summe (∑), Anzahl (N, n) und Häufigkeit (h, f, H, F). Abschnitt 4.2 erläutert die gebräuchlichsten Maße für das Beschreiben des Zentrums einer Verteilung (Lagemaße): Modus (D), Median (Z), Mittelwert (x). Zur Illustration des Effekts von Missings sind die Beispiele für Lagemaße ohne und mit Missings berechnet. Abschnitt 4.3 erläutert die gebräuchlichsten Maße für das Beschreiben der Abweichung vom Zentrum einer Verteilung (Streuungsmaße): Spannweite R, Interquartilsabstand, Varianz, Standardabweichung, und Variationskoeffizient. Auch die Beispiele für Streuungsmaße sind ohne und mit Missings berechnet. Abschnitt 4.4 erläutert die gebräuchlichsten Maße für das Beschreiben der Abweichung von der Form einer Normalverteilung (Formmaße): Schiefe und Exzess. Abschnitt 4.5 erläutert das Beschreiben von Grenzen und Bereichen anhand von Quantilen (u.a. Median, Quartile, Dezentile) als eine Art Kombination aus Lage- und Streumaß. Ab schnitt 4.6 erläutert das Beschreiben von Treffern, z.B. bei Wetten mit zwei Ausgängen („hopp oder topp“). Für einen „Wettkönig“ werden für Wetten mit vier Ausgängen Sensitivität, Spezifität, ROC/AUC sowie Gewinn-Verlust-Matrix ermittelt. Abschnitt 4.7 stellt drei Möglichkeiten für das Beschreiben von Zeit vor: das geometrische Mittel (4.7.1), die Regressionsanalyse (4.7.2) sowie die Methode der exponentiellen Glättung als Trend bzw. Prognose (4.7.3). Bevor es an die praktische deskriptive Statistik geht, veranschaulicht Abschnitt 4.8, dass wer sich in der deskriptiven Statistik auskennt, auch andere als die „üblichen“ Visualisierungen „lesen“ kann. Deskriptive Statistik eben als Kompetenz. Abschnitt 4.8 stellt das Beschreiben von Prozessen vor, z.B. Funnel Charts (Trichterdiagramme usw.) für z.B. Pipelines. Abschnitt 4.9 verschafft einen schnellen Überblick, wo die meisten dieser Maße im SAS Enterprise Guide (4.9.1) und in IBM SPSS Statistics zu finden sind (4.9.2).
Kapitel 5 beschreibt die Grundlagen der Struktur und Interpretation von Tabellen und Grafiken zur Visualisierung von Daten. Abschnitt 5.1 beginnt beim Grundsätzlichen und erläutert die Konstruktion von 0- bis n×klassierten Tabellen; darunter Ausrichtung, Verschachtelung, die Vor- und Nachteile von Tabellen und wie mit SAS und SPSS 0- bis n×klassierte Tabellen erzeugt werden können. Abschließend wird eine einfache 0×(gesprochen: „nullfach“) klassierte Tabelle vorgestellt. Eine solche Tabelle ist nicht nach einer Klassifikationsvariablen strukturiert. Abschnitt 5.2 beginnt mit den Grundlagen einer 1×klassierten Tabelle und geht dann zu spezielleren Themen über. Anhand einer Klassifikationsvariablen auf Nominalniveau werden die Grundlagen 1×klassierter Tabellen erläutert (5.2.1); an einer Klassifikationsvariablen auf Ordinalniveau werden Besonderheiten wie z.B. Ranginformation (5.2.2) oder Missings (5.2.3) vertieft. Unterabschnitt 5.2.4 erläutert eine 1×klassierte Tabelle für Variablen auf Intervallniveau, z.B. eine Mittelwerttabelle. Abschnitt 5.3 geht auf 2×klassierte Tabellen über, darin definieren Zwei Kategorialvariablen eine Tabelle. Trotz komplexerer Tabellenstrukturen kommen mathematisch gesehen dieselben Rechenoperationen zum Einsatz. 5.3.1 beschreibt detailliert die Anforderung und Interpretation einer Kreuztabelle, u.a. Zellhäufigkeit und -prozente sowie Spalten- und Zeilenhäufigkeit und -prozente. Unterabschnitt 5.3.2 erläutert eine Tabelle, die wie eine Kreuztabelle strukturiert ist, jedoch die Werte einer dritten Variablen auf Intervallskalenniveau als Mittelwerte wiedergibt. Abschnitt 5.4 behandelt die Kommunikation von Werten und Daten mittels Diagrammen. Die Unterabschnitte sind anwendungsorientiert auf bestimmte Aussagen ausgerichtet: Wiedergabe von Datenpunkten (einzelne Werten einer Variablen, z.B. univariates Dot-Plot; vgl. 5.4.2), Wiedergabe von zusammengefassten Werten einer Variablen (vgl. 5.4.3, z.B. Balkendiagramm; ggf. gruppiert nach einer zweiten Variablen), Wiedergabe von bivariaten Messwertpaaren (z.B. eines Streudiagramms; vgl. 5.4.4) sowie Aggregierung und Gruppierung zweier Variablen und andere Fälle (z.B. Butterfly-Plot, vgl. 5.4.5). Allem voran geht ein Crashkurs (Übersicht) mit Tipps (Dos), was man tun sollte und was besser nicht (Don’ts; vgl. 5.4.1).
Kapitel 6 vertieft das Thema der Datenqualität. Letztlich sind Datenqualität und deskriptive Statistik ein Dream-Team. Nur mit geprüfter Datenqualität macht eine deskriptive Statistik Sinn. Für jeden „Spielverderber“ werden Sie seine besondere Bedeutung (um nicht zu sagen: Gefahr) und meist mehrere unkomplizierte Maßnahmen zur Prüfung kennenlernen. Der Umgang mit einem gefundenen Fehler hängt dabei von Art und Ursache