Die deskriptive Statistik besitzt zahlreiche wichtige Funktionen:
■ Methoden und Kennziffern: Die grundlegende Funktion der deskriptiven Statistik als Disziplin ist, ein Instrumentarium an Methoden und Kriterien zur statistischen oder visuellen (1) Reduktion von Daten und (2) Beschreibung durch z.B. Kennziffern, Tabellen oder Graphiken bereitzustellen. Die explorative Datenanalyse verwendet meist dieselben Methoden und Kriterien, hat jedoch das Ziel, anhand v.a. visueller Analyse der Daten neue Annahmen und Hypothesen über Strukturen, Ursachen oder Zusammenhänge aufzustellen (vgl. Behrens, 1997). Die im Weiteren beschriebenen Funktionen beziehen sich auf die deskriptive Statistik als Methode.
■ Datenreduktion: Die grundlegende Funktion der deskriptiven Statistik als Methode ist die Datenreduktion, also die Reduktion von unüberschaubaren Mengen an Daten auf wenige, aber überschaubare Kennzahlen, Tabellen oder z.B. Graphiken, und damit auch die Beschreibung durch sie (vgl. auch Ehrenberg, 1986). Das Ziel der deskriptiven Statistik ist nicht der inferentielle Schluss auf eine nicht-verfügbare, hypothetische Grundgesamtheit.
■ Zusammenfassen: Zahlreiche Einzelwerte können in einem einzelnen Wert zusammengefasst werden. Die Anzahl aller Einwohner eines Landes kann z.B. in einem einzigen Summenwert ausgedrückt werden. Auf diese Weise kann eine unübersehbare Menge an Daten übersichtlich aufbereitet werden.
■ Beschreiben: Die Information zahlreicher Einzelwerte kann durch einen einzelnen Wert beschrieben werden. Das durchschnittliche Alter aller Einwohner eines Landes kann z.B. durch einen einzelnen Mittelwert beschrieben werden.
■ Strukturieren: Für das Strukturieren zahlreicher Einzel werte gibt es verschiedene Möglichkeiten: z.B. über Häufigkeitstabellen, Streudiagramme oder Maßzahlen, ggf. zusätzlich unterteilt (aggregiert) nach einer sog. Gruppierungsvariablen. All diese Möglichkeiten können Strukturmerkmale von Daten (also ihrer Verteilung) deutlich machen. Je nach Datenmenge und -verteilung können bestimmte Ansätze geeigneter sein als andere. Bei sehr großen Datenmengen sieht man z.B. bei Graphiken u.U. nur noch „schwarz“. Häufigkeitstabellen geraten oft unübersichtlich. Letztlich verbleiben oft nur (gruppierte) Maßzahlen in Kombination mit Grafiken.
■ Herausheben: Die wesentliche Information soll hervorgehoben werden. Gegebenenfalls erforderliche Vereinfachungen sollen den Informationsgehalt der deskriptiven Statistik so wenig als möglich einschränken. Ein klassisches Beispiel ist z.B., dass bei der Angabe eines Mittelwerts immer auch eine Standardabweichung angegeben werden sollte, um anzuzeigen, ob der Mittelwert tatsächlich die einzelnen Daten angemessen repräsentiert oder ob sie substantiell von ihm abweichen (was eben die mit angegebene Standardabweichung zu beurteilen erlaubt).
■ Grundlegen: Die deskriptive Statistik ist oft die Wirklichkeit hinter innovativ klingenden Verfahren. Googles MapReduce ist z.B. aus der Sicht der deskriptiven Statistik nichts anderes als umfangreiche Freitexte in einzelne Elemente (z.B. Worte) zu zerlegen, diese zu sortieren und abschließend ihre Häufigkeit zu ermitteln. Das Umwandeln des Freitexts in die Wortliste wird als Erzeugen der „Map“ bezeichnet, und das Auszählen und Ersetzen vieler gleicher Worte durch einen Repräsentanten und die dazugehörige Häufigkeit als das „Reduce“. „MapReduce“ mag interessanter klingen als „Auszählen von Zeichenketten“ (vgl. z.B. Schendera, 2005, 133–136 zur Analyse von Text mit SPSS v13). Zentral für das verteilte Text Mining auch sehr großer Datenmengen sind jedoch die Prinzipien der deskriptiven Statistik und die erscheint spätestens jetzt so richtig spannend. Wer weiß, welche Geheimnisse andere Data-Mining-Verfahren verbergen…
■ Schließen: Im Allgemeinen ist mittels der deskriptiven Statistik nur der Schluss auf die Stichprobe möglich, an der die Daten erhoben wurden; mittels Inferenzstatistik ist dagegen auch der Schluss von der Stichprobe auf die Grundgesamtheit möglich (u.a. Zufallsziehung vorausgesetzt). Die deskriptive Statistik kann die schließende Statistik allerdings ersetzen, und zwar dann und nur dann(!), wenn es sich bei den Daten um eine Vollerhebung handelt, z.B. bei Daten einer Volkszählung oder auch um unternehmensinterne Kundendaten in einem DWH. In diesem Falle, und nur in diesem Falle(!), kann auf die Inferenzstatistik verzichtet werden. Stammen die Daten aus einer Vollerhebung, ist jegliche deskriptive Statistik gleichzeitig auch eine Beschreibung einer (verfügbaren!) Grundgesamtheit; Inferenzschlüsse auf diese Grundgesamtheit sind somit nicht mehr erforderlich (dies kann auch Konsequenzen für die Wahl der Formeln haben). Nur in diesem Fall ist mittels der deskriptiven Statistik auch die Überprüfung von Hypothesen möglich (jedoch nicht im strikt inferenzstatis tischen Sinne). Bei einer Stichprobe beschränkt sich die Aussage also im Allgemeinen auf die beschriebenen Daten; bei einer Vollerhebung gilt die Aussage auch für die Grundgesamtheit (weil die beschriebenen Daten die Grundgesamtheit sind). An dieser Stelle eröffnet sich ein fließender Übergang zur konfirmatorischen Analyse, die in Form der Abweichung der Daten von einem Modell zwar einen Modelltest darstellt, jedoch keinen Hypothesentest im inferenzstatistischen Sinne.
■ Screening: Die deskriptive Statistik beschreibt die Daten, so wie sie sind. „as is“ wird in der IT oft dazu gesagt. Dies bedeutet auch, dass die deskriptive Statistik gegebenenfalls auch Fehler in den Daten erkennen lassen kann (vgl. Schendera, 2007). Was also an dieser Stelle hervorgehoben werden sollte: Die Funktionen des Aggregierens, Beschreibens, Heraushebens bzw. Schließens sind dieser Funktion als Priorität und in der Zeit nachgeordnet. Die beste Beschreibung nützt leider nur wenig, wenn sie noch auf fehlerhaften Daten beruht. Das Screening mittels deskriptiver Statistik ist also ein mehrfach durchlaufener Prozess: Am Anfang wird keine Qualität von Daten vorausgesetzt (sie wird jedoch überprüft) („vorläufige deskriptive Statistik“), sie sollte jedoch am Ende des Screenings geprüft und schlussendlich als gegeben vorliegen („finale deskriptive Statistik“).
■ Kommunikation von Vertrauen: Während die Funktion des Screenings ein iterativ durchlaufener Prozess ist, ist die resultierende Datenqualität am Ende dieses Prozesses auch ein Wert mit der Funktion des Kommunizierens von Qualität und Vertrauen in die Daten. Die Funktion dieses Wertes ist, dass sich Leser und Anwender auf Maßzahlen und Aussagen auf Basis der deskriptiven Statistik verlassen können.
■ Unterstützung der Datenanalyse und Inferenzstatistik: Die („finale“) deskriptive Statistik unterstützt die Datenanalyse (v.a. explorative und konfirmatorische Analyse) und die Inferenzstatistik in mehrerer Hinsicht: z.B. um (1) sich einen ersten Eindruck von Voraussetzungen der Daten (z.B. Verteilungsform) zu verschaffen, (2) z.B. deskriptive Statistiken zu erzeugen, die konfirmatorische oder inferenzstatistische Analysen nicht standardmäßig ausgeben, (3) ihre Daten und Analysen besser nachzuvollziehen, und (4) (ggf. unterstützt durch einen eher explorativen Zugang) letzten Endes zusätzliche Hinweise für das weiteres Vorgehen aufzudecken.
Die statistische Beschreibung mittels deskriptiver Statistik kann auf unterschiedliche Weise erfolgen:
■ Maßzahlen: Maßzahlen reduzieren die Information unübersehbarer Datenmengen auf wenige Zahlen, die bestimmte Facetten dieser Datenmenge möglichst gut beschreiben. Man kann sich das so vorstellen, dass eine einzelne Maßzahl nur eine „Perspektive“ auf die Daten ist, z.B. ihr Durchschnitt. Um nun die Daten auch aus anderen Blickwinkeln „betrachten“ zu können, werden daher mehrere Maßzahlen berechnet, z.B. auch ihre Streuung. Dadurch wird auch einem möglichen Informationsverlust durch die Datenreduktion vorgebeugt. Maßzahlen werden in Lage-, Streu- und Formparameter unterteilt, z.B. Mittelwert (MW) und Standardabweichung (SD).
Beispiel
Daten a: 2, 2, 2 MW = 2,0, SD = 0,0
Daten b: 1, 2, 3 MW = 2,0, SD = 1,0