Deskriptive Statistik verstehen. Christian FG Schendera. Читать онлайн. Newlib. NEWLIB.NET

Автор: Christian FG Schendera
Издательство: Bookwire
Серия:
Жанр произведения: Математика
Год издания: 0
isbn: 9783846339695
Скачать книгу
Daten können in Tabellenform nonaggregriert (Rohdaten), aggregiert (z.B. Häufigkeitstabellen), kreuztabelliert oder hochverschachtelt wiedergegeben werden. Ist die gewählte Tabellenstruktur (z.B. uni-/multivariat und/oder ein-/mehrdimensional) der konkreten Datenverteilung angepasst, wird die Information großer Datenmengen überschaubar wiedergegeben, oft z.B. in Kombination mit Grafiken.

      ■ Grafiken: Daten können auch in grafischer Form als „fixierte Bilder“ wiedergegeben werden. Hier stellt der Forschungsbereich der visuellen Statistik bzw. der statistischen Visualisierung vielfältige Diagrammvarianten zur Verfügung, von nonaggregrierten, aggregierten, gruppierten bis hin zu uni-/multivariaten und/oder ein-/mehrdimensionalen Diagrammformen. Angefangen von Balken-, Kreis- und Liniendiagrammen bis hin zu Streu-, Bubble- oder Mosaik-Diagrammen, um nur einige zu nennen (vgl. 5.4).

      ■ Animationen: Daten können auch als „bewegte Bilder“ wiedergegeben werden. Der Phantasie sind hier keine Grenzen gesetzt: angefangen von animierten Standardgrafiken über Cockpits und Dashboards (v. a. für Unternehmen) bis hin zu (ggf. sogar in Echtzeit aktualisierten) Visualisierungen von Kunden-, Waren- bzw. Nutzungsströmen, die fast schon an Videoclips grenzen.

      Empfehlungen, welche Darstellungsform den anderen vorgezogen werden können, lassen sich nicht allgemeingültig aussprechen. Die Übersichtlichkeit und damit auch ihr Informationsgehalt werden letztlich auch von der konkreten empirischen Verteilung und der Relevanz der jeweiligen Kenngrößen mitbestimmt. Die Kombination von Maßzahlen und Grafiken (Visualisierungen) gilt i. Allg. als das aufschlussreichste Vorgehen.

      Was sind die Voraussetzungen einer erfolgreichen deskriptiven Statistik?

      ■ Daten: So banal das klingen mag, eine deskriptive Statistik ist nicht ohne Daten, also Werte, möglich. Die untere Datenmenge liegt je nach deskriptiver Maßzahl zwischen N=0 (z.B. Summe) und um N=5 (z.B. für bestimmte Verfahren aus der Zeitreihenanalyse). Nach oben gibt es keine Grenze außer der Leistungsfähigkeit des Analysesystems selbst. Metadaten, also Informationen über Daten, erleichtern die Arbeit mit Daten ungemein. Zu den Informationen zum Erheben bzw. Definieren von Daten gehören z.B. semantische Definitionen (inkl. Ein- und Ausschlusskriterien), Informationen zur Datenquelle (Ort, Anzahl) oder auch zum Erhebungsmodus (Kunden- bzw. Haushaltsbefragungen) usw. (vgl. Schendera, 2007, 393–395).

      ■ Vollständigkeit: Die deskriptive Statistik setzt die Vollständigkeit der zu beschreibenden Daten voraus. Damit ist nicht gemeint, dass Daten aus einer Vollerhebung stammen sollen, sondern dass alle Daten einer zu beschreibenden Stichprobe oder Vollerhebung auch tatsächlich vollständig vorhanden sind. Vollständigkeit ist eines der grundlegenden Kriterien für Datenqualität und damit auch für die deskriptive Statistik – vielleicht mit der Präzisierung, dass es sich dabei um die richtigen Daten handeln muss.

      ■ Datenqualität: Datenqualität ist die zentrale Voraussetzung für die deskriptive Statistik (i.S.e. „finalen deskriptive Statistik“). Deskriptive Statistik auf der Basis fehlerhafter Daten kann nicht hinreichend die gemessenen Entitäten beschreiben und kann einer (Selbst-)Täuschung gleichen. Datenqualität stellt sicher, dass sich Anwender auf Maßzahlen und Aussagen verlassen können. Auf Datenqualität wird einführend in Abschnitt 3.3 und ausführlich in Kapitel 6 eingegangen.

      ■ Messniveau: Die deskriptive Statistik setzt die Kenntnis der Messeinheiten der zu beschreibenden Daten voraus. Erst Messeinheiten und das zugrunde liegende Referenzsystem machen aus Zahlen erst Werte, die Zustände, Unterschiede oder auch Veränderungen korrekt zu beschreiben und vor allem auch zu interpretieren erlauben. Eine der ersten Fragen, die man sich bei der Beschreibung von Daten stellen sollte, ist: In welcher Einheit sind diese Zahlen und wie sind sie zu interpretieren? Messeinheiten werden in Abschnitt 2.2 vorgestellt.

      ■ Erhebung: Die deskriptive Statistik kann auf Daten jeglicher Ziehungsart und jeden Umfangs angewandt werden; es empfiehlt sich jedoch die Klärung der Umstände ihrer Erhebung. „Erhebung“ umfasst drei thematisch verschiedene Aspekte, die aber oft zusammen auftreten, nämlich Art, Umfang und Design einer Erhebung: (1) Vor dem Erzeugen einer deskriptiven Statistik ist es notwendig zu prüfen, ob die Daten aus Vollerhebungen oder Stichproben stammen. (2) Stammen die Daten aus einer Vollerhebung, ist jegliche deskriptive Statistik gleichzeitig auch eine Beschreibung der Grundgesamtheit. Stammen die Daten aus einer Stichprobe, so sind u.a. das Verhältnis Ziehungs- und Erhebungsgesamtheit und die Abhängigkeit der statistischen Signifikanz vom ggf. nicht unerheblichen N zu beachten (vgl. z.B. Schendera, 2007, 395, 406). Bei der „Grauzone“, wenn sich die Größe der Stichprobe einer Vollerhebung, also einer Grundgesamtheit annähert, stehen Anwender letztlich vor der Wahl, ihre Daten als Grundgesamtheit oder Stichprobe zu definieren. Die Merkmale einer (Zufalls-)Stichprobe werden mit zunehmender Größe derjenigen der Grundgesamtheit immer ähnlicher (Gesetz der großen Zahl). (3) Mit dem Design einer Erhebung ist gefordert, dass eine Zufallsziehung vorliegt und dass im Falle ungleicher Auswahrscheinlichkeit der Fälle ihre Gewichte (idealerweise im selben Datensatz) vorliegen und ihre Ermittlung als Erhebungsdesign dokumentiert ist (vgl. 3.2 und 7.1).

      ■ Gewichte: Üblicherweise wird jeder Wert in der deskriptiven Statistik mit dem Gewicht 1 in die Analyse einbezogen. Ein Gewicht von 1 bedeutet, dass dieser Wert nur einen Fall repräsentiert, also nur für sich selbst steht. Je nach Analysekontext ist es sehr gut möglich, dass ein Fall jedoch nicht nur für sich selbst alleine steht, sondern für mehrere andere. In diesem Fall wird diesem Fall explizit ein anderes Gewicht zugewiesen, z.B. 10. Ein Wert mit dem Gewicht 10 repräsentiert daher zehn Fälle, und nicht nur einen. Gewichte werden aus diversen Gründen vergeben, z.B. um Auswahlwahrscheinlichkeiten (z.B. Oversampling) anzugleichen. Eine der ersten Fragen, die man sich bei der Beschreibung von Daten stellen sollte, ist: Sind die Daten gewichtet oder nicht? Falls die Daten gewichtet sind, wo sind die Gewichte dokumentiert und abgelegt? Zwei Abschnitte mit zwei völlig unterschiedlichen, aber einander ergänzenden Schwerpunkten führen in die deskriptive Statistik unter Einbeziehen von Gewichten ein. Abschnitt 3.2 richtet zunächst die Aufmerksamkeit auf Designstrukturen, Auswahlwahrscheinlichkeiten und Zufallsziehung. Abschnitt 7.1 befasst sich genauer mit der Herleitung von Gewichten und veranschaulicht das Berechnen deskriptiver Maße unter Zuhilfenahme von Gewichten.

      Die deskriptive Statistik wird, eventuell abgesehen von der zugrunde liegenden Mathematik oder Statistik, überwiegend als recht unproblematisch vermittelt. Die Erfahrung zeigt, dass in der praktischen Anwendung der deskriptiven Statistik oft etwas großzügig (meist unbedacht) mit dem Sinn, aber vor allem mit den Grenzen der deskriptiven Statistik umgegangen wird. Was sind erfahrungsgemäß häufige Fallstricke bei der Arbeit mit der deskriptiven Statistik?

      ■ Kein Plan: Keinen Plan zu haben, kann manchmal etwas Befreiendes an sich haben; bei der Erstellung einer deskriptiven Statistik könnte dies u.U. zu heiklen Situationen führen. Nach allgemeiner Erfahrung ist die deskriptive Statistik ein unterschätztes Instrumentarium an Methoden, Kriterien und Voraussetzungen. Keinen Plan zu haben, meint weniger die Anforderung einer deskriptiven Statistik „auf Knopfdruck“, sondern, dass dabei wesentliche Hintergrundinformationen (Metadaten) über die Daten nicht bekannt sind oder berücksichtigt werden. Hilfreiche Stichworte für einen Plan können z.B. sein: Vollerhebungen vs. Stichproben; falls Stichproben: Ziehungs-/Erhebungsgesamtheit (inkl. Ausfälle), Ein-/Ausschlusskriterien, Erhebungsdesign (Strukturen, Ziehungsplan, Gewichte, usw.), Variablen (Definitionen, Messniveaus, Einheiten, Maße, usw.), Analysepläne (Designstrukturen, Klassifikationsvariablen), (Grad der) Datenqualität oder auch, wie Zahlen im Text dargestellt werden sollen. Abschnitt 7.2 stellt diverse Vorschläge für das Schreiben von „zahlenlastigen“ Texten zusammen.

      ■ Verwechslung: Explorative Analyse, konfirmatorische Analyse und Inferenzstatistik haben andere Ziele wie die deskriptive