Methodenberatung

 

Deskriptive, univariate Analyse (Verteilungen)

1. Einführung
2. Häufigkeitsverteilungen
3. Verteilungsparameter
3.1. Lagemasse, zentrale Tendenz: Mittel, Median und Modus
3.2. Streuungsparameter: Varianz und Standardabweichung
4. Schiefe und Steilheit
5. Normalverteilung
6. SPSS-Befehle
7. Literatur

1. Einführung

Die univariate, deskriptive Analyse ist ein wichtiger Schritt im Rahmen jeder Datenanalyse. Sie dient einerseits der Beschreibung eines Datensatzes anhand einzelner Merkmale und hilft, mögliche Fehler bei der Datenerfassung und/oder Ausreisser im Datensatz zu entdecken. Andererseits ist sie notwendig, um die Eignung der Daten für bestimmte bi- und multivariate Analyseverfahren einzuschätzen. Im Rahmen dieses Schrittes werden in der Regel Häufigkeitsverteilungen sowie Lage- und Streuungsmasse betrachtet.

2. Häufigkeitsverteilungen

Häufigkeitsverteilungen beschreiben, wie oft die verschiedenen Merkmalsausprägungen einer Variablen im Datensatz vorkommen. Es wird dabei zwischen absoluten und relativen Häufigkeiten unterschieden: Die absolute Häufigkeit gibt an, wie häufig eine bestimmte Merkmalsausprägung im Datensatz vorkommt. Gibt es sehr viele verschiedene Merkmalsausprägungen im Datensatz, so fasst man sie oftmals zu Klassen zusammen. Dies macht die deskriptiven Ergebnisse übersichtlicher und dadurch leichter lesbar.

Beispielsweise ist es gelegentlich sinnvoll, Alters- oder Einkommensklassen zusammenzufassen. Zudem werden manchmal aus inhaltlichen Gründen verschiedene Gruppen zusammengefasst, zum Beispiel Berufsgruppen oder wenn Antworten auf eine offene Frage nach einem „Lieblingsmusiker“ in Musikstile klassifiziert werden.

Die relative Häufigkeit zeigt, welcher relative Anteil der Untersuchungseinheiten eine bestimmte Merkmalsausprägung aufweist – zum Beispiel wie viel Prozent der Bevölkerung angibt, „eher umweltbewusst“ oder „sehr umweltbewusst“ zu sein oder welcher Anteil aller Schüler eines Jahrganges eine genügende Testleistung erreicht haben.

Die Darstellung erfolgt durch Häufigkeitstabellen und/oder graphisch, beispielsweise durch Balken- oder Kreisdiagramme. Unter den graphischen Darstellungsformen werden für stetige Variablen insbesondere Histogramme häufig verwendet.

tab1
Tabelle 1: Häufigkeitstabelle

SPSS gibt in dieser Form Häufigkeitstabellen aus. Darin ist ersichtlich, wie häufig die Personen angeben, „einen Einkaufsbummel“ zu unternehmen (Quelle Daten: Allbus 2008, nur Westdeutsche). Die Ausgabe einer Häufigkeitstabelle für jede Variable ist vor der Durchführung von statistischen Tests notwendig. Anhand einer solchen Tabelle lässt sich schnell erkennen, ob Werte irrtümlicherweise falsch eingegeben wurden. Das folgende Histogramm veranschaulicht denselben Sachverhalt, allerdings ohne Berücksichtigung der fehlenden Werte:

abb1
Abbildung 1: Histogramm

Am Histogramm lassen sich leicht Ausreisser erkennen. Die Verteilung lässt sich grundsätzlich beschreiben durch die Anzahl „Gipfel“, deren Aussehen und der Symmetrie oder Asymmetrie des Histogramms. Diese Charakteristika der Verteilung können auch numerisch erfasst werden.

3. Verteilungsparameter

Zusätzlich zu einer graphischen Darstellung lassen sich verschiedene Parameter berechnen, die die Verteilung der Merkmalsausprägungen charakterisieren. Dazu gehören Lage- und Streuungsparameter. Alle beschriebenen Parameter lassen sich mit SPSS im Dialogfenster „Häufigkeiten“ berechnen. Hierzu müssen die zu berechnenden Parameter unter „Statistiken“ ausgewählt werden. Bei intervallskalierten Variablen werden im Ergebnisbericht immer Mittelwert und Varianz bzw. Standardabweichung angegeben.

3.1. Lagemasse, zentrale Tendenz: Mittel, Median und Modus

Lagemasse beschreiben die sogenannte zentrale Tendenz der Daten. Diese charakterisieren die Häufigkeitsverteilung durch einen einzigen Wert, der die gesamte Verteilung so gut wie möglich repräsentieren soll. Wichtige Masse sind hier das arithmetische Mittel, der Median und der Modus.

3.1.1. Das arithmetische Mittel

Das arithmetische Mittel (mean, Mittelwert) ist das gebräuchlichste Mass der zentralen Tendenz. Es ist gleich dem mathematischen Durchschnitt. Hier ein Berechnungsbeispiel:

x1 = 2; x2=3; x3=7

f2

Zur Berechnung des Mittelwertes ist prinzipiell ein metrisches Skalenniveau erforderlich. In der Praxis wird es allerdings häufig auch auf der Basis ordinalskalierter Daten errechnet.

3.1.2. Der Median

Der Median (median, Zentralwert) teilt eine Stichprobe in zwei gleich grosse Hälften. Er ist damit das 50%-Quantil der Verteilung einer Variablen. Es liegen genau so viele Werte unter wie über diesem Wert. Mindestvoraussetzung ist ordinales Skalenniveau.

Bei einer geraden Anzahl Fälle ist der Modus im Falle metrischer Daten der arithmetische Mittelwert der beiden in der Mitte legenden Fälle. Bei ordinalskalierten Daten wird der Median als zwischen den beiden mittleren Werten liegend berichtet. Sind die Daten klassiert, so wird in der Regel die Klasse als Median angegeben, die gemeinsam mit den davor liegenden Klassen 50% oder mehr aller Fälle erfasst. Dies ist im Beispiel die Ausprägung 4 („mehrmals im Jahr“), denn mit der Ausprägung 3 („mehrmals im Monat“) wird die „50%-Grenze“ nicht überschritten. Dies lässt sich schnell anhand der Spalte „kumulierte Prozente“ aus der Häufigkeitstabelle feststellen.

Während das arithmetische Mittel durch Ausreisser stark beeinflusst wird, ist der Median gegenüber Extremwerten robust, da er zur Bestimmung lediglich die Ränge der Beobachtungen, nicht aber deren absolute Ausprägungen berücksichtigt.

3.1.3. Der Modus

Der Modus (mode, Modalwert) ist der häufigste Wert einer Verteilung. Er wird vor allem bei nominalskalierten Daten verwendet, beispielsweise zur Bestimmung der häufigsten Hunderasse. Im Beispiel zur Häufigkeit von Einkaufsbummeln wäre der Modus die Ausprägung 4 („mehrmals im Jahr“). Dies lässt sich sehr schnell anhand der Häufigkeitstabelle und des Histogramms erkennen.

Der Modus ist nicht eindeutig, falls mehrere Ausprägungen gleich häufig vorkommen. In diesem Fall werden beide Ausprägungen als Modus genannt oder es wird im Falle von metrischen Daten der Mittelwert der beiden Ausprägungen berichtet. Der Modalwert wird insbesondere bei kleinen Stichproben oft von Zufallsschwankungen beeinflusst. Allgemein beinhaltet er nur die Information, welche Ausprägung am häufigsten vorkommt.

3.2. Streuungsparameter: Varianz und Standardabweichung

Die Streuungsparameter (Dispersionsmasse) beschreiben die Variabilität der Ausprägung eines Merkmals in einem Datensatz. Sie messen, wie dicht die Werte einer Häufigkeitsverteilung um den Mittelwert streuen. Die am häufigsten verwendeten Grössen sind die Varianz und die Standardabweichung. Beide erfordern theoretisch ein metrisches Skalenniveau.

3.2.1. Die Varianz

Die Varianz (s2, variance) wird als durchschnittliche quadratische Abweichung der einzelnen Beobachtungswerte vom arithmetischen Mittel errechnet:

f3

mit n = Anzahl Beobachtungen

Im Rechenbeispiel ist die Varianz:

f4

3.2.2. Die Standardabweichung

Die Standardabweichung (s, standard deviation, SD) ist die Quadratwurzel der Varianz:

f5

Die Varianz und Standardabweichung des einfachen Beispiels sind:

f6

Der Vorteil der Standardabweichung gegenüber der Varianz ist, dass die Standardabweichung die gleiche Einheit wie die Variable hat. Dies macht das Verständnis des Wertes einfacher. So könnte beispielsweise ermittelt worden sein, dass die Schüler einer Klassenstufe durchschnittlich 33.8 Schulstunden in der Woche haben. Ein Varianzwert von 6.5 würde dann bedeuten, dass die Stundenzahlen um durchschnittlich 6.5 Quadratstunden um den Mittelwert streuen. Einfacher ist die Aussage mit der Standardabweichung: Die Schulstunden streuen um durchschnittlich 2.5 Stunden um den Mittelwert.

Sowohl bei der Standardabweichung als auch der Varianz fallen Ausreisser stark ins Gewicht. Auch aus diesem Grund sollten die Daten vor der Berechnung von Kennwerten oder Teststatistiken immer überprüft werden.

4. Schiefe und Steilheit

4.1. Schiefe

Die Schiefe (skewness) ist ein Mass für die Symmetrie einer Häufigkeitsverteilung. Bereits anhand der Lage von Mittelwert, Median und Modus zueinander lässt sich erkennen, ob und in welche Richtung eine Verteilung schief ist – das heisst, wie sie gegen links oder rechts von einer Normalverteilung abweicht. Dazu kann eine spezifische Masszahl errechnet werden: die Schiefe. Sie kann in SPSS als Option des Befehls „Häufigkeiten“ ausgegeben werden.

abb2
Abbildung 2: Schiefe

Im linken Bild ist die Verteilung eher linksschief. In diesem Fall ist der berechnete Wert für die Schiefe negativ. Ausserdem gilt folgende Beziehung für die drei Masse der zentralen Tendenz:

Mittelwert < Median < Modus

Im rechten Bild hingegen ist die Verteilung eher rechtsschief. In diesem Fall ist der berechnete Wert für die Schiefe positiv. Ausserdem gilt folgende Beziehung:

Mittelwert > Median > Modus

Bei einer Normalverteilung ist die Schiefe 0. Bei der Berechnung der Schiefe ist es wichtig zu beachten, dass dies nur bei so genannten unimodalen Verteilungsverläufen sinnvoll ist. Unimodal bedeutet, dass die Verteilung nur einen Gipfel hat. Es gibt aber auch Verteilungen, die mehr als einen Gipfel haben. Diese Verteilungen werden als bimodal bzw. multimodal bezeichnet. Vor der Berechnung der Schiefe sollte die Verteilung zunächst also in einem Histogramm betrachtet werden.

4.2. Steilheit

Die Steilheit (Wölbung, Kurtosis, Exzess) einer Verteilung drückt aus, ob die Verteilung im Vergleich zu einer Normalverteilung eher „schmalgipflig“ oder „breitgipflig“ ist. Bei gleichbleibender Standardabweichung können die Beobachtungen stärker auf die Mitte und die Enden der Verteilung konzentriert vorliegen („spitze“ Verteilung) oder die Mitte und die Enden sind eher wenig besetzt, was bei einer flachen Verteilung der Fall ist.

abb3
Abbildung 3: Kurtosis

Die linke Verteilung ist eher flach. Hier ist der Wert für die Kurtosis negativ. Die rechte Verteilung ist eher steil, so dass der Wert für die Kurtosis positiv ist.

Bei einer Normalverteilung ist die Kurtosis 0. Wie bei der Berechnung der Schiefe ist auch bei der Berechnung der Kurtosis zunächst die Verteilung im Histogramm zu betrachten, damit sichergestellt werden kann, dass die Berechnung auch sinnvoll ist.

5. Normalverteilung

Als wichtigste Voraussetzung für die Durchführung von vielen statistischen Verfahren gilt neben der Forderung nach einem bestimmten Skalenniveau die annähernde Normalverteilung der Daten. Die Normalverteilungen sind theoretische Verteilungen, die von dem Mathematiker Gauß untersucht wurden und deshalb auch als Gauß’sche Glockenkurven bezeichnet werden.

Es gibt unendlich viele Normalverteilungen. Allen gemeinsam ist es, dass sie symmetrisch um den Mittelwert sind. Die Schiefe ist somit immer Null. Ausserdem gilt, dass etwa 68 % aller Messwerte innerhalb von einer Standardabweichung, 95 % innerhalb von zwei Standardabweichungen und 99.7 % aller Werte innerhalb von drei Standardabweichungen liegen. Aufgrund ihrer Eigenschaften reicht es aus, verschiedene Normalverteilungen anhand ihres Mittelwertes und der Varianz so N(μ; σ²) zu kennzeichnen, beispielsweise als N(5; 1.5). Normalverteilungen werden mit folgender Formel berechnet:

f7

Folgende Abbildung zeigt ein paar Normalverteilungen:

abb4
Abbildung 4: Normalverteilungen mit unterschiedlichen Parametern

Setzt ein statistisches Verfahren also annähernd normalverteilte Daten voraus, müssen die Daten vor dem Beginn aus Normalverteilung überprüft werden. Ist die Annahme zu stark verletzt, muss ein anderes Verfahren verwendet werden, das keine Normalverteilung voraussetzt. Die Daten lassen sich beispielsweise mit einem Chi²-Test auf Normalverteilung überprüfen.

5.1. Standardnormalverteilung

Eine besondere Normalverteilung ist die so genannte Standardnormalverteilung. Sie hat die Eigenschaft, dass ihr Zentrum auf der x-Achse bei 0 liegt. Ausserdem hat sie eine Varianz von 1. Sie wird also durch folgende Formel berechnet:

f8

Folgende Abbildung zeigt die Standardnormalverteilung:

abb5
Abbildung 5: Standardnormalverteilung

Jede Normalverteilung lässt sich nun durch Standardisierung in die Standardnormalverteilung überführen. Dies ist zum Einen notwenig, wenn unterschiedlich verteilte Variablen miteinander verglichen werden sollen. Andererseits setzen einige Verfahren standardisierte Variablen voraus.

Um die Werte einer Variablen zu standardisieren, wird folgende Formel verwendet:

f9

mit
n = Anzahl Beobachtungen
x = Merkmalsausprägung
μ = Mittelwert der Stichprobe
σ = Standardabweichung der Stichprobe

Für die standardisierten Werte werden üblicherweise der Buchstaben z verwendet. Aus diesem Grund wird auch von einer z-Transformierung gesprochen.

6. SPSS-Befehle

Klicksequenz: Analysieren > Deskriptive Statistiken > Häufigkeiten
Syntax: FREQUENCIES

7. Literatur

Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6.Auflage). Heildelberg: Springer.

Hirsig, R. (2001). Statistische Methoden in den Sozialwissenschaften: Eine Einführung im Hinblick auf computergestützte Datenanalysen mit SPSS für Windows: Band 1 (3.Auflage). Zürich: Seismo.

Jann, Ben (2005). Einführung in die Statistik. 2., bearbeitete Auflage. München: Oldenbourg Wissenschaftsverlag.

Quelle Beispiel: Allbus 2008