Methodenberatung

 

Wilcoxon-Test

1. Einführung
2. Vorgehen
2.1. Modellformulierung
2.2. Berechnung der Teststatistik
2.3. Prüfung auf Signifikanz
3. Wilcoxon mit SPSS
4. Literatur

1. Einführung

Ein Wilcoxon-Test für abhängige Gruppen ist ein nichtparametrischer Test zur Überprüfung, ob die zentrale Tendenz von zwei verbundenen Stichproben signifikant unterschiedlich ist. Die abhängige Variable muss dabei nicht normalverteilt sein, sollte aber mindestens ordinalskaliert sein. Ein Wilcoxon-Test sollte daher bei intervallskalierten Merkmalen eingesetzt werden, wenn die Voraussetzung der Normalverteilung zu stark verletzt wird.

Beim Wilcoxon-Test handelt es sich um einen Rangtest. Die Berechnung der Teststatistik basiert auf der Bildung einer Rangreihe aus Paardifferenzen. Die Paardifferenzen ergeben sich daraus, dass es sich um verbundene Stichproben handelt und so jedem Wert aus der ersten Messung der entsprechende Wert aus der zweiten Messung zugeordnet werden kann.

Meistens wird diese Art von Test angewendet, um eine Gruppe vor und nach einem Treatment auf Unterschiede hinsichtlich einer Testvariablen zu untersuchen. Durch den Vergleich der Mittelwerte lässt sich so überprüfen, ob das Treatment einen Einfluss hat.

Beispiele für Anwendungen in den Erziehungswissenschaften

  • Eine Therapeutin möchte prüfen, ob ihre Patienten nach einem Ausdruckstraining mehr emotionale Erlebnisse verbalisieren als davor. (Es ist nicht davon auszugehen, dass die Einstufungen durch die Therapeutin intervallskaliert sind.)
  • Die Schüler einer Klasse bewerten ihr Interesse an Englisch vor und nach dem Sehen eines englischsprachigen Trickfilms. Gibt es Unterschiede in der Beurteilung?
  • Zwei Kodiererinnen erfassen für eine Studie die Aussagen von Kindern. Einige Kinder werden doppelt, also von beiden, kodiert. Sind die Kodiererinnen unterschiedlich streng in der Beurteilung der Aussagen?

2. Vorgehen

2.1. Modellformulierung
2.2. Berechnung der Teststatistik
2.3. Prüfung auf Signifikanz

Das Vorgehen bei der Durchführung eines Wilcoxon-Tests wird an folgender Fragestellung erklärt:

Hat die Einführung einer „Aktiven Pause“ einen Einfluss auf das Körpergewicht von Schülern?

Bei einer „aktiven Pause“ werden durch die Schule verschiedene Sport- und Spielgeräte (z.B. Bälle, Springseile etc.) bereitgestellt und die Schüler dazu ermutigt, diese in der Schulpause zu benutzen. Es wird vermutet, dass die zusätzliche Bewegung in der Pause einen Einfluss auf das Körpergewicht der Schüler haben kann.

2.1. Modellformulierung

Zur Beantwortung dieser Frage kann zunächst ein Modell erstellt werden. Für die Beispielfrage könnte dieses Modell so aussehen:

abb1
Abbildung 1: Beispielmodell

Zunächst wird also das Körpergewicht einer Schulklasse ermittelt. Nach der Durchführung mehrerer „aktiven Pausen“ wird das Körpergewicht derselben Schüler ein zweites Mal ermittelt.

2.2. Berechnung der Teststatistik

Um das Modell zu überprüfen, wurden die folgenden Daten vor und nach der Durchführung der „aktiven Pause“ bei 10jährigen Kindern erhoben:

tab1
Tabelle 1: Beispieldaten

Anhand dieser Daten lässt sich schnell erkennen, dass es einen Unterschied des Mittelwerts zwischen dem Vor- Und dem Nachtest gibt. Mit einem Wilcoxon-Test lässt sich nun überprüfen, ob dieser Unterschied auch signifikant ist.

Die Berechnung der Teststatistik beruht nun auf der Berechnung von Paardifferenzen:

tab2
Tabelle 2: Paardifferenzen

Betrachtet werden nun die von Null verschiedenen Paardifferenzen, in diesem Fall 10. Die Absolutwerte werden nun in eine aufsteigende Rangreihe geordnet. Bei Bindungen müssen gemittelte Rangplätze zugeordnet werden:

tab3
Tabelle 3: Rangreihe der Paardifferenzen

Zur Berechnung der Teststatistik müssen nun die Rangsummen für alle negativen Paardifferenzen und dann für alle positiven Paardifferenzen berechnet werden. Die Rangsummen errechnen sich, in dem alle Rangplätze zusammenzählt werden, die zu einer negativen bzw. positiven Paardifferenz gehörten. Für das Beispiel werden folgende Werte berechnet:

T- = 1.5 + 3.5 + 3.5 + 5.5 + 7.5 + 9 + 10 = 40.5

T+ = 1.5 + 5.5 + 7.5 = 14.5

Ausserdem besteht zwischen beiden Werten folgender Zusammenhang:

f1

mit
n = Anzahl der von Null verschiedenen Paardifferenzen

Als Teststatistik w wird nun der kleinere der beiden Werte verwendet:

f2

Für das Beispiel wird also T+ als Teststatistik verwendet und nimmt einen Wert von 14.5 an. Je geringer die Mittelwertsunterschiede sind, desto näher liegt der Wert der Teststatistik bei dem Wert, der sich ergibt, wenn es keine Mittelwertsunterschiede gibt. Dieser Wert errechnet sich als Hälfte der Summe der Rangsummen:

f3

mit
n = Anzahl der von Null verschiedenen Paardifferenzen

Für das Beispiel liegt dieser Wert bei 27.5. Der Testwert liegt mit 14.5 unter diesem Wert. Ob der Unterschied auch signifikant ist, wird im nächsten Schritt überprüft.

2.3. Prüfung auf Signifikanz

Die berechnete Teststatistik muss nun noch auf Signifikanz überprüft werden. Das berechnete w wird hierzu mit dem kritischen Wert auf der theoretischen w-Verteilung verglichen. Falls n > 25 ist w nahezu normalverteilt, so dass die Teststatistik normiert und mit dem kritischen Wert auf der z-Verteilung verglichen werden kann. In SPSS lässt sich dieser Vergleich direkt an der ausgegebenen Signifikanz ablesen.

SPSS gibt für das Beispiel eine Signifikanz (p-Wert) von 0.184 aus. Da dieser Wert über dem Signifikanzniveau von 0.05 liegt, kann davon ausgegangen werden, dass die Durchführung von „aktiven Pausen“ keinen signifikanten Einfluss auf das Gewicht der Schüler hat.

3. Wilcoxon mit SPSS

Die folgenden Abbildungen zeigen die Ergebnisse des Wilcoxon-Tests in der Reihenfolge wie SPSS sie ausgibt:

Aus dieser Tabelle lassen sich die Rangsummen für die jeweilige Stichprobe ablesen. Unter Bindungen ist die Anzahl der Paardifferenzen angegeben, die sich nicht von Null unterscheiden.

abb2
Abbildung 2: Rangsummen
abb3
Abbildung 3: Teststatistik

Aus dieser Abbildung lässt sich die Signifikanz ablesen. SPSS basiert die Rechnung automatisch auf der kleineren Rangsumme.

SPSS-Befehle

Klicksequenz: Analysieren > Nichtparametrische Tests > zwei verbundene Stichproben
Syntax: NPAR TESTS WILCOXON

SPSS-Datensatz

Verwendeter Beispieldatensatz zum Download

4. Literatur

Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6.Auflage). Heildelberg: Springer.

Hirsig, R. (2001). Statistische Methoden in den Sozialwissenschaften: Eine Einführung im Hinblick auf computergestützte Datenanalysen mit SPSS für Windows: Band 1 (3.Auflage). Zürich: Seismo.