Methodenberatung

 

Einfaktorielle Varianzanalyse (ohne Messwiederholung)

Quick Start
1. Einführung
1.1. Beispiele für mögliche Fragestellungen
1.2. Voraussetzungen der einfaktoriellen Varianzanalyse
2. Grundlegende Konzepte
2.1. Beispiel einer Studie
2.2. Die Grundidee der Varianzanalyse
2.3. Berechnung der Teststatistik
3. Die einfaktorielle Varianzanalyse mit SPSS
3.1. SPSS-Befehle
3.2. Boxplots zur Illustration
3.3. Prüfung der Varianzhomogenität (Levene-Test)
3.4. Ergebnisse der einfaktoriellen Varianzanalyse
3.5. Post-hoc-Tests
3.6. Profildiagramm
3.7. Berechnung der Effektstärke
3.8. Eine typische Aussage

Quick Start

Wozu wird die einfaktorielle Varianzanalyse verwendet?
Die einfaktorielle Varianzanalyse testet, ob sich die Mittelwerte mehrerer unabhängiger Gruppen (oder Stichproben) unterscheiden, die durch eine kategoriale unabhängige Variable definiert werden.

SPSS-Menü
Analysieren > Allgemeines lineares Modell > Univariat

SPSS-Syntax
UNIANOVA abhängige Variable BY Faktor
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/POSTHOC= Faktor (BONFERRONI)
/PRINT=HOMOGENEITY DESCRIPTIVE
/CRITERIA=ALPHA(0.5)

1. Einführung


Die einfaktorielle Varianzanalyse – auch "einfaktorielle ANOVA", da in Englisch "Analysis of Variance" – testet, ob sich die Mittelwerte mehrerer unabhängiger Gruppen (oder Stichproben) unterscheiden, die durch eine kategoriale unabhängige Variable definiert werden. Diese kategoriale unabhängige Variable wird im Kontext der Varianzanalyse als "Faktor" bezeichnet. Entsprechend werden die Ausprägungen der unabhängigen Variable "Faktorstufen" genannt, wobei auch der Begriff der "Treatments" gebräuchlich ist. Als "einfaktoriell" wird eine Varianzanalyse bezeichnet, wenn sie lediglich einen Faktor, also eine Gruppierungsvariable, verwendet mehrfaktorielle Varianzanalyse).

Das Prinzip der Varianzanalyse besteht in der Zerlegung der Varianz der abhängigen Variable. Die Gesamtvarianz setzt sich aus der sogenannten "Varianz innerhalb der Gruppen" und der "Varianz zwischen den Gruppen" zusammen. Diese beiden Anteile werden im Rahmen einer Varianzanalyse miteinander verglichen. Die einfaktorielle ANOVA stellt eine Verallgemeinerung des t-Tests für unabhängige Stichproben für Vergleich von mehr als zwei Gruppen (oder Stichproben) dar. Die Fragestellung der einfaktoriellen Varianzanalyse wird oft so verkürzt: "Unterscheiden sich die Mittelwerte einer abhängigen Variable zwischen mehreren Gruppen? Welche Faktorstufen unterscheiden sich?"

1.1. Beispiele für mögliche Fragestellungen

  • Unterscheiden sich stark, moderat und geringfügig emotionale Menschen bezüglich der Menge des Stresshormons Cortisol im Blut?
  • Beeinflusst der Kohlendioxidgehalt (sehr tief, tief, mittel, hoch, sehr hoch) das Wachstum von Birken?
  • Werden bei Konsumenten nach einer Degustation von fünf Traubensorten unterschiedlich hohe Zahlungsbereitschaften für die verschiedenen Sorten gemessen?
  • Mit vier Gruppen von Versuchspersonen wurde je ein anderes Gedächtnistrainings durchgeführt. Welches der Gedächtnistrainings ist das erfolgreichste in Bezug auf die anschliessend gemessene Gedächtnisleistung?

1.2. Voraussetzungen der einfaktoriellen Varianzanalyse

Die abhängige Variable ist intervallskaliert
Die unabhängige Variable (Faktor) ist kategorial (nominal- oder ordinalskaliert)
Die durch den Faktor gebildeten Gruppen sind unabhängig
Die abhängige Variablen ist normalverteilt innerhalb jeder der Gruppen (Ab > 25 Probanden pro Gruppe sind Verletzungen in der Regel unproblematisch)
Homogenität der Varianzen: Die Gruppen stammen aus Grundgesamtheiten mit annähernd identischen Varianzen der abhängigen Variablen (siehe Levene-Test)

2. Grundlegende Konzepte

2.1. Beispiel einer Studie


50 Senioren wurden zufällig fünf Gruppen zugeteilt mit denen je eines von fünf verschiedenen motorischen Trainings durchgeführt wurde. Danach wurde die feinmotorische Kontrolle der Probanden erhoben. Es soll nun beantwortet werden, welche der fünf Trainingsmethoden am effektivsten auf die feinmotorische Kontrolle auswirkt.

Der zu analysierende Datensatz enthält neben einer Probandennummer (ID) die Gruppierungsvariable TrMe, welche je nach Treatment einen Wert zwischen 1 und 5 annimmt, und die Variable Feinm, die den Messwert für die Feinmotorik enthält.

ANOVA_ein_Abb_01.jpg
Abbildung 1: Beispieldaten


Der Datensatz kann hier heruntergeladen werden:

2.2. Die Grundidee der Varianzanalyse


Ein Blick auf die Gruppenmittelwerte der Beispieldaten (Abbildung 1) zeigt, dass sich die Mittelwerte unterscheiden. Um zu überprüfen, ob die Unterschiede signifikant sind, wird eine Varianzanalyse durchgeführt.

Zerlegung der individuellen Messwerte


Die Varianzanalyse ist daran interessiert, die Unterschiede zwischen den beobachteten Werten und dem Gesamtmittelwert der Stichprobe zu erklären. Die Grundidee ist, dass jeder Messwert in drei Anteile zerlegt werden kann (siehe Abbildung 2):

  • "Grundniveau": Dies ist der Mittelwert der gesamten Stichprobe (ungeachtet der Gruppenzugehörigkeit), der sogenannte "Gesamtmittelwert". Im Beispiel ist dieses Ausgangsniveau der Gesamtmittelwert von Feinm. Dieser ist für die Berechnung der Varianzanalyse zwar wichtig, doch die Varianzanalyse versucht nicht, diesen Gesamtmittelwert zu erklären.
  • Effekt der Gruppenzugehörigkeit: Dieser Anteil repräsentiert die Gruppenzugehörigkeit und entspricht der Differenz zwischen dem Gesamtmittelwert und dem jeweiligen Gruppenmittelwert. Im vorliegenden Beispiel hat jede Gruppe an einem unterschiedlichen Training teilgenommen. Wirken sich diese Treatments unterschiedlich auf die Feinmotorik aus, so erklären die Treatments einen Teil der Abweichung der Messwerte vom Gesamtmittelwert. Es wird hierbei von einem "Haupteffekt" der Variable TreMe gesprochen, also der direkten Auswirkung des Faktors auf die abhängige Variable.
  • Fehlerwert: Dieser Anteil umfasst Messfehler, doch daneben fliessen auch alle individuellen Abweichungen vom Gesamtmittelwert ein, die nicht durch die Gruppenzugehörigkeit erklärt werden können. Im vorliegenden Beispiel kann davon ausgegangen werden, dass bereits vor der Studie Unterschiede bezüglich der feinmotorischen Fähigkeiten vorgelegen haben und es könnten auch individuelle Unterschiede in der Wirksamkeit der Trainings vorliegen.
ANOVA_ein_Abb_02.jpg
Abbildung 2: Illustration zur Messwertzerlegung am Beispiel eines Probanden der Gruppe TrMe = 3


Quadratsummen


Eine Varianzanalyse versucht, die Abweichungen der individuellen Werte vom Gesamtmittelwert zu erklären (siehe Abbildung 2). Als Mass für die zu erklärenden Abweichungen aller Personen werden alle individuellen Abweichungen vom Gesamtmittelwert quadriert und aufsummiert. Dies führt zur Gesamtquadratsumme SStotal (da engl. "Sum of Squares"):

ANOVA_ein_Eqn_01.png

mit

ANOVA_ein_Eqn_02.png
= Laufindex der Gruppen von 1 bis G (im vorliegenden Beispiel: G = 5 Gruppen)
ANOVA_ein_Eqn_03.png
= Laufindex der Individuen innerhalb einer Gruppe von 1 bis Kg (hier: K1 = K2 = K3 = K4 = K5 = 10, Ktotal= 50)


Diese Quadratsumme wird im Rahmen der Varianzanalyse in zwei Teile zerlegt: Das, was durch die Gruppenzugehörigkeit erklärt werden kann, und das, was nicht erklärt werden kann. Das erstere ist die Quadratsumme zwischen den Gruppen SSzwischen und basiert auf dem Unterschied zwischen den Gruppenmittelwerten und dem Gesamtmittelwert:

ANOVA_ein_Eqn_04.png


Der zweite Anteil ist die Quadratsumme innerhalb der Gruppen SSinnerhalb und basiert auf den individuellen Abweichungen vom jeweiligen Gruppenmittelwert:

ANOVA_ein_Eqn_05.png


Es gilt die folgende Beziehung zwischen den Quadratsummen:

ANOVA_ein_Eqn_06.png


Je mehr Variation durch die Gruppenzugehörigkeit, also durch das Modell, erklärt werden kann, desto grösser ist die Variation zwischen den Gruppen (SSzwischen) und desto kleiner die Variation innerhalb der Gruppen (SSinnerhalb).

2.3. Berechnung der Teststatistik

Berechnen der Teststatistik


Zur Berechnung der Teststatistik F werden die mittleren Quadratsummen MSzwischen und MSinnerhalb benötigt ("MS" da engl. "mean squares"). Dazu werden die Quadratsummen durch ihre jeweiligen Freiheitsgrade dividiert:

ANOVA_ein_Eqn_07.png

mit

ANOVA_ein_Eqn_08.png
= Stichprobengrösse über alle Gruppen hinweg (im vorliegenden Beispiel: Ktotal = 50)
ANOVA_ein_Eqn_09.png
= Anzahl Faktorstufen (im vorliegenden Beispiel: G = 5 Gruppen)


Anschliessend wird die Teststatistik F folgendermassen berechnet:

ANOVA_ein_Eqn_10.png


Signifikanz der Teststatistik


Je mehr Variation durch die Gruppenzugehörigkeit erklärt wird, desto höher fällt der F-Wert aus (da MSzwischen ein Mass für die erklärte Varianz darstellt, während MSinnerhalb ein Mass für die Residualvarianz des Modells darstellt). Dieser F-Wert wird mit dem kritischen Wert auf einer durch die Freiheitsgrade dfzwischen und dfinnerhalb charakterisierten F-Verteilung verglichen. Ist der F-Wert höher als der kritische Wert, so ist der Test signifikant.

3. Die einfaktorielle Varianzanalyse mit SPSS

3.1. SPSS-Befehle


SPSS-Menü:
Analysieren > Allgemeines lineares Modell > Univariat

ANOVA_ein_Abb_03.jpg
Abbildung 3: Klicksequenz in SPSS


SPSS-Syntax

         UNIANOVA Feinm BY TrMe
         /METHOD=SSTYPE(3)
         /INTERCEPT=INCLUDE
         /POSTHOC=TrMe(BONFERRONI)
         /PLOT=PROFILE(TrMe)
         /INTERCEPT=INCLUDE
         /CRITERIA=ALPHA(.05)
         /DESIGN=TrMe.

3.2. Boxplots zur Illustration


Um einen ersten Überblick über die Daten zu gewinnen, empfiehlt es sich Boxplots zu erstellen. Diese können im SPSS-Menü erstellt werden: Diagramme > Veraltete Dialogfelder > Boxplot.

ANOVA_ein_Abb_04.jpg
Abbildung 4: SPSS-Output – Boxplots


Wie die Boxplots in Abbildung 4 erkennen lassen, bestehen bezüglich der fünf Trainingsmethoden Unterschiede. Ob diese signifikant sind, ist zu prüfen.

3.3. Prüfung der Varianzhomogenität (Levene-Test)


ANOVA_ein_Abb_05.jpg
Abbildung 5: SPSS-Output – Levene-Test auf Varianzhomogenität


Der Levene-Test prüft die Nullhypothese, dass die Varianzen der Gruppen sich nicht unterscheiden. Ist der Levene-Test nicht signifikant, so kann von homogenen Varianzen ausgegangen. Wäre der Levene-Test jedoch signifikant, so wäre eine der Grundvoraussetzungen der Varianzanalyse verletzt. Gegen leichte Verletzungen gilt die Varianzanalyse als robust; vor allem bei genügend grossen und etwa gleich grossen Gruppen sind Verletzungen nicht problematisch. Bei ungleich grossen Gruppen führt eine starke Verletzung der Varianzhomogenität zu einer Verzerrung des F-Tests. Alternativ können dann auf den Brown-Forsythe-Test oder den Welch-Test zurückgegriffen werden. Dabei handelt es sich um adjustierte F-Tests. In SPSS sind diese derzeit nur für einfaktorielle Varianzanalysen implementiert, wenn diese über das Menü Analysieren > Mittelwerte vergleichen > Einfaktorielle ANOVA durchgeführt werden (unter "Optionen").

Im vorliegenden Beispiel ist der Levene-Test nicht signifikant (F(4,45) = .560, p = .693), so dass von Varianzhomogenität ausgegangen werden kann.

3.4. Ergebnisse der einfaktoriellen Varianzanalyse

Deskriptive Statistiken


ANOVA_ein_Abb_06.jpg
Abbildung 6: SPSS-Output – Deskriptive Statistiken


Die Tabelle in Abbildung 6 gibt die Mittelwerte, Standardabweichungen und Grössen aller fünf Gruppen wieder. Diese Informationen werden für die Berichterstattung verwendet.

Signifikanz des Gesamtmodells und Modellgüte


Abbildung 7 zeigt den F-Test, der bereits im Kapitel Berechnung der Teststatistik vorgestellt wurde, in der Zeile "Korrigiertes Modell". Der Test ist signifikant. Dies bedeutet, das Gesamtmodell ist signifikant (F(4,45) = 45.121, p = .000).

ANOVA_ein_Abb_07.jpg
Abbildung 7: SPSS-Output – Tests der Zwischensubjekteffekte


Als Fussnote beinhaltet Abbildung 7 zudem ein Mass für die Modellgüte: das korrigierte R-Quadrat. Dieses ist stets im Bereich von 0 bis 1 und gibt an, welcher Anteil der Streuung um den Gesamtmittelwert durch das Modell erklärt werden kann. Im vorliegenden Beispiel beträgt das korrigierte R-Quadrat .783. Dies bedeutet, dass das Modell 78.3% der Streuung um den Gesamtmittelwert erklärt.

Signifikanz des Haupteffekts


Ein Haupteffekt ist der direkte Effekt eines Faktors auf die abhängige Variable. Im Falle der einfaktoriellen Varianzanalyse gibt es einen Haupteffekt: jener der Gruppierungsvariable. Bei einer mehrfaktoriellen Varianzanalyse dagegen gibt es einen Haupteffekt pro Faktor sowie weitere für deren Interaktionen.

Im Fall der einfaktoriellen Varianzanalyse ist der F-Test für das Gesamtmodell und der Test für den Haupteffekt identisch, wie sich auch an den Werten der Teststatistik F zeigt. (Das heisst, es muss nicht gesagt werden, dass Modell und Haupteffekt signifikant sind. Es genügt, die eine oder die andere Aussage zu machen.)

Für das vorliegende Beispiel zeigt die Zeile "TreMe" in Abbildung 7, dass der Haupteffekt der Trainingsmethode (TrMe) auf die Feinmotorik (Feinm) signifikant ist (F(4,45) = 45.121, p = .000, partielles η2 = .800).

Das partielle Eta-Quadrat


Das partielle Eta-Quadrat (partielles η2), das am rechten Rand der Tabelle in Abbildung 7 ausgegeben wird, ist ein Mass für die Effektgrösse: Es setzt die Variation, die durch einen Faktor erklärt wird, in Bezug mit jener Variation, die nicht durch andere Faktoren im Modell erklärt wird. Das heisst, es wird ausschliesslich jene Variation betrachtet, welche nicht durch die anderen Faktoren im Modell erklärt wird. Das partielle Eta-Quadrat zeigt, welchen Anteil davon ein Faktor erklärt. Im Falle der einfaktoriellen Varianzanalyse ist das partielle Eta-Quadrat ist jener Anteil der korrigierten Gesamtvariation, der durch das Modell erklärt wird, und entspricht damit dem R-Quadrat in der Fussnote der Tabelle in Abbildung 7:

ANOVA_ein_Eqn_11.png

Im vorliegenden Beispiel beträgt das partielle Eta-Quadrat .800. Das heisst, es wird 80.0% der Variation in Feinm durch TrMe aufgeklärt.

3.5. Post-hoc-Tests

Multiples Testen


Obwohl der F-Test zeigt, dass ein Haupteffekt von TrMe auf Feinm besteht, muss anhand von Post-hoc-Tests geklärt werden, zwischen welchen Faktorstufen (Trainingsmethoden) signifikante Unterschiede bezüglich der Feinmotorik bestehen.

Bei der Berechnung von Post-hoc-Tests wird im Prinzip für jede Kombination von zwei Mittelwerten ein t-Test durchgeführt. Im aktuellen Beispiel mit fünf Gruppen sind dies 10 Tests. Multiple Tests sind jedoch problematisch, da der Alpha-Fehler (die fälschliche Ablehnung der Nullhypothese) mit der Anzahl der Vergleiche steigt. Wird nur ein t-Test mit einem Signifikanzlevel von .05 durchgeführt, so beträgt die Wahrscheinlichkeit des Nicht-Eintreffens des Alpha-Fehlers 95%. Werden jedoch zehn solcher Paarvergleiche vorgenommen, so beträgt die Nicht-Eintreffens-Wahrscheinlichkeit des Alpha-Fehlers (.95)10 = .598. Um die Wahrscheinlichkeit des Eintreffens des Alpha-Fehlers zu bestimmen, wird 1 - .598 = .402 gerechnet. Die Wahrscheinlichkeit des Eintreffens des Alpha-Fehlers liegt somit bei 40.2%. Diese Fehlerwahrscheinlichkeit wird als "Familywise Error Rate" bezeichnet.

Um dieses Problem zu beheben kann zum Beispiel die Bonferroni-Korrektur angewendet werden. Hierbei wird α durch die Anzahl der Paarvergleiche dividiert. Im hier aufgeführten Fall ist dies .05/10 = .005. Das heisst, jeder Test wird gegen ein Niveau von .005 geprüft. Die Bonferroni-Korrektur führt zu eher konservativen Tests bezüglich des Alpha-Fehlers, während andere Korrekturen weniger konservativ sind. SPSS bietet eine grosse Auswahl an möglichen Korrekturen (vgl. Klicksequenz in Abbildung 3).

Post-hoc-Tests für das vorliegende Beispiel


Abbildung 8 zeigt die Ergebnisse der Post-hoc-Tests mit Bonferroni-Korrektur. Es ist zu beachten, dass die p-Werte bereits von SPSS Bonferroni-korrigiert wurden und darum nun gegen .05 geprüft werden dürfen.

ANOVA_ein_Abb_08.jpg
Abbildung 8: SPSS-Output – Post-hoc-Tests (Bonferroni-Korrektur)


Es wird ersichtlich, dass sich die Trainingsmethoden 1 und 2 sowie 4 und 5 bezüglich der Feinmotorik nicht signifikant unterscheiden. Alle übrigen Trainingsmethoden unterscheiden sich signifikant (p < .05). Es können also drei Gruppen von Trainingsmethoden gebildet werden (Trainingsmethoden 1 und 2, Trainingsmethode 3, Trainingsmethoden 4 und 5).

3.6. Profildiagramm


ANOVA_ein_Abb_09.jpg
Abbildung 9: SPSS-Output – Profildiagramm


Das Profildiagramm in Abbildung 9 illustriert die Ergebnisse der Varianzanalyse. Während dieses Diagramm hier wenig zusätzliche Informationen beinhaltet, sind analoge Diagramme im Falle der mehrfaktoriellen Varianzanalyse äusserst hilfreich für die Interpretation der Ergebnisse.

3.7. Berechnung der Effektstärke


Um die Bedeutsamkeit eines Ergebnisses zu beurteilen, werden Effektstärken berechnet. Im Beispiel sind zwar einige der Mittelwertsunterschiede zwar signifikant, doch es stellt sich die Frage, ob sie gross genug sind, um als bedeutend eingestuft zu werden.

Es gibt verschiedene Arten die Effektstärke zu messen. Zu den bekanntesten zählen die Effektstärke von Cohen (d) und der Korrelationskoeffizient (r) von Pearson. Der Korrelationskoeffizient eignet sich sehr gut, da die Effektstärke dabei immer zwischen 0 (kein Effekt) und 1 (maximaler Effekt) liegt. Wenn sich jedoch die Gruppen hinsichtlich ihrer Grösse stark unterscheiden, wird empfohlen, d von Cohen zu wählen, da r durch die Grössenunterschiede verzerrt werden kann.

Da SPSS das partielle Eta-Quadrat ausgibt, wird dieses hier in die Effektstärke nach Cohen (1992) umgerechnet. In diesem Fall befindet sich die Effektstärke immer zwischen 0 und unendlich.

ANOVA_ein_Eqn_12.png

mit

ANOVA_ein_Eqn_13.png
= Mittelwerte der Variablen x1 und x2
ANOVA_ein_Eqn_14.png
= Stichprobengrösse der beiden Stichproben


Für das obige Beispiel ergibt das folgende Effektstärke:

ANOVA_ein_Eqn_15.png


Um zu beurteilen, wie gross dieser Effekt ist, kann man sich an der Einteilung von Cohen (1988) orientieren:

= .10 entspricht einem schwachen Effekt
f = .25 entspricht einem mittleren Effekt
f = .40 entspricht einem starken Effekt

Damit entspricht eine Effektstärke von 2.00 einem starken Effekt.

3.8. Eine typische Aussage


Die Auswahl der Trainingsmethode hat einen signifikanten Einfluss auf die Feinmotorik (F(4,45) = 45.121, p = .000, partielles η2 = .800, n = 50). 78.3% der Streuung der Feinmotorik-Werte um den Gesamtmittelwert kann durch die Trainingsmethoden erklärt werden (korrigiertes R-Quadrat). Die Effektstärke nach Cohen (1988) liegt bei f = 2.00 und entspricht einem starken Effekt. Post-hoc-Tests mit Bonferroni-Korrektur zeigen, dass sich drei Gruppen von Methoden bilden lassen (alle p < .05): Methoden 1 (M = 27.0, SD = 3.94) und 2 (M = 21.6, SD = 5.15) bilden eine Gruppe, ebenso die Methoden 4 (M = 34.5, SD = 4.50) und 5 (M = 36.1, SD = 4.63), während Methode 3 (M = 46.5, SD = 4.10) sich signifikant von allen andern Methoden unterscheidet. Methode 3 scheint am effektivsten zu sein.