Kapitel 6 Gruppenmittelwertunterschied bei einem intervallskalierten und normalverteilten Merkmal

Bislang wurde versucht mithilfe einer Stichprobe eine Aussage über eine Population zu treffen. Dies setzt voraus, dass der Erwartungswert bereits aus früheren Untersuchungen bekannt ist oder theoretisch hergeleitet werden kann (Beispiel zirkadianer Rhythmus). In der Realität ist dies oft nicht der Fall. Es muss also gleichzeitig etwas über eine potenziell veränderte Population und über die Referenzpopulation herausgefunden werden. Im experimentellen Kontext entspricht dies dem Vergleich der Experimental- mit der Kontrollgruppe. Im observationellen Kontext wird die Referenzgruppe willkürlich bestimmt.

Beispiel 6.1 (Trennungsschmerz) Morris, Reiber, and Roman (2015) haben untersucht, ob das Geschlecht einen Einfluss auf den Schmerz bei der Auflösung einer romantischen Beziehung hat. Die Autoren unterscheiden dabei zwischen emotionaler (Angst, Wut, Depression, Taubheit, usw.) und physischer Reaktion (Essgewohnheit, Schlaf, Gewicht, Panik, Immunsystem). Hier wird nur auf erstere fokussiert, welche mit ER abgekürzt wird. Dazu wurde mit erlösfreien Online-Umfragen unter anderem erfragt, ob die Person eine Trennung erlebt hat und wie sie ihren emotionalen Trennungsschmerz von \(0\) (keine Schmerzen) bis \(10\) (unerträglich) einstuft. An der Studie haben \(N_\text{Frau} = 2695\) Frauen und \(N_\text{Mann} = 1409\) Männer mitgemacht, welche eine ER von \(M_\text{Frau} = 6.81, SD_\text{Frau} = 2.53\) und \(M_\text{Mann} = 6.56, SD_\text{Mann} = 2.6\) respektive aufwiesen.

6.1 Was ist das Problem der Stichprobenziehung?

In der Stichprobe kann also ein kleiner geschlechterspezifischer Mittelwertunterschied der ER beobachtet werden. Dieser Mittelwertunterschied könnte nun einerseits auf einen Mittelwertunterschied in der Population zurückzuführen sein, wie in Abbildung 6.1 links dargestellt. Hier gibt es zwei Populationen: Frauen-Population mit höheren und Männer-Population mit tieferen ER-Werten. Dies führt dazu, dass der Erwartungswert der Frauen-Population höher ist als bei Männer-Population und eine zufällige gezogene Stichprobe aus Frauen-Population auch ein höheres arithmetisches Mittel aufweist als Männer-Population.

Andererseits könnte der Mittelwertunterschied auch auf die zufällige Stichprobenziehung zurückzuführen sein, siehe Abbildung 6.1 rechts. In dieser Situation haben die Frauen- und die Männer-Populationen ähnliche Werte und demnach auch einen ähnlichen Erwartungswert. Beim Ziehen der Stichproben spielt der Zufall hier so, dass aus der Frauen-Population einige Beobachtungen mehr mit hohen ER-Werten ausgewählt wurden als bei der Männer-Population. Dies führt dazu, dass in den zwei Stichproben ein Unterschied im arithmetischen Mittel der ER beobachtet werden kann.

Links: Zwei Stichprobenziehungen aus zwei Populationen mit unterschiedlichen Mittelwerten. Rechts: Zwei Stichprobenziehungen aus einer Population, bzw. aus zwei Populationen die sich bezüglich ihrer Werte nicht unterscheiden.

Abbildung 6.1: Links: Zwei Stichprobenziehungen aus zwei Populationen mit unterschiedlichen Mittelwerten. Rechts: Zwei Stichprobenziehungen aus einer Population, bzw. aus zwei Populationen die sich bezüglich ihrer Werte nicht unterscheiden.

Welche dieser Situationen zutrifft kann nicht genau herausgefunden werden, da die Population nie vollständig beobachtet werden kann.

Um trotzdem eine Aussage über die Population zu treffen, kann wie bereits mehrmals gemacht, die Stichprobenziehung oft - beispielsweise \(3000\)-mal - wiederholt werden. Dies wird unter der Annahme gemacht, dass es keinen ER-Erwartungswertunterschied zwischen der Frauen- und Männer-Population gibt. Die Verteilung der ER-Mittelwertdifferenzen dieser Stichproben ist in Abbildung 6.2 dargestellt.

Verteilung simulierter ER-Mittelwertdifferenzen bei wiederholten Zufallsstichprobenziehung. Rot: Annäherung der Verteilung mit dem Student t-Test; grün: Annäherung der Verteilung durch den Welch-Test.

Abbildung 6.2: Verteilung simulierter ER-Mittelwertdifferenzen bei wiederholten Zufallsstichprobenziehung. Rot: Annäherung der Verteilung mit dem Student t-Test; grün: Annäherung der Verteilung durch den Welch-Test.

Das Testprinzip funktioniert genau gleich wie beim \(t\)-Test für eine Stichprobe wie in Kapitel 5. Zunächst werden die Hypothesen aufgestellt. A priori liegt keine Vermutung darüber vor, ob Männer oder Frauen eine stärkere ER zeigen. Die Null- und Alternativhypothese sind deshalb

\(H_0: \mu_\text{Frau} = \mu_\text{Mann}\)

\(H_1: \mu_\text{Frau} \neq \mu_\text{Mann}.\)

Dies entspricht, einfacher Arithmetik folgend,

\(H_0: \mu_\text{Frau} - \mu_\text{Mann} = 0\)

\(H_1: \mu_\text{Frau} - \mu_\text{Mann} \neq 0.\)

Es kann beobachtet werden, dass, wenn es keine Erwartungswertdifferenz gibt, die Mittelwertdifferenzen der Stichproben am häufigsten bei \(0\) liegen und mit zunehmender Entfernung von \(0\) unwahrscheinlicher werden. Dies kann wieder formalisiert werden indem die \(5\%\) unwahrscheinlichsten Werte (\(2.5\%\) links und \(2.5\%\) rechts) zum Ablehnungsbereich erklärt werden und entspricht der roten Fläche in Abbildung 6.3 links. Die tatsächlich beobachtete Mittelwertdifferenz (schwarze Linie) liegt im Ablehnungsbereich. Dies bedeutet dass sich die Erwartungswertdifferenz bei Signifikanzniveau \(5\%\) signifikant von \(0\) unterscheidet. Dies ist äquivalent zu der Aussage, dass sich die ER-Erwartungswerte der Männer und Frauen signifikant unterscheidet.

## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_bin()`).

## Warning: Removed 8 rows containing missing values or values outside the scale range
## (`geom_bar()`).

Trennungsschmerz: Ablehnungsbereich und p-Wert bei wiederholter Stichprobenziehung (oben), approximiert durch den t-Test (mitte) und approximiert durch den Welch-Test (unten). Alle Ablehnungsbereiche und p-Werte sind ähnlich.

Abbildung 6.3: Trennungsschmerz: Ablehnungsbereich und p-Wert bei wiederholter Stichprobenziehung (oben), approximiert durch den t-Test (mitte) und approximiert durch den Welch-Test (unten). Alle Ablehnungsbereiche und p-Werte sind ähnlich.

Ebenfalls kann erneut der p-Wert berechnet werden. Dieser entspricht hier allen ER-Mittelwertdifferenzen, welche extremer als die beobachtete Mittelwertdifferenz \(0.25\) sind. Da die Hypothesenstellung hier zweiseitig ist, bedeutet extremer hier wieder grösser als \(0.25\) oder kleiner als \(-0.25\). Der \(p\)-Wert entspricht dem Anteil der roten Fläche in Abbildung 6.3 rechts an der Gesamtfläche und beträgt \(0.004\).

Die Verteilung der Mittelwertdifferenzen unter der Annahme, dass die Nullhypothese wahr ist, kann wieder mit einer Kurve angenähert werden. Diese Annäherung hat den Vorteil, dass der Ablehnungsbereich und der \(p\)-Wert abgeschätzt werden kann, ohne dass dazu das Experiment wiederholt werden muss. Für die Annäherungskurve gibt es zwei Optionen, welche dann entsprechenden Tests ihre Namen geben: der Zweistichproben-\(t\)-Test nach Student und der Welch Test.

6.1.1 Erwartungswertunterschied Zweistichproben-\(t\)-Test nach Student

Der Zweistichproben-\(t\)-Test setzt voraus, dass die beiden Populationen eine ähnliche Varianz oder äquivalent eine ähnliche Standardabweichung haben. Dazu später mehr. Ist dies gegeben, so kann die Teststatistik mit

\[\begin{equation} t = \frac{\bar{x_1}-\bar{x_2} - \omega_0}{\sqrt{\frac{(n_1 - 1) s_1^2+(n_2-1)s_2^2}{n_1 + n_2 - 2}}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \tag{6.1} \end{equation}\]

berechnet werden, wobei \(\omega_0 = \mu_1 - \mu_2\) der Erwartungswertdifferenz entspricht und in unserem Fall \(0\) beträgt. Wenn die Nullhypothese wahr ist, so ist diese Teststatistik bei wiederholter Stichprobenziehung \(t\)-verteilt bei \(df = n_1 + n_2 -2\) Freiheitsgraden.

Die rote Linie in Abbildung 6.2 zeigt, dass die Annäherung durch den Zweistichproben-\(t\)-Test nach Student die Verteilung der Mittelwertdifferenzen ziemlich gut trifft.

6.1.2 Erwartungswertunterschied Welch Test

Beispiel 6.2 (Emotionaler Stroop-Test bei posttraumatischer Belastungsstörung.) Analog zum klassischen Stroop-Test werden bei einem emotionalen Stroop-Test EST Testpersonen gebeten die Farben verschiedener ausgeschriebener Wörter zu erkennen. Die Wörter sind beim emotionalen Stroop-Test entweder emotional aufgeladen (Bombe, Schweiss, Faustschlag, …) oder neutral (Tisch, Weg, Bahn, …) für die Testpersonen (Macleod, Williams, and Mathews 1996). Gemessen wird dabei die Reaktionsgeschwindigkeit RT in Millisekunden. In einem Versuch wollten Khanna et al. (2017) herausfinden, ob von posttraumatischer Belastungsstörung betroffene Veteranen PTSD andere EST-Resultate erzielen als nicht betroffene non-PTSD. Die durchschnittliche Reaktionszeit der \(26\) von PTSD betroffenen Veteranen lag bei \(M=741\text{ ms }(SD = 226.8)\) und bei den \(16\) nicht von PTSD betroffenen Veteranen bei \(M=636.9 \text{ ms }(SD = 106.1)\).

Es wird keine Annahme über die Richtung einer eventualen Mittelwertdifferenz angenommen. Die Hypothesen sind deshalb zweiseitig formuliert und lauten

\(H_0: \mu_\text{PTSD} = \mu_\text{non-PTSD}\)

\(H_1: \mu_\text{PTSD} \neq \mu_\text{non-PTSD}.\)

In diesem Beispiel sind die Standardabweichungen und demnach auch die Varianzen der Reaktionszeiten in den beiden Gruppen sehr unterschiedlich. Wenn das Experiment wiederum wiederholt wird, kann der Verteilung der Mittelwertdifferenzen entnommen werden, dass der Zweistichproben-\(t\)-Test nach Student diese Verteilung nicht gut abbildet. Die rote Linie in Abbildung 6.4 liegt mittig zu hoch und an den Enden zu tief Wird diese Annäherung in diesem Fall verwendet, dann besteht die Gefahr, dass ein signifikanter Mittelwertunterschied nicht erkannt wird.

Verteilung simulierter RT-Mittelwertdifferenzen bei wiederholten Zufallsstichprobenziehung. Rot: Annäherung der Verteilung mit dem Student t-Test; grün: Annäherung der Verteilung durch den Welch-Test.

Abbildung 6.4: Verteilung simulierter RT-Mittelwertdifferenzen bei wiederholten Zufallsstichprobenziehung. Rot: Annäherung der Verteilung mit dem Student t-Test; grün: Annäherung der Verteilung durch den Welch-Test.

Für diesen Fall wurde von Welch (1947) eine alternative Annäherung an die Verteilung der Mittelwertdifferenzen gefunden, nämlich

\[\begin{equation} t = \frac{\bar{x_1}-\bar{x_2} - \omega_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}. \tag{6.2} \end{equation}\]

Die so berechnete Teststatistik \(t\) ist \(t\)-Verteilt bei approximativ \[df \approx\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{s_1^4}{(n_1-1) n_1^2}+ \frac{s_2^4}{(n_2-1) n_2^2}} \]

Freiheitsgraden und ein damit durchgeführter Test wird Welch-Test genannt. Sie nähert die Verteilung der Mittelwertdifferenzen trotz unterschiedlicher Gruppenvarianzen gut an, siehe grüne Linie in Abbildung 6.4.

Der Zweistichproben-\(t\)-Test und der Welch-Test sind also zwei Testvarianten, um zu testen, ob der Erwartungswert in zwei Gruppen unterschiedlich ist. Dabei hat sich gezeigt, dass der Welch-Test die wahre Verteilung besser annähert als der Zweistichproben-\(t\)-Test, wenn die beiden Gruppen unterschiedliche Varianzen aufweisen, siehe Abbildung 6.4. Wenn beide Varianzen ungefähr gleich sind, so geben beide Tests jedoch ähnlich gute Resultate, siehe Abbildung 6.2. Es wird deshalb empfohlen immer den Welch-Test durchzuführen (Zimmerman 2004). Ein Vergleich der Abbildungen 6.3 und 6.5 zeigt auch, dass der Unterschied von Ablehnungsbereich und \(p\)-Wert beim im Falle der ähnlichen Varianzen gering und im Falle der unterschiedlichen Varianzen augenscheinlich wird.

## Warning: Removed 8 rows containing missing values or values outside the scale range
## (`geom_bar()`).

Emotionaler Stroop-Test bei PTSD: Ablehnungsbereich und p-Wert bei wiederholter Stichprobenziehung (oben), approximiert durch den t-Test (mitte) und approximiert durch den Welch-Test (unten). Der Ablehnungsbereich und p-Wert des Welch-Tests bildet die wiederholte Stichprobenziehung genauer ab im Vergleich zum t-Test.

Abbildung 6.5: Emotionaler Stroop-Test bei PTSD: Ablehnungsbereich und p-Wert bei wiederholter Stichprobenziehung (oben), approximiert durch den t-Test (mitte) und approximiert durch den Welch-Test (unten). Der Ablehnungsbereich und p-Wert des Welch-Tests bildet die wiederholte Stichprobenziehung genauer ab im Vergleich zum t-Test.

6.2 Effektstärken

In den Formeln (6.1) und (6.2) kann beobachtet werden, dass mit zunehmenden Stichprobengrössen der Gruppen der Nenner immer kleiner und damit die Teststatistik \(t\) für eine gleichbleibende Mittelwertdifferenz immer grösser wird. Dies bedeutet, dass auch kleine Mittelwertdifferenzen bei grossen Stichprobengrösse signifikanten - also nicht auf die zufällige Stichprobenziehung zurückzuführenden - Unterschied darstellen. Beim Trennungsschmerzbeispiel ist der Mittelwertunterschied von \(0.25\) gering. Dies trotz dem \(p\)-Wert des Welch-Test von \(p=.004\), welcher auf einen stark signifikanten Mittelwertunterschied hindeutet. Umgekehrt bei der posttraumatischen Belastungsstörung: Hier ist der Mittelwertunterschied mit \(104\) ms substanziell, aber der \(p\)-Wert des Welch-Test von \(p=.052\) deutet knapp auf keine signifikante Mittelwertdifferenz hin.

Würde die Relevanz des beobachteten Effekts mit der Mittelwertsdifferenz gemessen, dann wäre, analog zu Kapitel 5, dieses Mass wieder abhängig von der Einheit. Um dies zu verhindern, wird die Mittelwertdifferenz wieder durch die Standardabweichung geteilt. Für die konkrete Berechnung der Effektstärke gibt es verschiedene Methoden, wovon drei hier vorgestellt werden:

Bei Cohens \(d\) für Zweistichproben-t-Test (Symbol \(d\)) wird die Mittelwertdifferenz durch das gewichtete Mittel der Standardabweichungen geteilt. \[d = \frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{(n_1 - 1) s_1^2+(n_2-1)s_2^2}{n_1 + n_2 - 2}}}\] Diese Formel entpricht dem Cohens d für den Zweistichproben-\(t\)-Test in Jamovi.
Bei Hedges \(g\) (Symbol \(g\)) handelt es sich um eine um einen Faktor korrigierte Version von Cohens \(d\) für den Zweistichproben-\(t\)-Test. \[g = \left(1-\frac{3}{4(n_1+n_2)-9}\right)d\] Hedges \(g\) ist genauer als Cohens \(d\) bei kleinen Stichprobengrössen und gleich wie Cohens \(d\) für grosse Stichproben. Es kann daher immer Hedges \(g\) verwendet werden. Diese Formel wird für den Zweistichproben-\(t\)-Test verwendet und ist besser geeignet als \(d\) oben - ein Unterschied ist jedoch nur bei kleinen Stichproben ersichtlich. Hedges \(g\) wird in Jamovi nicht standardmässig ausgegeben und muss händisch berechnet werden.
Bei Cohens \(d\) für den Welch-Test (Symbol \(d\)) wird die Mittelwertdifferenz durch die mittlere Standardabweichungen geteilt. \[d = \frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{s_1^2+s_2^2}{2}}}\] Diese Formel entpricht dem Cohens d für den Welch-Test in Jamovi.
Glass \(\Delta\) (gr. delta, Symbol \(\Delta\)) wir nur bei Experimenten verwendet. Dabei wird die Mittelwertdifferenz durch die Standardabweichung der Kontrollgruppe dividiert, weil angenommen wird, dass die Kontrollgruppe repräsentativer für die Popoulation ist. \[\Delta = \frac{\bar{x}_\text{Experiment}-\bar{x}_\text{Kontroll}}{s_\text{Kontroll}}\] Glass \(\Delta\) wird in Jamovi nicht standardmässig ausgegeben und muss händisch berechnet werden.

Da es sich bei beiden Beispielen nicht um Experimente handelt, weil weder das Geschlecht noch die posttraumatische Belastungsstörung zufällig zugeorndet wurde, ist hier Glass \(\Delta\) keine sinnvolle Effektgrösse. Aus diesem Grund wird für die Effektstärkenberechnung bei beiden Beispielen Cohens \(d\) für den Welch-Test verwendet. Das berichten der Testresultate kann deshalb wie folgt aussehen:

Ein zweiseitiger Welch-Test ergibt, dass die durchschnittliche emotionale Antwort ER bei einer Trennung bei Männern (\(M = 6.56 \text{ms}\), \(SD = 2.6\), \(N = 1409\)) signifikant anders ist als bei Frauen (\(M = 6.81 \text{ms}\), \(SD = 2.53\), \(N = 2695\)), \(t(2786.7) = -2.9\), \(p = .004, d = -0.1\).

Ein zweiseitiger Welch-Test ergibt, dass die durchschnittliche Reaktionszeit beim emotionalen Stroop-Test bei Veteranen ohne PTSD (\(M = 636.86\), \(SD = 106.08\), \(N = 16\)) nicht signifikant anders ist als bei Menschen mit PTSD (\(M = 740.98\), \(SD = 226.81\), \(N = 26\)), \(t(37.9) = -2.01\), \(p = .052, d = -0.588\).

Beim Trennungsschmerz handelt es sich um einen schwachen, bei der Reaktionszeit auf den emotionalen Stroop-Test bei PTSD um einen mittleren Effekt.

Hinweis.

Falls bei der Teststatistik oder der Effektstärke bei diesen Tests der exakt gleiche Wert aber mit anderem Vorzeichen angezeigt wird ist dies auch richtig. Dies hängt damit zusammen, dass eine der beiden Gruppen als Gruppe \(1\) und die andere als Gruppe \(2\) bezeichnet wird. Da die Teststatistik die Differenz von Gruppe \(1\) und \(2\) beinhaltet ergibt sich je nach Nummerierung ein positiver oder negativer Wert für die Teststatistik und ebenso für die Effektstärke. Jamovi wählt als Gruppe \(1\) immer die Gruppe, welche als erstes auftaucht. Dieses Verhalten kann bei Bedarf manuell geändert werden, indem bei Datenvariable die Stufenreihenfolge geändert wird.
Die Namensgebung der Berechnungsarten für die Effektstärken und insbesondere, was unter Cohens \(d\) verstanden wird, variiert beträchtlich und es empfiehlt sich immer die genaue Berechnungsart zu überprüfen.
In Jamovi wird für den Zweistichproben-\(t\)-Test und den Welch-Test eine unterschiedliche Effektstärke angegeben. Dies ist einigermassen seltsam, da die Effektstärke konzeptuell nicht vom Testverfahren abhängig sein sollte.

6.3 Testvoraussetzungen

Damit der Zweistichproben-\(t\)-Test und der Welch Test durchgeführt werden dürfen, müssen einige Voraussetzungen eingehalten werden.

Das Merkmal muss intervallskaliert sein.
Die Beobachtungen müssen einer Zufallsstichprobe der jeweiligen Gruppe entsprechen.
Die Beobachtungen beider Gruppen müssen einer Normalverteilung entstammen oder die Anzahl der Beobachtungen muss gross genug sein. Häufig wird die Faustregel mehr als \(30\) Beobachtungen pro Gruppe verwendet.
Für den Zweistichproben-\(t\)-Test müssen die Varianzen gleich sein. Für den Welch Test gilt diese Voraussetzung nicht.

6.4 Übungen

Übung 6.1

Mit dem Bobo-Doll-Experiment sollte die Übertragung von Aggression durch Imitation aggressiver Modelle nachgewiesen werden. An der Studie nahmen \(48\) Kinder im Alter von drei bis sechs Jahren teil. Die Kinder wurden in zwei Gruppen eingeteilt: eine mit aggressivem Modell und eine mit nicht-aggressivem Modell. In der aggressiven Bedingung sahen die Kinder, wie eine erwachsene Person (das Modell) eine Bobo-Puppe aggressiv behandelte, während in der nicht-aggressiven Bedingung das Modell ruhig mit der Puppe spielte. Nach der Beobachtungsphase wurden die Kinder einzeln in einen Spielraum geführt, der ähnliche Spielzeuge wie im Experiment enthielt, einschliesslich der Bobo-Puppe. Die Forscher beobachteten und notierten die Anzahl gezeigter aggressiven Handlungen gegenüber der Bobo-Puppe. Inspiriert von Bandura, Ross, and Ross (1961).

Beantworten Sie die Frage, ob aggressives Verhalten Erwachsener von Kindern imitiert wird anhand der folgenden Teilfragen:

Die Kinder welcher Gruppe zeigen ein aggressiveres Verhalten? Argumentieren Sie mit zahlen.
Kann die Aussage aus a) von der Stichprobe auf die Population verallgemeinert werden? Stellen Sie zweiseitige Testhypothesen für den Erwartungswert auf.
Führen Sie den statistischen Test mit Jamovi durch und berechnen Sie eine angemessene Effektstärke. Berichten und interpretieren Sie das Testresultat.

Klicke hier, um deine Lösung zu überprüfen.

Lösung. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 6.6.

Abbildung 6.6: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 6.7.

Abbildung 6.7: Jamovi Ausgabe.

Damit können und beide Teilfragen beantwortet werden.

In der Stichprobe ist der durchschnittliche Anzahl gezählter Aggressionen in der Gruppe mit aggressiven Modellen mit \(M = 10.63\) höher als in der Gruppe mit nicht Aggressiven Modellen \(M = 4.95\). Es könnte sein, dass der gefundene Mittelwertunterschied auf die zufällige Stichprobenziehung zurückzuführen ist. Um dieses Risiko zu quantifizieren und damit einzuschätzen, ob das Ergebnis auch für die Population gelten könnte, kann ein statistischer Test durchgeführt werden.
Es soll gezeigt werden, dass sich der durchschnittlich beobachtete Anzahl aggressiver Handlungen der Kinder in der Gruppe mit aggressivem Modell anders ist als in der Gruppe mit nicht aggressivem Modell. Die Alternativhypothese lautet also \(H_1: \mu_\text{Aggressiv} \neq \mu_\text{Nicht aggressiv}\). Die Nullhypothese dagegen sagt, dass beide Gruppen durchschnittlich gleich viele aggressive Handlungen begehen, also \(H_0: \mu_\text{Aggressiv} = \mu_\text{Nicht aggressiv}\).
Es werden Mittelwerte von einer intervallskalierten Variabel über zwei Gruppen verglichen. Als statischer Test kommt demnach der Zweistichproben-\(t\)-Test oder der Welch-Test infrage. Aufgrund der genaueren Testergebnisse wird immer der Welch-Test bevorzugt und dieser in folge durchgeführt und berichtet. Ein zweiseitiger Welch-Test ergibt, dass der durchschnittliche Anzahl Aggressionen in der Gruppe mit aggressivem Modell (\(M = 10.63\), \(SD = 2.62\), \(N = 24\)) signifikant anders ist als in der Gruppe mit nicht aggressivem Modell (\(M = 4.95\), \(SD = 0.45\), \(N = 24\)), \(t(24.4) = 10.45\), \(p < 0.001, \Delta = 12.593\). Da es sich um ein Experiment handelt ist hier die Effektstärke Glass \(\Delta\) angebracht. Als Kontrollgruppe wurde die nicht aggressive Gruppe verwendet. Die Effektstärke ist als gross einzustufen.

Übung 6.2

In den 1970er Jahren hat eine Gruppe um Blaney et al. (1977) Versuche durchgeführt zu neuen Lehrmethoden. Insbesondere wurde dabei das sogenannte Gruppenpuzzle gruppenpuzzle, eine Lernform bei welcher die Lernenden den Inhalt mit und in Abhängigkeit voneinander erarbeiten, mit dem traditionellen Frontalunterricht traditionell verglichen. Die Forschenden wollten unter anderem Herausfinden, ob sich die Gruppenpuzzleteilnehmende nach dem Unterricht besser oder schlechter mochten (liking), als traditionell unterrichtete Lernende. Fiktive Daten zu dem Experiment sind als 06-exr-gruppenpuzzle.sav verfügbar.

Stellen Sie die Testhypothesen auf für einen zweiseitigen Welch-Test.
Führen Sie den Test durch und berichten Sie das Resultat.
Erklären Sie den Wert der Statistik, der Freiheitsgrade, des \(p\)-Werts und der Effektstärke respektive.

Klicke hier, um deine Lösung zu überprüfen.

Lösung. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 6.8.

Abbildung 6.8: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 6.9.

Abbildung 6.9: Jamovi Ausgabe.

Damit können und die Teilfragen beantwortet werden.

Angenommen die Zuneigung zur Personen der einen Gruppe ist unabhängig von der Lehrmethode, dann sollten beide Gruppen im durchschnitt denselben Erwartungswert \(\mu\) bei der Zuneigung haben. Die Nullhypothese ist also \(H_0: \mu_\text{Gruppenpuzzle} = \mu_\text{Traditionell}\). Ein Unterschied dazu wäre, wenn es die Lernenden der beiden Gruppen einen unterschiedlichen Erwartungswert aufweisen, formell \(H_1: \mu_\text{Gruppenpuzzle} \neq \mu_\text{Traditionell}\).
Ein zweiseitiger Welch-Test ergibt, dass die durchschnittliche Zuneigung in der Gruppenpuzzlegruppe (\(M = 5.11\), \(SD = 0.25\), \(N = 35\)) signifikant anders ist als in der traditionell unterrichteten Gruppe(\(M = 4.82\), \(SD = 0.31\), \(N = 21\)), \(t(35.6) = 3.69\), \(p < 0.001, \Delta = 0.95\).
Die Statistik von \(3.69\) ist ein Wert, welcher eine Verteilung wie in 4.7 aufweist. Diese Verteilung weist die Statistik auf, wenn das Experiment oft wiederholt wird und die Nullhypothese wahr ist. Die Verteilung zweigt, dass der beobachtete Wert \(3.69\) selten zufällig vorkommt (tiefer Wert der Linie weist auf eine tiefe Wahrscheinlichkeit der Statistik hin). Die Freiheitsgrade 35.6 bestimmen die Form der oben referenzierten Verteilung. Wo bei kleinen Freiheitsgraden die beobachtete Statistik noch mit einer nicht allzukleinen Wahrscheinlichkeit beobachtet werden kann (vgl. \(df = 1\) in der Abbildung), so ist es bei dieser Anzahl Freiheitsgrade sehr selten (vgl. Normalverteilung in der Abbildung). \(p < 0.001\) bedeutet, dass der \(p\)-Wert kleiner als \(0.001 = 0.1\%\) ist. Damit ist die Wahrscheinlichkeit den Statistik-Wert \(3.69\) oder einen extremeren Wert im Sinne der Alternativhypothese zu beobachten, gegeben dass die Nullhypothese wahr ist, kleiner als \(0.1\%\) also sehr selten. Da der \(p\)-Wert kleiner ist als \(5\%\) ist wird geschlossen, dass die Annahme, dass die Nullhypothese wahr ist, wahrscheinlich falsch ist. Die Effektstärke von \(\Delta = 0.95\) bedeutet, dass hier ein Mittelwertunterschied von ungefähr \(0.95\) Standardabweichungen des Merkmals Zuneigung entspricht. Dies heisst, auf der Skala des Merkmals ist der Mittelwertunterschied gross oder anders gesagt: es handelt sich um einen starken Effekt. Das Vorzeichen hängt von der Gruppenbeschriftung ab und hat keine spezielle Bedeutung.

Übung 6.3

Studierende wollen herausfinden, ob Entspannungsmusik ohne Text oder Musik mit Text einen unterschiedlichen Einfluss auf die Merkfähigkeit haben. Dazu lernen die Studienteilnehmenden während \(10\) Minuten Wortsilben ohne semantische Bedeutung auswendig und geben diese nach einer Latenzzeit wider. Die Beschallungsart wird den Studienteilnehmenden zufällig zugeordnet. Die Anzahl korrekt memorisierte Wortsilben sind im Datensatz 06-exr-music-memory.sav verfügbar.

Stellen Sie die Testhypothesen auf für einen zweiseitigen Welch-Test.
Führen Sie den Test durch und berichten Sie das Resultat.
Erklären Sie den Wert der Statistik, des \(p\)-Werts und der Effektstärke Cohen’s \(d\) respektive.

Klicke hier, um deine Lösung zu überprüfen.

Lösung. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 6.10.

Abbildung 6.10: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 6.11.

Abbildung 6.11: Jamovi Ausgabe.

Damit können die Teilfragen beantwortet werden.

Die Nullhypothese besagt, dass die durchschnittliche Anzahl gemerkter Wortsilben beim Lernen mit oder ohne Musik gleich ist, also \(H_0: \mu_\text{Musik mit Text} = \mu_\text{Musik ohne Text}\). Die Alternativhypothese besagt, dass sich die durchschnittliche Anzahl gemerkter Wortsiblen mit oder ohne Musik unterscheiden \(H_1: \mu_\text{Musik mit Text} \neq \mu_\text{Musik ohne Text}\).
Ein zweiseitiger Welch-Test ergibt, dass die durchschnittliche Anzahl gemerkter Wortsilben beim Lernen mit Musik mit Text (\(M = 8\), \(SD = 1.69\), \(N = 35\)) nicht signifikant anders ist als beim Lernen mit Musik ohne Text (\(M = 8.22\), \(SD = 1.06\), \(N = 43\)), \(t(54.6) = -0.66\), \(p = .514, d = -0.153\).
Die Statistik von \(-0.66\) ist ein Wert, welcher eine Verteilung wie in 4.7 aufweist. Diese Verteilung weist die Statistik auf, wenn das Experiment oft wiederholt wird und die Nullhypothese wahr ist. Die Verteilung zeigt, dass der beobachtete Wert \(-0.66\) oft zufällig vorkommt (hoher Wert der Linie weist auf eine hohe Wahrscheinlichkeit der Statistik hin). \(p = .514\) bedeutet, dass die Wahrscheinlichkeit den Statistik-Wert \(-0.66\) oder einen extremeren Wert im Sinne der Alternativhypothese zu beobachten, gegeben dass die Nullhypothese wahr ist, nicht aussergewönlich erscheint. Da der \(p\)-Wert grösser ist als \(5\%\) ist, kann keine Aussage zur Wahrheit oder Falschheit der Nullhypothese getroffen werden. Die Effektstärke von \(d = -0.153\) bedeutet, dass hier ein Mittelwertunterschied von ungefähr \(-0.153\) Standardabweichungen des Merkmals Anzahl gemerkter Wortsiblen entspricht. Dies heisst, auf der Skala des Merkmals ist der Mittelwertunterschied klein oder anders gesagt: es handelt sich um einen schwachen Effekt. Das Vorzeichen hängt von der Gruppenbeschriftung ab und hat keine spezielle Bedeutung.

Übung 6.4

Die Gesellschaft für Hypnose will unter Beweis stellen (Signifikanzniveau \(\alpha=5\%\)), dass ein neues Hypnoseverfahren eine schmerzlindernde Wirkung hat. Dazu werden Probanden zufällig und doppelblind in zwei Gruppen eingeteilt. Eine Gruppe erhält die Behandlung mit dem neuen Hypnoseverfahren, die andere wird einer Placebo-Behandlung unterzogen. Nach der Behandlung wird das Schmerzempfinden auf einer Skala von \(1\) bis \(10\) gemessen. Die Daten beider Versuchsgruppen stellen sich als normalverteilt heraus. Die erhobenen Daten sind unter 06-exr-hypnose.sav abgelegt.

Beschreiben Sie die beiden Stichproben deskriptiv. Hat die neue Behandlungsmethode einen Vorteil gegenüber der Placebo-Behandlung in der Stichprobe? Weshalb ist es sinnvoll danach noch einen statistischen Test durchzuführen?
Stellen Sie die Hypothesen für einen einseitigen Test auf.
Prüfen Sie die Hypothesen mit einem geeigneten einseitig durchgeführten statistischen Test, ob das Resultat auch auf die Population übertragen werden kann. Berichten Sie das Ergebnis.

Klicke hier, um deine Lösung zu überprüfen.

Lösung. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 6.12.

Abbildung 6.12: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 6.13.

Abbildung 6.13: Jamovi Ausgabe.

Damit können und beide Teilfragen beantwortet werden.

In der Stichprobe ist der durchschnittliche Schmerz (arithmetisches Mittel) in der Hypnose-Gruppe mit \(M = 5.81\) tiefer als in der Placebo-Gruppe mit \(M = 4.92\). Es könnte sein, dass der gefundene Mittelwertunterschied auf die zufällige Stichprobenziehung zurückzuführen ist. Um dieses Risiko zu quantifizieren und damit einzuschätzen, ob das Ergebnis auch für die Population gelten könnte, kann ein statistischer Test durchgeführt werden.
Es soll gezeigt werden, dass sich der durchschnittlich empfundene Schmerz mit der Hypnose-Behandlung tiefer liegt als mit der Placebo-Behandlung. Die Alternativhypothese lautet also \(H_1: \mu_\text{Hypnose} < \mu_\text{Placebo}\). Die Nullhypothese dagegen sagt, dass die Hypnose-Behandlung nicht besser oder sogar schlechter ist als die Placebo-Behandlung also \(H_0: \mu_\text{Hypnose} \geq \mu_\text{Placebo}\).
Ein einseitiger Welch-Test ergibt, dass der durchschnittliche erhobene Schmerz bei einer Behandlung mit der neuen Hypnose-Methode (\(M = 4.92\), \(SD = 0.39\), \(N = 11\)) signifikant tiefer ist als bei der Placebo-Behandlung (\(M = 5.81\), \(SD = 0.87\), \(N = 15\)), \(t(20.6) = -3.5\), \(p = .001, \Delta = -1.022\).

Übung 6.5

Eine Forscherin hat die Hypothese, dass unverheiratete Ärztinnen ein weniger stabiles Umfeld haben als ihre verheirateten Kolleginnen. Das Fehlen dieser Ressource führt dazu, dass unverheiratete Ärztinnen eher Burnout gefährdet sind. Um diese Hypothese zu untersuchen befragt die Forscherin in einer Umfrage zufällig verheiratete und unverheiratete Ärztinnen. Diese füllen einen Online-Fragebogen mit einem Burnout-Inventar aus, welches zu einem Burnout-score führt. Die Daten sind unter 06-exr-ehe-burnout.sav verfügbar.

Wie viele verheiratete und unverheiratete haben den Fragebogen abgeschlossen?
Welche Gruppe hat in der Stichprobe ein höheres mittleres Burnout-Risiko?
Übersetzen Sie die Hypothese der Forscherin in eine Statistische Hypothese.
Lässt sich die Hypothese statistisch bestätigen? Berichten Sie das Testresultat.

Klicke hier, um deine Lösung zu überprüfen.

Lösung. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 6.14.

Abbildung 6.14: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 6.15.

Abbildung 6.15: Jamovi Ausgabe.

Damit können die Teilfragen beantwortet werden.

Aus der Stichprobenbeschreibung kann entnommen werden, dass \(51\) unverheiratete und \(61\) verheiratete Ärztinnen den Fragebogen abgeschlossen haben.
Die unverheirateten Ärztinnen \(M = 10.99\) scheiden durchschnittlich höher ab als die verheirateten Ärztinnen \(M = 10.15\). Dieser Befund beschränkt sich ohne statistischen Test auf die Stichprobe. Deshalb wurde darin das Wort signifikant nicht verwendet.
Die Forscherin will zeigen, dass unverheiratete Ärztinnen ein durchhschnittlich höheres Burnout-Risiko haben als verheiratete und zwar nicht nur in der Stichprobe sondern auch ich der Population. Das durchschnittliche Burnout-Risiko in der Population ist der Erwartungswert des Burnout-Risiko und wird mit \(\mu\) bezeichnet. Die Forscherin will also zeigen, dass \(H_1: \mu_\text{unverheiratet} > \mu_\text{verheiratet}\). Demgegenüber steht die Nullhypothese, dass dies nicht so ist oder das gar das Gegenteil der Fall sein könnte also \(H_0: \mu_\text{unverheiratet} \leq \mu_\text{verheiratet}\). Die Hypothese ist also einseitig gestellt.
Ein einseitiger Welch-Test ergibt, dass der durchschnittliche Burnout-Wert bei unverheirateten Ärztinnen (\(M = 10.99\), \(SD = 1.92\), \(N = 51\)) signifikant höher ist als bei verheirateten Ärztinnen (\(M = 10.15\), \(SD = 2.01\), \(N = 61\)), \(t(108.1) = 2.26\), \(p = .013, d = 0.427\).

6.5 Test

Übung 6.6

In einem Experiment wird das Worterinnerungsgedächtnis von Patientinnen mit links (LT Epilepsie)- respektive rechtsseitiger (RT Epilepsie) Temporallappenepilepsie getestet. Dazu wird eine Anzahl Wörter eingeprägt, welche die Patientinnen nach einer kurzen Zeit wiedergeben müssen und die Anzahl erinnerter Wörter wird festgehalten. Bei der Analyse mit \(t\)-Test und Welch-Test mit Jamovi sind die Ergebnisse in Abbildung 6.16 entstanden. Welche der folgenden Aussagen sind wahr, welche falsch.

Abbildung 6.16: Jamovi Eingabe.

Die Hypothesenstellung ist gemäss Testausführung einseitig.
Der gefundene Effekt ist gemäss Cohen als mittel einzustufen.
Der \(p\)-Wert des Welch-Tests nähert den tatsächlichen \(p\)-Wert am besten an.
Es gibt einen signifikanten Unterschied bei der durchschnittlichen Worterinnerungsleistung zwischen links- und rechtsseitiger Temporalepilepsie betroffener.

Klicke hier, um deine Lösung zu überprüfen.

Lösung.

Falsch
Richtig
Richtig
Richtig

Literaturverzeichnis

Bandura, A., D. Ross, and S. A. Ross. 1961. “Transmission of Aggression Through Imitation of Aggressive Models.” Journal of Abnormal and Social Psychology 63 (3): 575–82. https://doi.org/10.1037/h0045925.

Blaney, N. T., C. Stephan, D. Rosenfield, E. Aronson, and J. Sikes. 1977. “Interdependence in the Classroom: A Field Study.” Journal of Educational Psychology 69 (2): 121–28. https://doi.org/10.1037/0022-0663.69.2.121.

Khanna, M. M., A. S. Badura-Brack, T. J. McDermott, C. M. Embury, A. I. Wiesman, A. Shepherd, T. J. Ryan, E. Heinrichs-Graham, and T. W. Wilson. 2017. “Veterans with Post-Traumatic Stress Disorder Exhibit Altered Emotional Processing and Attentional Control During an Emotional Stroop Task.” Psychological Medicine 47 (11): 2017–27. https://doi.org/10.1017/S0033291717000460.

Macleod, Colin, J. M. G. Williams, and A. Mathews. 1996. “The Emotional Stroop Task and Psychopathology.” Psychological Bulletin 120 (1): 3–24. https://doi.org/10.1037/0033-2909.120.1.3.

Morris, Craig, Chris Reiber, and Emily Roman. 2015. “Quantitative Sex Differences in Response to the Dissolution of a Romantic Relationship.” Evolutionary Behavioral Sciences 9 (July). https://doi.org/10.1037/ebs0000054.

Welch, B. L. 1947. “The Generalization of ‘Student’s’ Problem When Several Different Population Variances Are Involved.” Biometrika 34 (1/2): 28–35. http://www.jstor.org/stable/2332510.

Zimmerman, Donald W. 2004. “A Note on Preliminary Tests of Equality of Variances.” British Journal of Mathematical and Statistical Psychology 57 (1): 173–81. https://doi.org/10.1348/000711004849222.