Kapitel 8 Korrelation

Bislang wurde immer ein Merkmal separat betrachtet und manchmal wurden Untergruppen verglichen. Dabei ging es um die Frage, wo der Erwartungswert des Merkmals liegt und ob er einem gewissen Wert entspricht respektive für zwei Gruppen identisch ist. Wird jetzt noch ein zweites Merkmal beobachtet stellt sich die Frage, wie sich die Merkmale zueinander verhalten.

Beispiel 8.1 (Zahlungsbereitschaft) Eine Firma will eine Kickstarteridee für ein Kinderspielzeug auf den Markt bringen. Dazu muss sie herausfinden wie viel die Konsumierenden bereit sind für das Spielzeug zu bezahlen. Es werden \(375\) Konsumierende gefragt, wie viel sie für das Spielzeug zahlen würden. Zusätzlich wurde auch nach dem Jahreseinkommen in CHF und der Anzahl Spielzeuge im Haushalt gefragt.

Um den Zusammenhang zwischen zwei intervallskalierten Merkmalen aufzuzeigen wird ein sogenanntes Streudiagramm verwendet. Dabei wird ein Koordinatensystem erstellt mit einem Merkmal auf der x-Achse und dem anderen Merkmal auf der y-Achse. Danach wird für jede Beobachtung ein Punkt bei den entsprechenden Werten für die beiden betrachteten Merkmale in dieses Koordinatensystem eingezeichnet.

Die drei Streudiagramme zeigen jeweils die Zahlungsbereitschaft (Preis in CHF) auf der y-Achse und das Alter in Jahren, die Anzahl Spiele im Haushalt und das Jahreseinkommen in 1'000 CHF respektive auf der x-Achse.

Abbildung 8.1: Die drei Streudiagramme zeigen jeweils die Zahlungsbereitschaft (Preis in CHF) auf der y-Achse und das Alter in Jahren, die Anzahl Spiele im Haushalt und das Jahreseinkommen in 1’000 CHF respektive auf der x-Achse.

In Abbildung 8.1 sind drei Streudiagramme aufgezeichnet. Sie setzen jeweils die Zahlungsbereitschaft (Preis) mit dem Alter in Jahren, der Anzahl vorhandener Spiele im Haushalt und dem Einkommen respektive in Bezug. Es kann beobachtet werden, dass die Zahlungsbereitschaft unabhängig vom Alter immer ungefähr ähnlich hoch ist. Es ist des Weiteren klar zu sehen, dass die Zahlungsbereitschaft mit der Anzahl im Haushalt vorhandener Spiele sinkt. Ein bisschen weniger klar ist die Beobachtung, dass die Zahlungsbereitschaft mit dem Jahreseinkommen ansteigt.

Diese drei Beobachtungen können mit der sogenannten Korrelation digitalisiert werden. Die Korrelation ist eine Zahl zwischen \(-1\) und \(+1\). Negative Zahlen bedeuten, dass es einen gegenläufigen Zusammenhang gibt. Gegenläufig bedeutet je mehr von Merkmal A, desto weniger von Merkmal B. Positive Zahlen bedeuten, dass es einen gleichläufigen Zusammenhang gibt. Gleichläufig bedeutet je mehr von Merkmal A, desto mehr von Merkmal B. Eine Korrelation von \(0\) schliesslich bedeutet, dass es keinen Zusammenhang zwischen den beiden Merkmalen gibt. Je weiter weg von \(0\) die Korrelation liegt, desto eindeutiger ist ein Zusammenhang auf dem Streudiagramm erkennbar. Die Korrelationen für die in der Abbildung gezeigten Zusammenhänge liegen bei \(-0.002\) für Alter und Zahlungsbereitschaft, \(-0.770\) für die Anzahl Spiele im Haushalt und Zahlungsbereitschaft und \(0.484\) für das Einkommen und die Zahlungsbereitschaft.

Die Korrelation erfasst nur lineare Zusammenhänge, also nur wenn Punkte entlang einer Linie streuen im Streudiagramm. Je weiter weg die Korrelation von \(0\) ist, desto weniger streuen die Punkte entlang einer Linie, siehe erste und zweite Zeile der Abbildung 8.2. Die Korrelation sagt lediglich, ob die Linie steigt oder fällt, jedoch nicht wie stark. Nicht lineare Zusammenhänge wie in der dritten Zeile von Abbildung 8.2 können mit der Korrelation nicht richtig erfasst werden und gängige Korrelationsberechnungen geben zufällige Resultate.

Streudiagramme und dazugehörige Korrelation.

Abbildung 8.2: Streudiagramme und dazugehörige Korrelation.

Liegt eine Korrelation vor bedeutet dies, dass die Merkmale sich gemeinsam verändern. In Beispiel 8.1 scheint intuitiv klar, dass das Einkommen und die Anzahl vorhandene Spiele pro Haushalt die Zahlungsbereitschaft beeinflussen. Das Einkommen und die Anzahl Spiele sind also ursächlich. Dass die Zahlungsbereitschaft ursächlich wäre und zum Beispiel das Einkommen beeinflusst ist eher unwahrscheinlich. Welches von zwei Merkmalen ursächlich ist, bzw. wie die Merkmale kausal zusammenhängen, lässt sich jedoch nicht immer einfach beantworten, wie das folgende Beispiel zeigt.

Beispiel 8.2 (Depression, Angststörungen und Alkohol) In der Psychotherapie ist aufgefallen, dass sich Alkoholabhängigkeit, Angststörungen und Depression in der Tendenz wechselwirkend positiv beeinflussen (Schuckit 1996). Dies soll mit den fiktiven Daten in 08-exm-depression-alkohol-angst.sav illustriert werden. Für die Messung der Schwere der drei Merkmale Alkoholismus, Angststörung und Depression wurden die folgenden Messinstrumente verwendet: Das Beck Depression Inventory BDI für die Depression (Beck, Steer, and Carbin 1988), das state trait anxiety inventory STAI für die Angststörungen (Spielberger et al. 1983) und das alcohol use inventory für den Alkoholismus (Skinner and Allen 1982).

Streudiagramme aller möglicher bivariaten Zusammenhänge sind in Abbildung 8.3 dargestellt. Während der lineare Zusammenhang zwischen Alkoholismus und Angststörung kaum erkennbar ist, so kann zwischen Depression und Alkoholismus ein leichter und zwischen Depression und Angststörung ein deutlich gleichläufiger linearer Zusammenhang festgestellt werden. Die geschätzten Korrelationen sind \(0.32\) zwischen Alkoholismus und Depression, \(0.1\) zwischen Alkoholismus und Angststörung und \(0.46\) zwischen Depression und Angststörung.

Wiederholte Stichprobenziehung bei gleichbleibender Population mit eher hohen Angst-Werten.

Abbildung 8.3: Wiederholte Stichprobenziehung bei gleichbleibender Population mit eher hohen Angst-Werten.

In diesem Fall ist unklar, ob jemand mit Alkoholismus eher eine Angststörung entwickelt, oder jemand mit Angststörung eher eine Alkoholabhängigkeit entwickelt. Die Korrelation gibt nur einen Anhaltspunkt über die Art des Zusammenhangs, nicht aber über die Ursächlichkeit der Variablen. Es könnte auch sein, dass die beiden Merkmale eigentlich unabhängig voneinander sind, aber ein drittes Merkmal die beiden Merkmale beeinflusst. Dazu später mehr unter 8.5.

Für die genaue Berechnung der Korrelation gibt es verschiedene Möglichkeiten, wovon auf einige im Verlauf dieses Kapitels eingegangen wird.

8.1 Wie stark ist der Zusammenhang zwischen zwei intervallskalierten und normalverteilten Variablen?

Wenn die beiden Merkmale je intervallskaliert sind und deren Beobachtungen \(x_1, \ldots, x_n\) und \(y_1,\ldots, y_n\) einer normalverteilten Population entstammen, dann ist wird Korrelation mit dem Korrelationskoeffizient nach Person, auch Produkt-Moment-Korrelation genannt,

\[ r = \frac{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2}\cdot \sqrt{\frac{1}{n-1}\sum_{i=1}^n (y_i - \bar{y})^2}} \]

geschätzt. Im Zähler steht dabei die sogenannte Kovarianz. Diese misst mit Wert der Summanden, wie stark ein Punkt vom Durchschnitt abweicht und mit dem Vorzeichen der Summanden, ob beide Merkmale in dieselbe Richtung vom Durchschnitt abweichen oder nicht. Der Wert der Kovarianz hängt von der Einheit der Merkmale ab. Um dies zu vermeiden wird die Korrelation durch das Produkt der Standardabweichungen der beiden Merkmale geteilt. So wird \(-1<r<1\) erreicht.

Die oben in den Beispielen angegebenen Korrelationen wurden mit dem Korrelationskoeffizient nach Pearson basierende auf einer Zufallsstichprobe geschätzt. Der so berechnetet Wert gilt deshalb für die Stichprobe und ist die beste Schätzung für die Korrelation in der Population. Aufgrund der Überlegungen aus Kapitel 3 ist diese Schätzung jedoch mit Unsicherheit behaftet. Diese Unsicherheit kann mit einem Konfidenzintervall abgeschätzt werden. Die genaue Berechnung davon wird hier nicht erläutert.

Wichtig für die Beurteilung der Korrelation ist die Frage, ob eine Korrelation besteht oder nicht. Die Korrelation in der Population wird mit \(\rho\), sprich ‘rho’ bezeichnet. Es wird also gefragt, ob \(H_1: \rho \neq 0\), \(H_1: \rho > 0\) oder \(H_1: \rho < 0\) ist. Diese Fragestellungen können mit einem zweiseitigen respektive einseitigen statistischen Test getestet werden. Da getestet wird, ob die Korrelation sich von \(0\) unterscheidet wird dieser Test Absicherung gegen Null genannt.

Die Teststatistik für die Absicherung gegen Null der Korrelation nach Pearson ist

\[\begin{equation} t = r\cdot \sqrt{\frac{n-2}{1-r^2}}. \tag{8.1} \end{equation}\]

Wenn wiederholt Stichproben gezogen werden und immer wieder die Teststatistik berechnet wird, kann beobachtet werden, dass die Teststatistik \(t\)-verteilt bei \(n-2\) Freiheitsgraden ist.

In Jamovi wird die Korrelation nach Pearson unter Analysen > Regression > Korrelationsmatrix und Korrelationskoeffizienten: Pearson geschätzt und mit der Zusatzoption Zusätzliche Optionen: Signifikanzniveau gegen Null abgesichert. Angenommen, es gäbe kein Vorwissen über die Richtung des Zusammenhangs zwischen den Merkmalen Alkoholismus, Depression und Angst. In diesem Fall werden zweiseitige Tests berechnet und wie folgt berichtet:

Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Alkoholismus und Depression (\(r = 0.32\)) signifikant von \(0\) unterscheidet, \(t(373) = 6.41\), \(p < 0.001\).

Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Alkoholismus und Angststörung (\(r = 0.1\)) nicht signifikant von \(0\) unterscheidet, \(t(373) = 1.96\), \(p = .051\).

Ist eine klare Hypothese über die Richtung des linearen Zusammenhangs vorhanden, zum Beispiel Leute mit mehr Geld kaufen mehr Geld für Spielzeuge ausgeben wollen, so kann auch einseitig getestet werden: \(H_0: \rho \leq 0\) und \(H_1: \rho > 0\) und

Die einseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass die Korrelation zwischen Kaufbereitschaft und Einkommen (\(r = 0.48\)) signifikant grösser ist als \(0\), \(t(373) = 10.7\), \(p < 0.001\).

Da die Teststatistik nicht von Jamovi direkt ausgegeben wird, muss diese händisch berechnet werden.

8.2 Wie stark ist der Zusammenhang zwischen zwei mindestens ordinalskalierten Merkmalen?

Manchmal ist ein Merkmal oder beide Merkmale nicht intervallskaliert und normalverteilt. Sind die Daten beider Merkmale dennoch mindestens ordinalskaliert, so kann die Korrelation nach Spearman, auch Spearmans Korrelationskoeffizient genannt, verwendet werden.

Beispiel 8.3 (Facebook und Lebenszufriedenheit.) Je intensiver Facebook konsumiert wird, desto tiefer ist die Lebenszufriedenheit (Błachnio, Przepiorka, and Pantic 2016). Eine Studie will dieses Resultat reproduzieren. Die Facebook-Nutzungsintensität wurde dafür mit einer Skala von \(1\) (keine) bis \(7\) (sehr intensive Nutzung) und die Lebenszufriedenheit mit Punkten von \(1\) (sehr unzufrieden) bis \(10\) (sehr zufrieden) gemessen. Es wurden \(73\) Personen befragt. Ihre Antworten wurden bereinigt im Datensatz 08-exm-fb-life.sav abgelegt. Nach der Erhebung wird festgestellt, dass die beiden Merkmale nicht normalverteilt sind.

Wenn die Daten beider Merkmale mindestens ordinalskaliert sind, diese aber nicht die Voraussetzungen für die Korrelation nach Pearson erfüllen, kann die Korrelation nach Spearman angewendet werden. Diese wird berechnet indem den Beobachtungen jedes Merkmals aufsteigende sortiert und entsprechend der Reihenfolge Rangplätze vergeben werden. Die Differenz der Ränge der beiden Merkmale für Beobachtung \(i\) wird mit \(d_i\) bezeichnet. Die Korrelation nach Spearman ist

\[r = 1 - \frac{6\cdot \sum_{i = 1}^n d_i^2}{n\cdot (n^2 -1)}.\]

Hinweis. Exploration der Definition der Spearman’schen Korrelation

  1. Alle Punkte sind entlang einer aufsteigenden Linie: In diesem Fall entsprechen sich die Ränge der beiden Merkmale genau und \(d_i = 0\) für alle Beobachtungen. Dies führt zu \(d_i^2 = 0\) und demnach zu \(r = 1\).
  2. \(n= 5\) Punkte sind entlang einer absteigenden Linie: In diesem Fall entspricht der kleinste Rang des einen Merkmals dem grössten des anderen Merkmals, der zweitgrösste Rang dem zweitkleinsten, usw. Die Rangdifferenzen sind in dem Fall \(d_1 = 5-1=4, d_2 = 4-2=2, d_3 = 3-3 = 0, d_4 = 2-4 = -2, d_5 = 1-5 = -4\). Dies führt zu \[r = 1 - \frac{6\cdot (4^2+2^2+0^2+(-2)^2+(-4)^2 )}{5\cdot (5^2 -1)} = 1 - \frac{240}{120} = 1-2 = -1.\] Die Formel ist also so ausgestaltet, dass bei perfektem gegenläufigem Zusammenhang eine Korrelation von \(-1\) erreicht wird.

Die Absicherung gegen Null der Korrelation nach Spearman erfolgt gleich wie bei der Korrelation nach Pearson. Die Teststatistik wird also auch mit Gleichung (8.1) berechnet und ist ebenfalls \(t\)-verteilt bei \(n-2\) Freiheitsgraden, wobei \(n\) für die Anzahl Beobachtungspaare steht.

In Jamovi wird die Korrelation nach Spearman unter Analysen > Regression > Korrelationsmatrix und Korrelationskoeffizienten: Spearman geschätzt und mit der Zusatzoption Zusätzliche Optionen: Signifikanzniveau gegen Null abgesichert. Angenommen, es gäbe kein Vorwissen über die Richtung des Zusammenhangs zwischen den Merkmalen Facebook-Nutzungsintensität und Lebenszufriedenheit. In diesem Fall werden zweiseitige Tests berechnet und wie folgt berichtet:

Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Spearman ergibt, dass sich die Korrelation zwischen Facebook-Nutzungsintensität und Lebenszufriedenheit (\(r = -0.31\)) signifikant von \(0\) unterscheidet, \(t(71) = -2.76\), \(p = .007\).

8.3 Wie stark ist der Zusammenhang zwischen einem intervallskalierten und normalverteilten Merkmal und einem dichotomen Merkmal?

Ein mit dem BDI gemessener Wert für Depression kann kategorisiert werden in leichte Depression (\(1-19\)) Punkte und schwere Depression (\(20-63\)) Punkte. Es folgt also eine neues dichotomes Merkmal Depressionsdiagnose mit Ausprägungen leichte und schwere Depression. Hier kann ebenfalls die Frage gestellt werden, wie stark der Zusammenhang zwischen Depressionsdiagnose und dem intervallskalierten Wert für den Alkoholismus. Die punktbiseriale Korrelation ist dazu geeignet den Zusammenhang zwischen einer dichotomen und einem intervallskalierten normalverteilten Merkmal zu messen. gemessen. Sie wird berechnet mit

\[ r = \frac{\bar{x}_1- \bar{x}_2}{(n_1+n_2)\cdot s}\sqrt{n_1\cdot n_2},\] wobei \(s\) die Standardabweichung des intervallskalierten Merkmals bezeichnet.

Die Berechnung der punktbiserialen Korrelation ist in Jamovi nicht implementiert. Die Kenngrössen für die Berechnung können jedoch aus der Erforschung > Deskriptivstatistik von Jamovi abgelesen werden. Dabei ist zu beachten, dass für \(\bar{x}_1, n_1, \bar{x}_2, n_2\) die Option Aufgeteilt nach mit dem dichotomen Merkmal befüllt sein muss. Für die Berechnung von \(s\) muss dieses Feld jedoch leer sein. Im Beispiel ist die punktbiseriale Korrelation

\[ r = \frac{\bar{x}_1- \bar{x}_2}{(n_1+n_2)\cdot s}\sqrt{n_1\cdot n_2} = \frac{15.88- 14.59}{(122+253)\cdot 1.97}\sqrt{122\cdot 253} = 0.31.\]

Da ein dichotomes Merkmal wie die Depressionsdiagnostik nur zwei Ausprägungen hat, funktioniert die übliche Interpretation dieses gleichläufigen Zusammenhangs mit “je mehr schwere Depression, desto höher der Alkoholismus-Wert” nicht mehr. Stattdessen kann die leicht angepasste Interpretation “je eher eine Person eine schwere Depression hat, desto höher der Alkoholismus-Wert” oder “je höher der Alkoholismus-Wert, desto eher hat eine Person eine schwere Depression” verwendet werden.

Eine genaue Betrachtung dieser Formel lässt eine Ähnlichkeit zur Effektstärke des Zweistichproben-\(t\)-Tests und Welch Tests erkennen. Tatsächlich kommt die punktbiseriale Korrelation in den gleichen Fällen zur Anwendung wie besagte Tests und ist äquivalent zu deren Effektstärken.

Die punktbiseriale Korrelation wird ähnlich wie die Korrelation nach Pearson abgesichert. Die Teststatistik ist

\[\begin{equation} t = r\cdot \sqrt{\frac{n_1 + n_2 -2}{1-r^2}}. \end{equation}\]

Sie folgt einer t-Verteilung bei \(n_1 + n_2 -2\) Freiheitsgraden. Dieser Wert kann mit der entsprechenden \(t\)-Verteilung in Abbildung 4.7 verglichen werden. Da die Absicherung nicht in Jamovi implementiert ist, wird die Absicherung gegen null der punktbiserialen Korrelation an der Prüfung nicht erwartet. Um die Zufälligkeit des gefundenen Zusammenhangs zu beurteilen, kann behelfsmässig auf das Resultat des Zweistichproben-\(t\)-Tests resp. Welch Test abgestellt werden.

8.4 Wie stark ist der Zusammenhang zwischen einem mindestens ordinalskalierten Merkmal und einem dichotomen Merkmal?

Genau wie die vorherige Situation äquivalent zum Zweistichproben-\(t\)-Test und Welch Test war, ist die Situation mit einem mindestens ordinalskaliertem Merkmal und einem dichotomen Merkmal äquivalent zur Effektstärke des U-Tests nach Mann und Whitney. Für die Effektstärke des \(U\)-Test wurde tatsächlich bereits die biseriale Rangkorrelation definiert und in Abschnitt 7.2 hinlänglich beschrieben. Für das Beispiel 8.2 mit Depressionsdiagnose kann die biseriale Rangkorrelation herausgefunden werden, indem ein \(U\)-Test und dessen Effektstärke berechnet wird, was \(r = 0.357\) ergibt.

Da auch die Absicherung gegen Null der biserialen Rangkorrelation nicht in Jamovi implementiert ist, wird dies an der Prüfung nicht erwartet. Um die Zufälligkeit des gefundenen Zusammenhangs zu beurteilen, kann behelfsmässig auf das Resultat des \(U\)-Tests abgestellt werden.

8.5 Was ist eine Störfaktor und wie wird damit umgegangen?

Im Beispiel 8.2 wurde festgestellt, dass es einen Zusammenhang schwachen Zusammenhang zwischen Alkoholismus und Angststörung gibt. Je stärker der Alkoholismus ausgeprägt ist, desto höher ist auch der Wert für die Angststörung. Dies ist im oberen Teil der Abbildung 8.4 abstrahiert dargestellt.

Es wurde jedoch auch festgestellt, dass die Merkmale Angst und Alkoholismus jeweils mit dem Merkmal Depression korrelieren. Es könnte also sein, dass der Zusammenhang zwischen Alkoholismus und Angststörung lediglich darauf beruht, dass Menschen mit schwerer Depression zu höherem Alkoholismus und ebenfalls zu mehr Angststörungen neigen. Die Angststörung und der Alkoholismus könnten schwächer korreliert oder gar unabhängig voneinander sein. Wenn ein drittes Merkmal den Zusammenhang zweier Merkmale auf irgendeine Weise verfälsch, wird dieses Merkmal Störfaktor oder Störvariable genannt.

Um den Einfluss einer Störvariable \(X_3\) auf den Zusammenhang zweier Merkmale \(X_1\) und \(X_2\) zu beurteilen, kann die partielle Korrelation \[r_{12.3} = \frac{r_{12}- r_{23}\cdot r_{13}}{\sqrt{(1-r_{23}^2)\cdot(1-r_{13}^2)}}\] berechnet werden. Die \(r\) stehen dabei für die Korrelation nach Pearson zwischen den zwei indexierten Merkmalen.

Hinweis. Exploration der Formel der partiellen Korrelation:

  1. Das dritte Merkmal korreliert nicht mit den ersten beiden \(r_{23} = r_{13} = 0\). In diesem Fall ist \(r_{12.3} = r_{12}\).
  2. Das dritte Merkmal korreliert sehr schwach mit den ersten beiden \(r_{23} = r_{13} = 0.01\). In diesem Fall ist \(r_{12.3} \approx r_{12}\).

Die partielle Korrelation kann in Jamovi unter Analysen > Regression > Partielle Korrelation berechnet werden und beträgt \(r = -0.05\). Unter Berücksichtigung der Störvariable Depression, ist der Zusammenhang zwischen Alkoholismus und Angststörung also nicht nur kleiner geworden, sondern hat sich sogar in einen gegenläufigen Zusammenhang gewandelt. Dies ist abstrahiert im unteren Teil der Abbildung 8.4 dargestellt. Wird die partielle Korrelation unter Berücksichtigung einer Störvariable angegeben, spricht man auch von es wurde für die Störvariable kontrolliert.

Abbildung 8.4: Zusammenhang zwischen Angst und Alkoholismus ohne (oben) und mit (unten) Berücksichtigung der Störvariable.

Abbildung 8.4: Zusammenhang zwischen Angst und Alkoholismus ohne (oben) und mit (unten) Berücksichtigung der Störvariable.

Die Absicherung gegen Null der partiellen Korrelation erfolgt ähnlich wie bei der Korrelation nach Pearson. Die Teststatistik wird mit

\[\begin{equation} t = r\cdot \sqrt{\frac{n-3}{1-r^2}}. \tag{8.2} \end{equation}\]

berechnet und ist \(t\)-verteilt bei \(n-3\) Freiheitsgraden, wobei \(n\) für die Anzahl Beobachtungstripel steht. Die Teststatistik wird von Jamovi nicht berechnet und muss händisch eruiert werden.

Die zweiseitige Absicherung gegen Null der partiellen Korrelation ergibt, dass sich die Korrelation zwischen Alkoholismus und Angststörung unter Berücksichtigung der Depression als Störfaktor (\(r = -0.05\)) nicht signifikant von \(0\) unterscheidet, \(t(372) = -1\), \(p = .316\). Die Korrelation ist als schwach einzustufen.

In diesem Beispiel wurde die Angst arbiträr als Störfaktor gehandelt. Die selben Überlegungen und Berechnungen wären aber auch zum Beispiel für den Alkoholismus als Störfaktor für den Zusammenhang zwischen Angst und Depression zulässig. Die Identifikation von Störvariablen muss also theoriegeleitet erfolgen.

8.6 Übungen

Übung 8.1

Sichern Sie die Korrelation nach Pearson zwischen Angststörung und Depression in Beispiel 8.2 mit dem Datensatz 08-exm-depression-alkohol-angst.sav zweiseitig gegen Null ab, berichten Sie das Ergebnis und interpretieren Sie die Stärke des Zusammenhangs.

Klicke hier, um deine Lösung zu überprüfen.

Lösung.

Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Depression und Angststörung (\(r = 0.46\)) sich signifikant von \(0\) unterscheidet, \(t(373) = 9.98\), \(p < 0.001\). Die Korrelation deutet auf einen starken Zusammenhang der Art je mehr Depression desto grösser die Angststörung hin.

Übung 8.2

Testen Sie mit dem Datensatz 08-exm-zahlungsbereitschaft.sav aus Beispiel 8.1, ob die Korrelation nach Pearson zwischen der Zahlungsbereitschaft Preis und Alter positiv und ob die Korrelation zwischen der Zahlungsbereitschaft und der Anzahl Spiele im Haushalt negativ ist. Berichten Sie das Ergebnis und interpretieren Sie die Stärke des Zusammenhangs.

Klicke hier, um deine Lösung zu überprüfen.

Lösung.

Die einseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass die Korrelation zwischen Kaufbereitschaft und Alter (\(r = 0\)) nicht signifikant grösser ist als \(0\), \(t(373) = -0.04\), \(p = .515\). Der Zusammenhang ist so schwach, dass keine Richtung des Zusammenhangs aus dem Korrelationskoeffizenten abgelesen werden kann.

Die einseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass die Korrelation zwischen Kaufbereitschaft und Anzahl Spiele (\(r = -0.77\)) signifikant kleiner ist als \(0\),\(t(373) = -23.33\), \(p < 0.001\). Der Zusammenhang der Art je höher die Kaufbereitschaft, desto tiefer die Anzahl Spiele im Haushalt, ist stark.

Übung 8.3

Im Rahmen einer Studie wurde die Big-5-Persönlichkeitszüge von \(500\) psychologie Studierenden abgefragt (Dolan et al. 2009). Der Datensatz ist unter Jamovi > Öffnen > Datenbibliothek > Big 5 (Dolan, Oort, Stoel & Wicherts, 2009) verfügbar. Die Merkmale Neuroticism, Extraversion, Openness, Agreeableness und Conscientiousness stehen für Neurotizismus, Extraversion, Offenheit, Verträglichkeit und Gewissenhaftikeit respektive.

  1. Berechnen Sie paarweise die Korrelation nach Pearson zwischen allen fünf Merkmalen. Erklären und interpretieren Sie die stärkste negative, die stärkste positive Korrelation und die schwächste Korrelation.
  2. Zeichnen Sie die Korrelationsmatrix als Diagramm, inklusive Variablendichte und Statistiken und erklären Sie, was für Diagrammtypen Sie sehen.
  3. Testen Sie, ob die Korrelationen von Null abweichen und berichten Sie das Ergebnis für die stärkste negative, die stärkste positive Korrelation und die schwächste Korrelation.
Klicke hier, um deine Lösung zu überprüfen.

Lösung. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 8.5.

Jamovi Eingabe.

Abbildung 8.5: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildungen 8.6 und 8.7.

Jamovi Ausgabe.

Abbildung 8.6: Jamovi Ausgabe.

Jamovi Ausgabe.

Abbildung 8.7: Jamovi Ausgabe.

Damit können die Teilfragen beantwortet werden.

  1. Die Korrelationen können direkt aus Abbildung 8.6 entnommen werden. Die stärkste positive Korrelation beschreibt den Zusammenhang zwischen Extraversion und Openness (\(r = 0.267\)). Diese Korrelation ist als mittel einzustufen und bedeutet je extravertierter eine Person ist desto höhere Werte hat sie tendenziell auch bei der Offenheit. Die stärkste negative Korrelation beschreibt den Zusammenhang zwischen Neuroticism und Conscientiousness (\(r = -0.368\)). Dies ist ebenfalls eine mittlere Korrelation. Sie bedeutet je neurotischer jemand ist, desto tiefere Werte für Conscientiousness hat die Person. Die schwächste Korrelation beschreibt den Zusammenhang zwischen Neuroticism und Openness (\(r = -0.010\)). Es handelt sich um einen schwachen Zusammenhang. Da die Korrelation quasi Null ist, bedeutet dies, dass Neuroticism und Openness unabhängig voneinander sind. Das Vorzeichen der Korrelation deutet darauf hin, dass je höhere Neuroticism-Werte jemand hat, desto tiefere Openness-Werte hat die Person tendenziell.
  2. Die Korrelationsmatrix als Diagramm in Abbildung 8.7 hat folgende Bestandteile: Auf der Diagonalen befinden sich die geschätzten Verteilungen der Merkmale. Je höher die Linie bei einem gewissen Wert, desto wahrscheinlicher ist eine Beobachtung an diesem Punkt. Im oberen Dreieck sind die paarweise Korrelationen abgetragen. Die Sterne stehen für den \(p\)-Wert der Absicherung gegen Null, wobei ein Stern einer Korrelation entspricht, welche bei Signifikanzniveau \(5\%\) signifikant anders ist als Null. Im unteren Dreieck sind paarweise Streudiagramme aufgeführt und eine sogenannte Regressionsgerade, welche die Punkte am besten linear abbildet. Hier können Korrelationen grafisch erkannt werde und Anomalien wie zum Beispiel Aussreisser oder nicht lineare Zusammenhänge erkannt werden.
  3. Die entsprechenden Zusammenhänge wurden bereits in a) identifiziert. > Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Openness und Extraversion (\(r = 0.267\)) signifikant von \(0\) unterscheidet, \(t(498) = 6.18\), \(p < 0.001\). > Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Neuroticism und Conscientiousness (\(r = -0.368\)) signifikant von \(0\) unterscheidet, \(t(498) = -8.83\), \(p < 0.001\). > Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Neuroticism und Openness (\(r = -0.010\)) nicht signifikant von \(0\) unterscheidet, \(t(498) = -0.22\), \(p = .817\).

Übung 8.4

Mit einer Studie soll der Zusammenhang zwischen Haarausfall und erfülltem Sexualleben bei männlichen Patienten eruiert werden (Tas et al. 2018). Die Schwere des Haarausfalls wird mit der Hamilton-Norwood-Schema HNS ganzzahlig von \(1\) bis \(7\) gemessen, wobei jede höhere Zahl für ein neues zunehmendes Haarausfallstadium steht(Hamilton 1951). Die Dysfunktionalität des Sexuallebens wird mit der Arizona Sexual Experience Scale ASES von \(5\) bis \(30\) Punkten gemessen, wobei höhere Zahlen auf eine sexuelle Dysfunktion hindeuten (McGahuey et al. 2016). Bei diesem Instrument führen mehrere Likert-skalierte Items zum Endpunkteergebnis. Es wurden Daten erhoben, welche unter 08-exr-haarausfall-sex.sav verfügbar sind.

  1. Welcher Korrelationskoeffizient ist hier am ehesten angebracht?
  2. Berechnen Sie die Korrelation nach Spearman, sichern Sie diese zweiseitig gegen Null ab und interpretieren Sie die Stärke des Zusammenhangs.
  3. Angenommen alle Merkmale wären intervallskaliert und normalverteilt. Berechnen Sie die partielle Korrelation zwischen Haarausfall und der Dysfunktionalität des Sexlebens unter Berücksichtigung des Störfaktor Alter, sichern sie diese gegen Null ab und interpretieren Sie die Stärke des Zusammenhangs vor und nach dem Herausrechnen des Störfaktors.
Klicke hier, um deine Lösung zu überprüfen.

Lösung.

  1. Die Messung mit der ASES ist intervallskaliert. Die Messung des Haarausfalls dagegen kann sowohl als ordinalskaliert oder intervallskaliert betrachtet werden. Einerseits entsprechen die Zahlen auf der HNS verschiedenen abgegrenzten und klassifizierten Stadien der Progression des Haarausfalls. Dies deutet auf eine ordinalskaliertes Merkmal hin. Andererseits braucht es hier keine grosse Vorstellungskraft, sich eine \(3.23\) vorzustellen. Das wäre wie Stadium \(3\) mit ein wenig zusätzlichem Haarausfall. Aufgrund dieser Überlegung wäre hier sowohl der Korrelationskoeffizient nach Pearson wie der nach Spearman angebracht. Für letzteren müsste noch die Normalverteilung überprüft werden, was hier nicht gemacht wird.
  2. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 8.8.
Jamovi Eingabe.

Abbildung 8.8: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 8.9

Jamovi Ausgabe.

Abbildung 8.9: Jamovi Ausgabe.

Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Spearman ergibt, dass sich die Korrelation zwischen Haarausfall und Dysfunktion der Sexualität (\(r = 0.24\)) signifikant von \(0\) unterscheidet, \(t(373) = 4.7\), \(p < 0.001\). Die Korrelation ist als mittel einzustufen.

  1. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 8.10.
Jamovi Eingabe.

Abbildung 8.10: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 8.11

Jamovi Ausgabe.

Abbildung 8.11: Jamovi Ausgabe.

Die zweiseitige Absicherung gegen Null der partiellen Korrelation ergibt, dass sich die Korrelation zwischen Haarausfall und Dysfunktion der Sexualität unter Berücksichtigung des Alters als Störfaktor (\(r = 0.02\)) nicht signifikant von \(0\) unterscheidet, \(t(372) = 0.35\), \(p = .728\). Die Korrelation ist als schwach einzustufen.

Übung 8.5

Berechnen Sie (a) Punktbiseriale Korrelation und (b) die biserielle Rangkorrelation für die Übung 6.5, wo das Burnout-Risiko von verheirateten und unverheirateten Ärztinnen analysiert wird und interpretieren Sie die Werte.

Klicke hier, um deine Lösung zu überprüfen.

Lösung.

  1. Zuerst wird der Datensatz mit Jamovi eingelesen und die Analyseparameter werden gesetzt, siehe Abbildung 8.12.
Jamovi Eingabe.Jamovi Eingabe.

Abbildung 8.12: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 8.13

Jamovi Ausgabe.Jamovi Ausgabe.

Abbildung 8.13: Jamovi Ausgabe.

Daraus ergibt sich \[ r = \frac{10.99- 10.15}{(51+61)\cdot 2.01}\sqrt{51\cdot 61} = 0.21.\] Hier wurden die Zwischenresultate mit zwei Nachkommastellen aus Jamovi gezogen. Je eher eine Ärztin unverheiratet ist, desto höher ist der Burnout-Wert. Der Zusammenhang ist als mittel einzustufen.

  1. Die Analyseparameter in Jamovi werden nun geändert, siehe Abbildung 8.14.
Jamovi Eingabe.

Abbildung 8.14: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 8.15

Jamovi Ausgabe.

Abbildung 8.15: Jamovi Ausgabe.

Die biseriale Rangkorrelation ist also \(r = -0.212\). Je eher eine Ärztin verheiratet ist, desto tiefer ist der Burnout-Wert. Der Zusammenhang ist als mittel einzustufen. Achtung das Vorzeichen der biserialen Rangkorrelation hängt einzig davon ab, welche Gruppe (verheiratet/unverheiratet) als erste Gruppe in Jamovi hinterlegt ist. In diesem Datensatz ist dies, sofern nichts geändert wird die unverheiratete Gruppe.

Übung 8.6

Es ist bekannt, dass Prüfungsangst zu schlechterern Prüfungsergebnissen führt. In einer Studie soll herausgefunden werden, wie dieser Zusammenhang durch die Vorbereitung beeinflusst wird (Yusefzadeh, Amirzadeh Iranagh, and Nabilou 2019). Dafür wurde die Prüfungsangst mit dem test anxiety inventory TAI (von \(0-75\)), das Prüfungsergebnis (von \(0-100\) Punkte) und die Vorbereitung (von \(0-10\)) gemessen. Letztere beruhte darauf, wie viele Prüfungsvorbereitungsgelegenheiten wahrgenommen wurde.

  1. Berechnen Sie die Korrelation zwischen Prüfungsangst und Prüfungsergebnis und sichern Sie diese zweiseitig gegen Null ab. Berichten Sie das Ergebnis.
  2. Berechnen Sie die partielle Korrelation indem Sie für die Vorbereitung kontrollieren und sichern Sie diese zweiseitig gegen Null ab. Berichten Sie das Ergebnis.
Klicke hier, um deine Lösung zu überprüfen.

Lösung. Die Analyseparameter in Jamovi werden nun geändert, siehe Abbildung 8.16.

Jamovi Eingabe.Jamovi Eingabe.

Abbildung 8.16: Jamovi Eingabe.

Dies produziert das Analyseergebnis in Abbildung 8.17

Jamovi Ausgabe.Jamovi Ausgabe.

Abbildung 8.17: Jamovi Ausgabe.

  1. Die zweiseitige Absicherung gegen Null des Korrelationskoeffizienten nach Pearson ergibt, dass sich die Korrelation zwischen Prüfungsangst und Prüfungsresultat (\(r = -0.17\)) signifikant von \(0\) unterscheidet, \(t(168) = -2.22\), \(p = .028\). Die Korrelation deutet auf einen schwachen Zusammenhang der Art je mehr Prüfungsangst desto schlechter das Prüfungsresultat.

  2. Die zweiseitige Absicherung gegen Null der partiellen Korrelation ergibt, dass sich die Korrelation zwischen Prüfungsangst und Prüfungsresultat unter Berücksichtigung der Vorbereitung als Störfaktor (\(r = -0.1\)) nicht signifikant von \(0\) unterscheidet, \(t(167) = -1.32\), \(p = .189\). Die partielle Korrelation deutet auf einen schwachen Zusammenhang der Art je mehr Prüfungsangst desto schlechter das Prüfungsresultat.

8.7 Test

Übung 8.7 Welche der folgenden Aussagen zum Zusammenhang zwischen zwei Merkmalen sind wahr, welche falsch?

  1. Eine Korrelation von \(r = -0.23\) deutet auf einen mittleren Zusammenhang der Art je mehr desto weniger hin.
  2. Ein Grund für eine Korrelation von \(r=0\) kann sein, dass der Zusammenhang nicht linear ist.
  3. Je weiter die Korrelation von \(0\) weg ist, desto eher ist der Zusammenhang von der Stichprobe auf die Grundgesamtheit übertragbar, gegeben dass die Stichprobengrösse gleich bleibt.
  4. Eine Korrelation von \(r = 0.2\) bedeutet, dass das erste Merkmal ursächlich für den Zusammenhang ist.
Klicke hier, um deine Lösung zu überprüfen.

Lösung.

  1. Richtig
  2. Richtig
  3. Richtig
  4. Falsch

Übung 8.8 Welche der folgenden Aussagen zum Zusammenhang zwischen zwei Merkmalen sind wahr, welche falsch?

  1. Um den Zusammenhang zwischen Gästezufriedenheit (Likert \(1\) bis \(5\)) und der Zimmerart (basic oder superior) zu ermitteln, kann die Korrelation nach Spearman verwendet werden.
  2. Um den Zusammenhang zwischen Anzahl Konflikten um Wasserrechte (intervallskaliert, nicht normalverteilt) und dem Wohlstand der beiden Gemeinden (intervallskaliert, normalverteilt) zu ermitteln, kann die Korrelation nach Pearson verwendet werden.
  3. Um den Zusammenhang zwischen Alphabetisierungsrate (intervallskaliert, normalverteilt) und Bruttoinslansprodukt (intervallskaliert, normalverteilt) von Ländern zu ermitteln, kann die Korrelation nach Pearson verwendet werden.
  4. Die partielle Korrelation ist immer weniger oder gleich stark, als die direkt gemessene Korrelation.
Klicke hier, um deine Lösung zu überprüfen.

Lösung.

  1. Falsch
  2. Falsch
  3. Richtig
  4. Falsch

Übung 8.9

Im folgenden wird eine Korrelation zwischen der Wartezeit am Flughafen und der Gästezufriedenheit berechnet. Dabei wird festgestellt, dass beide Merkmale intervallskaliert aber nicht normalverteilt sind. Jamovi liefert die Ausgabe in Abbildung 8.18.

Jamovi Eingabe.

Abbildung 8.18: Jamovi Eingabe.

Welche der folgenden Aussagen sind wahr welche falsch?

  1. Es ist richtig die Korrelation hier mit dem Korrelationskoeffiizienten nach Pearson zu berechnen.
  2. Die Korrelation sagt aus, dass die Gäste mit höherer Zufriedenheit weniger lange warten.
  3. Der Zusammenhang ist schwach.
  4. Es wurden \(120\) Personen befragt.
  5. Die Nullhypothese, dass die Korrelation in der Population bei \(-0.302\) liegt, kann aufgrund des vorliegenden Testreultats abgelehnt werden.
  6. Die Korrelation unterscheidet sich signifikant von \(0\).
Klicke hier, um deine Lösung zu überprüfen.

Lösung.

  1. Falsch
  2. Richtig
  3. Falsch
  4. Falsch
  5. Falsch
  6. Richtig

Literaturverzeichnis

Beck, Aaron T., Robert A. Steer, and Margery G. Carbin. 1988. “Psychometric Properties of the Beck Depression Inventory: Twenty-Five Years of Evaluation.” Clinical Psychology Review 8 (1): 77–100. https://doi.org/10.1016/0272-7358(88)90050-5.
Błachnio, Agata, Aneta Przepiorka, and Igor Pantic. 2016. “Association Between Facebook Addiction, Self-Esteem and Life Satisfaction: A Cross-Sectional Study.” Computers in Human Behavior 55: 701–5. https://doi.org/10.1016/j.chb.2015.10.026.
Dolan, C. V., F. J. Oort, R. D. Stoel, and J. M. Wicherts. 2009. “Testing Measurement Invariance in the Target Rotated Multi-Group Exploratory Factor Model.” Structural Equation Modeling 16 (2): 295–314. https://doi.org/10.1080/10705510902751416.
Hamilton, James B. 1951. “Patterned Loss of Hair in Man: Types and Incidence.” Annals of the New York Academy of Sciences 53 (3): 708–28. https://doi.org/10.1111/j.1749-6632.1951.tb31971.x.
McGahuey, Cynthia A., Alan J. Gelenberg, Cindi A. Laukes, Francisco A. Moreno, Pedro L. Delgado, Kathy M. McKnight, and Rachel Manber. 2016. “Arizona Sexual Experience Scale.” https://doi.org/10.1037/t30328-000.
Schuckit, Marc A. 1996. “Alcohol, Anxiety, and Depressive Disorders.” Alcohol Health and Research World 20 (2): 81–85. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6876499/.
Skinner, Harvey A., and Barbara A. Allen. 1982. “Alcohol Dependence Syndrome: Measurement and Validation.” Journal of Abnormal Psychology 91 (3): 199–209. https://doi.org/10.1037/0021-843X.91.3.199.
Spielberger, Charles D., Richard L. Gorsuch, Robert Lushene, Peter R. Vagg, and Gerard A. Jacobs. 1983. Manual for the State-Trait Anxiety Inventory. Palo Alto, CA: Consulting Psychologists Press.
Tas, Betul, Filiz Kulacaoglu, Hasan Belli, and Murat Altuntas. 2018. “The Tendency Towards the Development of Psychosexual Disorders in Androgenetic Alopecia According to the Different Stages of Hair Loss: A Cross-Sectional Study.” Anais Brasileiros de Dermatologia 93 (2): 185–90. https://doi.org/10.1590/abd1806-4841.20185658.
Yusefzadeh, Hasan, Jamileh Amirzadeh Iranagh, and Bahram Nabilou. 2019. “The Effect of Study Preparation on Test Anxiety and Performance: A Quasi-Experimental Study.” Advances in Medical Education and Practice 10: 245–51. https://doi.org/10.2147/AMEP.S192053.