Regressionsanalyse in SPSS: Anleitung mit konkretem Beispiel

Die Regressionsanalyse gehört zu den Verfahren, die in empirischen Abschlussarbeiten am häufigsten verlangt werden – und am häufigsten falsch durchgeführt werden. Nicht, weil das Verfahren so kompliziert wäre, sondern weil die meisten Anleitungen bei „Analysieren → Regression → Linear → OK” aufhören. Was danach kommt – Voraussetzungen prüfen, Ergebnisse interpretieren, Modell sinnvoll berichten – fehlt oft komplett.

Dieser Beitrag führt Sie anhand eines konkreten Beispiels durch den gesamten Prozess: von der Fragestellung bis zur fertigen Ergebnisdarstellung.

Das Beispiel: Studienerfolg vorhersagen

Stellen Sie sich vor, Sie untersuchen in Ihrer Bachelorarbeit, welche Faktoren den Studienerfolg (gemessen als Notendurchschnitt) beeinflussen. Ihre unabhängigen Variablen sind: wöchentliche Lernzeit in Stunden, Anzahl besuchter Tutorien pro Semester und Stresslevel (gemessen über einen Fragebogen, Skala 1–10). Sie haben Daten von 180 Studierenden erhoben.

Die Forschungsfrage lautet: Sagen Lernzeit, Tutorienbesuche und Stresslevel den Notendurchschnitt signifikant vorher? Die Regressionsanalyse ist hier das passende Verfahren, weil Sie eine metrische abhängige Variable (Notendurchschnitt) durch mehrere Prädiktoren erklären möchten.

Schritt 1: Voraussetzungen prüfen – bevor Sie die Regression rechnen

Die lineare Regression hat fünf zentrale Voraussetzungen. Wenn Sie diese nicht prüfen, sind Ihre Ergebnisse möglicherweise nicht interpretierbar. SPSS prüft keine einzige davon automatisch – Sie müssen es selbst tun.

Linearität: Der Zusammenhang zwischen jedem Prädiktor und der abhängigen Variable muss linear sein. Erstellen Sie Streudiagramme (Diagramme → Diagrammerstellung → Einfaches Streudiagramm) für jede Kombination aus Prädiktor und abhängiger Variable. Wenn der Zusammenhang kurvenförmig verläuft, ist eine lineare Regression nicht angemessen.

In unserem Beispiel: Tragen Sie auf der x-Achse „Lernzeit” und auf der y-Achse „Notendurchschnitt” ab. Wenn die Punktwolke einen linearen Trend zeigt – gut. Wenn sie U-förmig aussieht, müssen Sie den Prädiktor transformieren oder ein anderes Verfahren wählen.

Normalverteilung der Residuen: Nicht die Variablen selbst müssen normalverteilt sein, sondern die Residuen (die Abweichungen zwischen vorhergesagten und tatsächlichen Werten). Nach der Regression erstellen Sie ein Histogramm der standardisierten Residuen und ein P-P-Diagramm. Beide Optionen finden Sie unter Diagramme im Regressionsdialog. Die Punkte im P-P-Diagramm sollten annähernd auf der Diagonale liegen.

Homoskedastizität: Die Streuung der Residuen sollte über alle Werte der Prädiktoren hinweg gleich bleiben. Erstellen Sie ein Streudiagramm mit den standardisierten vorhergesagten Werten auf der x-Achse und den standardisierten Residuen auf der y-Achse. Wenn die Punktwolke ein gleichmäßiges Band bildet, ist Homoskedastizität gegeben. Bildet sie einen Trichter (Streuung nimmt zu oder ab), liegt Heteroskedastizität vor.

Keine Multikollinearität: Die Prädiktoren dürfen nicht zu stark miteinander korrelieren. Wenn Lernzeit und Tutorienbesuche fast perfekt zusammenhängen (r > .80), kann das Modell die einzelnen Effekte nicht sauber trennen. Prüfen Sie das über Kollinearitätsstatistiken: Aktivieren Sie im Regressionsdialog unter „Statistiken” die Option „Kollinearitätsdiagnose”. Betrachten Sie den VIF-Wert (Variance Inflation Factor) für jeden Prädiktor. Ein VIF über 5 deutet auf problematische Multikollinearität hin, über 10 ist sie eindeutig gegeben.

Unabhängigkeit der Residuen: Bei Querschnittsdaten (eine Messung pro Person) ist diese Voraussetzung in der Regel erfüllt. Bei Längsschnittdaten oder geschachtelten Daten (z.B. Schüler in Klassen) prüfen Sie den Durbin-Watson-Test, den Sie im Regressionsdialog unter „Statistiken” aktivieren können. Werte nahe 2 sprechen für Unabhängigkeit, Werte unter 1 oder über 3 für Autokorrelation.

Schritt 2: Die Regression in SPSS durchführen

Gehen Sie auf Analysieren → Regression → Linear. Im Dialogfeld ziehen Sie Ihre abhängige Variable (Notendurchschnitt) in das Feld „Abhängige Variable” und Ihre Prädiktoren (Lernzeit, Tutorien, Stresslevel) in das Feld „Unabhängige Variablen”.

Methode wählen: Die Standardmethode „Einschluss” nimmt alle Prädiktoren gleichzeitig ins Modell auf. Das ist der empfohlene Ansatz, wenn Sie theoretisch begründete Hypothesen testen. Verwenden Sie nicht „Schrittweise” – diese Methode wählt Prädiktoren rein statistisch aus und liefert in kleinen Stichproben instabile Ergebnisse. Außerdem lässt sich eine schrittweise Regression kaum theoretisch begründen, was Betreuer regelmäßig kritisieren.

Wichtige Optionen aktivieren:

Unter „Statistiken”: Modellzusammenfassung, R²-Änderung, Schätzungen, Kollinearitätsdiagnose und Durbin-Watson aktivieren.

Unter „Diagramme”: ZRESID (standardisierte Residuen) auf die y-Achse, ZPRED (standardisierte vorhergesagte Werte) auf die x-Achse. Histogramm und Normalverteilungsdiagramm aktivieren.

Unter „Speichern”: Standardisierte Residuen und Cook-Distanz speichern (für die spätere Ausreißeranalyse).

Schritt 3: Den Output lesen und verstehen

Der SPSS-Output einer Regression besteht aus mehreren Tabellen. Jede hat eine spezifische Funktion.

Modellzusammenfassung: Hier steht der R²-Wert. Er gibt an, wie viel Prozent der Varianz in der abhängigen Variable durch Ihre Prädiktoren erklärt werden. In unserem Beispiel könnte R² = .38 stehen. Das bedeutet: Lernzeit, Tutorien und Stresslevel erklären gemeinsam 38 % der Unterschiede im Notendurchschnitt. Das korrigierte R² ist etwas niedriger und berücksichtigt die Anzahl der Prädiktoren – verwenden Sie diesen Wert für Ihr Reporting.

ANOVA-Tabelle: Diese Tabelle prüft, ob das Gesamtmodell signifikant ist. Der F-Test testet die Nullhypothese, dass alle Regressionskoeffizienten gleichzeitig null sind. Wenn p < .05, ist Ihr Modell als Ganzes signifikant – mindestens ein Prädiktor leistet einen Beitrag.

Koeffiziententabelle: Hier wird es konkret. Für jeden Prädiktor sehen Sie:

B (unstandardisierter Koeffizient): Zeigt die absolute Veränderung der abhängigen Variable, wenn der Prädiktor um eine Einheit steigt. In unserem Beispiel könnte B für Lernzeit = -.05 sein. Das bedeutet: Pro zusätzliche Stunde Lernzeit pro Woche verbessert sich der Notendurchschnitt um 0,05 Punkte (niedrigere Note = besser im deutschen System).

Beta (β, standardisierter Koeffizient): Erlaubt den Vergleich der relativen Stärke der Prädiktoren, weil alle auf die gleiche Skala standardisiert sind. Der Prädiktor mit dem betragsmäßig höchsten Beta hat den stärksten Einfluss.

t-Wert und p-Wert: Prüfen, ob der einzelne Prädiktor einen signifikanten Beitrag zum Modell leistet. Ein p < .05 bedeutet: Der Einfluss dieses Prädiktors ist statistisch signifikant.

Schritt 4: Ausreißer und einflussreiche Fälle identifizieren

Ein einzelner extremer Fall kann das gesamte Regressionsmodell verzerren. Deshalb prüfen Sie nach der Regression, ob es Ausreißer oder einflussreiche Fälle gibt.

Standardisierte Residuen: Fälle mit standardisierten Residuen über |3| gelten als Ausreißer. Wenn Sie in Schritt 2 die standardisierten Residuen gespeichert haben, können Sie über Analysieren → Deskriptive Statistiken → Deskriptive das Minimum und Maximum prüfen.

Cook-Distanz: Misst den Einfluss jedes einzelnen Falls auf das Modell. Werte über 1 (manche Quellen sagen über 4/n) deuten auf einflussreiche Fälle hin. Prüfen Sie auch diese über deskriptive Statistiken.

Was tun mit Ausreißern? Zunächst prüfen, ob es sich um einen Datenfehler handelt (Tippfehler, falsche Kodierung). Wenn ja: korrigieren. Wenn es ein echter, aber extremer Wert ist: Die Regression einmal mit und einmal ohne diesen Fall rechnen. Wenn sich die Ergebnisse substantiell ändern, berichten Sie beide Varianten und diskutieren den Einfluss.

Schritt 5: Ergebnisse korrekt berichten

Die Ergebnisdarstellung einer Regression folgt einem festen Muster. Hier ein Beispiel, wie Sie die Ergebnisse in Ihrer Arbeit formulieren könnten:

„Es wurde eine multiple lineare Regression durchgeführt, um den Einfluss von wöchentlicher Lernzeit, Anzahl besuchter Tutorien und Stresslevel auf den Notendurchschnitt zu untersuchen. Das Gesamtmodell war signifikant, F(3, 176) = 35.82, p < .001, und erklärte 38 % der Varianz im Notendurchschnitt (korrigiertes R² = .37). Lernzeit (β = -.31, p < .001) und Stresslevel (β = .28, p = .002) waren signifikante Prädiktoren. Die Anzahl besuchter Tutorien leistete keinen signifikanten Beitrag (β = .09, p = .21).”

Ergänzen Sie diese Textdarstellung durch eine Koeffiziententabelle mit allen relevanten Werten (B, SE, β, t, p, VIF) und berichten Sie die Ergebnisse der Voraussetzungsprüfung im Methodenteil.

Typische Fehler bei der Regressionsanalyse

Schrittweise Regression ohne Begründung. Die Methode „Schrittweise” wählt Prädiktoren rein nach statistischen Kriterien aus. In kleinen Stichproben liefert sie instabile Ergebnisse, die sich bei neuen Daten nicht replizieren lassen. Verwenden Sie „Einschluss” und begründen Sie Ihre Prädiktorenauswahl theoretisch.

Zu viele Prädiktoren für die Stichprobe. Als Faustregel gilt: Pro Prädiktor brauchen Sie mindestens 15 bis 20 Fälle. Bei 5 Prädiktoren also mindestens 75 bis 100 Fälle. Mit 30 Fällen und 8 Prädiktoren produziert SPSS zwar ein Ergebnis, aber es ist nicht belastbar.

R² als einziges Gütemaß berichten. R² allein sagt wenig. Ein R² von .90 kann durch einen einzigen Ausreißer zustande kommen. Berichten Sie immer auch das korrigierte R², die Signifikanz des Gesamtmodells (F-Test), die einzelnen Prädiktoren und die Ergebnisse der Voraussetzungsprüfung.

Kausalität interpretieren. Eine signifikante Regression bedeutet nicht, dass der Prädiktor die abhängige Variable verursacht. Sie zeigt nur, dass ein statistischer Zusammenhang besteht, der über andere Prädiktoren im Modell hinausgeht. Formulieren Sie entsprechend: „Lernzeit sagt den Notendurchschnitt vorher” – nicht „Lernzeit verbessert den Notendurchschnitt.”

Wann eine einfache Regression nicht reicht

Die lineare Regression setzt eine metrische abhängige Variable voraus. Wenn Ihre abhängige Variable dichotom ist (z.B. bestanden/nicht bestanden), benötigen Sie eine logistische Regression. Wenn Sie Kontrollvariablen und Prädiktoren in getrennten Blöcken eingeben möchten, verwenden Sie eine hierarchische Regression (in SPSS über „Nächster Block” im Regressionsdialog). Wenn Ihre Daten geschachtelt sind (Schüler in Klassen, Patienten in Kliniken), ist eine Mehrebenenanalyse angemessen – die aber in der SPSS-Standardversion nicht verfügbar ist.

Falls Sie unsicher sind, welches Regressionsverfahren zu Ihrer Fragestellung passt, oder Unterstützung bei der Durchführung und Interpretation brauchen, können Sie Ihre SPSS-Auswertung professionell durchführen lassen – von der Modellwahl bis zum fertig formulierten Ergebnisteil.