Nullhypothese und Alternativhypothese
Ein zentrales Konzept in der Statistik ist die Gegenüberstellung von Nullhypothese und Alternativhypothese. Wer Daten auswertet, führt selten einen offenen „Beweis“, sondern testet mit einem strukturierten Verfahren, ob ein beobachteter Effekt mit Zufall erklärbar ist oder auf einen echten Unterschied hindeutet. Dieses Fundament steckt hinter A/B-Tests im Marketing, Wirksamkeitsstudien in der Medizin und Qualitätsprüfungen in der Industrie.
Was sind Nullhypothese und Alternativhypothese?
Die Nullhypothese (H0) beschreibt den Status quo: Es gibt keinen Effekt, keinen Unterschied, keinen Zusammenhang. Die Alternativhypothese (H1 oder HA) behauptet das Gegenteil: Es existiert ein Effekt oder Unterschied. Beispiel: H0 „Die durchschnittliche Conversion-Rate von Variante A und B ist gleich“, H1 „Die Conversion-Rate unterscheidet sich“. Wichtig: In der Praxis „verwerfen“ wir H0 oder wir „behalten sie bei“ – wir „beweisen“ sie nicht.
Gerichtete vs. ungerichtete Hypothesen
Bei ungerichteten (zweiseitigen) Hypothesen fragt man, ob ein Unterschied vorliegt – egal in welche Richtung. Gerichtete (einseitige) Hypothesen spezifizieren die Richtung, etwa „B ist besser als A“. Einseitige Tests haben mehr Teststärke in der vorgegebenen Richtung, riskieren aber Fehlschlüsse, wenn der Effekt entgegengesetzt auftritt. Die Wahl muss vorab begründet und festgelegt werden.
Vom Hypothesentest zum p-Wert
Ein Hypothesentest definiert:
– eine Teststatistik (z. B. t-Wert, z-Wert, Chi-Quadrat),
– ein Signifikanzniveau α (häufig 0,05),
– und eine Entscheidungsregel.
Der p-Wert gibt an, wie wahrscheinlich ein mindestens so extremes Ergebnis unter Annahme von H0 wäre. Ist p ≤ α, verwerfen wir die Nullhypothese. Andernfalls behalten wir sie bei. Ein Konfidenzintervall ergänzt diese Sicht: Schneidet das zweiseitige 95%-Intervall den „Null-Effekt“ (z. B. Mittelwertsdifferenz = 0) nicht, entspricht das oft einem signifikanten Ergebnis bei α = 0,05.
Fehler 1. Art, Fehler 2. Art und Teststärke
– Fehler 1. Art (Typ I): H0 wird fälschlich verworfen (falsch positiv); die Wahrscheinlichkeit entspricht α.
– Fehler 2. Art (Typ II): H0 wird fälschlich beibehalten (falsch negativ); die Wahrscheinlichkeit ist β.
– Teststärke (Power): 1 − β, also die Chance, einen existierenden Effekt korrekt zu finden.
Teststärke steigt mit größerer Stichprobe, geringer Varianz, stärkerem Effekt und passenden Testverfahren. Eine a-priori Power-Analyse hilft, die nötige Stichprobengröße für eine sinnvolle Studie festzulegen.
Praxisbeispiel: A/B-Test
Angenommen, Variante B soll die Klickrate erhöhen. Formulierung:
– H0: pA = pB
– H1 (gerichtet): pB > pA
Nach Datenerhebung nutzt man einen z-Test für zwei Anteile oder einen exakten Test, berechnet die Teststatistik und den p-Wert und entscheidet bei vorab festgelegtem Signifikanzniveau. Zusätzlich betrachtet man das Konfidenzintervall der Differenz, um die Effektgröße zu beurteilen – statistische Signifikanz ist nicht automatisch praktische Relevanz.
Häufige Stolpersteine und Tipps
– Alpha-Hopping und „p-Hacking“ vermeiden: Hypothesen und Analysen präregistrieren.
– Mehrfachtests korrigieren (z. B. Bonferroni), sonst steigt die Fehler-1.-Art-Rate.
– Effektgrößen und Konfidenzintervalle berichten, nicht nur p-Werte.
– Einseitige Tests nur nutzen, wenn eine Gegenrichtung ausgeschlossen und fachlich begründet ist.
– Datenqualität sichern: Messfehler, Ausreißer und Verzerrungen prüfen.
Fazit: Nullhypothese und Alternativhypothese sind das Rückgrat des Hypothesentests. Wer sie sauber formuliert, geeignete Testverfahren wählt und Teststärke sowie Fehlerarten im Blick behält, trifft belastbare, nachvollziehbare Entscheidungen auf Basis von Daten.
Sie brauchen Unterstützung bei Ihrer statistischen Auswertung? Unsere erfahrenen Statistiker helfen Ihnen – von der Forschungsfrage bis zum fertigen Ergebnisteil. → Statistik auswerten lassen







